gonzo-обзоры ML статей
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Mostrar más📈 Análisis del canal de Telegram gonzo-обзоры ML статей
El canal gonzo-обзоры ML статей (@gonzo_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 24 273 suscriptores, ocupando la posición 5 633 en la categoría Tecnologías y Aplicaciones y el puesto 27 619 en la región Rusia.
📊 Métricas de audiencia y dinámica
Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 24 273 suscriptores.
Según los últimos datos del 10 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -12, y en las últimas 24 horas de 2, conservando un alto alcance.
- Estado de verificación: No verificado
- Tasa de interacción (ER): El promedio de interacción de la audiencia es 10.16%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 6.68% de reacciones respecto al total de suscriptores.
- Alcance de las publicaciones: Cada publicación recibe en promedio 2 466 visualizaciones. En el primer día suele acumular 1 621 visualizaciones.
- Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 9.
- Intereses temáticos: El contenido se centra en temas clave como learning, tl;dr, токенов, архитектура, контекст.
📝 Descripción y política de contenido
El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...”
Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 11 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.
Carga de datos en curso...
| Fecha | Crecimiento de Suscriptores | Menciones | Canales | |
| 11 junio | +8 | |||
| 10 junio | +8 | |||
| 09 junio | +2 | |||
| 08 junio | +6 | |||
| 07 junio | +6 | |||
| 06 junio | +10 | |||
| 05 junio | +8 | |||
| 04 junio | +3 | |||
| 03 junio | +9 | |||
| 02 junio | +7 | |||
| 01 junio | +7 |
| 2 | Sin texto... | 1 587 |
| 3 | Sin texto... | 1 534 |
| 4 | Sin texto... | 1 427 |
| 5 | Sin texto... | 1 332 |
| 6 | Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.
The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models
Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach
Paper: https://arxiv.org/abs/2604.06374
Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled
Code: N/A
Model: N/A
# TL;DR
Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов.
Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию.
Шорткатить здесь: https://t.me/gonzo_ML_podcasts/3957 | 1 765 |
| 7 | Sin texto... | 1 877 |
| 8 | Sin texto... | 1 857 |
| 9 | Sin texto... | 1 735 |
| 10 | Выкидываем лишние матрицы из трансформеров. Вот, слили K и V.
Вообще мне кажется, что-то такое уже было...
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
Статья: https://arxiv.org/abs/2606.04032
Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections
# TL;DR
ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%.
ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.
Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами.
Выкидывать матрицы тут: https://t.me/gonzo_ML_podcasts/3948 | 2 045 |
| 11 | Sin texto... | 2 090 |
| 12 | Sin texto... | 2 062 |
| 13 | Sin texto... | 1 985 |
| 14 | Sin texto... | 1 846 |
| 15 | Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое.
Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images
Joséphine Raugel, Maximilian Seitzer, Marc Szafraniec, Huy V. Vo, Jérémy Rapin, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Remi King
Paper: https://arxiv.org/abs/2605.28693
Review: https://arxiviq.substack.com/p/misalignment-between-backpropagation
Code: N/A
Model: N/A
# TL;DR
Что сделали: Исследователи сопоставили сигналы прямой обработки и сигналы обучения (градиенты) современных зрительных нейросетей с высокоточными снимками активности мозга человека (фМРТ и МЭГ). Цель исследования — проверить, использует ли мозг биологический аналог алгоритма обратного распространения ошибки (backpropagation) для обучения.
Почему это важно: Хотя искусственные нейросети и человеческий мозг формируют очень похожие внутренние представления при распознавании изображений, сам процесс обучения у них, как выяснилось, устроен совершенно по-разному. Это указывает на то, что мозг опирается на иные, возможно, куда более эффективные механизмы обучения, которые искусственному интеллекту ещё только предстоит освоить.
Искать бэкпроп здесь: https://t.me/gonzo_ML_podcasts/3936 | 2 278 |
| 16 | Sin texto... | 2 282 |
| 17 | Sin texto... | 2 269 |
| 18 | Sin texto... | 2 397 |
| 19 | Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей.
On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al.
Статья: https://arxiv.org/abs/2606.02437
Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million
Код: нет
Модель: нет
# TL;DR
Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума.
Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем.
Скейлить тут: https://t.me/gonzo_ML_podcasts/3917 | 2 698 |
| 20 | Извинити. Не знаю автора ) | 3 685 |
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
