gonzo-обзоры ML статей
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Показати більше📈 Аналітичний огляд Telegram-каналу gonzo-обзоры ML статей
Канал gonzo-обзоры ML статей (@gonzo_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 24 273 підписників, посідаючи 5 633 місце в категорії Технології та додатки та 27 619 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 24 273 підписників.
За останніми даними від 10 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -12, а за останні 24 години на 2, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 10.16%. Протягом перших 24 годин після публікації контент зазвичай збирає 6.68% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 2 466 переглядів. Протягом першої доби публікація в середньому набирає 1 621 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 9.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як learning, tl;dr, токенов, архитектура, контекст.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...”
Завдяки високій частоті оновлень (останні дані отримано 11 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
Триває завантаження даних...
| Дата | Залучення підписників | Згадування | Канали | |
| 11 червня | +8 | |||
| 10 червня | +8 | |||
| 09 червня | +2 | |||
| 08 червня | +6 | |||
| 07 червня | +6 | |||
| 06 червня | +10 | |||
| 05 червня | +8 | |||
| 04 червня | +3 | |||
| 03 червня | +9 | |||
| 02 червня | +7 | |||
| 01 червня | +7 |
| 2 | Немає тексту... | 1 587 |
| 3 | Немає тексту... | 1 534 |
| 4 | Немає тексту... | 1 427 |
| 5 | Немає тексту... | 1 332 |
| 6 | Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.
The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models
Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach
Paper: https://arxiv.org/abs/2604.06374
Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled
Code: N/A
Model: N/A
# TL;DR
Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов.
Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию.
Шорткатить здесь: https://t.me/gonzo_ML_podcasts/3957 | 1 765 |
| 7 | Немає тексту... | 1 877 |
| 8 | Немає тексту... | 1 857 |
| 9 | Немає тексту... | 1 735 |
| 10 | Выкидываем лишние матрицы из трансформеров. Вот, слили K и V.
Вообще мне кажется, что-то такое уже было...
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
Статья: https://arxiv.org/abs/2606.04032
Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections
# TL;DR
ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%.
ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.
Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами.
Выкидывать матрицы тут: https://t.me/gonzo_ML_podcasts/3948 | 2 045 |
| 11 | Немає тексту... | 2 090 |
| 12 | Немає тексту... | 2 062 |
| 13 | Немає тексту... | 1 985 |
| 14 | Немає тексту... | 1 846 |
| 15 | Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое.
Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images
Joséphine Raugel, Maximilian Seitzer, Marc Szafraniec, Huy V. Vo, Jérémy Rapin, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Remi King
Paper: https://arxiv.org/abs/2605.28693
Review: https://arxiviq.substack.com/p/misalignment-between-backpropagation
Code: N/A
Model: N/A
# TL;DR
Что сделали: Исследователи сопоставили сигналы прямой обработки и сигналы обучения (градиенты) современных зрительных нейросетей с высокоточными снимками активности мозга человека (фМРТ и МЭГ). Цель исследования — проверить, использует ли мозг биологический аналог алгоритма обратного распространения ошибки (backpropagation) для обучения.
Почему это важно: Хотя искусственные нейросети и человеческий мозг формируют очень похожие внутренние представления при распознавании изображений, сам процесс обучения у них, как выяснилось, устроен совершенно по-разному. Это указывает на то, что мозг опирается на иные, возможно, куда более эффективные механизмы обучения, которые искусственному интеллекту ещё только предстоит освоить.
Искать бэкпроп здесь: https://t.me/gonzo_ML_podcasts/3936 | 2 278 |
| 16 | Немає тексту... | 2 282 |
| 17 | Немає тексту... | 2 269 |
| 18 | Немає тексту... | 2 397 |
| 19 | Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей.
On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al.
Статья: https://arxiv.org/abs/2606.02437
Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million
Код: нет
Модель: нет
# TL;DR
Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума.
Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем.
Скейлить тут: https://t.me/gonzo_ML_podcasts/3917 | 2 698 |
| 20 | Извинити. Не знаю автора ) | 3 685 |
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
