ru
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

Открыть в Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Больше

📈 Аналитический обзор Telegram-канала gonzo-обзоры ML статей

Канал gonzo-обзоры ML статей (@gonzo_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 24 272 подписчиков, занимая 5 631 место в категории Технологии и приложения и 27 596 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 24 272 подписчиков.

Согласно последним данным от 11 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -7, а за последние 24 часа — 6, при этом общий охват остаётся высоким.

  • Статус верификации: Не верифицирован
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 9.95%. В первые 24 часа после публикации контент обычно набирает 6.67% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 2 415 просмотров. В течение первых суток публикация набирает 1 620 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 8.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как learning, tl;dr, токенов, архитектура, контекст.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

Благодаря высокой частоте обновлений (последние данные получены 12 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

24 272
Подписчики
+624 часа
+17 дней
-730 день

Загрузка данных...

Привлечение подписчиков
июнь '26
июнь '26
+79
в 1 каналах
май '26
+210
в 3 каналах
Get PRO
апрель '26
+279
в 5 каналах
Get PRO
март '26
+275
в 7 каналах
Get PRO
февраль '26
+387
в 4 каналах
Get PRO
январь '26
+415
в 14 каналах
Get PRO
декабрь '25
+439
в 7 каналах
Get PRO
ноябрь '25
+295
в 11 каналах
Get PRO
октябрь '25
+510
в 12 каналах
Get PRO
сентябрь '25
+286
в 7 каналах
Get PRO
август '25
+430
в 5 каналах
Get PRO
июль '25
+641
в 11 каналах
Get PRO
июнь '25
+362
в 9 каналах
Get PRO
май '25
+431
в 7 каналах
Get PRO
апрель '25
+922
в 19 каналах
Get PRO
март '25
+583
в 8 каналах
Get PRO
февраль '25
+649
в 16 каналах
Get PRO
январь '25
+1 065
в 24 каналах
Get PRO
декабрь '24
+699
в 13 каналах
Get PRO
ноябрь '24
+1 001
в 20 каналах
Get PRO
октябрь '24
+727
в 14 каналах
Get PRO
сентябрь '24
+415
в 11 каналах
Get PRO
август '24
+467
в 3 каналах
Get PRO
июль '24
+217
в 10 каналах
Get PRO
июнь '24
+375
в 20 каналах
Get PRO
май '24
+354
в 11 каналах
Get PRO
апрель '24
+377
в 13 каналах
Get PRO
март '24
+399
в 14 каналах
Get PRO
февраль '24
+323
в 12 каналах
Get PRO
январь '24
+660
в 15 каналах
Get PRO
декабрь '23
+641
в 19 каналах
Get PRO
ноябрь '23
+268
в 8 каналах
Get PRO
октябрь '23
+501
в 19 каналах
Get PRO
сентябрь '23
+355
в 0 каналах
Get PRO
август '23
+456
в 0 каналах
Get PRO
июль '23
+357
в 0 каналах
Get PRO
июнь '23
+300
в 0 каналах
Get PRO
май '23
+2 022
в 0 каналах
Get PRO
апрель '23
+967
в 0 каналах
Get PRO
март '23
+2 757
в 0 каналах
Get PRO
февраль '23
+385
в 0 каналах
Get PRO
январь '23
+166
в 0 каналах
Get PRO
декабрь '22
+343
в 0 каналах
Get PRO
ноябрь '22
+100
в 0 каналах
Get PRO
октябрь '22
+93
в 0 каналах
Get PRO
сентябрь '22
+70
в 0 каналах
Get PRO
август '22
+261
в 0 каналах
Get PRO
июль '22
+475
в 0 каналах
Get PRO
июнь '22
+215
в 0 каналах
Get PRO
май '22
+225
в 0 каналах
Get PRO
апрель '22
+101
в 0 каналах
Get PRO
март '22
+132
в 0 каналах
Get PRO
февраль '22
+233
в 0 каналах
Get PRO
январь '22
+113
в 0 каналах
Get PRO
декабрь '21
+248
в 0 каналах
Get PRO
ноябрь '21
+226
в 0 каналах
Get PRO
октябрь '21
+69
в 0 каналах
Get PRO
сентябрь '21
+92
в 0 каналах
Get PRO
август '21
+73
в 0 каналах
Get PRO
июль '21
+133
в 0 каналах
Get PRO
июнь '21
+174
в 0 каналах
Get PRO
май '21
+75
в 0 каналах
Get PRO
апрель '21
+84
в 0 каналах
Get PRO
март '21
+97
в 0 каналах
Get PRO
февраль '21
+136
в 0 каналах
Get PRO
январь '21
+170
в 0 каналах
Get PRO
декабрь '20
+4 514
в 0 каналах
Дата
Привлечение подписчиков
Упоминания
Каналы
12 июня+1
11 июня+12
10 июня+8
09 июня+2
08 июня+6
07 июня+6
06 июня+10
05 июня+8
04 июня+3
03 июня+9
02 июня+7
01 июня+7
Посты канала
Repost from gonzo_ML_podcasts
photo content

2
Нет текста...
1 274
3
Нет текста...
1 235
4
Нет текста...
1 116
5
Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное число итераций Ньютона-Шульца. (с latex формулами мне пока не удалось добиться рендеринга в телеге) Spectral Scaling Laws of Muon Gagik Magakyan, Pablo Parrilo, Asuman Ozdaglar Paper: https://arxiv.org/abs/2606.04058 Code: https://github.com/KellerJordan/modded-nanogpt Review: https://arxiviq.substack.com/p/spectral-scaling-laws-of-muon Model: N/A # TL;DR ЧТО сделали: Авторы представили первое систематическое исследование спектральной динамики буферов моментума в оптимизаторе Muon (https://kellerjordan.github.io/posts/muon/) при предобучении больших языковых моделей. Отслеживая квантили сингулярных чисел на разных глубинах в моделях размером от 77M до 2.8B параметров, они обнаружили, что сингулярные числа моментума подчиняются удивительно чётким степенным законам в двойном логарифмическом масштабе относительно размера модели, причём показатели степени (экспоненты) сильно зависят от конкретного слоя. ПОЧЕМУ это важно: Современные SOTA-архитектуры всё чаще внедряют оптимизатор Muon, который позволяет удвоить вычислительную эффективность по сравнению с классическим AdamW (https://arxiv.org/abs/1711.05101). Однако стандартно аппроксимация Ньютона-Шульца для ортонормирования применяется ко всем слоям одинаково. Эта работа показывает, что однородная конфигурация крайне неоптимальна: в то время как начальные и средние слои масштабируются медленно и могут спокойно использовать дешёвые 5-шаговые итерации на огромных масштабах, финальные слои масштабируются очень агрессивно и неизбежно столкнутся со сбоем ортонормирования, если не выделить им больше шагов. Для практиков: Исследование предлагает теоретически обоснованный послойный рецепт оптимизации предобучения. Вместо дорогого ортонормирования по всей сети можно оставить дешёвую 5-шаговую схему на большинстве слоёв и точечно применить 10-шаговую итерацию только на самых глубоких слоях. Это защитит модель от падения качества на SOTA-масштабах и сбережёт пропускную способность. Мюонить тут: https://t.me/gonzo_ML_podcasts/3970
1 436
6
Нет текста...
1 801
7
Нет текста...
1 774
8
Нет текста...
1 697
9
Нет текста...
1 624
10
Нет текста...
1 536
11
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит. The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach Paper: https://arxiv.org/abs/2604.06374 Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled Code: N/A Model: N/A # TL;DR Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов. Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию. Шорткатить здесь: https://t.me/gonzo_ML_podcasts/3957
2 001
12
Нет текста...
1 921
13
Нет текста...
1 901
14
Нет текста...
1 781
15
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне кажется, что-то такое уже было... Do Transformers Need Three Projections? Systematic Study of QKV Variants Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis Статья: https://arxiv.org/abs/2606.04032 Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections # TL;DR ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%. ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров. Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами. Выкидывать матрицы тут: https://t.me/gonzo_ML_podcasts/3948
2 103
16
Нет текста...
2 145
17
Нет текста...
2 251
18
Нет текста...
2 163
19
Нет текста...
1 887
20
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое. Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images Joséphine Raugel, Maximilian Seitzer, Marc Szafraniec, Huy V. Vo, Jérémy Rapin, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Remi King Paper: https://arxiv.org/abs/2605.28693 Review: https://arxiviq.substack.com/p/misalignment-between-backpropagation Code: N/A Model: N/A # TL;DR Что сделали: Исследователи сопоставили сигналы прямой обработки и сигналы обучения (градиенты) современных зрительных нейросетей с высокоточными снимками активности мозга человека (фМРТ и МЭГ). Цель исследования — проверить, использует ли мозг биологический аналог алгоритма обратного распространения ошибки (backpropagation) для обучения. Почему это важно: Хотя искусственные нейросети и человеческий мозг формируют очень похожие внутренние представления при распознавании изображений, сам процесс обучения у них, как выяснилось, устроен совершенно по-разному. Это указывает на то, что мозг опирается на иные, возможно, куда более эффективные механизмы обучения, которые искусственному интеллекту ещё только предстоит освоить. Искать бэкпроп здесь: https://t.me/gonzo_ML_podcasts/3936
2 335