es
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

Ir al canal en Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Mostrar más

📈 Análisis del canal de Telegram gonzo-обзоры ML статей

El canal gonzo-обзоры ML статей (@gonzo_ml) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 24 273 suscriptores, ocupando la posición 5 633 en la categoría Tecnologías y Aplicaciones y el puesto 27 619 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 24 273 suscriptores.

Según los últimos datos del 10 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -12, y en las últimas 24 horas de 2, conservando un alto alcance.

  • Estado de verificación: No verificado
  • Tasa de interacción (ER): El promedio de interacción de la audiencia es 10.16%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 6.68% de reacciones respecto al total de suscriptores.
  • Alcance de las publicaciones: Cada publicación recibe en promedio 2 466 visualizaciones. En el primer día suele acumular 1 621 visualizaciones.
  • Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 9.
  • Intereses temáticos: El contenido se centra en temas clave como learning, tl;dr, токенов, архитектура, контекст.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 11 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

24 273
Suscriptores
+224 horas
-227 días
-1230 días
Atraer Suscriptores
junio '26
junio '26
+74
en 1 canales
mayo '26
+210
en 3 canales
Get PRO
abril '26
+279
en 5 canales
Get PRO
marzo '26
+275
en 7 canales
Get PRO
febrero '26
+387
en 4 canales
Get PRO
enero '26
+415
en 14 canales
Get PRO
diciembre '25
+439
en 7 canales
Get PRO
noviembre '25
+295
en 11 canales
Get PRO
octubre '25
+510
en 12 canales
Get PRO
septiembre '25
+286
en 7 canales
Get PRO
agosto '25
+430
en 5 canales
Get PRO
julio '25
+641
en 11 canales
Get PRO
junio '25
+362
en 9 canales
Get PRO
mayo '25
+431
en 7 canales
Get PRO
abril '25
+922
en 19 canales
Get PRO
marzo '25
+583
en 8 canales
Get PRO
febrero '25
+649
en 16 canales
Get PRO
enero '25
+1 065
en 24 canales
Get PRO
diciembre '24
+699
en 13 canales
Get PRO
noviembre '24
+1 001
en 20 canales
Get PRO
octubre '24
+727
en 14 canales
Get PRO
septiembre '24
+415
en 11 canales
Get PRO
agosto '24
+467
en 3 canales
Get PRO
julio '24
+217
en 10 canales
Get PRO
junio '24
+375
en 20 canales
Get PRO
mayo '24
+354
en 11 canales
Get PRO
abril '24
+377
en 13 canales
Get PRO
marzo '24
+399
en 14 canales
Get PRO
febrero '24
+323
en 12 canales
Get PRO
enero '24
+660
en 15 canales
Get PRO
diciembre '23
+641
en 19 canales
Get PRO
noviembre '23
+268
en 8 canales
Get PRO
octubre '23
+501
en 19 canales
Get PRO
septiembre '23
+355
en 0 canales
Get PRO
agosto '23
+456
en 0 canales
Get PRO
julio '23
+357
en 0 canales
Get PRO
junio '23
+300
en 0 canales
Get PRO
mayo '23
+2 022
en 0 canales
Get PRO
abril '23
+967
en 0 canales
Get PRO
marzo '23
+2 757
en 0 canales
Get PRO
febrero '23
+385
en 0 canales
Get PRO
enero '23
+166
en 0 canales
Get PRO
diciembre '22
+343
en 0 canales
Get PRO
noviembre '22
+100
en 0 canales
Get PRO
octubre '22
+93
en 0 canales
Get PRO
septiembre '22
+70
en 0 canales
Get PRO
agosto '22
+261
en 0 canales
Get PRO
julio '22
+475
en 0 canales
Get PRO
junio '22
+215
en 0 canales
Get PRO
mayo '22
+225
en 0 canales
Get PRO
abril '22
+101
en 0 canales
Get PRO
marzo '22
+132
en 0 canales
Get PRO
febrero '22
+233
en 0 canales
Get PRO
enero '22
+113
en 0 canales
Get PRO
diciembre '21
+248
en 0 canales
Get PRO
noviembre '21
+226
en 0 canales
Get PRO
octubre '21
+69
en 0 canales
Get PRO
septiembre '21
+92
en 0 canales
Get PRO
agosto '21
+73
en 0 canales
Get PRO
julio '21
+133
en 0 canales
Get PRO
junio '21
+174
en 0 canales
Get PRO
mayo '21
+75
en 0 canales
Get PRO
abril '21
+84
en 0 canales
Get PRO
marzo '21
+97
en 0 canales
Get PRO
febrero '21
+136
en 0 canales
Get PRO
enero '21
+170
en 0 canales
Get PRO
diciembre '20
+4 514
en 0 canales
Fecha
Crecimiento de Suscriptores
Menciones
Canales
11 junio+8
10 junio+8
09 junio+2
08 junio+6
07 junio+6
06 junio+10
05 junio+8
04 junio+3
03 junio+9
02 junio+7
01 junio+7
Publicaciones del Canal
2
Sin texto...
1 587
3
Sin texto...
1 534
4
Sin texto...
1 427
5
Sin texto...
1 332
6
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит. The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach Paper: https://arxiv.org/abs/2604.06374 Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled Code: N/A Model: N/A # TL;DR Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов. Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию. Шорткатить здесь: https://t.me/gonzo_ML_podcasts/3957
1 765
7
Sin texto...
1 877
8
Sin texto...
1 857
9
Sin texto...
1 735
10
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне кажется, что-то такое уже было... Do Transformers Need Three Projections? Systematic Study of QKV Variants Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis Статья: https://arxiv.org/abs/2606.04032 Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections # TL;DR ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%. ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров. Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами. Выкидывать матрицы тут: https://t.me/gonzo_ML_podcasts/3948
2 045
11
Sin texto...
2 090
12
Sin texto...
2 062
13
Sin texto...
1 985
14
Sin texto...
1 846
15
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое. Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images Joséphine Raugel, Maximilian Seitzer, Marc Szafraniec, Huy V. Vo, Jérémy Rapin, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Remi King Paper: https://arxiv.org/abs/2605.28693 Review: https://arxiviq.substack.com/p/misalignment-between-backpropagation Code: N/A Model: N/A # TL;DR Что сделали: Исследователи сопоставили сигналы прямой обработки и сигналы обучения (градиенты) современных зрительных нейросетей с высокоточными снимками активности мозга человека (фМРТ и МЭГ). Цель исследования — проверить, использует ли мозг биологический аналог алгоритма обратного распространения ошибки (backpropagation) для обучения. Почему это важно: Хотя искусственные нейросети и человеческий мозг формируют очень похожие внутренние представления при распознавании изображений, сам процесс обучения у них, как выяснилось, устроен совершенно по-разному. Это указывает на то, что мозг опирается на иные, возможно, куда более эффективные механизмы обучения, которые искусственному интеллекту ещё только предстоит освоить. Искать бэкпроп здесь: https://t.me/gonzo_ML_podcasts/3936
2 278
16
Sin texto...
2 282
17
Sin texto...
2 269
18
Sin texto...
2 397
19
Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al. Статья: https://arxiv.org/abs/2606.02437 Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million Код: нет Модель: нет # TL;DR Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума. Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем. Скейлить тут: https://t.me/gonzo_ML_podcasts/3917
2 698
20
Извинити. Не знаю автора )
Извинити. Не знаю автора )
3 685