gonzo-обзоры ML статей

Open in Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Russia27 188 Technologies & Applications5 441...

📈 Analytical overview of Telegram channel gonzo-обзоры ML статей

Channel gonzo-обзоры ML статей (@gonzo_ml) in the Russian language segment is an active participant. Currently, the community unites 24 334 subscribers, ranking 5 441 in the Technologies & Applications category and 27 188 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 24 334 subscribers.

According to the latest data from 27 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 18 over the last 30 days and by -8 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 9.81%. Within the first 24 hours after publication, content typically collects 6.45% reactions from the total number of subscribers.
Post reach: On average, each post receives 2 387 views. Within the first day, a publication typically gains 1 570 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 10.
Thematic interests: Content is focused on key topics such as learning, tl;dr, токенов, архитектура, контекст.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...”

Thanks to the high frequency of updates (latest data received on 28 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

24 334

Subscribers

-824 hours

-47 days

+1830 days

2 387

Post views

~ 1 57024 hours

~ 1 86448 hours

9.81%

Engagement rate

~ 6

Posts per day

Ads index

beta

Data loading in progress...

Similar Channels

Data Science by ODS.ai 🦜

24.6K

Love. Death. Transformers.

17.9K

AbstractDL

More channels

Incoming and Outgoing Mentions

---

Attracting Subscribers

July '26

+175

in 2 channels

June '26

+253

in 7 channels

Get PRO

May '26

+210

in 3 channels

Get PRO

April '26

+279

in 5 channels

Get PRO

March '26

+275

in 7 channels

Get PRO

February '26

+387

in 4 channels

Get PRO

January '26

+415

in 14 channels

Get PRO

December '25

+439

in 7 channels

Get PRO

November '25

+295

in 11 channels

Get PRO

October '25

+510

in 12 channels

Get PRO

September '25

+286

in 8 channels

Get PRO

August '25

+430

in 5 channels

Get PRO

July '25

+641

in 11 channels

Get PRO

June '25

+362

in 9 channels

Get PRO

May '25

+431

in 7 channels

Get PRO

April '25

+922

in 19 channels

Get PRO

March '25

+583

in 8 channels

Get PRO

February '25

+649

in 16 channels

Get PRO

January '25

+1 065

in 24 channels

Get PRO

December '24

+699

in 13 channels

Get PRO

November '24

+1 001

in 20 channels

Get PRO

October '24

+727

in 14 channels

Get PRO

September '24

+415

in 11 channels

Get PRO

August '24

+467

in 3 channels

Get PRO

July '24

+217

in 10 channels

Get PRO

June '24

+375

in 20 channels

Get PRO

May '24

+354

in 11 channels

Get PRO

April '24

+377

in 13 channels

Get PRO

March '24

+399

in 14 channels

Get PRO

February '24

+323

in 12 channels

Get PRO

January '24

+660

in 15 channels

Get PRO

December '23

+641

in 19 channels

Get PRO

November '23

+268

in 8 channels

Get PRO

October '23

+501

in 19 channels

Get PRO

September '23

+355

in 0 channels

Get PRO

August '23

+456

in 0 channels

Get PRO

July '23

+357

in 0 channels

Get PRO

June '23

+300

in 0 channels

Get PRO

May '23

+2 022

in 0 channels

Get PRO

April '23

+967

in 0 channels

Get PRO

March '23

+2 757

in 0 channels

Get PRO

February '23

+385

in 0 channels

Get PRO

January '23

+166

in 0 channels

Get PRO

December '22

+343

in 0 channels

Get PRO

November '22

+100

in 0 channels

Get PRO

October '22

+93

in 0 channels

Get PRO

September '22

+70

in 0 channels

Get PRO

August '22

+261

in 0 channels

Get PRO

July '22

+475

in 0 channels

Get PRO

June '22

+215

in 0 channels

Get PRO

May '22

+225

in 0 channels

Get PRO

April '22

+101

in 0 channels

Get PRO

March '22

+132

in 0 channels

Get PRO

February '22

+233

in 0 channels

Get PRO

January '22

+113

in 0 channels

Get PRO

December '21

+248

in 0 channels

Get PRO

November '21

+226

in 0 channels

Get PRO

October '21

+69

in 0 channels

Get PRO

September '21

+92

in 0 channels

Get PRO

August '21

+73

in 0 channels

Get PRO

July '21

+133

in 0 channels

Get PRO

June '21

+174

in 0 channels

Get PRO

May '21

+75

in 0 channels

Get PRO

April '21

+84

in 0 channels

Get PRO

March '21

+97

in 0 channels

Get PRO

February '21

+136

in 0 channels

Get PRO

January '21

+170

in 0 channels

Get PRO

December '20

+4 514

in 0 channels

Date	Subscriber Growth	Mentions	Channels
28 July	+5
27 July	0
26 July	+5
25 July	+5
24 July	+5
23 July	+8
22 July	+9
21 July	+4
20 July	+8
19 July	+13
18 July	+8
17 July	+8
16 July	+9
15 July	+1
14 July	+5
13 July	+5
12 July	+1
11 July	+6
10 July	+4
09 July	+5
08 July	+4
07 July	+11
06 July	+12
05 July	+5
04 July	+7
03 July	+6
02 July	+8
01 July	+8

Channel Posts

Repost from gonzo_ML_podcasts

2	No text...	1 000
3	No text...	955
4	No text...	861
5	No text...	810
6	No text...	761
7	No text...	760
8	No text...	742
9	Топовые опенсорсные модели достигли запредельного уровня, в куче бенчмарков сравнимы с коммерческими фронтир моделями. Сейчас узкое место для взрывного роста доступного интеллекта — это домашние девайсы для инференса таких моделей, чтобы у каждого был свой "бесплатный" аналог Claude Code и не было бы финансово страшно жечь кучу токенов на OpenClaw-подобные эксперименты. Kimi K3: Open Frontier Intelligence Kimi Team Статья: https://github.com/MoonshotAI/Kimi-K3/blob/main/k3_tech_report.pdf Блог: https://www.kimi.com/blog/kimi-k3 Ревью: https://arxiviq.substack.com/p/kimi-k3-open-frontier-intelligence Код: https://github.com/MoonshotAI/Kimi-K3 Модель: https://huggingface.co/moonshotai/Kimi-K3 # TL;DR ЧТО сделали: Команда Kimi представила Kimi K3 — открытую мультимодальную модель типа Mixture-of-Experts (MoE) на 2.8 триллиона общих параметров и 104 миллиарда активируемых параметров на токен, поддерживающую контекстное окно в 1 миллион токенов. Модель сочетает гибридное внимание Kimi Delta Attention и Gated Multi-Head Latent Attention в пропорции 3:1, межуровневые связи Block Attention Residuals по глубине, а также Stable LatentMoE с 896 роутируемыми экспертами. Кроме того, Kimi K3 содержит энкодер изображений, обученный с нуля через предсказание следующего токена, и использует мульти-уровневое обучение с подкреплением (RL), дистиллированное из общего, агентного и кодерского доменов. ПОЧЕМУ это важно: Пока опенсорс-сообщество активно развивало масштабирование рассуждений на инференсе, размер открытых базовых моделей застрял в районе 1 триллиона параметров, увеличивая отставание от закрытых SOTA-систем. Kimi K3 доказывает, что одновременное масштабирование параметров до 3T-класса и агентного RL на контексте в 1M токенов даёт прирост эффективности предобучения в 2.5 раза по сравнению с Kimi K2 (https://arxiv.org/abs/2507.20534), создавая полноценную открытую альтернативу закрытым флагманам вроде Claude Fable 5 и GPT-5.6 Sol. Для практиков: Kimi K3 совершает сильный рывок в возможностях открытых моделей за счёт параллельного масштабирования архитектуры и RL. Инженерам и техническим лидерам это даёт готовое к продакшену решение передового уровня с рекордной экономичностью на задачах разработки ПО, сложной работы с инструментами и мультимодальных пайплайнах. Выложив веса на 2.8T и сопутствующие библиотеки, авторы снабдили сообщество инфраструктурой для развёртки сверхбольших архитектур без вспомогательных функций потерь (auxiliary loss) и с микро-ВМ средами для оценки агентов. Подробности и картинки тут: https://t.me/gonzo_ML_podcasts/4643	959
10	Если что, прямо сейчас Фристон выступает https://www.youtube.com/watch?v=qRA1DoMCCSc	1 391
11	No text...	1 579
12	No text...	1 571
13	No text...	1 485
14	No text...	1 330
15	Ещё про Continual learning, теперь про важность стратегического забывания. To Retain or to Adapt? Generalizing Continual Learning Giulia Lanzillotta, Mandana Samiei, Doina Precup, Razvan Pascanu, Claire Vernade Paper: https://arxiv.org/abs/2607.05609 Review: https://arxiviq.substack.com/p/to-retain-or-to-adapt-generalizing Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы поставили под сомнение классическую парадигму непрерывного обучения (continual learning), где главной целью всегда считалась борьба с катастрофическим забыванием для приближения к обучению на совместных задачах (Joint-Task Learning, JTL). Сформулировав непрерывное обучение как онлайн-оптимизационную задачу минимизации средней ошибки на протяжении всей жизни модели (Average Lifelong Error, ALE), исследователи математически и эмпирически разложили эффективность переноса (Transfer Efficiency) на нестабильность (Instability) и переходную ошибку (Transient Error). Этот анализ доказал существование «критической длительности задачи» (Critical Task Duration), превышение которой делает сохранение старых знаний более вредным для скорости адаптации, чем обучение с нуля. Также авторы представили новое семейство алгоритмов — прогностическое непрерывное обучение (Predictive Continual Learning). ПОЧЕМУ это важно: Исторически в непрерывном обучении забывание рассматривалось как инженерный баг, которого нужно избегать. Данная работа подводит строгий теоретический фундамент под идею о том, что в нестационарных средах идеальное сохранение памяти часто мешает оптимизации, а не помогает ей. Переосмыслив забывание как функциональную необходимость, исследование открывает новые возможности для проектирования базовых моделей и агентов обучения с подкреплением, которые должны непрерывно адаптироваться к меняющемуся потоку данных без груза устаревших знаний. Для практиков: Если ваши задачи в потоке данных длятся дольше критического порога или среда меняется слишком быстро, стандартные методы борьбы с забыванием (вроде буферов реплея) будут только замедлять сходимость. В таких сценариях выгоднее использовать динамическое скользящее окно памяти или даже полный сброс параметров, нежели пытаться удерживать все прошлые распределения. Учиться забывать тут: https://t.me/gonzo_ML_podcasts/4627	1 609
16	Just in case, сегодня начинается конфа AGI-26, есть стримы онлайн. https://agi-conference.org/schedule	2 144
17	No text...	2 079
18	No text...	1 976
19	No text...	1 862
20	50 оттенков continual learning'а. When Does Continual Learning Require Learning _Anne Harrington, Nayan Saxena, Michael Murphy, Anastasia Borovykh, Zeyu Yun, Sridhar Kamath, Ara Eindra Kyi, Trevor Darrell, Jitendra Malik, Yutong Bai_ Paper: https://arxiv.org/abs/2607.07847 Code: https://github.com/anneharrington/studying-cl Review: https://arxiviq.substack.com/p/when-does-continual-learning-require Model: N/A # TL;DR ЧТО сделали: Авторы представляют унифицированный, независимый от конкретных механизмов фреймворк для оценки непрерывного обучения (continual learning) в LLM. В нём напрямую сравниваются восемь методов адаптации — от промптинга до классического обучения с учителем, обучения с подкреплением и сжатия контекста — на четырёх реалистичных сценариях изменения среды: сдвиге доменов, обновлении фактов, временном дрейфе и накоплении состояния агента. ПОЧЕМУ это важно: Исследование математически и эмпирически доказывает, что непрерывное обучение — это не единая монолитная способность, а набор компромиссов, зависящих от характера изменений среды. Универсального метода нет: медленные временные тренды требуют дистилляции для стабильности, дискретные обновления фактов — онлайн-RL, а агентские среды — файнтюнинга весов или специализированного промптинга. Работа даёт чёткую инструкцию, когда моделям нужно обновлять веса внутри модели (in-weights), а когда достаточно внешних надстроек. Для практиков: Если перед вами стоит задача долгосрочной адаптации LLM, забудьте об универсальных решениях. Для исправления фактов используйте онлайн-RL (например, GRPO), для плавной адаптации к домену — дистилляцию (SDFT), а для сложных агентских сред — файнтюнинг весов или продвинутый промпт-инжиниринг. Диссекция continual learning тут: https://t.me/gonzo_ML_podcasts/4615	2 004

View all posts