gonzo-обзоры ML статей

Open in Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Russia27 188 Technologies & Applications5 441...

📈 Analytical overview of Telegram channel gonzo-обзоры ML статей

Channel gonzo-обзоры ML статей (@gonzo_ml) in the Russian language segment is an active participant. Currently, the community unites 24 334 subscribers, ranking 5 441 in the Technologies & Applications category and 27 188 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 24 334 subscribers.

According to the latest data from 27 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 18 over the last 30 days and by -8 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 9.81%. Within the first 24 hours after publication, content typically collects 6.45% reactions from the total number of subscribers.
Post reach: On average, each post receives 2 387 views. Within the first day, a publication typically gains 1 570 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 10.
Thematic interests: Content is focused on key topics such as learning, tl;dr, токенов, архитектура, контекст.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...”

Thanks to the high frequency of updates (latest data received on 28 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

24 334

Subscribers

-824 hours

-47 days

+1830 days

2 387

Post views

~ 1 57024 hours

~ 1 86448 hours

9.81%

Engagement rate

~ 6

Posts per day

Ads index

beta

Posts Archive

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Топовые опенсорсные модели достигли запредельного уровня, в куче бенчмарков сравнимы с коммерческими фронтир моделями. Сейчас узкое место для взрывного роста доступного интеллекта — это домашние девайсы для инференса таких моделей, чтобы у каждого был свой "бесплатный" аналог Claude Code и не было бы финансово страшно жечь кучу токенов на OpenClaw-подобные эксперименты. Kimi K3: Open Frontier Intelligence Kimi Team Статья: https://github.com/MoonshotAI/Kimi-K3/blob/main/k3_tech_report.pdf Блог: https://www.kimi.com/blog/kimi-k3 Ревью: https://arxiviq.substack.com/p/kimi-k3-open-frontier-intelligence Код: https://github.com/MoonshotAI/Kimi-K3 Модель: https://huggingface.co/moonshotai/Kimi-K3 # TL;DR ЧТО сделали: Команда Kimi представила Kimi K3 — открытую мультимодальную модель типа Mixture-of-Experts (MoE) на 2.8 триллиона общих параметров и 104 миллиарда активируемых параметров на токен, поддерживающую контекстное окно в 1 миллион токенов. Модель сочетает гибридное внимание Kimi Delta Attention и Gated Multi-Head Latent Attention в пропорции 3:1, межуровневые связи Block Attention Residuals по глубине, а также Stable LatentMoE с 896 роутируемыми экспертами. Кроме того, Kimi K3 содержит энкодер изображений, обученный с нуля через предсказание следующего токена, и использует мульти-уровневое обучение с подкреплением (RL), дистиллированное из общего, агентного и кодерского доменов. ПОЧЕМУ это важно: Пока опенсорс-сообщество активно развивало масштабирование рассуждений на инференсе, размер открытых базовых моделей застрял в районе 1 триллиона параметров, увеличивая отставание от закрытых SOTA-систем. Kimi K3 доказывает, что одновременное масштабирование параметров до 3T-класса и агентного RL на контексте в 1M токенов даёт прирост эффективности предобучения в 2.5 раза по сравнению с Kimi K2 (https://arxiv.org/abs/2507.20534), создавая полноценную открытую альтернативу закрытым флагманам вроде Claude Fable 5 и GPT-5.6 Sol. Для практиков: Kimi K3 совершает сильный рывок в возможностях открытых моделей за счёт параллельного масштабирования архитектуры и RL. Инженерам и техническим лидерам это даёт готовое к продакшену решение передового уровня с рекордной экономичностью на задачах разработки ПО, сложной работы с инструментами и мультимодальных пайплайнах. Выложив веса на 2.8T и сопутствующие библиотеки, авторы снабдили сообщество инфраструктурой для развёртки сверхбольших архитектур без вспомогательных функций потерь (auxiliary loss) и с микро-ВМ средами для оценки агентов. Подробности и картинки тут: https://t.me/gonzo_ML_podcasts/4643

24 334

Если что, прямо сейчас Фристон выступает https://www.youtube.com/watch?v=qRA1DoMCCSc

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Ещё про Continual learning, теперь про важность стратегического забывания. To Retain or to Adapt? Generalizing Continual Learning Giulia Lanzillotta, Mandana Samiei, Doina Precup, Razvan Pascanu, Claire Vernade Paper: https://arxiv.org/abs/2607.05609 Review: https://arxiviq.substack.com/p/to-retain-or-to-adapt-generalizing Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы поставили под сомнение классическую парадигму непрерывного обучения (continual learning), где главной целью всегда считалась борьба с катастрофическим забыванием для приближения к обучению на совместных задачах (Joint-Task Learning, JTL). Сформулировав непрерывное обучение как онлайн-оптимизационную задачу минимизации средней ошибки на протяжении всей жизни модели (Average Lifelong Error, ALE), исследователи математически и эмпирически разложили эффективность переноса (Transfer Efficiency) на нестабильность (Instability) и переходную ошибку (Transient Error). Этот анализ доказал существование «критической длительности задачи» (Critical Task Duration), превышение которой делает сохранение старых знаний более вредным для скорости адаптации, чем обучение с нуля. Также авторы представили новое семейство алгоритмов — прогностическое непрерывное обучение (Predictive Continual Learning). ПОЧЕМУ это важно: Исторически в непрерывном обучении забывание рассматривалось как инженерный баг, которого нужно избегать. Данная работа подводит строгий теоретический фундамент под идею о том, что в нестационарных средах идеальное сохранение памяти часто мешает оптимизации, а не помогает ей. Переосмыслив забывание как функциональную необходимость, исследование открывает новые возможности для проектирования базовых моделей и агентов обучения с подкреплением, которые должны непрерывно адаптироваться к меняющемуся потоку данных без груза устаревших знаний. Для практиков: Если ваши задачи в потоке данных длятся дольше критического порога или среда меняется слишком быстро, стандартные методы борьбы с забыванием (вроде буферов реплея) будут только замедлять сходимость. В таких сценариях выгоднее использовать динамическое скользящее окно памяти или даже полный сброс параметров, нежели пытаться удерживать все прошлые распределения. Учиться забывать тут: https://t.me/gonzo_ML_podcasts/4627

24 334

Just in case, сегодня начинается конфа AGI-26, есть стримы онлайн. https://agi-conference.org/schedule

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

Repost from gonzo_ML_podcasts

24 334

50 оттенков continual learning'а. When Does Continual Learning Require Learning _Anne Harrington, Nayan Saxena, Michael Murphy, Anastasia Borovykh, Zeyu Yun, Sridhar Kamath, Ara Eindra Kyi, Trevor Darrell, Jitendra Malik, Yutong Bai_ Paper: https://arxiv.org/abs/2607.07847 Code: https://github.com/anneharrington/studying-cl Review: https://arxiviq.substack.com/p/when-does-continual-learning-require Model: N/A # TL;DR ЧТО сделали: Авторы представляют унифицированный, независимый от конкретных механизмов фреймворк для оценки непрерывного обучения (continual learning) в LLM. В нём напрямую сравниваются восемь методов адаптации — от промптинга до классического обучения с учителем, обучения с подкреплением и сжатия контекста — на четырёх реалистичных сценариях изменения среды: сдвиге доменов, обновлении фактов, временном дрейфе и накоплении состояния агента. ПОЧЕМУ это важно: Исследование математически и эмпирически доказывает, что непрерывное обучение — это не единая монолитная способность, а набор компромиссов, зависящих от характера изменений среды. Универсального метода нет: медленные временные тренды требуют дистилляции для стабильности, дискретные обновления фактов — онлайн-RL, а агентские среды — файнтюнинга весов или специализированного промптинга. Работа даёт чёткую инструкцию, когда моделям нужно обновлять веса внутри модели (in-weights), а когда достаточно внешних надстроек. Для практиков: Если перед вами стоит задача долгосрочной адаптации LLM, забудьте об универсальных решениях. Для исправления фактов используйте онлайн-RL (например, GRPO), для плавной адаптации к домену — дистилляцию (SDFT), а для сложных агентских сред — файнтюнинг весов или продвинутый промпт-инжиниринг. Диссекция continual learning тут: https://t.me/gonzo_ML_podcasts/4615