ch
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

前往频道在 Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

显示更多

📈 Telegram 频道 gonzo-обзоры ML статей 的分析概览

频道 gonzo-обзоры ML статей (@gonzo_ml) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 24 313 名订阅者,在 技术与应用 类别中位列第 5 541,并在 俄罗斯 地区排名第 27 333

📊 受众指标与增长动态

невідомо 创建以来,项目保持高速增长,吸引了 24 313 名订阅者。

根据 28 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 7,过去 24 小时变化为 -4,整体触达仍然可观。

  • 认证状态: 未认证
  • 互动率 (ER): 平均受众互动率为 11.04%。内容发布后 24 小时内通常能获得 7.09% 的反应,占订阅者总量。
  • 帖子覆盖: 每篇帖子平均可获得 2 685 次浏览,首日通常累积 1 725 次浏览。
  • 互动与反馈: 受众积极参与,单帖平均反应数为 15
  • 主题关注点: 内容集中在 learning, tl;dr, токенов, архитектура, контекст 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

凭借高频更新(最新数据采集于 29 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。

24 313
订阅者
-424 小时
+127
+730
帖子存档
Мы неправильно готовили GPU всё это время! MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye Paper: https://arxiv.org/abs/2604.05091 Review: https://arxiviq.substack.com/p/megatrain-full-precision-training Code: https://github.com/DLYuanGod/MegaTrain Model: N/A # TL;DR ЧТО сделали: Авторы представили MegaTrain — ориентированный на память фреймворк для полноразмерного обучения и файнтюнинга моделей трансформеров объёмом более 100 миллиардов параметров на одной GPU. Полностью переворачивая традиционную GPU-центричную парадигму вычислений, MegaTrain переносит хранение всех постоянных состояний модели (параметров, градиентов и состояний оптимизатора) в оперативную память хоста (CPU), используя GPU исключительно как временный бессостоятельный (stateless) вычислительный кэш. ПОЧЕМУ это важно: Эта работа фундаментально опровергает убеждение, что масштабы обучения LLM жёстко ограничены объёмом видеопамяти (VRAM). Благодаря конвейеризации передачи данных с двойной буферизацией и бессостоятельному связыванию шаблонов (template-binding), MegaTrain пробивает «стену памяти» GPU и линейно масштабирует ёмкость обучения за счёт оперативной памяти хоста. Это демократизирует пост-обучение, инструктивный файнтюнинг и alignment (выравнивание) моделей на 100B+ параметров на длинных контекстах, позволяя перенести эти ресурсоёмкие задачи с огромных распределённых кластеров на одиночные рабочие станции. Для практиков: Вы можете обучать и файнтюнить огромные модели масштаба 70B–120B+ на одной GPU, используя оперативную память CPU как основное хранилище весов. Это резко снижает финансовый порог входа для работы со сверхбольшими моделями, избавляя от необходимости разворачивать дорогостоящие многоузловые GPU-кластеры. Правильно готовить GPU здесь: https://t.me/gonzo_ML_podcasts/4204

Tech.report по DiffusionGemma ещё не вышел, а статьи с анализом уже выходят. How Transparent is DiffusionGemma? Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O’Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda Paper: https://arxiv.org/abs/2606.20560 Review: https://arxiviq.substack.com/p/how-transparent-is-diffusiongemma Code: https://github.com/google-deepmind/serial_depth Model: https://ai.google.dev/gemma/docs/diffusiongemma/model_card # TL;DR ЧТО сделали: Провели строгий аудит прозрачности DiffusionGemma — недавно выпущенной текстовой диффузионной модели от Google DeepMind на 26B параметров. Исследователи проанализировали внутреннюю динамику рассуждений модели, разложив прозрачность на составляющие: непрозрачную последовательную глубину, вариативную прозрачность, мониторируемость и алгоритмическую прозрачность. Также они предложили метод сжатия непрерывного латентного пространства self-conditioning в интерпретируемые дискретные токены. ПОЧЕМУ это важно: Современные передовые модели постепенно переходят от авторегрессионных цепочек рассуждений на естественном языке к скрытым непрерывным вычислениям в латентном пространстве. Из-за этого мы рискуем полностью потерять возможность контролировать работу ИИ. Данное исследование возвращает оптимизм: простые модификации метода Logit Lens позволяют проецировать скрытые шаги денойзинга в понятные человеку токены практически без потери качества генерации, попутно выявляя нехронологические когнитивные паттерны «мышления» модели. Для практиков: Мы можем жёстко контролировать информационные бутылочные горлышки непрерывных моделей, принудительно проецируя их латентные состояния в дискретные токены. Это даёт человеку возможность проводить полноценный аудит рассуждений без какого-либо ущерба для итоговых способностей модели. Интерпретировать диффузию тут: https://t.me/gonzo_ML_podcasts/4187

Лекун и ко продолжают развивать тему про self-supervised обучение на картинках и видео. Для видео придумали подход с временными разностями: один энкодер кодирует кадр, а другой — движение, так что можно получить представление следующего кадра просто сложив одно с другим (странно вообще, если этого не делали раньше). При этом для обучения не требуется никаких аугментаций (=по сути явно подсказанные модели inductive biases), что нужно было многим предыдущим моделям (например, разные кропы одного и того же view). Ещё и показали, что полезная сила таких inductive biases уменьшается с ростом объёма данных, что вроде как идейно не ново и было и при переходе от CNN к ViT (вот тут https://t.me/gonzo_ML/434). You Don’t Need Strong Assumptions: Visual Representation Learning via Temporal Differences Ninad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji Paper: https://arxiv.org/abs/2606.15956 Review: https://arxiviq.substack.com/p/you-dont-need-strong-assumptions Code: https://github.com/ninaddaithankar/TDV Model: N/A # TL;DR ЧТО сделали: Авторы разработали Temporal Difference in Vision (TDV) — новую парадигму self-supervised learning для визуальных моделей (совместная разработка UIUC и NYU). Она одновременно обучает энкодер кадров и энкодер движения на видео. Вместо сложных, вручную подобранных аугментаций, кропов или маскирования, TDV опирается на простое причинно-следственное допущение: латентное состояние следующего кадра можно представить как аддитивную композицию эмбеддинга текущего кадра и сжатого латентного вектора движения, описывающего изменения между кадрами. ПОЧЕМУ это важно: Визуальные модели асимптотически показывают лучшие результаты, если их не заставляют отбрасывать важную информацию через искусственные аугментации данных. Отказавшись от жёстких априорных допущений в пользу временной причинности, TDV не просто догоняет, но и обходит популярные методы вроде DINO (https://arxiv.org/abs/2104.14294) и iBOT (https://arxiv.org/abs/2111.07832) в сложных пространственно-временных задачах, таких как оценка оптического потока и стереоглубины. Это даёт масштабируемый и независимый от модальности фреймворк для визуальных базовых моделей в робототехнике, embodied AI и стриминге с низкой задержкой, где критически важно сохранять пространственную структуру и временную непрерывность. Для практиков: Фреймворк TDV предлагает готовый рецепт для создания эффективных и быстрых моделей в робототехнике и embodied AI. За счёт разделения статики и динамики на два лёгких энкодера, инференс на видеопотоке можно ускорить: тяжёлый энкодер обрабатывает только ключевые кадры, а промежуточные быстро восстанавливаются в латентном пространстве. Обучать энкодеры тут: https://t.me/gonzo_ML_podcasts/4173

Про важность калибровки и неполную состоятельность теории платоновских представлений. Revisiting the Platonic Representation Hypothesis: An Aristotelian View _Fabian Gröger, Shuo Wen, Maria Brbić_ Paper: https://arxiv.org/abs/2602.14486 Review: https://arxiviq.substack.com/p/revisiting-the-platonic-representation Code: https://github.com/mlbio-epfl/aristotelian # TL;DR ЧТО сделали: Авторы разработали универсальный фреймворк калибровки относительно нуля (null-calibration) на основе перестановок. Он переводит «сырые» показатели сходства представлений в откалиброванные размеры эффекта со строгими статистическими гарантиями. Этот подход напрямую устраняет влияние ширины (размерности эмбеддингов) и глубины (пространства поиска слоёв) моделей — двух факторов, которые искусственно завышают метрики сходства. ПОЧЕМУ это важно: Исследование опровергает один из главных тезисов современной теории представлений: после корректной калибровки глобальное кросс-модальное схождение («Платоновская гипотеза») практически исчезает. Вместо него авторы формулируют Аристотелевскую гипотезу представлений, доказывая, что при масштабировании сети сходятся именно на уровне локальных топологических связей в окрестностях данных. Для практиков: Фреймворк полностью независим от используемых метрик, выложен в опенсорс и позволяет корректно сопоставлять геометрию латентных пространств моделей разных масштабов без риска получить ложные статистические корреляции. Его стоит внедрить всем, кто занимается мультимодальным обучением, AI alignment или сопоставлением ИИ с биологическим мозгом. Фиксить платоновские репрезентации тут: https://t.me/gonzo_ML_podcasts/4159