ru
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

Открыть в Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Больше

📈 Аналитический обзор Telegram-канала gonzo-обзоры ML статей

Канал gonzo-обзоры ML статей (@gonzo_ml) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 24 313 подписчиков, занимая 5 541 место в категории Технологии и приложения и 27 333 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 24 313 подписчиков.

Согласно последним данным от 28 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 7, а за последние 24 часа — -4, при этом общий охват остаётся высоким.

  • Статус верификации: Не верифицирован
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 11.04%. В первые 24 часа после публикации контент обычно набирает 7.09% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 2 685 просмотров. В течение первых суток публикация набирает 1 725 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 15.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как learning, tl;dr, токенов, архитектура, контекст.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

Благодаря высокой частоте обновлений (последние данные получены 29 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

24 313
Подписчики
-424 часа
+127 дней
+730 день
Архив постов
Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Мы неправильно готовили GPU всё это время! MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye Paper: https://arxiv.org/abs/2604.05091 Review: https://arxiviq.substack.com/p/megatrain-full-precision-training Code: https://github.com/DLYuanGod/MegaTrain Model: N/A # TL;DR ЧТО сделали: Авторы представили MegaTrain — ориентированный на память фреймворк для полноразмерного обучения и файнтюнинга моделей трансформеров объёмом более 100 миллиардов параметров на одной GPU. Полностью переворачивая традиционную GPU-центричную парадигму вычислений, MegaTrain переносит хранение всех постоянных состояний модели (параметров, градиентов и состояний оптимизатора) в оперативную память хоста (CPU), используя GPU исключительно как временный бессостоятельный (stateless) вычислительный кэш. ПОЧЕМУ это важно: Эта работа фундаментально опровергает убеждение, что масштабы обучения LLM жёстко ограничены объёмом видеопамяти (VRAM). Благодаря конвейеризации передачи данных с двойной буферизацией и бессостоятельному связыванию шаблонов (template-binding), MegaTrain пробивает «стену памяти» GPU и линейно масштабирует ёмкость обучения за счёт оперативной памяти хоста. Это демократизирует пост-обучение, инструктивный файнтюнинг и alignment (выравнивание) моделей на 100B+ параметров на длинных контекстах, позволяя перенести эти ресурсоёмкие задачи с огромных распределённых кластеров на одиночные рабочие станции. Для практиков: Вы можете обучать и файнтюнить огромные модели масштаба 70B–120B+ на одной GPU, используя оперативную память CPU как основное хранилище весов. Это резко снижает финансовый порог входа для работы со сверхбольшими моделями, избавляя от необходимости разворачивать дорогостоящие многоузловые GPU-кластеры. Правильно готовить GPU здесь: https://t.me/gonzo_ML_podcasts/4204

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Tech.report по DiffusionGemma ещё не вышел, а статьи с анализом уже выходят. How Transparent is DiffusionGemma? Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O’Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda Paper: https://arxiv.org/abs/2606.20560 Review: https://arxiviq.substack.com/p/how-transparent-is-diffusiongemma Code: https://github.com/google-deepmind/serial_depth Model: https://ai.google.dev/gemma/docs/diffusiongemma/model_card # TL;DR ЧТО сделали: Провели строгий аудит прозрачности DiffusionGemma — недавно выпущенной текстовой диффузионной модели от Google DeepMind на 26B параметров. Исследователи проанализировали внутреннюю динамику рассуждений модели, разложив прозрачность на составляющие: непрозрачную последовательную глубину, вариативную прозрачность, мониторируемость и алгоритмическую прозрачность. Также они предложили метод сжатия непрерывного латентного пространства self-conditioning в интерпретируемые дискретные токены. ПОЧЕМУ это важно: Современные передовые модели постепенно переходят от авторегрессионных цепочек рассуждений на естественном языке к скрытым непрерывным вычислениям в латентном пространстве. Из-за этого мы рискуем полностью потерять возможность контролировать работу ИИ. Данное исследование возвращает оптимизм: простые модификации метода Logit Lens позволяют проецировать скрытые шаги денойзинга в понятные человеку токены практически без потери качества генерации, попутно выявляя нехронологические когнитивные паттерны «мышления» модели. Для практиков: Мы можем жёстко контролировать информационные бутылочные горлышки непрерывных моделей, принудительно проецируя их латентные состояния в дискретные токены. Это даёт человеку возможность проводить полноценный аудит рассуждений без какого-либо ущерба для итоговых способностей модели. Интерпретировать диффузию тут: https://t.me/gonzo_ML_podcasts/4187

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Лекун и ко продолжают развивать тему про self-supervised обучение на картинках и видео. Для видео придумали подход с временными разностями: один энкодер кодирует кадр, а другой — движение, так что можно получить представление следующего кадра просто сложив одно с другим (странно вообще, если этого не делали раньше). При этом для обучения не требуется никаких аугментаций (=по сути явно подсказанные модели inductive biases), что нужно было многим предыдущим моделям (например, разные кропы одного и того же view). Ещё и показали, что полезная сила таких inductive biases уменьшается с ростом объёма данных, что вроде как идейно не ново и было и при переходе от CNN к ViT (вот тут https://t.me/gonzo_ML/434). You Don’t Need Strong Assumptions: Visual Representation Learning via Temporal Differences Ninad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji Paper: https://arxiv.org/abs/2606.15956 Review: https://arxiviq.substack.com/p/you-dont-need-strong-assumptions Code: https://github.com/ninaddaithankar/TDV Model: N/A # TL;DR ЧТО сделали: Авторы разработали Temporal Difference in Vision (TDV) — новую парадигму self-supervised learning для визуальных моделей (совместная разработка UIUC и NYU). Она одновременно обучает энкодер кадров и энкодер движения на видео. Вместо сложных, вручную подобранных аугментаций, кропов или маскирования, TDV опирается на простое причинно-следственное допущение: латентное состояние следующего кадра можно представить как аддитивную композицию эмбеддинга текущего кадра и сжатого латентного вектора движения, описывающего изменения между кадрами. ПОЧЕМУ это важно: Визуальные модели асимптотически показывают лучшие результаты, если их не заставляют отбрасывать важную информацию через искусственные аугментации данных. Отказавшись от жёстких априорных допущений в пользу временной причинности, TDV не просто догоняет, но и обходит популярные методы вроде DINO (https://arxiv.org/abs/2104.14294) и iBOT (https://arxiv.org/abs/2111.07832) в сложных пространственно-временных задачах, таких как оценка оптического потока и стереоглубины. Это даёт масштабируемый и независимый от модальности фреймворк для визуальных базовых моделей в робототехнике, embodied AI и стриминге с низкой задержкой, где критически важно сохранять пространственную структуру и временную непрерывность. Для практиков: Фреймворк TDV предлагает готовый рецепт для создания эффективных и быстрых моделей в робототехнике и embodied AI. За счёт разделения статики и динамики на два лёгких энкодера, инференс на видеопотоке можно ускорить: тяжёлый энкодер обрабатывает только ключевые кадры, а промежуточные быстро восстанавливаются в латентном пространстве. Обучать энкодеры тут: https://t.me/gonzo_ML_podcasts/4173

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Про важность калибровки и неполную состоятельность теории платоновских представлений. Revisiting the Platonic Representation Hypothesis: An Aristotelian View _Fabian Gröger, Shuo Wen, Maria Brbić_ Paper: https://arxiv.org/abs/2602.14486 Review: https://arxiviq.substack.com/p/revisiting-the-platonic-representation Code: https://github.com/mlbio-epfl/aristotelian # TL;DR ЧТО сделали: Авторы разработали универсальный фреймворк калибровки относительно нуля (null-calibration) на основе перестановок. Он переводит «сырые» показатели сходства представлений в откалиброванные размеры эффекта со строгими статистическими гарантиями. Этот подход напрямую устраняет влияние ширины (размерности эмбеддингов) и глубины (пространства поиска слоёв) моделей — двух факторов, которые искусственно завышают метрики сходства. ПОЧЕМУ это важно: Исследование опровергает один из главных тезисов современной теории представлений: после корректной калибровки глобальное кросс-модальное схождение («Платоновская гипотеза») практически исчезает. Вместо него авторы формулируют Аристотелевскую гипотезу представлений, доказывая, что при масштабировании сети сходятся именно на уровне локальных топологических связей в окрестностях данных. Для практиков: Фреймворк полностью независим от используемых метрик, выложен в опенсорс и позволяет корректно сопоставлять геометрию латентных пространств моделей разных масштабов без риска получить ложные статистические корреляции. Его стоит внедрить всем, кто занимается мультимодальным обучением, AI alignment или сопоставлением ИИ с биологическим мозгом. Фиксить платоновские репрезентации тут: https://t.me/gonzo_ML_podcasts/4159