uk
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

Відкрити в Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Показати більше

📈 Аналітичний огляд Telegram-каналу gonzo-обзоры ML статей

Канал gonzo-обзоры ML статей (@gonzo_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 24 313 підписників, посідаючи 5 541 місце в категорії Технології та додатки та 27 333 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 24 313 підписників.

За останніми даними від 28 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 7, а за останні 24 години на -4, загальне охоплення залишається високим.

  • Статус верифікації: Не верифікований
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 11.04%. Протягом перших 24 годин після публікації контент зазвичай збирає 7.09% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 2 685 переглядів. Протягом першої доби публікація в середньому набирає 1 725 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 15.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як learning, tl;dr, токенов, архитектура, контекст.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

Завдяки високій частоті оновлень (останні дані отримано 29 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

24 313
Підписники
-424 години
+127 днів
+730 день
Архів дописів
Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Мы неправильно готовили GPU всё это время! MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye Paper: https://arxiv.org/abs/2604.05091 Review: https://arxiviq.substack.com/p/megatrain-full-precision-training Code: https://github.com/DLYuanGod/MegaTrain Model: N/A # TL;DR ЧТО сделали: Авторы представили MegaTrain — ориентированный на память фреймворк для полноразмерного обучения и файнтюнинга моделей трансформеров объёмом более 100 миллиардов параметров на одной GPU. Полностью переворачивая традиционную GPU-центричную парадигму вычислений, MegaTrain переносит хранение всех постоянных состояний модели (параметров, градиентов и состояний оптимизатора) в оперативную память хоста (CPU), используя GPU исключительно как временный бессостоятельный (stateless) вычислительный кэш. ПОЧЕМУ это важно: Эта работа фундаментально опровергает убеждение, что масштабы обучения LLM жёстко ограничены объёмом видеопамяти (VRAM). Благодаря конвейеризации передачи данных с двойной буферизацией и бессостоятельному связыванию шаблонов (template-binding), MegaTrain пробивает «стену памяти» GPU и линейно масштабирует ёмкость обучения за счёт оперативной памяти хоста. Это демократизирует пост-обучение, инструктивный файнтюнинг и alignment (выравнивание) моделей на 100B+ параметров на длинных контекстах, позволяя перенести эти ресурсоёмкие задачи с огромных распределённых кластеров на одиночные рабочие станции. Для практиков: Вы можете обучать и файнтюнить огромные модели масштаба 70B–120B+ на одной GPU, используя оперативную память CPU как основное хранилище весов. Это резко снижает финансовый порог входа для работы со сверхбольшими моделями, избавляя от необходимости разворачивать дорогостоящие многоузловые GPU-кластеры. Правильно готовить GPU здесь: https://t.me/gonzo_ML_podcasts/4204

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Tech.report по DiffusionGemma ещё не вышел, а статьи с анализом уже выходят. How Transparent is DiffusionGemma? Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O’Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda Paper: https://arxiv.org/abs/2606.20560 Review: https://arxiviq.substack.com/p/how-transparent-is-diffusiongemma Code: https://github.com/google-deepmind/serial_depth Model: https://ai.google.dev/gemma/docs/diffusiongemma/model_card # TL;DR ЧТО сделали: Провели строгий аудит прозрачности DiffusionGemma — недавно выпущенной текстовой диффузионной модели от Google DeepMind на 26B параметров. Исследователи проанализировали внутреннюю динамику рассуждений модели, разложив прозрачность на составляющие: непрозрачную последовательную глубину, вариативную прозрачность, мониторируемость и алгоритмическую прозрачность. Также они предложили метод сжатия непрерывного латентного пространства self-conditioning в интерпретируемые дискретные токены. ПОЧЕМУ это важно: Современные передовые модели постепенно переходят от авторегрессионных цепочек рассуждений на естественном языке к скрытым непрерывным вычислениям в латентном пространстве. Из-за этого мы рискуем полностью потерять возможность контролировать работу ИИ. Данное исследование возвращает оптимизм: простые модификации метода Logit Lens позволяют проецировать скрытые шаги денойзинга в понятные человеку токены практически без потери качества генерации, попутно выявляя нехронологические когнитивные паттерны «мышления» модели. Для практиков: Мы можем жёстко контролировать информационные бутылочные горлышки непрерывных моделей, принудительно проецируя их латентные состояния в дискретные токены. Это даёт человеку возможность проводить полноценный аудит рассуждений без какого-либо ущерба для итоговых способностей модели. Интерпретировать диффузию тут: https://t.me/gonzo_ML_podcasts/4187

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Лекун и ко продолжают развивать тему про self-supervised обучение на картинках и видео. Для видео придумали подход с временными разностями: один энкодер кодирует кадр, а другой — движение, так что можно получить представление следующего кадра просто сложив одно с другим (странно вообще, если этого не делали раньше). При этом для обучения не требуется никаких аугментаций (=по сути явно подсказанные модели inductive biases), что нужно было многим предыдущим моделям (например, разные кропы одного и того же view). Ещё и показали, что полезная сила таких inductive biases уменьшается с ростом объёма данных, что вроде как идейно не ново и было и при переходе от CNN к ViT (вот тут https://t.me/gonzo_ML/434). You Don’t Need Strong Assumptions: Visual Representation Learning via Temporal Differences Ninad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji Paper: https://arxiv.org/abs/2606.15956 Review: https://arxiviq.substack.com/p/you-dont-need-strong-assumptions Code: https://github.com/ninaddaithankar/TDV Model: N/A # TL;DR ЧТО сделали: Авторы разработали Temporal Difference in Vision (TDV) — новую парадигму self-supervised learning для визуальных моделей (совместная разработка UIUC и NYU). Она одновременно обучает энкодер кадров и энкодер движения на видео. Вместо сложных, вручную подобранных аугментаций, кропов или маскирования, TDV опирается на простое причинно-следственное допущение: латентное состояние следующего кадра можно представить как аддитивную композицию эмбеддинга текущего кадра и сжатого латентного вектора движения, описывающего изменения между кадрами. ПОЧЕМУ это важно: Визуальные модели асимптотически показывают лучшие результаты, если их не заставляют отбрасывать важную информацию через искусственные аугментации данных. Отказавшись от жёстких априорных допущений в пользу временной причинности, TDV не просто догоняет, но и обходит популярные методы вроде DINO (https://arxiv.org/abs/2104.14294) и iBOT (https://arxiv.org/abs/2111.07832) в сложных пространственно-временных задачах, таких как оценка оптического потока и стереоглубины. Это даёт масштабируемый и независимый от модальности фреймворк для визуальных базовых моделей в робототехнике, embodied AI и стриминге с низкой задержкой, где критически важно сохранять пространственную структуру и временную непрерывность. Для практиков: Фреймворк TDV предлагает готовый рецепт для создания эффективных и быстрых моделей в робототехнике и embodied AI. За счёт разделения статики и динамики на два лёгких энкодера, инференс на видеопотоке можно ускорить: тяжёлый энкодер обрабатывает только ключевые кадры, а промежуточные быстро восстанавливаются в латентном пространстве. Обучать энкодеры тут: https://t.me/gonzo_ML_podcasts/4173

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Про важность калибровки и неполную состоятельность теории платоновских представлений. Revisiting the Platonic Representation Hypothesis: An Aristotelian View _Fabian Gröger, Shuo Wen, Maria Brbić_ Paper: https://arxiv.org/abs/2602.14486 Review: https://arxiviq.substack.com/p/revisiting-the-platonic-representation Code: https://github.com/mlbio-epfl/aristotelian # TL;DR ЧТО сделали: Авторы разработали универсальный фреймворк калибровки относительно нуля (null-calibration) на основе перестановок. Он переводит «сырые» показатели сходства представлений в откалиброванные размеры эффекта со строгими статистическими гарантиями. Этот подход напрямую устраняет влияние ширины (размерности эмбеддингов) и глубины (пространства поиска слоёв) моделей — двух факторов, которые искусственно завышают метрики сходства. ПОЧЕМУ это важно: Исследование опровергает один из главных тезисов современной теории представлений: после корректной калибровки глобальное кросс-модальное схождение («Платоновская гипотеза») практически исчезает. Вместо него авторы формулируют Аристотелевскую гипотезу представлений, доказывая, что при масштабировании сети сходятся именно на уровне локальных топологических связей в окрестностях данных. Для практиков: Фреймворк полностью независим от используемых метрик, выложен в опенсорс и позволяет корректно сопоставлять геометрию латентных пространств моделей разных масштабов без риска получить ложные статистические корреляции. Его стоит внедрить всем, кто занимается мультимодальным обучением, AI alignment или сопоставлением ИИ с биологическим мозгом. Фиксить платоновские репрезентации тут: https://t.me/gonzo_ML_podcasts/4159