gonzo-обзоры ML статей
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
نمایش بیشتر📈 تحلیل کانال تلگرام gonzo-обзоры ML статей
کانال gonzo-обзоры ML статей (@gonzo_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 24 313 مشترک است و جایگاه 5 541 را در دسته فناوری و برنامهها و رتبه 27 333 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 24 313 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 28 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 7 و در ۲۴ ساعت گذشته برابر -4 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 11.04% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 7.09% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 2 685 بازدید دریافت میکند. در اولین روز معمولاً 1 725 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 15 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند learning, tl;dr, токенов, архитектура, контекст تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 29 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
در حال بارگیری داده...
| تاریخ | رشد مشترکین | اشارات | کانالها | |
| 29 ژوئن | +1 | |||
| 28 ژوئن | +4 | |||
| 27 ژوئن | +5 | |||
| 26 ژوئن | +4 | |||
| 25 ژوئن | +13 | |||
| 24 ژوئن | +14 | |||
| 23 ژوئن | +14 | |||
| 22 ژوئن | +7 | |||
| 21 ژوئن | +5 | |||
| 20 ژوئن | +13 | |||
| 19 ژوئن | +7 | |||
| 18 ژوئن | +6 | |||
| 17 ژوئن | +7 | |||
| 16 ژوئن | +12 | |||
| 15 ژوئن | +11 | |||
| 14 ژوئن | +11 | |||
| 13 ژوئن | +10 | |||
| 12 ژوئن | +8 | |||
| 11 ژوئن | +12 | |||
| 10 ژوئن | +8 | |||
| 09 ژوئن | +2 | |||
| 08 ژوئن | +6 | |||
| 07 ژوئن | +6 | |||
| 06 ژوئن | +10 | |||
| 05 ژوئن | +8 | |||
| 04 ژوئن | +3 | |||
| 03 ژوئن | +9 | |||
| 02 ژوئن | +7 | |||
| 01 ژوئن | +7 |
| 2 | بدون متن... | 1 294 |
| 3 | بدون متن... | 1 224 |
| 4 | بدون متن... | 1 148 |
| 5 | Мы неправильно готовили GPU всё это время!
MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU
Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye
Paper: https://arxiv.org/abs/2604.05091
Review: https://arxiviq.substack.com/p/megatrain-full-precision-training
Code: https://github.com/DLYuanGod/MegaTrain
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили MegaTrain — ориентированный на память фреймворк для полноразмерного обучения и файнтюнинга моделей трансформеров объёмом более 100 миллиардов параметров на одной GPU. Полностью переворачивая традиционную GPU-центричную парадигму вычислений, MegaTrain переносит хранение всех постоянных состояний модели (параметров, градиентов и состояний оптимизатора) в оперативную память хоста (CPU), используя GPU исключительно как временный бессостоятельный (stateless) вычислительный кэш.
ПОЧЕМУ это важно: Эта работа фундаментально опровергает убеждение, что масштабы обучения LLM жёстко ограничены объёмом видеопамяти (VRAM). Благодаря конвейеризации передачи данных с двойной буферизацией и бессостоятельному связыванию шаблонов (template-binding), MegaTrain пробивает «стену памяти» GPU и линейно масштабирует ёмкость обучения за счёт оперативной памяти хоста. Это демократизирует пост-обучение, инструктивный файнтюнинг и alignment (выравнивание) моделей на 100B+ параметров на длинных контекстах, позволяя перенести эти ресурсоёмкие задачи с огромных распределённых кластеров на одиночные рабочие станции.
Для практиков: Вы можете обучать и файнтюнить огромные модели масштаба 70B–120B+ на одной GPU, используя оперативную память CPU как основное хранилище весов. Это резко снижает финансовый порог входа для работы со сверхбольшими моделями, избавляя от необходимости разворачивать дорогостоящие многоузловые GPU-кластеры.
Правильно готовить GPU здесь: https://t.me/gonzo_ML_podcasts/4204 | 1 450 |
| 6 | بدون متن... | 1 709 |
| 7 | بدون متن... | 1 689 |
| 8 | بدون متن... | 1 605 |
| 9 | بدون متن... | 1 519 |
| 10 | بدون متن... | 1 423 |
| 11 | Tech.report по DiffusionGemma ещё не вышел, а статьи с анализом уже выходят.
How Transparent is DiffusionGemma?
Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O’Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda
Paper: https://arxiv.org/abs/2606.20560
Review: https://arxiviq.substack.com/p/how-transparent-is-diffusiongemma
Code: https://github.com/google-deepmind/serial_depth
Model: https://ai.google.dev/gemma/docs/diffusiongemma/model_card
# TL;DR
ЧТО сделали: Провели строгий аудит прозрачности DiffusionGemma — недавно выпущенной текстовой диффузионной модели от Google DeepMind на 26B параметров. Исследователи проанализировали внутреннюю динамику рассуждений модели, разложив прозрачность на составляющие: непрозрачную последовательную глубину, вариативную прозрачность, мониторируемость и алгоритмическую прозрачность. Также они предложили метод сжатия непрерывного латентного пространства self-conditioning в интерпретируемые дискретные токены.
ПОЧЕМУ это важно: Современные передовые модели постепенно переходят от авторегрессионных цепочек рассуждений на естественном языке к скрытым непрерывным вычислениям в латентном пространстве. Из-за этого мы рискуем полностью потерять возможность контролировать работу ИИ. Данное исследование возвращает оптимизм: простые модификации метода Logit Lens позволяют проецировать скрытые шаги денойзинга в понятные человеку токены практически без потери качества генерации, попутно выявляя нехронологические когнитивные паттерны «мышления» модели.
Для практиков: Мы можем жёстко контролировать информационные бутылочные горлышки непрерывных моделей, принудительно проецируя их латентные состояния в дискретные токены. Это даёт человеку возможность проводить полноценный аудит рассуждений без какого-либо ущерба для итоговых способностей модели.
Интерпретировать диффузию тут: https://t.me/gonzo_ML_podcasts/4187 | 1 706 |
| 12 | بدون متن... | 1 807 |
| 13 | بدون متن... | 1 781 |
| 14 | بدون متن... | 1 611 |
| 15 | بدون متن... | 1 509 |
| 16 | Лекун и ко продолжают развивать тему про self-supervised обучение на картинках и видео. Для видео придумали подход с временными разностями: один энкодер кодирует кадр, а другой — движение, так что можно получить представление следующего кадра просто сложив одно с другим (странно вообще, если этого не делали раньше). При этом для обучения не требуется никаких аугментаций (=по сути явно подсказанные модели inductive biases), что нужно было многим предыдущим моделям (например, разные кропы одного и того же view). Ещё и показали, что полезная сила таких inductive biases уменьшается с ростом объёма данных, что вроде как идейно не ново и было и при переходе от CNN к ViT (вот тут https://t.me/gonzo_ML/434).
You Don’t Need Strong Assumptions: Visual Representation Learning via Temporal Differences
Ninad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji
Paper: https://arxiv.org/abs/2606.15956
Review: https://arxiviq.substack.com/p/you-dont-need-strong-assumptions
Code: https://github.com/ninaddaithankar/TDV
Model: N/A
# TL;DR
ЧТО сделали: Авторы разработали Temporal Difference in Vision (TDV) — новую парадигму self-supervised learning для визуальных моделей (совместная разработка UIUC и NYU). Она одновременно обучает энкодер кадров и энкодер движения на видео. Вместо сложных, вручную подобранных аугментаций, кропов или маскирования, TDV опирается на простое причинно-следственное допущение: латентное состояние следующего кадра можно представить как аддитивную композицию эмбеддинга текущего кадра и сжатого латентного вектора движения, описывающего изменения между кадрами.
ПОЧЕМУ это важно: Визуальные модели асимптотически показывают лучшие результаты, если их не заставляют отбрасывать важную информацию через искусственные аугментации данных. Отказавшись от жёстких априорных допущений в пользу временной причинности, TDV не просто догоняет, но и обходит популярные методы вроде DINO (https://arxiv.org/abs/2104.14294) и iBOT (https://arxiv.org/abs/2111.07832) в сложных пространственно-временных задачах, таких как оценка оптического потока и стереоглубины. Это даёт масштабируемый и независимый от модальности фреймворк для визуальных базовых моделей в робототехнике, embodied AI и стриминге с низкой задержкой, где критически важно сохранять пространственную структуру и временную непрерывность.
Для практиков: Фреймворк TDV предлагает готовый рецепт для создания эффективных и быстрых моделей в робототехнике и embodied AI. За счёт разделения статики и динамики на два лёгких энкодера, инференс на видеопотоке можно ускорить: тяжёлый энкодер обрабатывает только ключевые кадры, а промежуточные быстро восстанавливаются в латентном пространстве.
Обучать энкодеры тут: https://t.me/gonzo_ML_podcasts/4173 | 1 930 |
| 17 | بدون متن... | 2 218 |
| 18 | بدون متن... | 2 196 |
| 19 | بدون متن... | 1 932 |
| 20 | Про важность калибровки и неполную состоятельность теории платоновских представлений.
Revisiting the Platonic Representation Hypothesis: An Aristotelian View
_Fabian Gröger, Shuo Wen, Maria Brbić_
Paper: https://arxiv.org/abs/2602.14486
Review: https://arxiviq.substack.com/p/revisiting-the-platonic-representation
Code: https://github.com/mlbio-epfl/aristotelian
# TL;DR
ЧТО сделали: Авторы разработали универсальный фреймворк калибровки относительно нуля (null-calibration) на основе перестановок. Он переводит «сырые» показатели сходства представлений в откалиброванные размеры эффекта со строгими статистическими гарантиями. Этот подход напрямую устраняет влияние ширины (размерности эмбеддингов) и глубины (пространства поиска слоёв) моделей — двух факторов, которые искусственно завышают метрики сходства.
ПОЧЕМУ это важно: Исследование опровергает один из главных тезисов современной теории представлений: после корректной калибровки глобальное кросс-модальное схождение («Платоновская гипотеза») практически исчезает. Вместо него авторы формулируют Аристотелевскую гипотезу представлений, доказывая, что при масштабировании сети сходятся именно на уровне локальных топологических связей в окрестностях данных.
Для практиков: Фреймворк полностью независим от используемых метрик, выложен в опенсорс и позволяет корректно сопоставлять геометрию латентных пространств моделей разных масштабов без риска получить ложные статистические корреляции. Его стоит внедрить всем, кто занимается мультимодальным обучением, AI alignment или сопоставлением ИИ с биологическим мозгом.
Фиксить платоновские репрезентации тут: https://t.me/gonzo_ML_podcasts/4159 | 2 227 |
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
