uz
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

Kanalga Telegram’da o‘tish

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Ko'proq ko'rsatish

📈 Telegram kanali gonzo-обзоры ML статей analitikasi

gonzo-обзоры ML статей (@gonzo_ml) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 24 313 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 5 541-o'rinni va Rossiya mintaqasida 27 333-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 24 313 obunachiga ega bo‘ldi.

28 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 7 ga, so‘nggi 24 soatda esa -4 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

  • Tasdiqlash holati: Tasdiqlanmagan
  • Jalb etish (ER): Auditoriya o‘rtacha 11.04% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 7.09% ini tashkil etuvchi reaksiyalarni to‘playdi.
  • Post qamrovi: Har bir post o‘rtacha 2 685 marta ko‘riladi; birinchi sutkada odatda 1 725 ta ko‘rish yig‘iladi.
  • Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 15 ta reaksiya keladi.
  • Tematik yo‘nalishlar: Kontent learning, tl;dr, токенов, архитектура, контекст kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

Yuqori yangilanish chastotasi (oxirgi ma’lumot 29 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

24 313
Obunachilar
-424 soatlar
+127 kunlar
+730 kunlar
Postlar arxiv
Repost from gonzo_ML_podcasts
photo content

Мы неправильно готовили GPU всё это время! MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye Paper: https://arxiv.org/abs/2604.05091 Review: https://arxiviq.substack.com/p/megatrain-full-precision-training Code: https://github.com/DLYuanGod/MegaTrain Model: N/A # TL;DR ЧТО сделали: Авторы представили MegaTrain — ориентированный на память фреймворк для полноразмерного обучения и файнтюнинга моделей трансформеров объёмом более 100 миллиардов параметров на одной GPU. Полностью переворачивая традиционную GPU-центричную парадигму вычислений, MegaTrain переносит хранение всех постоянных состояний модели (параметров, градиентов и состояний оптимизатора) в оперативную память хоста (CPU), используя GPU исключительно как временный бессостоятельный (stateless) вычислительный кэш. ПОЧЕМУ это важно: Эта работа фундаментально опровергает убеждение, что масштабы обучения LLM жёстко ограничены объёмом видеопамяти (VRAM). Благодаря конвейеризации передачи данных с двойной буферизацией и бессостоятельному связыванию шаблонов (template-binding), MegaTrain пробивает «стену памяти» GPU и линейно масштабирует ёмкость обучения за счёт оперативной памяти хоста. Это демократизирует пост-обучение, инструктивный файнтюнинг и alignment (выравнивание) моделей на 100B+ параметров на длинных контекстах, позволяя перенести эти ресурсоёмкие задачи с огромных распределённых кластеров на одиночные рабочие станции. Для практиков: Вы можете обучать и файнтюнить огромные модели масштаба 70B–120B+ на одной GPU, используя оперативную память CPU как основное хранилище весов. Это резко снижает финансовый порог входа для работы со сверхбольшими моделями, избавляя от необходимости разворачивать дорогостоящие многоузловые GPU-кластеры. Правильно готовить GPU здесь: https://t.me/gonzo_ML_podcasts/4204

Tech.report по DiffusionGemma ещё не вышел, а статьи с анализом уже выходят. How Transparent is DiffusionGemma? Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O’Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda Paper: https://arxiv.org/abs/2606.20560 Review: https://arxiviq.substack.com/p/how-transparent-is-diffusiongemma Code: https://github.com/google-deepmind/serial_depth Model: https://ai.google.dev/gemma/docs/diffusiongemma/model_card # TL;DR ЧТО сделали: Провели строгий аудит прозрачности DiffusionGemma — недавно выпущенной текстовой диффузионной модели от Google DeepMind на 26B параметров. Исследователи проанализировали внутреннюю динамику рассуждений модели, разложив прозрачность на составляющие: непрозрачную последовательную глубину, вариативную прозрачность, мониторируемость и алгоритмическую прозрачность. Также они предложили метод сжатия непрерывного латентного пространства self-conditioning в интерпретируемые дискретные токены. ПОЧЕМУ это важно: Современные передовые модели постепенно переходят от авторегрессионных цепочек рассуждений на естественном языке к скрытым непрерывным вычислениям в латентном пространстве. Из-за этого мы рискуем полностью потерять возможность контролировать работу ИИ. Данное исследование возвращает оптимизм: простые модификации метода Logit Lens позволяют проецировать скрытые шаги денойзинга в понятные человеку токены практически без потери качества генерации, попутно выявляя нехронологические когнитивные паттерны «мышления» модели. Для практиков: Мы можем жёстко контролировать информационные бутылочные горлышки непрерывных моделей, принудительно проецируя их латентные состояния в дискретные токены. Это даёт человеку возможность проводить полноценный аудит рассуждений без какого-либо ущерба для итоговых способностей модели. Интерпретировать диффузию тут: https://t.me/gonzo_ML_podcasts/4187

Repost from gonzo_ML_podcasts
photo content

Лекун и ко продолжают развивать тему про self-supervised обучение на картинках и видео. Для видео придумали подход с временными разностями: один энкодер кодирует кадр, а другой — движение, так что можно получить представление следующего кадра просто сложив одно с другим (странно вообще, если этого не делали раньше). При этом для обучения не требуется никаких аугментаций (=по сути явно подсказанные модели inductive biases), что нужно было многим предыдущим моделям (например, разные кропы одного и того же view). Ещё и показали, что полезная сила таких inductive biases уменьшается с ростом объёма данных, что вроде как идейно не ново и было и при переходе от CNN к ViT (вот тут https://t.me/gonzo_ML/434). You Don’t Need Strong Assumptions: Visual Representation Learning via Temporal Differences Ninad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji Paper: https://arxiv.org/abs/2606.15956 Review: https://arxiviq.substack.com/p/you-dont-need-strong-assumptions Code: https://github.com/ninaddaithankar/TDV Model: N/A # TL;DR ЧТО сделали: Авторы разработали Temporal Difference in Vision (TDV) — новую парадигму self-supervised learning для визуальных моделей (совместная разработка UIUC и NYU). Она одновременно обучает энкодер кадров и энкодер движения на видео. Вместо сложных, вручную подобранных аугментаций, кропов или маскирования, TDV опирается на простое причинно-следственное допущение: латентное состояние следующего кадра можно представить как аддитивную композицию эмбеддинга текущего кадра и сжатого латентного вектора движения, описывающего изменения между кадрами. ПОЧЕМУ это важно: Визуальные модели асимптотически показывают лучшие результаты, если их не заставляют отбрасывать важную информацию через искусственные аугментации данных. Отказавшись от жёстких априорных допущений в пользу временной причинности, TDV не просто догоняет, но и обходит популярные методы вроде DINO (https://arxiv.org/abs/2104.14294) и iBOT (https://arxiv.org/abs/2111.07832) в сложных пространственно-временных задачах, таких как оценка оптического потока и стереоглубины. Это даёт масштабируемый и независимый от модальности фреймворк для визуальных базовых моделей в робототехнике, embodied AI и стриминге с низкой задержкой, где критически важно сохранять пространственную структуру и временную непрерывность. Для практиков: Фреймворк TDV предлагает готовый рецепт для создания эффективных и быстрых моделей в робототехнике и embodied AI. За счёт разделения статики и динамики на два лёгких энкодера, инференс на видеопотоке можно ускорить: тяжёлый энкодер обрабатывает только ключевые кадры, а промежуточные быстро восстанавливаются в латентном пространстве. Обучать энкодеры тут: https://t.me/gonzo_ML_podcasts/4173

Про важность калибровки и неполную состоятельность теории платоновских представлений. Revisiting the Platonic Representation Hypothesis: An Aristotelian View _Fabian Gröger, Shuo Wen, Maria Brbić_ Paper: https://arxiv.org/abs/2602.14486 Review: https://arxiviq.substack.com/p/revisiting-the-platonic-representation Code: https://github.com/mlbio-epfl/aristotelian # TL;DR ЧТО сделали: Авторы разработали универсальный фреймворк калибровки относительно нуля (null-calibration) на основе перестановок. Он переводит «сырые» показатели сходства представлений в откалиброванные размеры эффекта со строгими статистическими гарантиями. Этот подход напрямую устраняет влияние ширины (размерности эмбеддингов) и глубины (пространства поиска слоёв) моделей — двух факторов, которые искусственно завышают метрики сходства. ПОЧЕМУ это важно: Исследование опровергает один из главных тезисов современной теории представлений: после корректной калибровки глобальное кросс-модальное схождение («Платоновская гипотеза») практически исчезает. Вместо него авторы формулируют Аристотелевскую гипотезу представлений, доказывая, что при масштабировании сети сходятся именно на уровне локальных топологических связей в окрестностях данных. Для практиков: Фреймворк полностью независим от используемых метрик, выложен в опенсорс и позволяет корректно сопоставлять геометрию латентных пространств моделей разных масштабов без риска получить ложные статистические корреляции. Его стоит внедрить всем, кто занимается мультимодальным обучением, AI alignment или сопоставлением ИИ с биологическим мозгом. Фиксить платоновские репрезентации тут: https://t.me/gonzo_ML_podcasts/4159