fa
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

رفتن به کانال در Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

نمایش بیشتر

📈 تحلیل کانال تلگرام gonzo-обзоры ML статей

کانال gonzo-обзоры ML статей (@gonzo_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 24 313 مشترک است و جایگاه 5 541 را در دسته فناوری و برنامه‌ها و رتبه 27 333 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 24 313 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 28 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 7 و در ۲۴ ساعت گذشته برابر -4 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

  • وضعیت تأیید: تأیید نشده
  • نرخ تعامل (ER): میانگین تعامل مخاطب 11.04% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 7.09% واکنش نسبت به کل مشترکان کسب می‌کند.
  • دسترسی پست‌ها: هر پست به طور میانگین 2 685 بازدید دریافت می‌کند. در اولین روز معمولاً 1 725 بازدید جمع‌آوری می‌شود.
  • واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 15 است.
  • علایق موضوعی: محتوا بر موضوعات کلیدی مانند learning, tl;dr, токенов, архитектура, контекст تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 29 ژوئن, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

24 313
مشترکین
-424 ساعت
+127 روز
+730 روز

در حال بارگیری داده...

جذب مشترکین
ژوئن '26
ژوئن '26
+230
در 6 کانال‌ها
مه '26
+210
در 3 کانال‌ها
Get PRO
آوریل '26
+279
در 5 کانال‌ها
Get PRO
مارس '26
+275
در 7 کانال‌ها
Get PRO
فوریه '26
+387
در 4 کانال‌ها
Get PRO
ژانویه '26
+415
در 14 کانال‌ها
Get PRO
دسامبر '25
+439
در 7 کانال‌ها
Get PRO
نوامبر '25
+295
در 11 کانال‌ها
Get PRO
اکتبر '25
+510
در 12 کانال‌ها
Get PRO
سپتامبر '25
+286
در 7 کانال‌ها
Get PRO
اوت '25
+430
در 5 کانال‌ها
Get PRO
ژوئیه '25
+641
در 11 کانال‌ها
Get PRO
ژوئن '25
+362
در 9 کانال‌ها
Get PRO
مه '25
+431
در 7 کانال‌ها
Get PRO
آوریل '25
+922
در 19 کانال‌ها
Get PRO
مارس '25
+583
در 8 کانال‌ها
Get PRO
فوریه '25
+649
در 16 کانال‌ها
Get PRO
ژانویه '25
+1 065
در 24 کانال‌ها
Get PRO
دسامبر '24
+699
در 13 کانال‌ها
Get PRO
نوامبر '24
+1 001
در 20 کانال‌ها
Get PRO
اکتبر '24
+727
در 14 کانال‌ها
Get PRO
سپتامبر '24
+415
در 11 کانال‌ها
Get PRO
اوت '24
+467
در 3 کانال‌ها
Get PRO
ژوئیه '24
+217
در 10 کانال‌ها
Get PRO
ژوئن '24
+375
در 20 کانال‌ها
Get PRO
مه '24
+354
در 11 کانال‌ها
Get PRO
آوریل '24
+377
در 13 کانال‌ها
Get PRO
مارس '24
+399
در 14 کانال‌ها
Get PRO
فوریه '24
+323
در 12 کانال‌ها
Get PRO
ژانویه '24
+660
در 15 کانال‌ها
Get PRO
دسامبر '23
+641
در 19 کانال‌ها
Get PRO
نوامبر '23
+268
در 8 کانال‌ها
Get PRO
اکتبر '23
+501
در 19 کانال‌ها
Get PRO
سپتامبر '23
+355
در 0 کانال‌ها
Get PRO
اوت '23
+456
در 0 کانال‌ها
Get PRO
ژوئیه '23
+357
در 0 کانال‌ها
Get PRO
ژوئن '23
+300
در 0 کانال‌ها
Get PRO
مه '23
+2 022
در 0 کانال‌ها
Get PRO
آوریل '23
+967
در 0 کانال‌ها
Get PRO
مارس '23
+2 757
در 0 کانال‌ها
Get PRO
فوریه '23
+385
در 0 کانال‌ها
Get PRO
ژانویه '23
+166
در 0 کانال‌ها
Get PRO
دسامبر '22
+343
در 0 کانال‌ها
Get PRO
نوامبر '22
+100
در 0 کانال‌ها
Get PRO
اکتبر '22
+93
در 0 کانال‌ها
Get PRO
سپتامبر '22
+70
در 0 کانال‌ها
Get PRO
اوت '22
+261
در 0 کانال‌ها
Get PRO
ژوئیه '22
+475
در 0 کانال‌ها
Get PRO
ژوئن '22
+215
در 0 کانال‌ها
Get PRO
مه '22
+225
در 0 کانال‌ها
Get PRO
آوریل '22
+101
در 0 کانال‌ها
Get PRO
مارس '22
+132
در 0 کانال‌ها
Get PRO
فوریه '22
+233
در 0 کانال‌ها
Get PRO
ژانویه '22
+113
در 0 کانال‌ها
Get PRO
دسامبر '21
+248
در 0 کانال‌ها
Get PRO
نوامبر '21
+226
در 0 کانال‌ها
Get PRO
اکتبر '21
+69
در 0 کانال‌ها
Get PRO
سپتامبر '21
+92
در 0 کانال‌ها
Get PRO
اوت '21
+73
در 0 کانال‌ها
Get PRO
ژوئیه '21
+133
در 0 کانال‌ها
Get PRO
ژوئن '21
+174
در 0 کانال‌ها
Get PRO
مه '21
+75
در 0 کانال‌ها
Get PRO
آوریل '21
+84
در 0 کانال‌ها
Get PRO
مارس '21
+97
در 0 کانال‌ها
Get PRO
فوریه '21
+136
در 0 کانال‌ها
Get PRO
ژانویه '21
+170
در 0 کانال‌ها
Get PRO
دسامبر '20
+4 514
در 0 کانال‌ها
تاریخ
رشد مشترکین
اشارات
کانال‌ها
29 ژوئن+1
28 ژوئن+4
27 ژوئن+5
26 ژوئن+4
25 ژوئن+13
24 ژوئن+14
23 ژوئن+14
22 ژوئن+7
21 ژوئن+5
20 ژوئن+13
19 ژوئن+7
18 ژوئن+6
17 ژوئن+7
16 ژوئن+12
15 ژوئن+11
14 ژوئن+11
13 ژوئن+10
12 ژوئن+8
11 ژوئن+12
10 ژوئن+8
09 ژوئن+2
08 ژوئن+6
07 ژوئن+6
06 ژوئن+10
05 ژوئن+8
04 ژوئن+3
03 ژوئن+9
02 ژوئن+7
01 ژوئن+7
پست‌های کانال
2
بدون متن...
1 294
3
بدون متن...
1 224
4
بدون متن...
1 148
5
Мы неправильно готовили GPU всё это время! MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye Paper: https://arxiv.org/abs/2604.05091 Review: https://arxiviq.substack.com/p/megatrain-full-precision-training Code: https://github.com/DLYuanGod/MegaTrain Model: N/A # TL;DR ЧТО сделали: Авторы представили MegaTrain — ориентированный на память фреймворк для полноразмерного обучения и файнтюнинга моделей трансформеров объёмом более 100 миллиардов параметров на одной GPU. Полностью переворачивая традиционную GPU-центричную парадигму вычислений, MegaTrain переносит хранение всех постоянных состояний модели (параметров, градиентов и состояний оптимизатора) в оперативную память хоста (CPU), используя GPU исключительно как временный бессостоятельный (stateless) вычислительный кэш. ПОЧЕМУ это важно: Эта работа фундаментально опровергает убеждение, что масштабы обучения LLM жёстко ограничены объёмом видеопамяти (VRAM). Благодаря конвейеризации передачи данных с двойной буферизацией и бессостоятельному связыванию шаблонов (template-binding), MegaTrain пробивает «стену памяти» GPU и линейно масштабирует ёмкость обучения за счёт оперативной памяти хоста. Это демократизирует пост-обучение, инструктивный файнтюнинг и alignment (выравнивание) моделей на 100B+ параметров на длинных контекстах, позволяя перенести эти ресурсоёмкие задачи с огромных распределённых кластеров на одиночные рабочие станции. Для практиков: Вы можете обучать и файнтюнить огромные модели масштаба 70B–120B+ на одной GPU, используя оперативную память CPU как основное хранилище весов. Это резко снижает финансовый порог входа для работы со сверхбольшими моделями, избавляя от необходимости разворачивать дорогостоящие многоузловые GPU-кластеры. Правильно готовить GPU здесь: https://t.me/gonzo_ML_podcasts/4204
1 450
6
بدون متن...
1 709
7
بدون متن...
1 689
8
بدون متن...
1 605
9
بدون متن...
1 519
10
بدون متن...
1 423
11
Tech.report по DiffusionGemma ещё не вышел, а статьи с анализом уже выходят. How Transparent is DiffusionGemma? Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O’Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda Paper: https://arxiv.org/abs/2606.20560 Review: https://arxiviq.substack.com/p/how-transparent-is-diffusiongemma Code: https://github.com/google-deepmind/serial_depth Model: https://ai.google.dev/gemma/docs/diffusiongemma/model_card # TL;DR ЧТО сделали: Провели строгий аудит прозрачности DiffusionGemma — недавно выпущенной текстовой диффузионной модели от Google DeepMind на 26B параметров. Исследователи проанализировали внутреннюю динамику рассуждений модели, разложив прозрачность на составляющие: непрозрачную последовательную глубину, вариативную прозрачность, мониторируемость и алгоритмическую прозрачность. Также они предложили метод сжатия непрерывного латентного пространства self-conditioning в интерпретируемые дискретные токены. ПОЧЕМУ это важно: Современные передовые модели постепенно переходят от авторегрессионных цепочек рассуждений на естественном языке к скрытым непрерывным вычислениям в латентном пространстве. Из-за этого мы рискуем полностью потерять возможность контролировать работу ИИ. Данное исследование возвращает оптимизм: простые модификации метода Logit Lens позволяют проецировать скрытые шаги денойзинга в понятные человеку токены практически без потери качества генерации, попутно выявляя нехронологические когнитивные паттерны «мышления» модели. Для практиков: Мы можем жёстко контролировать информационные бутылочные горлышки непрерывных моделей, принудительно проецируя их латентные состояния в дискретные токены. Это даёт человеку возможность проводить полноценный аудит рассуждений без какого-либо ущерба для итоговых способностей модели. Интерпретировать диффузию тут: https://t.me/gonzo_ML_podcasts/4187
1 706
12
بدون متن...
1 807
13
بدون متن...
1 781
14
بدون متن...
1 611
15
بدون متن...
1 509
16
Лекун и ко продолжают развивать тему про self-supervised обучение на картинках и видео. Для видео придумали подход с временными разностями: один энкодер кодирует кадр, а другой — движение, так что можно получить представление следующего кадра просто сложив одно с другим (странно вообще, если этого не делали раньше). При этом для обучения не требуется никаких аугментаций (=по сути явно подсказанные модели inductive biases), что нужно было многим предыдущим моделям (например, разные кропы одного и того же view). Ещё и показали, что полезная сила таких inductive biases уменьшается с ростом объёма данных, что вроде как идейно не ново и было и при переходе от CNN к ViT (вот тут https://t.me/gonzo_ML/434). You Don’t Need Strong Assumptions: Visual Representation Learning via Temporal Differences Ninad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji Paper: https://arxiv.org/abs/2606.15956 Review: https://arxiviq.substack.com/p/you-dont-need-strong-assumptions Code: https://github.com/ninaddaithankar/TDV Model: N/A # TL;DR ЧТО сделали: Авторы разработали Temporal Difference in Vision (TDV) — новую парадигму self-supervised learning для визуальных моделей (совместная разработка UIUC и NYU). Она одновременно обучает энкодер кадров и энкодер движения на видео. Вместо сложных, вручную подобранных аугментаций, кропов или маскирования, TDV опирается на простое причинно-следственное допущение: латентное состояние следующего кадра можно представить как аддитивную композицию эмбеддинга текущего кадра и сжатого латентного вектора движения, описывающего изменения между кадрами. ПОЧЕМУ это важно: Визуальные модели асимптотически показывают лучшие результаты, если их не заставляют отбрасывать важную информацию через искусственные аугментации данных. Отказавшись от жёстких априорных допущений в пользу временной причинности, TDV не просто догоняет, но и обходит популярные методы вроде DINO (https://arxiv.org/abs/2104.14294) и iBOT (https://arxiv.org/abs/2111.07832) в сложных пространственно-временных задачах, таких как оценка оптического потока и стереоглубины. Это даёт масштабируемый и независимый от модальности фреймворк для визуальных базовых моделей в робототехнике, embodied AI и стриминге с низкой задержкой, где критически важно сохранять пространственную структуру и временную непрерывность. Для практиков: Фреймворк TDV предлагает готовый рецепт для создания эффективных и быстрых моделей в робототехнике и embodied AI. За счёт разделения статики и динамики на два лёгких энкодера, инференс на видеопотоке можно ускорить: тяжёлый энкодер обрабатывает только ключевые кадры, а промежуточные быстро восстанавливаются в латентном пространстве. Обучать энкодеры тут: https://t.me/gonzo_ML_podcasts/4173
1 930
17
بدون متن...
2 218
18
بدون متن...
2 196
19
بدون متن...
1 932
20
Про важность калибровки и неполную состоятельность теории платоновских представлений. Revisiting the Platonic Representation Hypothesis: An Aristotelian View _Fabian Gröger, Shuo Wen, Maria Brbić_ Paper: https://arxiv.org/abs/2602.14486 Review: https://arxiviq.substack.com/p/revisiting-the-platonic-representation Code: https://github.com/mlbio-epfl/aristotelian # TL;DR ЧТО сделали: Авторы разработали универсальный фреймворк калибровки относительно нуля (null-calibration) на основе перестановок. Он переводит «сырые» показатели сходства представлений в откалиброванные размеры эффекта со строгими статистическими гарантиями. Этот подход напрямую устраняет влияние ширины (размерности эмбеддингов) и глубины (пространства поиска слоёв) моделей — двух факторов, которые искусственно завышают метрики сходства. ПОЧЕМУ это важно: Исследование опровергает один из главных тезисов современной теории представлений: после корректной калибровки глобальное кросс-модальное схождение («Платоновская гипотеза») практически исчезает. Вместо него авторы формулируют Аристотелевскую гипотезу представлений, доказывая, что при масштабировании сети сходятся именно на уровне локальных топологических связей в окрестностях данных. Для практиков: Фреймворк полностью независим от используемых метрик, выложен в опенсорс и позволяет корректно сопоставлять геометрию латентных пространств моделей разных масштабов без риска получить ложные статистические корреляции. Его стоит внедрить всем, кто занимается мультимодальным обучением, AI alignment или сопоставлением ИИ с биологическим мозгом. Фиксить платоновские репрезентации тут: https://t.me/gonzo_ML_podcasts/4159
2 227