gonzo-обзоры ML статей
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
نمایش بیشتر📈 تحلیل کانال تلگرام gonzo-обзоры ML статей
کانال gonzo-обзоры ML статей (@gonzo_ml) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 24 283 مشترک است و جایگاه 5 620 را در دسته فناوری و برنامهها و رتبه 27 635 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 24 283 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 06 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -3 و در ۲۴ ساعت گذشته برابر 4 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 9.89% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 6.29% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 2 402 بازدید دریافت میکند. در اولین روز معمولاً 1 527 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 9 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند learning, tl;dr, токенов, архитектура, контекст تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 08 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
در حال بارگیری داده...
| تاریخ | رشد مشترکین | اشارات | کانالها | |
| 08 ژوئن | +1 | |||
| 07 ژوئن | +6 | |||
| 06 ژوئن | +10 | |||
| 05 ژوئن | +8 | |||
| 04 ژوئن | +3 | |||
| 03 ژوئن | +9 | |||
| 02 ژوئن | +7 | |||
| 01 ژوئن | +7 |
| 2 | بدون متن... | 1 450 |
| 3 | بدون متن... | 1 373 |
| 4 | Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей.
On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al.
Статья: https://arxiv.org/abs/2606.02437
Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million
Код: нет
Модель: нет
# TL;DR
Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума.
Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем.
Скейлить тут: https://t.me/gonzo_ML_podcasts/3917 | 1 563 |
| 5 | Извинити. Не знаю автора ) | 3 054 |
| 6 | بدون متن... | 2 354 |
| 7 | بدون متن... | 2 152 |
| 8 | بدون متن... | 2 077 |
| 9 | Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и неограниченного компьюта. Другая похожая была в прошлом году (https://t.me/gonzo_ML/4038). Тоже ансамбли с дистилляцией, но хитрые.
Отдельно прикольная хитрая эвристика, гениальная в своей простоте, это циклическое изменение learning rate и weight decay в противофазе — с высоким lr исследуем, с высоким wd обобщаем. Я раньше этот подход не встречал, но он ведь супер логичен. Видели его где-нибудь?
q0: Primitives for Hyper-Epoch Pretraining
Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal
Paper: https://arxiv.org/abs/2606.03938
Review: https://arxiviq.substack.com/p/q0-primitives-for-hyper-epoch-pretraining
Code: https://github.com/qlabs-eng/slowrun
# TL;DR
ЧТО сделали: Авторы представили q0 — фреймворк для сверхмногоэпохового предобучения, разработанный для оптимизации распределения вычислительных ресурсов в условиях дефицита данных. Вместо многократного обучения одной модели на фиксированном датасете после точки насыщения, q0 использует параллельное циклическое расписание, последовательную дистилляцию (chain distillation) и выученное априорное распределение обобщения (generalization prior) для создания и объединения пула разнообразных, дополняющих друг друга моделей.
ПОЧЕМУ это важно: По мере истощения качественных текстов в интернете, масштабирование базовых моделей упирается в нехватку данных, а обычное многоэпоховое обучение быстро выходит на плато. Рассматривая предобучение как исследование пространства гипотез множеством моделей, а не как бесконечную полировку одной сети, q0 повышает эффективность использования данных при предобучении до 12.9 раз, а на бенчмарках — до 16.0 раз. Это позволяет эффективно обменивать дополнительные вычисления на инференсе на экономию объёма сырых данных.
Для практиков: Если перед вами стоит задача обучить модель на ограниченном или специализированном датасете, но у вас есть свободные GPU-мощности, q0 предлагает готовую стратегию параллельного обучения ансамблей с умным взвешиванием предсказаний, которая обходит фундаментальный тупик "заучивания" данных одной моделью.
Исследовать горизонты тут: https://t.me/gonzo_ML_podcasts/3904 | 2 172 |
| 10 | بدون متن... | 2 039 |
| 11 | بدون متن... | 2 056 |
| 12 | بدون متن... | 1 985 |
| 13 | Ян и Рэндал продолжают копать свои темы про JEPA и доказали интересную штуку про латенты такой модели — они с точностью до поворота восстанавливают истинные латенты мира. И в этом пространстве можно хорошо планировать. В математику пока глубоко не погружался, но выглядит интересно.
When Does LeJEPA Learn a World Model?
David Klindt, Yann LeCun, Randall Balestriero
Paper: https://arxiv.org/abs/2605.26379v1
Code: https://github.com/klindtlab/lejepa-identifiability
Review: https://arxiviq.substack.com/p/when-does-lejepa-learn-a-world-model
Model: N/A
# TL;DR
ЧТО сделали: Авторы представляют первое строгое математическое доказательство линейной идентифицируемости для архитектур Joint-Embedding Predictive Architectures (JEPA). Они доказали, что LeJEPA (https://t.me/gonzo_ML/4212) (сочетающая лосс выравнивания с изотропной гауссовской регуляризацией) линейно восстанавливает истинные латентные переменные порождающего мира из сложных нелинейных наблюдений с точностью до ортогонального поворота. Важно, что они определили: в широком классе стационарных сред с аддитивным шумом гауссовское распределение — единственное, которое гарантирует такое точное восстановление.
ПОЧЕМУ это важно: В области нелинейного обучения представлениям и обучения без учителя (нелинейный ICA) гауссовское распределение исторически считалось единственным случаем, когда разделение источников (source separation) полностью ломается. Эта работа переворачивает данный нарратив, доказывая, что именно гауссовское распределение позволяет одновременно и стабильно извлекать все латентные размерности в больших масштабах. Более того, авторы доказывают, что такой линейной ортогональной идентифицируемости теоретически достаточно для оптимального планирования прямо в выученном латентном пространстве. Это закладывает строгий теоретический фундамент для создания доказуемо корректных моделей мира в робототехнике и обучении с подкреплением.
Для практиков: Результаты показывают, что использование простой гауссовской регуляризации (SIGReg) в моделях типа LeJEPA гарантирует, что выученные фичи не будут случайно запутаны или искажены нелинейностями. Это позволяет использовать стандартные алгоритмы управления (например, Linear-Quadratic Regulator) непосредственно поверх предобученного энкодера без необходимости сложной ручной калибровки. Наличие BatchNorm критично для стабильности: без него более трети запусков глубоких сетей коллапсируют.
Поюробности тут: https://t.me/gonzo_ML_podcasts/3891 | 2 128 |
| 14 | بدون متن... | 2 086 |
| 15 | بدون متن... | 2 086 |
| 16 | بدون متن... | 2 181 |
| 17 | بدون متن... | 2 054 |
| 18 | بدون متن... | 1 720 |
| 19 | بدون متن... | 1 583 |
| 20 | بدون متن... | 1 536 |
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
