uk
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

Відкрити в Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Показати більше

📈 Аналітичний огляд Telegram-каналу gonzo-обзоры ML статей

Канал gonzo-обзоры ML статей (@gonzo_ml) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 24 283 підписників, посідаючи 5 620 місце в категорії Технології та додатки та 27 635 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 24 283 підписників.

За останніми даними від 06 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -3, а за останні 24 години на 4, загальне охоплення залишається високим.

  • Статус верифікації: Не верифікований
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 9.89%. Протягом перших 24 годин після публікації контент зазвичай збирає 6.29% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 2 402 переглядів. Протягом першої доби публікація в середньому набирає 1 527 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 9.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як learning, tl;dr, токенов, архитектура, контекст.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

Завдяки високій частоті оновлень (останні дані отримано 08 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

24 283
Підписники
+424 години
-127 днів
-330 день
Архів дописів
Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al. Статья: https://arxiv.org/abs/2606.02437 Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million Код: нет Модель: нет # TL;DR Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума. Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем. Скейлить тут: https://t.me/gonzo_ML_podcasts/3917

Извинити. Не знаю автора )
Извинити. Не знаю автора )

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и неограниченного компьюта. Другая похожая была в прошлом году (https://t.me/gonzo_ML/4038). Тоже ансамбли с дистилляцией, но хитрые. Отдельно прикольная хитрая эвристика, гениальная в своей простоте, это циклическое изменение learning rate и weight decay в противофазе — с высоким lr исследуем, с высоким wd обобщаем. Я раньше этот подход не встречал, но он ведь супер логичен. Видели его где-нибудь? q0: Primitives for Hyper-Epoch Pretraining Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal Paper: https://arxiv.org/abs/2606.03938 Review: https://arxiviq.substack.com/p/q0-primitives-for-hyper-epoch-pretraining Code: https://github.com/qlabs-eng/slowrun # TL;DR ЧТО сделали: Авторы представили q0 — фреймворк для сверхмногоэпохового предобучения, разработанный для оптимизации распределения вычислительных ресурсов в условиях дефицита данных. Вместо многократного обучения одной модели на фиксированном датасете после точки насыщения, q0 использует параллельное циклическое расписание, последовательную дистилляцию (chain distillation) и выученное априорное распределение обобщения (generalization prior) для создания и объединения пула разнообразных, дополняющих друг друга моделей. ПОЧЕМУ это важно: По мере истощения качественных текстов в интернете, масштабирование базовых моделей упирается в нехватку данных, а обычное многоэпоховое обучение быстро выходит на плато. Рассматривая предобучение как исследование пространства гипотез множеством моделей, а не как бесконечную полировку одной сети, q0 повышает эффективность использования данных при предобучении до 12.9 раз, а на бенчмарках — до 16.0 раз. Это позволяет эффективно обменивать дополнительные вычисления на инференсе на экономию объёма сырых данных. Для практиков: Если перед вами стоит задача обучить модель на ограниченном или специализированном датасете, но у вас есть свободные GPU-мощности, q0 предлагает готовую стратегию параллельного обучения ансамблей с умным взвешиванием предсказаний, которая обходит фундаментальный тупик "заучивания" данных одной моделью. Исследовать горизонты тут: https://t.me/gonzo_ML_podcasts/3904

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Ян и Рэндал продолжают копать свои темы про JEPA и доказали интересную штуку про латенты такой модели — они с точностью до поворота восстанавливают истинные латенты мира. И в этом пространстве можно хорошо планировать. В математику пока глубоко не погружался, но выглядит интересно. When Does LeJEPA Learn a World Model? David Klindt, Yann LeCun, Randall Balestriero Paper: https://arxiv.org/abs/2605.26379v1 Code: https://github.com/klindtlab/lejepa-identifiability Review: https://arxiviq.substack.com/p/when-does-lejepa-learn-a-world-model Model: N/A # TL;DR ЧТО сделали: Авторы представляют первое строгое математическое доказательство линейной идентифицируемости для архитектур Joint-Embedding Predictive Architectures (JEPA). Они доказали, что LeJEPA (https://t.me/gonzo_ML/4212) (сочетающая лосс выравнивания с изотропной гауссовской регуляризацией) линейно восстанавливает истинные латентные переменные порождающего мира из сложных нелинейных наблюдений с точностью до ортогонального поворота. Важно, что они определили: в широком классе стационарных сред с аддитивным шумом гауссовское распределение — единственное, которое гарантирует такое точное восстановление. ПОЧЕМУ это важно: В области нелинейного обучения представлениям и обучения без учителя (нелинейный ICA) гауссовское распределение исторически считалось единственным случаем, когда разделение источников (source separation) полностью ломается. Эта работа переворачивает данный нарратив, доказывая, что именно гауссовское распределение позволяет одновременно и стабильно извлекать все латентные размерности в больших масштабах. Более того, авторы доказывают, что такой линейной ортогональной идентифицируемости теоретически достаточно для оптимального планирования прямо в выученном латентном пространстве. Это закладывает строгий теоретический фундамент для создания доказуемо корректных моделей мира в робототехнике и обучении с подкреплением. Для практиков: Результаты показывают, что использование простой гауссовской регуляризации (SIGReg) в моделях типа LeJEPA гарантирует, что выученные фичи не будут случайно запутаны или искажены нелинейностями. Это позволяет использовать стандартные алгоритмы управления (например, Linear-Quadratic Regulator) непосредственно поверх предобученного энкодера без необходимости сложной ручной калибровки. Наличие BatchNorm критично для стабильности: без него более трети запусков глубоких сетей коллапсируют. Поюробности тут: https://t.me/gonzo_ML_podcasts/3891

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content