ar
Feedback
gonzo-обзоры ML статей

gonzo-обзоры ML статей

الذهاب إلى القناة على Telegram

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام gonzo-обзоры ML статей

تُعد قناة gonzo-обзоры ML статей (@gonzo_ml) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 24 283 مشتركاً، محتلاً المرتبة 5 620 في فئة التكنولوجيات والتطبيقات والمرتبة 27 635 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 24 283 مشتركاً.

بحسب آخر البيانات بتاريخ 06 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -3، وفي آخر 24 ساعة بمقدار 4، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 9.89‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 6.29‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 2 402 مشاهدة. وخلال اليوم الأول يجمع عادةً 1 527 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 9.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل learning, tl;dr, токенов, архитектура, контекст.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP...

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 08 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

24 283
المشتركون
+424 ساعات
-127 أيام
-330 أيام
أرشيف المشاركات
Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей. On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al. Статья: https://arxiv.org/abs/2606.02437 Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million Код: нет Модель: нет # TL;DR Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума. Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем. Скейлить тут: https://t.me/gonzo_ML_podcasts/3917

Извинити. Не знаю автора )
Извинити. Не знаю автора )

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и неограниченного компьюта. Другая похожая была в прошлом году (https://t.me/gonzo_ML/4038). Тоже ансамбли с дистилляцией, но хитрые. Отдельно прикольная хитрая эвристика, гениальная в своей простоте, это циклическое изменение learning rate и weight decay в противофазе — с высоким lr исследуем, с высоким wd обобщаем. Я раньше этот подход не встречал, но он ведь супер логичен. Видели его где-нибудь? q0: Primitives for Hyper-Epoch Pretraining Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal Paper: https://arxiv.org/abs/2606.03938 Review: https://arxiviq.substack.com/p/q0-primitives-for-hyper-epoch-pretraining Code: https://github.com/qlabs-eng/slowrun # TL;DR ЧТО сделали: Авторы представили q0 — фреймворк для сверхмногоэпохового предобучения, разработанный для оптимизации распределения вычислительных ресурсов в условиях дефицита данных. Вместо многократного обучения одной модели на фиксированном датасете после точки насыщения, q0 использует параллельное циклическое расписание, последовательную дистилляцию (chain distillation) и выученное априорное распределение обобщения (generalization prior) для создания и объединения пула разнообразных, дополняющих друг друга моделей. ПОЧЕМУ это важно: По мере истощения качественных текстов в интернете, масштабирование базовых моделей упирается в нехватку данных, а обычное многоэпоховое обучение быстро выходит на плато. Рассматривая предобучение как исследование пространства гипотез множеством моделей, а не как бесконечную полировку одной сети, q0 повышает эффективность использования данных при предобучении до 12.9 раз, а на бенчмарках — до 16.0 раз. Это позволяет эффективно обменивать дополнительные вычисления на инференсе на экономию объёма сырых данных. Для практиков: Если перед вами стоит задача обучить модель на ограниченном или специализированном датасете, но у вас есть свободные GPU-мощности, q0 предлагает готовую стратегию параллельного обучения ансамблей с умным взвешиванием предсказаний, которая обходит фундаментальный тупик "заучивания" данных одной моделью. Исследовать горизонты тут: https://t.me/gonzo_ML_podcasts/3904

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Ян и Рэндал продолжают копать свои темы про JEPA и доказали интересную штуку про латенты такой модели — они с точностью до поворота восстанавливают истинные латенты мира. И в этом пространстве можно хорошо планировать. В математику пока глубоко не погружался, но выглядит интересно. When Does LeJEPA Learn a World Model? David Klindt, Yann LeCun, Randall Balestriero Paper: https://arxiv.org/abs/2605.26379v1 Code: https://github.com/klindtlab/lejepa-identifiability Review: https://arxiviq.substack.com/p/when-does-lejepa-learn-a-world-model Model: N/A # TL;DR ЧТО сделали: Авторы представляют первое строгое математическое доказательство линейной идентифицируемости для архитектур Joint-Embedding Predictive Architectures (JEPA). Они доказали, что LeJEPA (https://t.me/gonzo_ML/4212) (сочетающая лосс выравнивания с изотропной гауссовской регуляризацией) линейно восстанавливает истинные латентные переменные порождающего мира из сложных нелинейных наблюдений с точностью до ортогонального поворота. Важно, что они определили: в широком классе стационарных сред с аддитивным шумом гауссовское распределение — единственное, которое гарантирует такое точное восстановление. ПОЧЕМУ это важно: В области нелинейного обучения представлениям и обучения без учителя (нелинейный ICA) гауссовское распределение исторически считалось единственным случаем, когда разделение источников (source separation) полностью ломается. Эта работа переворачивает данный нарратив, доказывая, что именно гауссовское распределение позволяет одновременно и стабильно извлекать все латентные размерности в больших масштабах. Более того, авторы доказывают, что такой линейной ортогональной идентифицируемости теоретически достаточно для оптимального планирования прямо в выученном латентном пространстве. Это закладывает строгий теоретический фундамент для создания доказуемо корректных моделей мира в робототехнике и обучении с подкреплением. Для практиков: Результаты показывают, что использование простой гауссовской регуляризации (SIGReg) в моделях типа LeJEPA гарантирует, что выученные фичи не будут случайно запутаны или искажены нелинейностями. Это позволяет использовать стандартные алгоритмы управления (например, Linear-Quadratic Regulator) непосредственно поверх предобученного энкодера без необходимости сложной ручной калибровки. Наличие BatchNorm критично для стабильности: без него более трети запусков глубоких сетей коллапсируют. Поюробности тут: https://t.me/gonzo_ML_podcasts/3891

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content

Repost from gonzo_ML_podcasts
photo content