ar
Feedback
Машинное обучение RU

Машинное обучение RU

الذهاب إلى القناة على Telegram

Все о машинном обучении админ - @workakkk @data_analysis_ml - анализ даннных @ai_machinelearning_big_data - Machine learning @itchannels_telegram -лучшие ит-каналы @pythonl - Python @pythonlbooks- python 📚 @datascienceiot - 📚 РКН: clck.ru/3FmrUw

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Машинное обучение RU

تُعد قناة Машинное обучение RU (@machinelearning_ru) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 18 063 مشتركاً، محتلاً المرتبة 7 379 في فئة التكنولوجيات والتطبيقات والمرتبة 37 305 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 18 063 مشتركاً.

بحسب آخر البيانات بتاريخ 22 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -14، وفي آخر 24 ساعة بمقدار 0، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 11.35‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 4.74‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 2 050 مشاهدة. وخلال اليوم الأول يجمع عادةً 856 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 7.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل github, llm, openai, параметр, архитектура.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
Все о машинном обучении админ - @workakkk @data_analysis_ml - анализ даннных @ai_machinelearning_big_data - Machine learning @itchannels_telegram -лучшие ит-каналы @pythonl - Python @pythonlbooks- python 📚 @datascienceiot - 📚 РКН: clck.ru/...

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 23 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

18 063
المشتركون
لا توجد بيانات24 ساعات
+127 أيام
-1430 أيام
أرشيف المشاركات
Title: SIA: Self Improving AI with Harness & Weight Updates В этой работе показали, что ИИ лучше улучшает сам себя, когда мен
Title: SIA: Self Improving AI with Harness & Weight Updates В этой работе показали, что ИИ лучше улучшает сам себя, когда меняет не только обвязку вокруг агента, но и обновляет модель. Проблема в том, что прогресс ИИ до сих пор сильно зависит от людей: они вручную правят промпты, инструменты, код, данные для обучения и веса модели. Авторы предлагают SIA - цикл, где один ИИ наблюдает за работой task-agent, а затем улучшает либо его внешнюю настройку, либо саму модель. Внешняя настройка -это промпты, инструменты, правила повторных попыток, парсинг ответа и прочая обвязка. Обновление весов - это изменение поведения модели на основе обратной связи по задаче. Работает это так: агент пробует много ответов или программ, верификатор оценивает результат, а эти оценки превращаются в обучающий сигнал. После этого система обновляет небольшой набор дополнительных весов LoRA. Это меняет поведение модели без полного переобучения. Базовая модель почти не трогается, но LoRA-адаптер постепенно учится: такие ответы давали высокий reward, а такие проваливались. Авторы проверили подход на трёх разных задачах: классификация обвинений в китайском праве, ускорение GPU kernel-кода и denoising single-cell RNA. Комбинированная версия обошла вариант, где улучшали только обвязку: 70.1% на LawBench, более быстрый GPU-код, чем у предыдущего лучшего решения, и 0.289 на задаче denoising. Интересный вывод: хорошая обвязка помогает агенту действовать лучше, но обновление весов помогает ему выучить паттерны задачи, которые одними промптами и инструментами не находятся. arxiv. org/abs/2605.27276

ИИ-блогеры после выхода Claude Fable 5
ИИ-блогеры после выхода Claude Fable 5

⚡️ Wasserstein Learning Theory: когда ИИ учится сравнивать не точки, а целые распределения В машинном обучении всё чаще важен
⚡️ Wasserstein Learning Theory: когда ИИ учится сравнивать не точки, а целые распределения В машинном обучении всё чаще важен не один конкретный пример, а то, как устроены данные целиком. Например, модель обучали на одном распределении картинок, текстов или действий, а в реальности она получает немного другие данные. Обычная метрика может сказать: “распределения отличаются”. Wasserstein-подход показывает глубже: насколько далеко одно распределение нужно “перенести”, чтобы оно стало похоже на другое. Идея пришла из оптимального транспорта. Представьте две кучи песка: одна форма - это первое распределение, другая второе. Расстояние Вассерштейна считает минимальную работу, которую нужно сделать, чтобы переложить песок из первой формы во вторую. Почему это важно для ML: * помогает анализировать сдвиг данных * полезно для domain adaptation * даёт инструменты для устойчивого обучения * применяется в генеративных моделях * помогает изучать обобщение нейросетей * используется в reinforcement learning В отличие от KL-дивергенции, Wasserstein distance учитывает геометрию пространства. Поэтому два распределения могут отличаться не просто “сильно” или “слабо”, а с учётом того, где именно находятся эти различия. На практике это важно там, где модель должна быть устойчивой: новые домены, шумные данные, генерация, перенос знаний, обучение агентов. Wasserstein Learning Theory даёт более точный язык для современной ML-задачи: не просто подогнать модель под датасет, а понять, как она ведёт себя при изменении распределения данных.

Claude 5 Fable - кратко: - почти на всех проверенных бенчмарках модель показывает уровень SOTA - особенно сильна в разработке
+2
Claude 5 Fable - кратко: - почти на всех проверенных бенчмарках модель показывает уровень SOTA - особенно сильна в разработке, работе со знаниями, vision-задачах и научных исследованиях - чем длиннее и сложнее задача, тем сильнее Fable 5 отрывается от других моделей Claude - модель эффективнее расходует токены, чем прошлые версии Claude - Fable 5 удерживает фокус на задачах длиной в миллионы токенов и улучшает результат, используя собственные заметки Fable 5 - это не просто «лучше бенчмарки». Она эффективнее, дольше работает без потери контекста, лучше управляет длинными задачами и даёт больше возможностей для сложных агентных сценариев. GPT-5.6 уже близко. Интересно, выпустит ли OpenAI свой аналог Mythos. Во время раннего тестирования Stripe заявила, что Fable 5 сжала месяцы инженерной работы до нескольких дней. В Ruby-кодовой базе на 50 млн строк модель за один день провела миграцию по всему репозиторию - работу, которая вручную заняла бы у целой команды больше двух месяцев. https://www.anthropic.com/news/claude-fable-5-mythos-5

20 июня – Летняя школа ШЕН Центрального университета Хочешь узнать, как применять математику, код и машинное обучение в биоло
20 июня – Летняя школа ШЕН Центрального университета Хочешь узнать, как применять математику, код и машинное обучение в биологии и медицине, но не понимаешь, с чего начать? Приглашаем на Летнюю школу программы «ИИ в биотехе» Школы естественных наук Центрального университета! Программа реализуется совместно с инженерной школой и факультетом биоинженерии и биоинформатики МГУ, а также индустриальными партнёрами: Genotek и BIOCAD. Что будет на Летней школе: — Узнаешь, как ИИ меняет биотех: от анализа геномов до дизайна лекарств с помощью нейросетей; — Послушаешь лекции от ведущих экспертов: Дмитрия Пензара, Александра Ракитько, Александра Надолинского и победителя конкурса «Биомолекула» Андрея Кузнецова; — Познакомишься с магистерской программой «ИИ в биотехе»: направления подготовки, курсы, преподаватели, карьерные перспективы; — Примешь участие в квестах и получишь шанс выиграть фаст-трек на грант до 75% от стоимости обучения. Фаст-трек – это возможность поступить в магистратуру, минуя онлайн-контест: достаточно пройти собеседование и ревью анкеты. Как попасть на Летнюю школу? Регистрация по ссылке. Отбор участников – до 15 июня. Результаты пришлём на почту. Место проведения: кампус Центрального университета, м. Маяковская, ул. Гашека, 7 Ждём тебя на Летней школе «ИИ в биотехе»!

WSJ пишет, что OpenAI сделала первый официальный шаг к IPO. Компания конфиденциально подала черновые документы для выхода на
WSJ пишет, что OpenAI сделала первый официальный шаг к IPO. Компания конфиденциально подала черновые документы для выхода на биржу. Конфиденциальная форма S-1 позволяет OpenAI начать проверку в SEC, не раскрывая сразу выручку, убытки, структуру клиентов, расходы на вычисления и зарплаты руководителей. Так компания может готовиться к листингу, сохраняя чувствительные цифры закрытыми. На прошлой неделе Anthropic уже подала свои конфиденциальные документы для IPO. Поэтому это больше не только гонка моделей, а ещё и гонка капитала между лабораториями, которым нужно финансировать следующее поколение ИИ-инфраструктуры. wsj.com/tech/ai/openai-kicks-off-ipo-process-in-test-of-investor-appetite-for-top-ai-labs-eb7bebe1

Repost from Machinelearning
✔️ OpenAI переделает ChatGPT в суперприложение В ближайшие недели компания проведёт первый крупный редизайн ChatGPT с 2022 года. Сервис трансформируется из диалогового чат-бота в платформу автономных агентов. Обновлённый интерфейс интегрирует партнёрские сервисы для самостоятельного выполнения многошаговых задач без дополнительных промптов и переключения между приложениями. Смена курса обусловлена низкой рентабельностью чат-бота. Перед IPO OpenAI смещает фокус на B2B-сегмент и реструктуризирует продуктовые команды. Бизнес-модель переориентируется на корпоративных клиентов со стабильной монетизацией по аналогии со стратегией Anthropic. ft.com ✔️ Инженер из аппаратного подразделения OpenAI перешёл в Anthropic Anthropic наняла бывшего инженера OpenAI Клайва Чана для разработки собственных ИИ-чипов. До этого у компании не было профильного аппаратного подразделения. В OpenAI Чан проектировал кастомный кремний и участвовал в партнёрстве с Broadcom. До этого он разрабатывал чипы для обучения ML-моделей в Tesla Autopilot, где отвечал за архитектуру дата-центров и энергоэффективные вычисления. Найм Чана должен помочь Anthropic сформировать команду аппаратных инженеров. Переход на собственное железо планируется для снижения себестоимости вычислений и повышения маржинальности. Clive Chan в сети Х ✔️ TSMC испытывает дефицит производственных мощностей Google заказала у Intel производство более 3 млн TPU на 2028 год. Nvidia пока не заключила контракт, но тестирует техпроцессы Intel для будущей GPU-архитектуры Feynman. Причина переноса заказов - из-за нехватки производственных линий у TSMC. Глава TSMC подтвердил, что индустрия не сможет покрыть спрос на ИИ-чипы в ближайшие несколько лет. Дефицит позволил Intel привлечь новых клиентов на фоне прошлых финансовых убытков и срывов дедлайнов. Параллельно SK Hynix проверяет совместимость своей памяти с новыми технологиями упаковки Intel. theinformation.com ✔️ Sakana AI займётся алгоритмической эволюцией ИИ Японский стартап открыл исследовательскую лабораторию рекурсивного самосовершенствования (RSI). Цель - создание сетей, которые итеративно переписывают, тестируют и оптимизируют собственный код. Компания рассчитывает, что алгоритмическая эволюция позволит отказаться от парадигмы масштабирования вычислений. В портфеле стартапа уже есть система LLM-Squared, где одни LLM создают алгоритмы обучения для других, и платформа AI Scientist, автоматизирующая научные исследования. Следующий этап дорожной карты Sakana AI - разработка автономных агентов, способных улучшать свою архитектуру без участия человека. sakana.ai ✔️ Динамический биллинг лишил 74% бизнеса контроля над ИИ-бюджетами По данным неопубликованного отчета KPMG, только 26% компаний полностью контролируют свои расходы на ИИ. 50% ведут ограниченный мониторинг, а 22% узнают о затратах постфактум из выставленных счетов. Причина - неготовность финансовых отделов к токенизированному биллингу и динамическому ценообразованию. Из-за непрогнозируемой нагрузки потребление ресурсов в отдельных проектах возрастает до 6 раз. Это приводит к исчерпанию годовых бюджетов на облачные вычисления и API за несколько месяцев. По итогам текущего квартала ожидается пересмотр расходов после получения бизнесом реальных счетов от ИИ-провайдеров. Текущую ситуацию сравнивают с закупками облачных мощностей во время пандемии, за которыми последовало сокращение инфраструктурных бюджетов. wsj.com @ai_machinelearning_big_data #news #ai #ml

Как не потеряться в потоке кандидатов? На каждую DS-вакансию десятки откликов, а работодатели становятся разборчивее: хотят не только технические навыки, но и понимание бизнеса, умение решать реальные задачи. 11 июня в 19:00 Вера Коливерда, старший аналитик данных Райффайзен Банка и преподаватель НИУ ВШЭ, расскажет, какие навыки востребованы в аналитике в 2026 году и как выстроить траекторию. На бесплатном вебинаре разберем задачу предсказания оттока - реальный кейс: сегментация клиентов и алгоритмы ML без учебных датасетов. Подойдет тем, кто входит в DS или хочет структурировать знания для уверенного старта на рынке/ Присоединяйтесь к эфиру 11 июня в 19:00 по ссылке: https://clc.to/erid_2W5zFG65QBs Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFG65QBs

Rust теперь можно компилировать в JVM bytecode. rustc_codegen_jvm - экспериментальный backend для компилятора Rust, который б
Rust теперь можно компилировать в JVM bytecode. rustc_codegen_jvm - экспериментальный backend для компилятора Rust, который берёт Rust MIR и превращает его в .class файлы, а затем собирает runnable .jar под JVM 8+. Что уже заявлено: - генерация исполняемого .jar - поддержка базового core - if/else, match, for, while, loop - structs, tuples, arrays, slices, enums - traits, closures, dynamic dispatch - function pointers, recursion, generics - часть unsafe, включая unions - оптимизации вроде constant folding, propagation и dead code elimination Пайплайн выглядит так: Rust frontend → MIR → OOMIR → JVM classfile → R8 → .jar https://github.com/IntegralPilot/rustc_codegen_jvm

Liquid AI выпустили две компактные модели под японский язык: речевую LFM2.5-Audio-1.5B-JP и языковую LFM2.5-1.2B-JP-202606. С
Liquid AI выпустили две компактные модели под японский язык: речевую LFM2.5-Audio-1.5B-JP и языковую LFM2.5-1.2B-JP-202606. Самое интересное здесь - речевая модель. LFM2.5-Audio-1.5B-JP умеет принимать японскую речь и отвечать японской речью напрямую. Это не связка из ASR + LLM + TTS, а единая end-to-end модель для полного речевого цикла. Что заявляют по LFM2.5-Audio-1.5B-JP: - 1.5B параметров - первая японская speech-to-speech модель Liquid AI - превосходит J-Moshi примерно на 77B параметров - показывает уровень, близкий к Qwen2.5-Omni-3B - подходит как базовая модель для дальнейшего дообучения Вторая модель - LFM2.5-1.2B-JP-202606, обновлённая японская LLM на 1.2B параметров. Предыдущая версия уже обходила Qwen3-1.7B и Llama 3.2 1B на JMMLU, M-IFEval и GSM8K. В новой версии улучшили смесь японских данных, промежуточное обучение и пост-тренинг. https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B-JP https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP-202606

🚀 GPU-библиотека для классического машинного обучения FlashLib предлагает высокопроизводительные реализации операторов машинного обучения, таких как kmeans, PCA и DBSCAN, с использованием Triton и CuteDSL. Библиотека позволяет эффективно обрабатывать данные на GPU, обеспечивая простоту использования и высокую скорость выполнения. 🚀Основные моменты: - Поддержка 15 высокоуровневых примитивов для машинного обучения. - Информативный API для оценки производительности операций. - Оптимизированные реализации для кластеризации, регрессии и декомпозиции. - Легкая интеграция с PyTorch и sklearn. 📌 GitHub: https://github.com/FlashML-org/flashlib #python

🚀 Упрощение разработки с GSD Redux GSD Redux — это легковесная система для метапромптинга и управления контекстом, помогающая разработчикам эффективно работать с AI. Она решает проблему деградации качества контекста, позволяя создавать четкие спецификации и контролировать процесс разработки. 🚀 Основные моменты: - Легкая интеграция с различными AI-платформами. - Поддержка автоматизации разработки и управления проектами. - Обеспечивает безопасность и прозрачность через аудит. - Подходит для индивидуальных разработчиков и небольших команд. 📌 GitHub: https://github.com/open-gsd/get-shit-done-redux #javascript

Repost from Machinelearning
⚡️ Сэм Альтман подтвердил возвращение OpenAI к разработке воплощенного ИИ Проект вырос из исследований по симуляции физическо
⚡️ Сэм Альтман подтвердил возвращение OpenAI к разработке воплощенного ИИ Проект вырос из исследований по симуляции физического мира, к которым присоединилась команда видеогенератора Sora. На начальном этапе компания сосредоточится на разработке специализированных машин для помощи в строительстве инфраструктуры.   Конечная цель проекта - обеспечить каждого человека персональным роботом, способным выполнять любые бытовые и рабочие поручения. В 2020 году компания закрыла предыдущие проекты в робототехнике из-за дефицита обучающих данных. Для перезапуска направления OpenAI открыла наем инженеров по аппаратному обеспечению, системной интеграции и ML. Возвращение связано с развитием воплощенного ИИ: взаимодействие алгоритмов с физической средой позволит собрать массивы данных, необходимых для обучения AGI. @ai_machinelearning_big_data #news #ai #ml

VINS-120K - полезный датасет для следующего этапа image editing моделей: редактирование изображений в 4K+ без развала мелких
VINS-120K - полезный датасет для следующего этапа image editing моделей: редактирование изображений в 4K+ без развала мелких деталей. Сейчас многие модели неплохо правят обычные картинки, но на сверхвысоком разрешении быстро всплывают проблемы: текстуры мажутся, локальные правки портят соседние области, а результат выглядит хорошо только после уменьшения. Для реального продакшена этого мало. VINS-120K закрывает именно этот разрыв. В датасете 120 тысяч троек: инструкция, исходное изображение и отредактированная версия. Все изображения выше 4K, данные собраны из реальных видео высокого разрешения и качественных открытых источников, затем отфильтрованы по визуальному качеству, соответствию инструкции и эстетике. Покрытие тоже широкое: 13 типов редактирования в 4 категориях - локальные правки, глобальные изменения, движение камеры и персонализированная генерация. Paper: https://modelscope.ai/papers/2605.23518 Dataset: https://modelscope.cn/datasets/vivo/VINS-120K

Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉 Ищем Senior/Senior+ AI Engineer и про
Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉 Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения. Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте. А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀

PaddleOCR-VL 1.6 официально вышел PaddlePaddle выпустили PaddleOCR-VL 1.6 - новую версию модели для распознавания документов.
+1
PaddleOCR-VL 1.6 официально вышел PaddlePaddle выпустили PaddleOCR-VL 1.6 - новую версию модели для распознавания документов. Результат: 96.33% на OmniDocBench. Это новый SOTA, причём модель обошла как open-source, так и закрытые решения в распознавании текста, формул и таблиц. Что улучшили: - первое место на OmniDocBench v1.5 и Real5-OmniDocBench - заметно лучше распознаёт таблицы, обычный текст и редкие символы - улучшено распознавание печатей, отдельных фрагментов и графиков - полная совместимость с архитектурой v1.5 - миграция не нужна - можно подключать как plug-and-play Где это полезно: - финансовые контракты - юридические документы - исследовательские отчёты - исторические архивы - RAG-пайплайны - подготовка качественных данных для LLM https://github.com/PaddlePaddle/PaddleOCR #PaddlePaddle #PaddleOCR #AI #ComputerVision

🖥 Python в 2026 - уже не просто «первый язык программирования». Это инструмент, с которым можно автоматизировать задачи, пис
🖥 Python в 2026 - уже не просто «первый язык программирования». Это инструмент, с которым можно автоматизировать задачи, писать скрипты, собирать проекты, работать с данными, делать ботов и использовать ИИ как ускоритель разработки. Но есть проблема: большинство новичков учат Python кусками. Немного синтаксиса, пару задачек, немного теории - и потом ступор: «а что с этим делать дальше?» Этот курс сделан иначе. Здесь упор на реальную практику: вы не просто смотрите уроки, а постепенно учитесь писать код, разбирать ошибки, собирать рабочие решения и понимать, как Python применяется в нормальных задачах. Что внутри: - Python с нуля понятным языком - практика вместо бесконечной сухой теории - реальные задачи и проекты - автоматизация рутины - работа с файлами, данными и API - понятная логика программирования - современный подход к разработке с ИИ - отдельный акцент на вайбкодинг Вайбкодинг -это умение правильно ставить задачу, проверять код, понимать результат и ускорять работу без слепого копирования. В 2026 году это уже не бонус, а нормальный навык разработчика. Сегодня скидка 60 процентов: https://stepik.org/course/288218/info

🐍 Python Roadmap 2026: наконец-то полноценная актуальная карта изучения Python, а не список ссылок «разберись сам» На GitHub
🐍 Python Roadmap 2026: наконец-то полноценная актуальная карта изучения Python, а не список ссылок «разберись сам» На GitHub выложили большой русскоязычный роадмап по Python на 2026 год - от первых скриптов до уровня Middle+/Senior. Маршрут собран под современный Python: - Python 3.13+ - free-threaded mode без GIL - JIT - uv вместо боли с pip/venv/poetry - ruff, pyright, pytest, hypothesis - async-first подход - типизация - CPython внутри - web, базы, ML/AI, DevOps и архитектура В роадмапе есть нормальная последовательность: сначала окружение и база, потом идиомы, ООП, типы, стандартная библиотека, асинхронность, тестирование, внутренности CPython, web, базы данных, AI-направление, продакшн и архитектура. Отдельный плюс - практический формат. На каждом этапе есть задачи, чеклисты, примеры кода и бесплатные ресурсы. То есть это не мотивационная простыня, а маршрут, по которому реально можно идти несколько месяцев и видеть прогресс. Для новичков - понятный путь без хаоса. Для джунов - способ закрыть дыры. Для тех, кто уже пишет на Python - хороший чеклист, чтобы понять, где ты всё ещё плаваешь. Python в 2026 году - это tooling, типы, async, инфраструктура, AI и продакшн-дисциплина. И этот роадмап как раз про такой Python. https://github.com/justxor/pythonroamap2026

Я Наша подписка на Claude истекла. Начальник: Давай создадим нашего собственного Claude, чтобы снизить затраты для нашего ста
Я Наша подписка на Claude истекла. Начальник: Давай создадим нашего собственного Claude, чтобы снизить затраты для нашего стартапа?

Repost from Machinelearning
✔️ MiniMax показали тизер Sparse Attention для M3. На 1M токенов - 9.7x ускорение префилла и 15.6x на декоде против M2. В мар
✔️ MiniMax показали тизер Sparse Attention для M3. На 1M токенов - 9.7x ускорение префилла и 15.6x на декоде против M2. В марте их лид по претрейну писал, почему для M2 откатились на full attention: эффективные варианты не были готовы к проду. Спустя полгода готовы. Схема двухстадийная. Сначала лёгкая index-ветка выбирает релевантные блоки KV. Дальше sparse attention считается только по ним, а не по всему контексту. Дешёвый 1M-контекст в опенсорсе - это другой режим работы с длинным контекстом и другая экономика инференса для агентов. Ждём техрепорт и замеры качества. Ну и приятно, что всё это в опенсорсе. https://x.com/MiniMax_AI/status/2059286515155599595 #MSA #OpenSource #M3