Душный NLP
Ir al canal en Telegram
Разборы свежих статей от NLP-специалистов Яндекса. Подробно, полезно, с душ(нот)ой. Вопросы и предложения > @yandex_ml_brand
Mostrar más6 426
Suscriptores
+224 horas
+187 días
+1830 días
Carga de datos en curso...
Canales Similares
Nube de Etiquetas
Menciones Entrantes y Salientes
---
---
---
---
---
---
Atraer Suscriptores
julio '26
julio '26
+2
en 0 canales
junio '26
+108
en 1 canales
Get PRO
mayo '26
+189
en 0 canales
Get PRO
abril '26
+192
en 3 canales
Get PRO
marzo '26
+119
en 2 canales
Get PRO
febrero '26
+171
en 3 canales
Get PRO
enero '26
+216
en 3 canales
Get PRO
diciembre '25
+191
en 5 canales
Get PRO
noviembre '25
+171
en 4 canales
Get PRO
octubre '25
+117
en 2 canales
Get PRO
septiembre '25
+174
en 6 canales
Get PRO
agosto '25
+81
en 5 canales
Get PRO
julio '25
+158
en 8 canales
Get PRO
junio '25
+85
en 3 canales
Get PRO
mayo '25
+111
en 2 canales
Get PRO
abril '25
+259
en 14 canales
Get PRO
marzo '25
+110
en 2 canales
Get PRO
febrero '25
+160
en 4 canales
Get PRO
enero '25
+178
en 2 canales
Get PRO
diciembre '24
+197
en 4 canales
Get PRO
noviembre '24
+437
en 8 canales
Get PRO
octubre '24
+254
en 21 canales
Get PRO
septiembre '24
+171
en 0 canales
Get PRO
agosto '24
+370
en 19 canales
Get PRO
julio '24
+502
en 1 canales
Get PRO
junio '24
+1 724
en 5 canales
Get PRO
mayo '24
+936
en 2 canales
| Fecha | Crecimiento de Suscriptores | Menciones | Canales | |
| 01 julio | +2 |
Publicaciones del Canal
Ускорение генерации роллаутов с помощью спекулятивного декодинга
Самая времязатратная часть в GRPO — это генерация траекторий модели, на которую приходится около 72% всего процесса. Поэтому хочется ускорить генерацию роллаутов — и в сегодняшней статье NVIDIA рассказано, как это можно сделать.
По большому счёту, генерация роллаутов — это обычный инференс модели. При наивном инференсе видеокарты используются не на полную. Помочь решить эту проблему способен спекулятивный декодинг. Его суть заключается в том, что маленькая драфт-модель, учится предсказывать, какие токены сгенерирует основная модель. Последней остаётся лишь верифицировать, правильную ли гипотезу выдала драфт-модель. В режиме спекулятивного декодинга разрыв между компьютом и трансфером памяти сокращается.
Авторы проверяли свою гипотезу на небольшой модели — Qwen3-8B. Обучали её на математическом датасете DAPO-Math-17K, а валидировали — на AIME-2024. При этом других наборов данных не использовали, что немного подозрительно. Возможно, именно из-за такого выбора сетапа получились хорошие результаты. Кроме того, замеры проводили на Qwen3-235B, но в симуляции, из-за чего полученные результаты могут отличаться от реальных.
Модель обучали в двух режимах. Первый, RL-Think, предполагает простое обучение после SFT (или продолжение RL-стадии поверх уже ризонящей модели), а второй, RL-Zero, — RL сразу поверх претрейн-модели. Во втором случае спекулятивные модели вроде EAGLE дают лучший acceptance.
Касательно самого предсказания: авторы пришли к выводу, что наибольшее ускорение получается при трёх спекулируемых токенах. Интересно, что при предсказании уже пяти токенов генерация, напротив, замедляется.
В RL-Zero ускорение генерации — 1,77x против 1,54x в RL-Think: драфтеру проще предсказывать распределение менее обученной политики. На общем времени GRPO-шага разрыв уменьшается, потому что спекулятивный декодинг ускоряет только генерацию, а пересчёт log-prob и шаг оптимизатора занимают примерно то же время, что и без него. В симуляции с Qwen3-235B ускорение составило 2,5х. Но, опять же, в реальных рабочих сценариях прирост может быть скромнее.
В дополнение авторы предлагают доучивать драфт-модель во время GRPO, чтобы она не отставала от меняющейся политики основной модели. Делается это так: берутся скрытые представления основной модели, на них навешивается
.detach() , после чего они отправляются в драфтер. Такая система позволяет обучать драфтера вместе с основной моделью, не оказывая на неё влияния (схема на приложенном изображении).
Разбор подготовил Павел Васильев
Душный NLP| 2 | Задача credit assignment и подходы к её решению
Когда модель успешно выполняет задачу, неплохо бы понимать, какие именно действия привели к положительному результату. Выяснить это — задача credit assignment, о чём существует немало статей. Есть несколько основных подходов к проблеме:
• Temporal-difference (TD) — вклад текущего шага оценивается как разница оценки награды на текущем шаге и дисконтированной оценки на следующем.
• Beginning/tail — предполагает апдейт только токенов в начале и конце роллаутов.
• Энтропийный — предполагает использование в RL токенов с высокой энтропией и низкой вероятностью.
Это не все подходы, но сегодня кратко поговорим о них и статьях, в которых они реализуются.
Exploiting Tree Structure for Credit Assignment in RL Training of LLMs
В статье предложили temporal-difference-метод TEMPO. Для группы роллаутов строится префиксное дерево, в котором для каждого префикса оценивается средняя награда V(s). Авторы модифицируют GRPO-advantage, добавляя TD=V(s+1)-V(s). TD отлична от нуля только в точках ветвления, которые составляют незначительную часть токенов. Улучшение на математических бенчмарках составляет от 2 до 7 пп.
Token-Efficient RL for LLM Reasoning
В статье реализуется аналогичный подход с TD. Авторы предлагают два метода. Первый — S-GRPO, в рамках которого обновляются только префиксы роллаутов и семплируются K токенов из продолжения, но последнее можно рассматривать как регуляризацию. Второй метод из статьи — T-SPMO. Он аналогичен TEMPO, но апдейт делается только в точках ветвления префиксного дерева.
Подходы показывают хорошие приросты качества на бенчмарках с умножением трёхзначных чисел и задачах вербальной арифметики.
Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning
Авторы отмечают, что старт генерации определяет итоговое качество. Поэтому предлагают оптимизировать только префикс, постепенно увеличивая его длину. Для снижения дисперсии для каждого префикса семплируют несколько продолжений, а затем усредняют по ним награду.
Подход выигрывает у обычного GRPO на AIME на 8–16% в зависимости от модели. Эксперименты проводили на разных версиях Qwen3.
GRPO-λ: Credit Assignment improves LLM Reasoning
Предлагают умножать advantage на вес, зависящий от позиции в тексте. В статье рассматривают два варианта веса: both, при котором обновляются и начало, и конец роллаута; и recent, где с экспоненциальным затуханием обновляется только конец. Подход позволяет получить прибавку 3–4 пп по сравнению с обычным GRPO.
Beyond High-Entropy Exploration: Correctness-Aware Low-Entropy Segment-Based Advantage Shaping for Reasoning LLMs
Авторы делят роллауты на сегменты трёх типов: токены с высокой энтропией, короткие сегменты с низкой и длинные с низкой. Показана польза от оптимизации не только высокоэнтропийных токенов, но и низкоэнтропийных сегментов, стабильно встречающихся в положительных роллаутах. Метод даёт значительный прирост поверх GRPO на трёх математических бенчмарках.
Разбор подготовил ❣ Георгий Иванов
Душный NLP | 3 411 |
| 3 | Технический отчёт Step 3.5 Flash — часть 2/2
Продолжаем разбирать техрепорт Step 3.5 Flash. В прошлый раз говорили об архитектуре, в этот — об обучении.
Предварительное обучение состояло из нескольких этапов: pretrain на базовые способности (14,6T токенов, 4K контекст). Сведение (annealing) для усиления рассуждений, кодовых и научных знаний (3T токенов, расширение конекста с 4K до 32K). Первая стадия мидтрейна для навыков SWE и использования тулов (386B токенов, 21% pretrain tokens replay, 32k контекст) и вторая стадия мидтрейна для обучения работе с длинным контекстом и агентскими сценариями (364B токенов, 128K контекст).
Для посттрейна готовят SFT-базу для экспертов в два этапа. Первый — стандартный; включает общие знания, следование инструкциям, математику, код, использование инструментов и так далее. Второй — настройка на узкие темы: экспертная химия и синтетическая арифметика. Финальный датасет состоит из 7,23B токенов, из которых 38,8% — это код. С помощью экспертов генерируют решения на промпты из SFT и заново обучают SFT, но с генерациями экспертов.
После дистилляции экспертов в SFT идёт RL. Авторы долго стремились стабилизировать обучение. Среди причин нестабильности — длинные цепочки ризонинг-генераций с отложенной наградой, возможные «скачки» градиентов при ошибке даже в одном токене и шум, возникающий, если на генерации и обучении вероятности токенов считаются по-разному.
Для стабилизации применяют Metropolized Independent Sampling — выбрасывают из обучения токены со слишком высокой или низкой активностью, а также траектории с геометрическим средним активаций выше или ниже порога. Для обрезанных по длине генераций вместо нулевого реворда берут выход value-модели как оценку возможной награды незавершённых рассуждений. Так даже при 20% оборванных генераций стабильность обучения сохраняется.
Награда считается отдельно для RLVR и RLHF. В первом случае есть две части: rule-based (для каждого среза подобран отдельный verifier) и model-based для STEM-дисциплин на основе OSS-120B со сложным промптом. В RLHF применяется генеративная награда в режиме pairwise, генерации сравниваются с использованием критерия Бредли-Терри, что позволяет уйти от абсолютных значений наград и оптимизироваться на ранжирование ответов модели.
В качестве эталона предположительно используется Replay Buffer. Для улучшения стабильности генерациям с лишним переключением языков, чрезмерной уверенностью и выдуманными цитатами присваивается награда 0. Используется мета-ревард-модель (MetaRM), которая даёт прирост на бенчмарках 0,5–3%. Для обучения реворд-модели используется дополнительный этап SFT, RL не раскрывается. Награда для агентных задач — rubric-based LLM с тернарными суждениями. Выходы ассиметрично проецируются в бинарную награду.
Данные для обучения использованию инструментов не синтезированы внешней LLM. Авторы строят жёсткий граф логики вызова инструментов: например, позволяют редактировать файл только после его открытия. Дальше генерируют данные в цикле Sample-Execute-Verify: модель вызывает инструмент, работает с ним, результаты оцениваются, фильтруются траектории с ошибками. Получается около 100K сценариев на миллиарды токенов с вызовом инструментов и без ошибок.
Для кодовых агентов модель учат генерировать среды в собственном пайплайне на основе SWE-factory. Получают 50 тысяч сред на 20 языках. Также добавляют опенсорные среды вроде SWE-smith и R2E-Gym. Что касается ресёрча и поисковых агентских сценариев, тут интересен метод отбора данных. Step 3.5 обучали только на задачах, которые DeepSeek-R1 не может решить без инструментов. Процесс гарантирует, что для решения задачи необходимо использование поиска.
Модель показывает хорошие результаты в математических бенчах. В других доменах есть просадки,но стоит помнить, что Step 3.5 Flash — значительно меньше многих конкурентов, с которыми сравнивается. В конце мая StepFun выпустила Step 3.7 Flash. Она превосходит версию 3.5 во всех бенчмарках, а в SimpleVQA обходит даже GPT-5.5.
Разбор подготовил ❣ Антон Селиванов
Душный NLP | 2 533 |
| 4 | BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution
Сделать хороший Code Side-by-Side силами краудсорсинга довольно сложно: сессия оценивается не целиком, вместо полного кода — ошмётки, иногда из совершенно незнакомой оценивающим области. Сегодня разберём статью о новой платформе, которая должна решить эту проблему.
В отличие от популярной Chatbot Arena, BigCodeArena позволяет исполнять код, сгенерированный LLM, и взаимодействовать с ним и его результатами. Авторы отмечают: зачастую системы оценки слишком сосредоточены на том, чтобы код был корректным, но закрывают глаза на другие его аспекты. Например, во многих областях код рисует визуал, и этот визуал должен быть приятным.
Для этого:
• Оценивают сессию целиком с самой первой реплики — весь диалог с LLM часто бывает похож на вайб-кодинг.
• Самое главное — настроили execution sandbox, чтобы оценивающие могли увидеть результаты выполнения кода.
• Добавили возможность редактировать и запускать оцениваемый код, чтобы тестить его устойчивость.
За полгода на BigCodeArena разметили 14 тысяч сырых диалогов с LLM. 4,7 тысячи диалогов, где было больше одной реплики и происходило исполнение кода, собрали в отдельный датасет. Там всё по-честному: кроме выбора, кто лучше ответил, авторы попросили пользователей платформы оценивать корректность, эффективность, читаемость, удобство поддержки и UI/UX-кода. Собранные диалоги помогли объективно оценить, какие из моделей лучше работает ассистентами в разных областях и отдельно сравнить их как оценщиков кода.
Оценщиков кода в дальнейшем используют для того, чтобы масштабировать ту самую тяжёлую краудсорсинговую разметку. Из исследования видно, что добавление исполнения кода в контекст позволяет оценщикам точнее сравнивать два диалога-сессии.
В рейтинге моделей, лучше всего справляющихся с оценкой кода, нет ничего неожиданного: победили сильнейшие. Их никак не файнтьюнили, всё работает на обычных промптах.
Платформа BigCodeArena доступна на GitHub, датасет — на HuggingFace.
Разбор подготовил ❣ Иван Каргапольцев
Душный NLP | 2 707 |
| 5 | Технический отчёт Step 3.5 Flash — часть 1/2
Step 3.5 Flash [hf] — опенсорсная MoE-модель на 196 миллиардов параметров, из которых 11 миллиардов активные.При таком размере модель демонстрирует конкурентные результаты в сравнении с более крупными опенсорсными и проприетарными моделями. Разберём, как устроена Step 3.5 Flash.
Архитектура
Одна из главных целей, которую ставили перед архитектурой разработчики — создать модель с низкой задержкой (latency) для использования в агентских сценариях. Добиваются этого с помощью гибридного механизма внимания, sparse MoE и Multi Token Prediction (MTP). В каждом MoE-слое — 288 routed-экспертов и один shared-эксперт, при этом для каждого токена активируются восемь routed-экспертов. Модель содержит 45 слоёв. По сравнению с современными открытыми MoE-моделями (DeepSeek-V3.2, Qwen-3.5, GLM-5), здесь больше мелких экспертов, более высокая sparsity и меньшее число слоёв, что снижает вычислительные затраты на один шаг инференса.
Авторы используют схему 3:1 — последовательных слоя внимания используют механизм скользящего окна (sliding-window attention, SWA), а каждый четвёртый — классический (full attention, FA). Есть Grouped Query Attention с восемью KV-головами (GQA-8), что даёт эффективное распределение KV-кэша на стандартных нодах с восемью GPU и тензорный параллелизм на восемь частей. Это ведёт к увеличению утилизации памяти. Attention становится memory-bound, освободившиеся вычислительные ресурсы идут на MTP — speculative drafting и verification.
Изначально метод чередования слоёв (3 SWA на 1 FA) уступал классической FA-архитектуре по качеству на бенчмарках. Авторы смогли исправить эту проблему, увеличив число query-голов с 64 до 96. Вторая модификация — Head-Wise Gated Attention, который в SWA снижает влияние шумовых активаций в случаях, когда релевантный контекст отсутствует внутри локального окна.
В модели используется стандартный Sparse MoE с fine-grained-сегментацией, при которой отдельные подпространства скрытого представления маршрутизируются независимо. Для лучшего распределения токенов по экспертам применяется механизм EP-Group Balanced MoE Routing, который оптимизирует равномерное распределение токенов по экспертам и по GPU.
Используют три MTP-головы. В течение обучения учится только одна, а остальные две — лишь на последней стадии посттрейнинга. Добавляют также position-dependent loss reweighting, чтобы снизить влияние далёких токенов на лосс и не переучиваться на их предсказание.
Нестабильности в обучении
Авторы описывают три фактора нестабильности, с которыми боролись во время претрейна: спайки в лоссе, «мёртвые» эксперты и «взрывы» экспертов. Первые выявили в процессе обучения — обнаружили накопление ошибки сложения при вычислении полярной декомпозиции в оптимизаторе Muon. Смена типа данных с bfloat16 на float16 исправила проблему.
Даже при хорошем роутинге эксперты могут либо перестать учиться, либо генерировать «вредные» активации. Shared-эксперт может «давить» отдельных экспертов, не позволяя им учиться; плохо обученный эксперт способен «игнорироваться» впоследствии; при идеальном роутинге эксперты «соревнуются» даже за неподходящие им токены — всё это приводит к коллапсу отдельных экспертов. Таким образом, статистика роутинга — не показатель здоровья обучения: необходимо отслеживать нормы выходных активаций, весов, динамику изменений, распределение по экспертам. И использовать эти метрики для диагностики и стабилизации обучения.
Существует обратная проблема — «взрывы» активаций. Они происходят, когда эксперт, который обрёл узкую специализацию, даёт высокие активации важным для себя биграммам, особенно частотным. При использовании pre-norm ничто не ограничивает абсолютные значения при добавлении к residual. Если через гейт SwiGLU проходят активации, рост становится ещё сильнее. Muon при обучении может усиливать подобные паттерны, приводя к положительной обратной связи между активациями и обновлениями весов. Для борьбы с этим авторы использовали клиппинг на выходные активации и на веса экспертов.
Разбор подготовил ❣ Антон Селиванов
Душный NLP | 3 067 |
| 6 | Технический отчёт DeepSeek-V4 — часть 2/2
Продолжаем изучать технический отчёт DeepSeek-V4. В прошлый раз мы разобрали архитектуру модели и поговорили о квантовании. Сегодня речь пойдёт об обучении DeepSeek-V4.
При сборе данных для претрейна фокусируются на датасетах с большими, значимыми контекстами, кодовых и математических наборах. В итоге объём всего датасета составил 32 триллиона токенов. Разработчики отдельно отфильтровывали контент, созданный другими моделями, чтобы он не попал в датасет.
Любопытна схема претрейна. Для AdamW установили такие гиперпараметры: 𝛽1 = 0,9, 𝛽2 = 0,95, 𝜀 = 10−20. Последний обычно стараются не делать таким низким, потому что это чревато расходимостью модели.
Размер батча на претрейне — 75 миллионов токенов. Вероятно, такого большого объёма позволил достичь Muon. Само обучение происходит с постоянно растущим размером батча: сперва 16 тысяч токенов, потом — 64 тысячи, а затем — миллион. На первом миллионе токенов модель обучается исключительно с dense-аттеншеном. Ещё какое-то время уходит, чтобы «прогреть» модель под lighting Indexer в CSA.
В случае нестабильностей модель и роутер обучают отдельно. Если происходит спайк, модель откатывается на несколько шагов назад и учится в специальном режиме. В нём делается дополнительный форвард за dt шагов до сэмпла, чтобы зафиксировать выбранных экспертов. Роутер обучается с «опозданием» как раз на эти dt шагов. Авторы говорят, что такой метод делает обучение модели на триллионы параметров гораздо более стабильным. И это при том, что спайки встречаются не очень часто, поэтому штраф получается небольшим. Для борьбы с резким ростом активаций SwiGLU их ограничивают на отрезке от -10 до 10.
Что касается посттрейна, то, как и в DeepSeek-V2, на разные домены обучаются разные модели-специалисты. Учат сразу в трёх режимах:
• non-think — для быстрых, интуитивных ответов, основанных на привычках или простых правилах;
• think high — для вдумчивого анализа; медленнее, но точнее, чем предыдущий режим;
• tink max — для ризонинга «на полную».
В последнем случае модели дают системный промпт следующего содержания.
Ты ОБЯЗАН очень тщательно обдумать задачу и всесторонне разобрать проблему, чтобы выявить ее причины, строго проверяя свою логику на всех возможных ситуациях, пограничных случаях и сценариях. Распиши весь процесс рассуждения, документируя каждый шаг, рассмотренную альтернативу и отвергнутую гипотезу, чтобы не осталось ни одного непроверенного предположения.
Для задач, у которых нет однозначного решения, параллельно обучают ту же LLM в режиме генеративной реверод-модели. Таким образом модель умеет исполнять две роли: решателя и оценщика.
Разработчики также создали свою схему тул-коллинга и для этого ввели специальный DMSL-токен, появление которого, по сути, сигнализирует о тул-колле. В качестве формата тул-коллинга используют .xml — говорят, что его более чем достаточно.
Благодаря большому контекстному окну во время обучения получается держать весь контекст — и в диалоговых сценариях, и при вызове инструментов (схема на изображении). Для промежуточных задач (вроде генерации поисковых запросов или заголовков для пользовательской сессии) используются дополнительные специальные токены.
Несколько обученных специалистов дистиллируются в отдельную модель через обычную KL-дивергенцию. При этом дистиллируется не только top k логитов, а все. Такая full-vocab-дистилляция потребляет огромное количество памяти — сотни килобайт на каждый токен, — поэтому авторы кэшируют только последний слой скрытых представлений учителя, перед финальным линейным слоем. В момент дистилляции подгружается только линейный слой, а логиты полностью реконструируются на лету. Благодаря этому объём занимаемой памяти снижается до менее чем десяти килобайт на токен.
Разбор подготовил ❣ Михаил Хрущев
Душный NLP | 2 886 |
| 7 | Технический отчёт DeepSeek-V4 — часть 1/2
DeepSeek-V4 с нами уже некоторое время в двух версиях: Pro на 1,6 триллиона параметров (49 миллиардов активных) и Flash на 248 миллиардов параметров (13 миллиардов активных). Разберем технический отчёт моделей — и начнем с архитектурных изменений.
Первое — Manifold-Constrained Hyper-Connections (mHC). Это вариант hyper-connection, в котором спектральная норма всех проекций, — а в DeepSeek их четыре — равна единице. Другое важное изменение — два варианта аттеншена: Compressed Sparse Attention (CSA) и Heavily Compressed Attention (HCA).
CSA (изображение 1) имплементирует MLA и включает в себя Sliding Window Attention (SWA) на определённое число токенов. С шагом m токенов слева от скользящего окна каждые 2m токенов (m=4 в обеих моделях) сжимаются в одно представление. Чтобы «доставать» сжатые токены не полностью, а частично, используется lighting Indexer, как в DeepSeek-V3.2-Exp. В свою очередь HCA (изображение 2) сжимает каждые m’ токенов (m’=128) в один KV. Оба метода, как утверждают авторы, позволяют повысить качество на длинных контекстах, а также сделать утилизацию RAM и диска на инференсе более эффективной.
CSA и HCA позволяют существенно оптимизировать хранение KV-кэша. Для сравнения: в Qwen3.5-379B, где 15 слоёв GQA и 45 слоёв GDN, приходится 15360 байт на токен и 90 мегабайт на стейт. В DeepSeek-V4 Pro, где 30 слоёв CSA, столько же DCA и 60 слоёв SWA — 4924 байта на токен и 4 мегабайта на окно.
Дополнительно делают QK-нормы для стабильности и частичный RoPE — вращают только последние 64 измерения, благодаря чему модель получает возможность пропускать сигнал из очень далёких контекстов. Также применяют вспомогательную ветвь (additional branch) SWA к скрытому представлению и attention sink.
Muon в DeepSeek-V4 в целом стандартный, но любопытные вещи есть и тут. Так, обычно в Muon Ньютон-Шульц считается на пять итераций, а в DeepSeek-V4 — на десять. Это позволяет получить единичные сингулярные значения матрицы. Однако кроме этого в отчёте не говорится, какие конкретно плюсы даёт такой подход.
Ещё одно нововведение четвертой DeepSeek — MegaMoE. Это CUDA-имплементация мега-кернела, который управляет всеми EP-коммуникациями. Есть поддержка метода квантования W4A8, в котором веса в четырёх битах, а активации — в восьми. Это позволяет снизить объёмы занимаемой памяти на GPU, что для MoE-модели особенно важно, а также уменьшает объём ZeRO-коммуникаций. Использование MegaMoE позволяет получить ускорение в 1,5–1,73 раза на инференсе и почти в два раза в тех сценариях, когда важна задержка, например, на RL-роллаутах.
Для разработки MegaMoE использовали TileLang — тайловую модель для программирования кернелов. Она позволила создать набор объединённых кернелов (fused kernels), чтобы добиться «оптимальной производительности с минимальными усилиями». В алгебраическую систему TileLang интегрировали решатель задач целочисленного линейного программирования Z3 SMT Solver, что, в теории, позволило TileLang оптимальнее планировать выполнение коммуникаций и вычислений.
Разработчики много сил вложили в batch-invariance, чтобы батчи работали одинаково в любом месте строки, и детерминизм. В отчёте сообщают, что это помогло с отладкой и экспериментами.
Для хранения весов в DeepSeek-V4 используется формат данных MXFP4. Авторы утверждают, что их вариант весов можно деквантовать до blockwise FP8 без потерь. MXFP4 позволяет избежать их и на инференсе. При этом FP8-схема квантизации осталась такой же, как у DeepSeek-V3 — 1х128 и 128х128.
Применяется контекстный параллелизм. По сути, используется обычный RingAttention: на первой коммуникации отправляются все KV, а затем — только сжатые представления. Благодаря этому, а также использованию CSA с HCA, коммуникации становятся очень дешёвыми. Делают и управляемый чекпоинт активаций: с помощью TorchFX строится граф вычислений, а разработчик получает возможность явно указывать, какие активации нужно дропать для повторного вычисления.
Разбор подготовил ❣ Михаил Хрущев
Душный NLP | 3 165 |
| 8 | ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models
Классическая проблема RNN — их строго последовательная природа: каждый шаг зависит от предыдущего, из-за чего обучение и инференс плохо параллелятся и проигрывают трансформерам и SSM (например, Mamba). Но в SSM параллелизма добиваются ценой линейности рекуррентного перехода, ограничивая выразительность моделей.
Команда из Apple предлагает способ избежать этого компромисса: превратить применение RNN из итерационного процесса в решение системы нелинейных уравнений для всей последовательности.
Идея
Вместо того, чтобы последовательно пересчитывать каждое скрытое состояние через предыдущие, предлагают найти всё сразу.
Для решения системы используют два вложенных метода.
1. Внешний уровень — итерации метода Ньютона. На каждом шаге исходная система линеаризуется по якобианам нелинейной функции.
2. На внутреннем уровне — решение линейной системы, которое учитывает блочную би-диагональность матрицы в уравнении. Авторы замечают, что систему уравнений снова можно выразить рекуррентно. Но на этот раз каждый шаг рекурсии представлен в виде матричного умножения со сдвигом: Ax + b.
Рекуррентную систему такого вида можно решить алгоритмом parallel reduction за O(log₂(L)) шагов, где L — длина последовательности. Каждый шаг состоит из большого количества независимых задач, которые эффективно распаралливаются на GPU.
Таким образом, алгоритм хорошо загружает GPU вместо типичных «пары процентов утилизации» на длинных последовательностях.
Имплементация
К системной реализации авторы подошли максимально продакшн-ориентированно: сделали интеграцию с PyTorch + CUDA и полностью зафьюженные кернелы. Достаточно задать только рекуррентную формулу, остальное автоматизируется.
Сложность
На практике метод Ньютона быстро сходится — буквально за 3 итерации. Его результат эквивалентен обычному прогону RNN.
Итоговое время работы алгоритма можно оценить так:
latency = newton_iters ∙ log₂(L) ∙ (L / num_tasks_computed_in_parallel) ∙ time_per_task
Авторы репортят ускорение до космических x655 относительно наивного рекуррентного алгоритма.
Потенциальные проблемы
Дьявол кроется в последнем множителе оценки времени работы — time_per_task. В алгоритме parallel reduction любая отдельная подзадача подразумевает умножение двух матриц, каждая из которых либо якобиан нелинейной функции, либо результат перемножения якобианов.
В общем случае такая операция может быть довольно затратной и убивать выигрыш от параллелизации задачи. Авторы предпочли не упоминать об этом на постере в явном виде.
Именно поэтому в статье рассматривают RNN особого вида, где якобиан — либо диагональная, либо блочно-диагональная матрица с маленьким размером блока. Такие матрицы можно быстро умножать друг на друга.
Итого, применение метода оправдано только для тех RNN, чьи якобианы можно эффективно перемножать.
Разбор подготовил ❣ Михаил Катунькин
#YaICLR26
Душный NLP | 2 967 |
| 9 | Кстати, узнали тут в кулуарах ICLR, что NVIDIA готовит полностью диффузионную LLM на примерно 100B параметров в линейке Nemotron. Представители компании говорят, что качество сопоставимо с авторегрессионными моделями, а за один форвард-пасс демаскирует довольно большие чанки токенов.
В теории это значит, что стоимость инференса для decode-heavy-сценариев — например, кодогенерации или ризонинга — может кратно подешеветь. Но только в том случае, если NVIDIA действительно смогла получить хорошее качество и декодировать хотя бы 6-10 токенов за итерацию. Поживём — увидим, новая модель должна выйти уже вот-вот. | 3 016 |
| 10 | IceCache: Memory-Efficient KV-cache Management for Long-Sequence LLMs
Статья развивает область retrieval-based KV-cache-методов. Основная их идея такава:
1) на префилле: сгружаем KV-кеш на CPU; за счёт этого экономим GPU-память;
2) на декодинге: загружаем обратно на GPU только подмножество наиболее релевантных KV, считаем аттеншен по части токенов; за счёт этого эффективно снижаем seqlen, экономим compute.
Существующие методы загружают кеш последовательными чанками. Проблема такого подхода в том, что релевантные токены разбросаны по памяти, и при загрузке их чанков на GPU переносится много лишних токенов.
IceCache решает это через изменение layout’а KV-cache: страница в памяти определённому токену назначается не по его позиции, а на основе косинусной близости к опорным токенам.
Таким образом, страницы становятся «семантическими», релевантные токены лежат более компактно, занимают меньше чанков, благодаря чему можно уменьшить трансфер CPU —> GPU, а также сократить эффективный seqlen при вычислении аттеншена.
Реализация
В основе метода — кастомная структура данных DCI-tree для задачи приближенного поиска k-ближайших соседей. С её помощью токены распределяются по страницам памяти, а также на шаге декода выбираются наиболее релевантные токены.
На префилле параллельно с вычислением аттеншена происходит оффлоадинг KV-кеша на CPU, а затем индексирование ключей на CPU при помощи DCI-tree. На декодинге для данного query при помощи DCI-tree определяются страницы с релевантными токенами. Те из них, которые не использовались на предыдущем шаге декодинга, дозагружаются из CPU на GPU.
Первые токены в последовательности, attention-синки, всё время находятся в GPU-памяти. То же самое происходит с «хвостом» декодируемых токенов. Как только набирается окно из N декодированных токенов, они асинхронно сгружаются на CPU и индексируются DCI-tree.
Авторы реализовали DCI-tree на C, а также написали CUDA-кернел, эффективно копирующий страницы из CPU-памяти в нужные страницы PagedAttention. Код доступен на GitHub.
Метрики
Avg. accuracy:
1) до ~99% качества полного KV-кеша при бюджете 256 токенов;
2) при бюджете 64 — сопоставим или лучше бейзлайнов с x4 большим кешом.
Latency на llama3.1-8B с 36k seqlen:
1) time to second token: 5,9с., на уровне OmniKV;
2) time per output token: 0,11с., против 0,05с. у OmniKV.
Потенциальные проблемы
Наиболее слабое место метода — необходимость синхронизации GPU и CPU перед вызовом аттеншена на каждом шаге декодинга. Авторы прямо указывают, что половину времени декодинга занимает поиск по DCI-tree, исполняемый на CPU.
Вероятнее всего, для практического применения метода нужно будет заменить DCI-tree на структуру данных, в которой алгоритм поиска соседей адаптирован под GPU. При этом обновление дерева по-прежнему может асинхронно выполняться на CPU.
Разбор подготовил ❣ Михаил Катунькин
#YaICLR26
Душный NLP | 2 338 |
| 11 | Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
Эта работа предлагает бенчмарк не для «статичного решения задач», а для агентов в живой среде, где мир меняется независимо от действий модели. В Gaia2 агент должен работать при временных ограничениях, реагировать на шумные и динамические события, разбирать неоднозначные ситуации и иногда взаимодействовать с другими агентами.
Авторы прямо противопоставляют Gaia2 прежним статичным бенчаркам. Так, например, Gaia — набор 466 реальных вопросов разной сложности. Он проверяет, может ли система найти ответ с помощью рассуждений, мультимодальности, веб-поиска и инструментов; акцент на правильном конечном ответе.
Каждый сценарий в Gaia2 (всего их 1120) — это DAG, снабжённый проверкой действий на уровне записи или изменения состояния — write-action verifier. За счёт этого бенчмарк проверяет не только финальный ответ, но и то, что именно агент сделал в среде, и может использоваться как основа для RL. Gaia2 хорошо показывает trade-off между рассуждением, эффективностью и устойчивостью, который часто сглаживается в более простых бенчмарках.
Gaia2 построен поверх open-source-платформы Agents Research Environments (ARE). Идея в том, что сообществу нужен не только набор задач, но и инфраструктура для построения, проверки и обучения агентов в средах. То есть ARE в этой работе — это фундаментальный слой, на котором можно:
• строить consumer-like environments;
• запускать в них агентов;
• расширять набор сценариев;
• использовать те же среды и для benchmarking, и для training.
Итого Gaia2 про то, что оценка агентов должна переходить от статичных задач к средам, где есть время, изменения, действия и проверяемые последствия. ARE выступает как открытая инфраструктура, которая делает такой переход воспроизводимым для коммьюнити.
Разбор подготовила ❣ Дарья Шатько
#YaICLR26
Душный NLP | 2 294 |
| 12 | Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People
Работа об оценке LLM в агентских сценариях, где важно собирать недостающую информацию: не просто давать ответ, а понимать, когда стоит задать вопрос, какой из них будет самым полезным и когда уже пора действовать.
Для этого авторы строят бенчмарк по задаче Collaborative Battleship (вариация на тему морского боя), где участвуют два агента. Captain — агент, который не видит скрытое состояние поля и должен решать, задавать вопрос или делать выстрел, чтобы найти все корабли. Spotter — второй агент, который видит всё поле и отвечает на вопросы Captain'а в формате «да/нет».
Сам бенчмарк состоит из двух связанных частей:
• SpotterQA проверяет, насколько хорошо Spotter отвечает на вопросы по полю; для этого авторы собирают 931 "golden" вопрос.
• CaptainQA проверяет полную стратегию Captain: как он задаёт вопросы, когда перестаёт собирать информацию и насколько хорошо действует. Авторы собрали 126 полных траекторий игры от 42 участников (т.е. их отыграли человек-человек).
Использовали 18 заранее выбранных раскладок игровых досок размером 8×8, каждая из которых содержала четыре корабля. Игры начинались с пустого поля, то есть Captain в начале ничего не знал о расположении кораблей и должен был постепенно собирать картину вопросами и выстрелами. Для каждой игры действовали одинаковые ограничения: максимум 15 вопросов и максимум 40 ходов-выстрелов.
В рамках этой работы провели замер качества 15 LLM (Claude, Gemini, GPT-5 и других). Помимо оценки качества моделей как есть, ещё предложили методы повышения качества. Так, например, авторы предложили агенту-Captain добавить явную модель мира. Под этим понимается не отдельная нейросеть, а вероятностное представление о скрытом поле, то есть набор гипотез о том, как могут быть расположены корабли.
Авторы вводят три байесовские стратегии: для выбора вопроса, для выбора действия и для принятия решения «спрашивать или действовать». По данным статьи, полезность задаваемых вопросов увеличивается до +0,227 бита Expected information gain (EIG), а итоговое качество выстрелов улучшается примерно на +0,303–0,374 F1.
Авторы также показывают, что в таком сетапе Llama-4-Scout выигрывает у людей примерно в 82% случаев и у GPT-5 — примерно в 67% случаев, а при этом стоит около 1% от стоимости GPT-5.
Разбор подготовила ❣ Дарья Шатько
#YaICLR26
Душный NLP | 0 |
| 13 | Короткая неделя не оставит без постеров с ICLR
Конференция в Рио потихоньку завершается, но нам ещё есть что показать — интересных работ на мероприятии море.
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis For SLMs
Авторы вводят новый алгоритм обучения для агентов — RAPO, расширение GRPO. Из фишек — удаляют часть промптов из текущего обучения после эпохи: выкидывают группы, которые уже решены и больше не полезны. По смыслу туда же относятся слишком сложные или зашумлённые группы, где все ролауты стабильно проваливаются: если нет различий по награде в ходе обучения, градиент почти бесполезен.
Это приводит к тому, что обучение тратится на задачи в обучаемой зоне, где разные траектории дают разный результат, а модель реально может научиться лучше искать, проверять и не зацикливаться. А далее, когда научимся на средних вопросах, можем вернуть сложные в обучение, так как на них уже может быть прогресс.
Итоговая награда складывается не только из качества финального ответа. Есть финальная награда за правильность, а поверх добавляется пошаговая — за траекторию: за новые полезные поиски, новые ссылки, проверку уже найденных фактов и расширение покрытия. Минус даётся за повторные запросы, лишние проверки без новой информации, ошибки и однотипные инструменты. То есть модель учится не просто дать правильный ответ, а приходить к нему нормальной поисковой траекторией.
Заявляют, что с моделью на 4B параметров обходят всех опенсорсных агентов, а также DeepResearch у Gork и Perplexity.
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
Работа о том, как строже оценивать DeepResearch-ответы через рубрики. Рубрика — это не общий критерий «ответ хороший», а конкретное проверяемое требование с весом. Например, в задаче об AI in drug discovery ответ должен покрыть все шесть стадий процесса, привести минимум два реальных кейса и подкрепить количественные утверждения источниками. Есть и штрафные рубрики: −4 за слишком категоричные speculative claims; −4 за внутренние противоречия; −5 за небезопасные рекомендации вроде skipping clinical trials.
Категории рубрик: явные требования из запроса, неявные ожидания хорошего ответа, синтез информации, использование источников, качество коммуникации и следование инструкциям. При этом не обязательно, что для каждого запроса заполнены все категории — набор рубрик подбирается под конкретную задачу.
Оценка идёт по каждой рубрике отдельно: выполнено, частично выполнено или не выполнено. Потом все агрегируется во взвешенный итоговый балл. Главный вывод для бенчей — критерии должны быть строгими, атомарными и проверяемыми.
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation
Существующие методы оценки важности токенов либо основаны на внимании в исходном промпте, что быстро и просто, но часто неточно, либо используют некий прототип генерации модели. Например, через спекулятивное декодирование, что точнее, но может существенно замедлить инференс.
Команда из Samsung предложила подход, позволяющий более точно оценить важность токенов, при этом почти не тормозя время работы. Авторы добавляют в контекст обучаемые спецтокены, внимание к которым должно аппроксимировать внимание на токены ответа, сгененированного исходной моделью. Ещё обучается специальный LoRA-адаптер, который активируется только на этих спецтокенах.
В итоге достигают хорошего баланса между скоростью и качеством. За что ещё можно похвалить авторов — это за более тщательные и детальные замеры на разных задачах по работе с длинным контекстом, чем обычно бывает в литературе по сжатию KV-кэшей. Там всё, как правило, ограничивается вариациями задачи «иголка в сене», в то время как реальный мир куда более сложный и разнообразный.
Интересное увидели ❣ Даниил Беликов и Денис Кузнеделев
#YaICLR26
Душный NLP | 0 |
| 14 | It's fun to stay at the ICLR
Продолжаем рассказывать о крутых постерах, увиденных на конференции в жарком-жарком Рио.
InnoGym: Benchmarking the Innovation Potential of AI Agents
Постер о том, что агентов стоит оценивать не только по правильности ответа, но и по тому, способны ли они находить реально новые и полезные решения. Авторы вводят InnoGym — бенчмарк на innovation potential агентов. В основе две ключевые оси:
• performance gain — насколько решение лучше известных базовых;
• novelty — насколько оно методологически отличается от уже существующих решений.
Главная идея в том, что один и тот же правильный ответ может быть получен либо тривиальным повторением известного подхода, либо новым способом. Поэтому авторы предлагают смотреть не только на качество, но и на новизну траектории решения. На этой базе различают несколько типов инновации:
• breakthrough — когда решение и лучше, и существенно отличается;
• performance innovation — когда качество выросло, но методологической новизны мало;
• conceptual innovation — когда способ новый, но прирост качества пока небольшой.
Сам бенчмарк состоит из двух частей. iBench — это curated-набор из 18 задач реальных инженерных и научных доменов, где ещё есть пространство и для улучшения качества, и для новых подходов. iGym — это единая среда исполнения агентов, чтобы сравнение было воспроизводимым и чтобы можно было честно мерить длинные траектории решения, а не только финальный ответ.
Главный вывод статьи: текущие агенты всё ещё заметно уступают человеческому state of the art на сложных реальных задачах. При этом агенты иногда выдают более новые решения, но новизна часто не превращается в устойчивый прирост качества.
Toward Personalized Deep Research: Benchmarks and Evaluations
Работа о бенчмарке для персонализированного deep research. Главный тезис в том, что текущие агенты глубоких исследований часто делают generic-отчёты и слабо учитывают конкретного пользователя, его контекст и ограничения.
Авторы предлагают PDR-Bench — бенчмарк в формате user profile + task, а не просто один запрос. В датасете 25 реальных пользовательских профилей и 50 задач, то есть всего 250 персональных запросов для исследований. Задачи покрывают десять доменов.
Собирали бенчмарк так: сначала выбрали десять прикладных доменов, затем с участием экспертов и аннотаторов собрали реальные пользовательские профили. После этого для каждого профиля формировали персонализированные исследовательские запросы с учётом явной персоны и дополнительного пользовательского контекста. Дальше задачи проходили review и committee review, чтобы финальные пары user-task были реалистичными и разнообразными.
Оценка идёт по схеме PQR. Personalization Alignment отвечает за то, насколько ответ реально подогнан под пользователя. Content Quality оценивает глубину, логику, ясность и полезность ответа. Factual Reliability смотрит на то, насколько утверждения поддержаны и надежны.
Авторы также отдельно сравнивают режимы «только задача», «задача плюс контекст» и «задача плюс профиль», показывая, что с добавлением пользовательского контекста качество и персонализация заметно улучшаются.
Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning
Если уменьшать learning rate во время предобучения, это ухудшает результаты при последующем дообучении. Авторы статьи предлагают использовать подход WSO, при котором после начального warm up скорость не меняется.
Идея в том, что без decay модель остаётся в более «плоских» минимумах функции потерь и лучше адаптируется к новым задачам. Эксперименты подтверждают, что такой подход стабильно даёт лучшие результаты, поэтому авторы рекомендуют не снижать learning rate или сохранять модели до начала его уменьшения. При этом decay-подходы обеспечивают лучшие метрики на этапе предообучения, но после SFT проигрывают WSO.
Интересное увидели ❣ Даниил Беликов и Марсель Байрамов
#YaICLR26
Душный NLP | 0 |
| 15 | Знаете, что происходит в Рио?
Там происходит 14-я конференция International Conference on Learning Representations, а инженеры Яндекса, которые находятся на месте событий, делятся самым интересным, что увидели. А увидели они вот что.
Доклад Reducing Belief Deviation in Reinforcement Learning for Active Reasoning
Авторы рассматривают проблему многошагового агентного RL. Когда LLM-агенты взаимодействуют с внешними источниками (тулами) на протяжении нескольких шагов, для решения задач им необходимо поддерживать точное внутреннее представление о состоянии задачи (belief tracking).
Авторы формализуют определение точки отказа (которую они называют «отклонением убеждений», belief deviation). После этого дальнейшие шаги рассуждения получаются мусорными — агент просто не может вернуться к точке, где рассуждения были ещё корректны. Почему это проблема? Потому что после наступления belief deviation это отклонение усиливается через RL-обучение. Такие поломанные траектории ломают распределение награды и ухудшают эксплорейшен агента.
Как лечат? Предлагают метод T³ , который позволяет детектировать наступление belief deviation и не давать подобным траекториям награду, чтобы не усиливать галлюцинации в RL.
Постер Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts
Идея в том, что LLM могут лукавить даже на безобидных запросах: на сложном вопросе дать удобный короткий ответ без нормального обоснования, а на более лёгком follow-up — внезапно показать более длинное и содержательное рассуждение. Авторы сравнивают пары «сложный вопрос — более простой уточняющий» и показывают, что в несогласованных случаях модель часто думает меньше на сложном шаге и больше на простом. Основной тезис — часть такого поведения похожа не просто на галлюцинацию, а на shortcut под нагрузкой: чем труднее задача, тем чаще модель срезает путь.
Доклад LLMs Get Lost In Multi-Turn Conversation
Обычно LLM замеряется в one-shot-режиме – один полностью сформулированный промпт и один ответ. Но реальные пользователи так общаются редко: они уточняют задачу по кускам, добавляют ограничения, исправляют формулировки.
Авторы делают ровно то же самое: берут стандартные бенчмарки, разбивают инструкцию на части и превращают задачу в multi-turn. Замеряют 15 моделей, 6 генеративных задач, 200k+ симуляций. В multi-turn-режиме качество падает в среднем на 39%.
Проблема в потере надежности. Модель рано делает предположение, прыгает к ответу, а потом достраивает неправильную ветку разговора вместо того, чтобы переосмыслить контекст. И это проблема не только слабых моделей. Видимо, мы слишком RL-нули их в сторону мгновенного helpfulness.
Один из авторов поделился интересной гипотезой: looped LLMs (которым может быть недавний релиз Claude Mythos), могут быть лучше приспособлены к таким сценариям, потому что умеют возвращаться к ранним предположениям и пересобирать решение.
В общем, модели отлично работают в стерильных условиях, но гораздо менее надежны в диалоговой неопределённости.
Интересное увидели ❣ Дмитрий Масный, Даниил Беликов и Владимир Гогорян
#YaICLR26
Душный NLP | 0 |
| 16 | NVIDIA Nemotron 3: Efficient and Open Intelligence
Сегодня разберём статью о пополнении в семействе Nemotron — новом поколении гибридных моделей с Mamba2 от NVIDIA.
В Nemotron 3 входят три модели. Уже доступна Nano 30B-3A на более чем 3B параметров. Super и Ultra ещё не релизили, обещают 100B и 460B соответственно.
Модели обучены в FP4. Авторы утверждают, что Nano поддерживает контекст до 1 млн токенов, в паритете с GPT-OSS-20B-4B и превосходит Qwen3-30B-A3B по бенчмаркам, а на инференсе работает в 3 раза быстрее.
Инфраструктурно в Nano нет ничего нового. Пропорции архитектуры тоже вполне стандартные — 23 слоя Mamba-2 к 6 аттеншнам. Интересен порядок чередования обычных и линейных аттеншнов. Рассмотреть его можно на схеме: обратите внимание, что в конце не аттеншн.
Ещё одна любопытная деталь — использование Shared Expert: кто-то, как Qwen, избегает этого элемента в своих моделях. Другие, среди которых DeepSeek, наоборот, добавляют.
Активацию реализовали с помощью ReLu². Для гейтинга вместо softmax выбрали сигмоидную функцию. Возможно, в следующих релизах будут более новые вариации. GQA — 2KV-головы, RoPE нет даже в полном аттеншне.
Также интересен LatentMOE. Он похож на MLA для MOE в DeepSeek, который позволяет сжать токены и считать Shared Expert на гораздо меньших тензорах. Главное отличие — возможность выбрать в несколько раз меньшее пространство для токенов и активировать пропорционально больше экспертов. Это не даёт выигрыша в компьюте, но улучшает результаты по бенчмаркам относительно обычного MOE.
Познакомиться поближе с Nemotron 3 Nano и данными, на которых её обучали, можно на сайте семейства.
Душный NLP | 0 |
| 17 | Qwen3-Next, или Как RNN эволюционировали в гибридные linear attention
В эпоху агентов, ризонинга и мультимодальности длинные контексты начинают играть всё более значимую роль. Привычный нам softmax attention из-за своей квадратичной зависимости от длины контекста сильнее влияет на эффективность обучения и инференса.
Для решения проблемы квадратичности попробовали обратиться к RNN. Так появился новый класс аттеншнов — linear attention. Как следует из названия, они зависят от длины контекста линейно, что делает их в разы эффективнее на больших контекстах. Но модели, которые используют только linear attention, плохо справляются с retrieval-задачами (ещё вернёмся к этому вопросу в посте).
Объединив лучшее из двух подходов, ML-разработчики получили гибриды. Сегодня разберём, как они устроены, на примере одной из самых хайповых современных моделей — Qwen3-Next.
Вспомним, что представляют из себя современные линейные аттеншны. По сути, это RNN, только вместо матричного состояния — векторное, побольше. Ещё в линейных аттеншнах есть механизмы забывания — гейты. Вместо того, чтобы как полный аттеншн хранить весь прошлый контекст в KV-cache (который растёт с увеличением длины последовательности), линейные аттеншны учатся сжимать весь контекст в стейт фиксированного размера. А гейты помогают лучше регулировать, что запомнить и забыть.
Но бесплатный сыр бывает только в мышеловке: из-за сжатия контекста в стейт фиксированного размера в линейных аттеншнах нет доступа ко всей исходной последовательности. То есть, точно скопировать рандомный токен не получится. Поэтому-то и страдают задачи retrieval и копирования. Но чтобы справиться с этим, достаточно нескольких слоёв с полным атеншеном.
Вернёмся к Qwen3-Next. Рассмотреть её архитектуру можно на схеме. Три четверти слоёв — линейный атеншен в лице Gated DeltaNet. 3/4 — довольно распространенная пропорция. Также в этой архитектуре проапгрейдили обычный полный аттеншн с помощью swiglu-like-гейтинга. Это улучшило качество и решило проблему с attention sink.
Partial Rope, как следует из названия, «крутит» только часть хидденов головы. В Qwen3-Next только четверть хидденов головы получает информацию о позиции в последовательности. По словам авторов, это позволяет лучше экстраполироваться при увеличении контекста.
Zero-Centered RMSNorm математически эквивалентен обычному RMSNorm. Единственное отличие — веса инициализируются нулями, а не единицами, и потом на форварде к весу прибавляется 1. Формально это одно и то же, но из-за того, что веса теперь у нуля, где выше гранулярность float’ов, численная стабильность улучшается. Ещё более важно, что это позволяет использовать WD для весов в RMSNorm: некоторые веса становились слишком большими, добавление WD улучшило стабильность обучения.
Sparsity очень высокая — 1/50. Для масштаба, у DeepSeek она составляет 1/32, у Qwen235B — 1/16. Из 80B параметров активны только 3B.
Познакомиться с Qwen3-Next поближе можно на HuggingFace. А ещё недавно вышла новая линейка моделей, основанная на той же архитектуре — Qwen3.5. В текущем опенсорсе это SoTA.
Разбор подготовил ❣ Даниил Сухой
Душный NLP | 0 |
| 18 | Quartet II — обучение в NVFP4 с точными несмещёнными градиентами
В последние годы наблюдается тренд на снижение точности, в которой обучают модели. Если ещё недавно использовали преимущественно BF16, то в 2024-м, например в DeepSeek-V3 — уже FP8, а в 2025-м переходят и на FP4. Снижение точности, однако, требует применения трюков. Сегодня разберём статью, в которой описывается новый метод обучения в NVFP4.
Прошлым летом мы придумали Quartet — первый метод обучения в FP4. Он использовал формат данных MXFP4, который поддерживается на уровне железа в GPU, вроде NVIDIA Blackwell. Quartet использовал случайные вращения тензоров для борьбы с аутлаерами и показал, что FP4 обучение даёт выигрыш при фиксированном бюджете относительно FP8.
Но есть и другой формат, основанный на FP4, — NVFP4, который NVIDIA создала специально для LLM. Он использует более точные FP8-скейлы. На его основе прошлой осенью NVIDIA предложила собственный, более точный рецепт обучения в FP4. Одной из его фишек было использование стохастического округления (stochastic rounding, SR) на backward pass — методики, которая делает оценки градиентов несмещёнными ценой более высокого уровня их шума. Мы задались вопросом: есть ли способ достичь несмещённых оценок без шумного SR в FP4?
Оказывается, вращения, которые помогали нам с аутлаерами, могут помочь и с несмещённостью. Квантизуя случайно повёрнутый тензор, мы усредняем ошибку по всем возможным направлениям, и получившаяся оценка будет коллинеарена оригинальному тензору. Отнормировав квантизованный тензор, коллинеарность можно превратить в несмещённость. Но FP8-скейлы не позволят просто так отнормировать квантизованный тензор — они слишком грубые, чтобы впитать точную перенормировку порядка 0,94~1,06.
Какой выход? Вшить эти скейлы в FP8 с помощью SR. Обратите внимание, что делается это не на каждый FP4-элемент, как в случае с методом NVIDIA, а только в FP8-скейлы, что даёт ошибку в сто раз меньше. В итоге, полная ошибка получается вдвое меньше, чем у простого SR. Мы объединили метод с более точной квантизацией на forward pass и получили Quartet II — SOTA обучения в NVFP4.
Таким образом, случайные вращения не просто борются с аутлаерами, а служат важным источником несмещённости в оценке градиентов, который уменьшает ошибку и ускоряет сходимость FP4-обучения. К статье прилагаются кернелы для 5090 и B200, чтобы можно было попробовать NVFP4 на своих моделях и задачах.
Разбор подготовил Андрей Панфёров, автор канала black_samorez
Душный NLP | 0 |
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
