en
Feedback
КПД

КПД

Open in Telegram

Квантование & Прунинг & Дистилляция Блог про сжатие сетей и не только. От древнейших времен по настоящее время.

Show more
3 249
Subscribers
-124 hours
+217 days
+7630 days
Attracting Subscribers
June '26
June '26
+35
in 1 channels
May '26
+109
in 4 channels
Get PRO
April '26
+122
in 2 channels
Get PRO
March '26
+144
in 2 channels
Get PRO
February '26
+83
in 0 channels
Get PRO
January '26
+105
in 5 channels
Get PRO
December '25
+67
in 1 channels
Get PRO
November '25
+224
in 11 channels
Get PRO
October '25
+57
in 2 channels
Get PRO
September '25
+158
in 4 channels
Get PRO
August '25
+105
in 5 channels
Get PRO
July '25
+59
in 0 channels
Get PRO
June '25
+125
in 3 channels
Get PRO
May '25
+67
in 1 channels
Get PRO
April '25
+105
in 3 channels
Get PRO
March '25
+118
in 5 channels
Get PRO
February '25
+276
in 3 channels
Get PRO
January '25
+77
in 2 channels
Get PRO
December '24
+229
in 7 channels
Get PRO
November '24
+138
in 3 channels
Get PRO
October '24
+165
in 4 channels
Get PRO
September '24
+137
in 2 channels
Get PRO
August '24
+69
in 4 channels
Get PRO
July '24
+135
in 5 channels
Get PRO
June '24
+61
in 3 channels
Get PRO
May '24
+268
in 5 channels
Get PRO
April '24
+105
in 2 channels
Get PRO
March '24
+94
in 2 channels
Get PRO
February '24
+119
in 4 channels
Get PRO
January '24
+327
in 6 channels
Date
Subscriber Growth
Mentions
Channels
10 June+4
09 June+1
08 June+1
07 June0
06 June+4
05 June+10
04 June+6
03 June+3
02 June+5
01 June+1
Channel Posts
Текстовая диффузия
Anonymous voting

2
Alphaxiv поверх Gemini ни с того ни с сего переходит на китайский. Напрашивается следующее подозрение - либо под капотом запи
Alphaxiv поверх Gemini ни с того ни с сего переходит на китайский. Напрашивается следующее подозрение - либо под капотом запихнули (квен чивен), либо гугол дистиллит на трейсах китайцев 🤪.
959
3
🔬 Метод Ключевая идея — максимально сохранить знания базовой авторегрессионной модели, то есть её autoregressive prior. Для этого входная последовательность дублируется в два потока: 1️⃣ Чистый поток — обычная авторегрессия. 2️⃣ Шумный поток — диффузионный. Он обусловливается на: зашумленные токены внутри текущего блока; чистые токены из предыдущих по времени блоков. Лосс-функция одновременно оптимизирует: • авторегрессионный лосс; • диффузионный лосс размаскирования. Для GDN рекуррентное состояние берётся из последнего чистого блока и дополняется вкладом зашумлённого блока. Для генерации предлагаются два режима: 👉 Diffusion-Trust По сути напоминает confidence-based unmasking: модель постепенно раскрывает наиболее уверенные токены. 👉 AR-Trust Фактически вариант спекулятивного декодирования. Диффузионный поток предлагает токены, а авторегрессионный поток их проверяет. Первый вариант обеспечивает более параллельную генерацию, но может терять в качестве. Второй позволяет сохранять качество на уровне, близком к исходной AR-модели. 🧪 Эксперименты Первичные эксперименты проводят на Qwen3-1.7B (чистый Transformer). Отдельное внимание уделяется выбору данных для адаптации. Авторы рассматривают различные смеси: • CoT; • Math; • Instruction Following. Наблюдение довольно интересное: хорошая смесь данных не должна ухудшать качество базовой модели уже после AR-SFT. В итоге оказывается полезно смешивать данные из разных доменов. Финальный датасет содержит около 10B токенов. В ablation показывают, что критически важны: ✅ сохранение авторегрессионного потока; ✅ наличие авторегрессионного лосса; ✅ сдвиг логитов на один токен в диффузионном потоке. Далее авторы переходят к моделям семейства Qwen-3.5 (2B / 4B / 9B). FLARE-9B в большинстве сценариев превосходит: • LLaDA-2.0; • LLaDA-2.1; • SDAR. Однако отставание от базовой Qwen-3.5-9B всё ещё остаётся довольно заметным. Как и ожидалось, AR-Trust показывает лучшее качество, чем более параллельный Diffusion-Trust. Отдельно авторы оптимизируют инфраструктурную часть: • сравнивают Gated Delta Rule и ShortConv; • подбирают размеры блоков; • исследуют различные схемы чанкирования. В результате MFU удаётся почти удвоить относительно бейзлайна. По throughput результаты тоже выглядят достойно: заметно быстрее SDAR-1.7B; младшие модели существенно опережают LLaDA; версия 9B также сохраняет преимущество по токенам/сек. 💡 Выводы Работа выглядит очень интересной как практический рецепт превращения сильной авторегрессионной модели в гибридную диффузионную. Главная проблема пока остаётся прежней: нет открытых моделей и кода. Если бы авторы выложили оба артефакта, ценность работы была бы значительно выше. Также остаются открытые вопросы: ❓ Как выглядит end-to-end latency относительно AR-бейзлайнов? ❓ Насколько хорошо подход масштабируется на современные крупные MoE-модели вроде DeepSeek-V4, Minimax M3 или Qwen-3.5-397B? Будет интересно посмотреть на продолжение этой линии работ.
865
4
FLARE: Diffusion for Hybrid Language Model [Статья] [Код] coming soon (или не soon) Диффузионные языковые модели продолжают а
FLARE: Diffusion for Hybrid Language Model [Статья] [Код] coming soon (или не soon) Диффузионные языковые модели продолжают активно развиваться, но пока заметно уступают современным авторегрессионным моделям в своей весовой категории. При этом многие инженерные наработки последних лет — например, линейное внимание и эффективные рекуррентные механизмы — практически не использовались в dLLM. Кроме того, обучение таких моделей с нуля обходится дорого. Гораздо привлекательнее выглядит сценарий, в котором можно стартовать с сильной авторегрессионной модели и относительно дешево превратить её в диффузионную. Именно такой рецепт предлагает команда Adobe. Авторы показывают, как конвертировать SOTA AR-модель в гибридную диффузионную архитектуру, сохранив большую часть качества исходной модели.
844
5
🔬 Метод Ключевая идея — максимально сохранить знания базовой авторегрессионной модели, то есть её autoregressive prior. Для этого входная последовательность дублируется в два потока: 1️⃣ Чистый поток — обычная авторегрессия. 2️⃣ Шумный поток — диффузионный. Он обусловливается на: зашумленные токены внутри текущего блока; чистые токены из предыдущих по времени блоков. Лосс-функция одновременно оптимизирует: • авторегрессионный лосс; • диффузионный лосс размаскирования. Для GDN рекуррентное состояние берётся из последнего чистого блока и дополняется вкладом зашумлённого блока. Для генерации предлагаются два режима: 👉 Diffusion-Trust По сути напоминает confidence-based unmasking: модель постепенно раскрывает наиболее уверенные токены. 👉 AR-Trust Фактически вариант спекулятивного декодирования. Диффузионный поток предлагает токены, а авторегрессионный поток их проверяет. Первый вариант обеспечивает более параллельную генерацию, но может терять в качестве. Второй позволяет сохранять качество на уровне, близком к исходной AR-модели. 🧪 Эксперименты Первичные эксперименты проводят на Qwen3-1.7B (чистый Transformer). Отдельное внимание уделяется выбору данных для адаптации. Авторы рассматривают различные смеси: • CoT; • Math; • Instruction Following. Наблюдение довольно интересное: хорошая смесь данных не должна ухудшать качество базовой модели уже после AR-SFT. В итоге оказывается полезно смешивать данные из разных доменов. Финальный датасет содержит около 10B токенов. В ablation показывают, что критически важны: ✅ сохранение авторегрессионного потока; ✅ наличие авторегрессионного лосса; ✅ сдвиг логитов на один токен в диффузионном потоке. Далее авторы переходят к моделям семейства Qwen-3.5 (2B / 4B / 9B). FLARE-9B в большинстве сценариев превосходит: • LLaDA-2.0; • LLaDA-2.1; • SDAR. Однако отставание от базовой Qwen-3.5-9B всё ещё остаётся довольно заметным. Как и ожидалось, AR-Trust показывает лучшее качество, чем более параллельный Diffusion-Trust. Отдельно авторы оптимизируют инфраструктурную часть: • сравнивают Gated Delta Rule и ShortConv; • подбирают размеры блоков; • исследуют различные схемы чанкирования. В результате MFU удаётся почти удвоить относительно бейзлайна. По throughput результаты тоже выглядят достойно: заметно быстрее SDAR-1.7B; младшие модели существенно опережают LLaDA; версия 9B также сохраняет преимущество по токенам/сек. 💡 Выводы Работа выглядит очень интересной как практический рецепт превращения сильной авторегрессионной модели в гибридную диффузионную. Главная проблема пока остаётся прежней: нет открытых моделей и кода. Если бы авторы выложили оба артефакта, ценность работы была бы значительно выше. Также остаются открытые вопросы: ❓ Как выглядит end-to-end latency относительно AR-бейзлайнов? ❓ Насколько хорошо подход масштабируется на современные крупные MoE-модели вроде DeepSeek-V4, Minimax M3 или Qwen-3.5-397B? Будет интересно посмотреть на продолжение этой линии работ.
1
6
Квен на самом-деле Чивен. Теперь живите с этим. [Видео]
1 265
7
Неожиданный опенсорс от Ideogram - Ideogram-4. Чекпоинты прилагаются в fp8 и nf4 форматах. Утверждается, что оно state-of-the
Неожиданный опенсорс от Ideogram - Ideogram-4. Чекпоинты прилагаются в fp8 и nf4 форматах. Утверждается, что оно state-of-the-art среди open-source моделей и не сильно уступает ведущим closed-source. При этом размер модели вообще не огромный - всего 9.3B параметров (то есть превосходит куда более увесистые модели типа Flux-2-dev, Hunyuan-Image-3 и Qwen-Image). Лицензия, правда, некоммерческая. [Блогпост]
9 410
8
TileLang (DSL для написания кернелов, представленный на ICLR 2026), как мне кажется, они из самых перспективных языков для написания кернелов. С одной стороны, дает гораздо больший контроль над работой кернела, так как пользователь может явно работать с разными видами памяти (регистры, shared memory / tensor memory), с разбиением задач на блоки и потоки, контролировать тип используемых gemm-ов, задавать синхронизации, барьеры, и многое другое. И в то же время он все еще значительно проще в освоении и в синтаксисе, чем CUDA + CUTLASS, CuTe DSL. Из проектов и реализаций, использующих его стоит отметить: • TileKernels от DeepSeek • FlashQLA от Qwen3 • tilelang-ascend (адаптация tilelang под хуавеевские асценды) Из обучающих материалов могу порекомендовать: • tilelang-puzzles - набор задачек возрастающей сложности, чтобы пощупать язык • Примеры из оригинального репозитория • Туториал по написанию FlashAttention под AMDшные GPU Мне он видится как довольно хороший баланс между эффективностью / гибкостью и сложностью в освоении.
1 538
9
🔬 Метод Кодирование двустадийное: 1️⃣ Сначала эмбеды прогоняют через замороженную GPT-2 2️⃣ Затем переводят в целевое латентное пространство через обучаемый энкодер (в котором приятнее диффундировать) Декодирование тоже двустадийное: 1️⃣ Прогоняем через обучаемый латентный декодер 2️⃣ Выход декодера подаем уже в обучаемый токен декодер, чтобы получить токены При обучении вход декодера замумляется, но система энкодер + декодер пытаеся реконструировать исходный эмбед (GPT2). Суть данной аугментации в том, чтобы сделать декодер более устойчивым к шуму, а также предотвратить коллапс латентного пространства. Диффузионная модель просто оптимизирует L2 лосс для x0 оценки. Она может обусловливаться на предыдущую оценку x0. Все учится end-to-end с диффузионным лоссом, лоссами реконструкции и кросс-энтропией на предсказание следующего токена (лосс влияет только на token decoder, после него stopgrad). Для того чтобы все хорошо училось важно 🔥 Разогреть энкодер, сначала обучая его только на реконструкцию, а лишь затем включить диффузию. 🕔 Адаптивное расписание сэмплирования шагов времени. Оно подбирается так, чтобы в каждом бине был примерно одинаковый лосс в сумме. ❗️ Различие с ELF ELF тоже оперирует в латентном пространстве, но фиксированном (Т5 эмбеды). 🧪 Эксперименты В качестве базового энкодера используется GPT-2 и DiT как диффузионная тушка. В ablation гоняют на отрезках из OpenWebText длиной 128 токенов. Показывают, что все компоненты метода - разогрев энкодера, обучаемый энкодер поверх GPT-2, расписание шагов диффузии и правильная величина шума важны для качества. В финальных экспериментах увеличивают длину контекста до 1024 и сравниваются с разными современными подходами по текстовой диффузии 👉 MDLM 👉 Duo 👉 CANDI 👉 FLM И оказываются лучше по соотношению между перплексией и энтропией (разнообразием). Учится оно несколько дольше большинства бейзлайнов, но зато сэмплирует быстрее на инференсе (за счет того, что декодировать надо только в конце?). 💡 Выводы Интересный результат. Но как всегда в этой отрасли, встает вопрос о масштабируемости на уровень более-менее SOTA моделек.
1 288
10
How to Train Your Latent Diffusion Language Model Jointly With the Latent Space [Статья] Диффузионные модели выступают привле
How to Train Your Latent Diffusion Language Model Jointly With the Latent Space [Статья] Диффузионные модели выступают привлекательной альтернативной авторегрессионным моделям как текстовые модели с точки зрения эффективности и возможности пересматривать выбор токенов по ходу генерации. Существуют дискретные диффузионные модели, которые каким-то образом расшмуляют категориальное распределение (маскированная и равномерная диффузии). Но в итоге все равно надо факторизовать распределение и предсказывать токены по отдельности. Да и на каждом шаге надо декодировать в токены. Непрерывная диффузия позволяет декодировать в дискретные токены только в конце генерации. Но тогда остро встает вопрос правильного пространства для латентной диффузии. Можно взять предобученные эмбеды, а можно учить их совместно с моделью, что и предлагают авторы рассматриваемой статьи.
1 136
11
[11/19] RUN cd flash-attention && python3 -m pip install . --no-build-isolation 31733.0s Флэш аттентшен долго запрягает, да быстро едет
1 316
12
Обожаю ревьюить конфы по ML-ю. Чуваки в одной статье утверждают, что они первые придумали mixed-precision квантизацию 🤣. А еще хвастаются тем, что с 2.7 бит в среднем на параметр бьют бейзлайны по качеству с 2 битами на параметр.
1 739
13
19 сентября в Москве пройдет Practical ML Conf - конференция про ML-технологии, с упором на практическое применение, пользу и
19 сентября в Москве пройдет Practical ML Conf - конференция про ML-технологии, с упором на практическое применение, пользу и новизну для научного и инженерного сообщества. Подать заявку на доклад и выступить можно вплоть до 1 июня 23:59. В программном комитете состоят многие уважаемые и известные люди из мира отечественного AI. Так что, если есть что сказать интересного и нового, что бы хотелось показать честной публике - милости просим и будем рады) PS. За рекламу обещали двойную норму сырков Александрова.
1 786
14
🔬 Метод Ключевое наблюдение статьи заключается в следующем: 🎯 Стандартная диффузия делает много шагов интегратора и много раз запускает диффузионную модель 🎯 Дистиллированная диффузия делает мало шагов интегратора и мало раз запускает диффузионную модель А что если делать много шагов интегратора и мало раз запускать диффузионную модель? Авторы предлагают модифицировать процесс дистилляции так, чтобы модель выдавала некоторую политику (нечто определяющее процесс интегрирования) на всей траектории. Выходы модели необходимо модифицировать так (расширив число выходных каналов), чтобы она выдавала несколько характеристик, соответствующих разному уровня шума, на ODE траектории. Предлагают 2 политики: 📌 DX - политику. Выглядит как просто предсказание скоростей на разных участках траектории. 📌 GMFlow. Сеть предсказывает факторизованную по шагам расшумления смесь Гауссиан, каждая компонента отвечает своей моде расшумления. Процедура обучения напоминает Consistency Distillation: 1️⃣ Сэмплируется начальный шаг зашумления. 2️⃣ Предсказывается политика. 3️⃣ С замороженной политикой (no grad) расшумляют немного. 4️⃣ Предсказывают политику из новой точки. 5️⃣ Считают MSE между ее предсказаниями и предсказаниями из исходной точки. Траектории на обучении можно генерить расшумляя некоторые входные данные, а можно прямо с нуля генерировать. 🧪 Эксперименты Тестируют все это дело на ImageNet и Flux-1 / Qwen-Image. GMFlow работает заметно лучше, чем DX и выдает около SOTA FID при 1- и 2- шаговой генерации. π-Flow дистиллы Flux и Qwen-Image примерно на одном уровне по метрикам (HPS, ClipScore, FID) с другими SOTA дистиллами. Впрочем, без user preference study сложно сделать конкретные выводы. Далее на конкретных картинках показывают, что конкуренты шакалят текстуры, а они нет. Скорость инференса от перехода к многошаговой политике практически не меняется. 💡 Выводы Выглядит как Consistency Distillation на стероидах, и будто бы не хватает сравнения с sCM / rCM. Здесь, правда, не надо париться с JVP.
1 621
15
pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation [Статья][Код] Эту статью я как-то проглядел на ICLR 2026
pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation [Статья][Код] Эту статью я как-то проглядел на ICLR 2026, но, как показали ребята из Kandinsky на датафесте, тема вполне рабочая. Проблема малошаговых диффузионных дистилляций в том, что они либо теряют качество, либо разнообразие, либо и то, и другое. А хотелось бы, само собой, все это сохранить. И команда из Standford/Adobe Research предложила очередной способ дистилляции, который, как утверждается, удовлетворяет этих хотелкам.
1 311
16
И еще из приглянувшегося с Data Fest - это рассказ Льва Новицкого про дистилляцию Kandinsky Video 5.0 в малошаговую генерацию. Используемый метод представляет собой комбинацию pi-Flow (принято на ICLR 2026, но я как-то проглядел эту работу) и Sim LADD (адверсариальная дистилляция через сэмплирование). Как утверждается, оно не только быстрее, но и лучше по user preference, чем учитель. Таймлайн рассказа 4:00:27-4:15:33
2 299
17
🔬 Метод Первое явление, которое обнаруживают авторы - это смещение внимания от sink токенам к последним по ходу драфтинга (attention drift). Причем оно имеет место как и для EAGLE-3, так и для MTP. Кроме того, sink-like поведение и похожий сдвиг есть даже у моделей, специально заточенных бороться с sink-ами (Qwen3-Next, GPT-OSS). Чтобы разобраться в причинах возникновения, авторы замеряют нормы входных состояний в драфтер, скрытого состояния и выходов. Обнаруживают, что состояния из более поздних слоев имеют большую норму и могут на себя оттягивать внимание драфтера. Кроме того, нормы состояния драфтера и выходов растут 🔼 с ростом глубины спекуляции. Последний эффект, вероятно, и вызывает перекос attention ибо более высокие нормы ключей/значений перетягивают на себя вероятностную массу. Отсюда возникает идея заменить pre-norm на post-norm в драфтере, что поддерживать норму состояния примерно постоянной. Данная модификация заметно улучшает принятие с увеличением глубины драфта. Кроме того пробуют добавить gated attention, чтобы подавить влияние синка. Синк оно подавляет и attention drift, но нормы продолжают расти. Затем еще показывают, что post норма делает выход гораздо более устойчивым к шуму. 🧪 Эксперименты Итоговая модификация выглядит следующим образом: 📌 Добавляем RMS норм на входные хиддены таргета 📌 Заменяем pre-norm на post-norm для выходного состояния драфта Переход на post-norm повышает acceptance rate на 14% в среднем по моделям в ID режиме. Шатания шаблона заметно просаживают принятие у pre-norm, но почти не влияют на post-norm. Gated attention делает модель более чувствительной к системному промпту, поэтому в итоге не используется. Далее пробуют решить проблему с обобщаемостью на длинный контекст. Дефолтный EAGLE-3 ломается, acceptance уходит в 0. С post-norm уже заметно лучше, но все еще менее 1 принятого токена. А вот что реально позволяет обобщаться - это переход от полного attention к SWA (внимание только на скользящее окно последних токенов) + BOS (или системный промпт). Таким образом удается поддерживать acceptance length около 3. 💡 Выводы Как будто несложная, но хорошо мотивированная, подкрепленная анализом модификация EAGLE. Более того, это уже даже выкатили в vLLM под названием EAGLE-3.1 (см. блогпост) и обучили для Kimi K 2.6. Интересно было бы увидеть сравнение с DFlash.
1 559
18
Attention Drift: What Autoregressive Speculative Decoding Models Learn [Статья][Код] EAGLE (в особенности 3-ий) и MTP-головы
Attention Drift: What Autoregressive Speculative Decoding Models Learn [Статья][Код] EAGLE (в особенности 3-ий) и MTP-головы стали уже довольно стандартными техниками ускорения инференса за счет предсказания нескольких токенов наперед. Однако, длина принятия не так велика, как бы хотелось. Кроме того, драфтеры оказываются неустойчивы к изменению системного шаблона и длинным контекстам. В данной работе провели анализ причин проблем драфтеров и предложили некоторые архитектурные улучшения.
1 376
19
Еще из спекулятивных новостей. На vLLM появился блогпост про 🦅 EAGLE-3.1. Авторы заметили, что вход в драфтер несбалансирова
Еще из спекулятивных новостей. На vLLM появился блогпост про 🦅 EAGLE-3.1. Авторы заметили, что вход в драфтер несбалансирован, так как более поздние состояния из сети большие по величине доминируют во входе. Кроме того, скрытое состояние драфтера растет по величине в процессе из-за отсутствия нормализаций, что делает спекуляцию нестабильной на больших глубинах драфта. Потому: • Накидывают RMS нормализации на скрытые состояния таргета • Заменяют pre-norm на post-norm для скрытых состояний драфтера Предложенные модификации якобы делают EAGLE более стабильным к разным данным, шаблонам диалогов и улучшает acceptance. Но нормальных сравнений с EAGLE 3 нигде не приведено, потому непонятно, насколько оно накидывает. Они обучили драфтер поверх Kimi-K2.6, который дает ускорение 2x на батче 1, и 1.66 на батче 6.
0
20
К статье выше 👆 На Датафесте в Сбере был очень интересный доклад от Станислава Ильюшина из Хуавея про современное состояние области спекулятивного декодирования, текущие тренды, а также представлен разбор и эксперименты автора с вышеупомянутым DFlash. Рекомендую всем желающим освежить и углубить знания про спекулятивку!
1 461