ru
Feedback
КПД

КПД

Открыть в Telegram

Квантование & Прунинг & Дистилляция Блог про сжатие сетей и не только. От древнейших времен по настоящее время.

Больше
3 245
Подписчики
Нет данных24 часа
+247 дней
+7630 день
Привлечение подписчиков
июнь '26
июнь '26
+30
в 1 каналах
май '26
+109
в 4 каналах
Get PRO
апрель '26
+122
в 2 каналах
Get PRO
март '26
+144
в 2 каналах
Get PRO
февраль '26
+83
в 0 каналах
Get PRO
январь '26
+105
в 5 каналах
Get PRO
декабрь '25
+67
в 1 каналах
Get PRO
ноябрь '25
+224
в 11 каналах
Get PRO
октябрь '25
+57
в 2 каналах
Get PRO
сентябрь '25
+158
в 4 каналах
Get PRO
август '25
+105
в 5 каналах
Get PRO
июль '25
+59
в 0 каналах
Get PRO
июнь '25
+125
в 3 каналах
Get PRO
май '25
+67
в 1 каналах
Get PRO
апрель '25
+105
в 3 каналах
Get PRO
март '25
+118
в 5 каналах
Get PRO
февраль '25
+276
в 3 каналах
Get PRO
январь '25
+77
в 2 каналах
Get PRO
декабрь '24
+229
в 7 каналах
Get PRO
ноябрь '24
+138
в 3 каналах
Get PRO
октябрь '24
+165
в 4 каналах
Get PRO
сентябрь '24
+137
в 2 каналах
Get PRO
август '24
+69
в 4 каналах
Get PRO
июль '24
+135
в 5 каналах
Get PRO
июнь '24
+61
в 3 каналах
Get PRO
май '24
+268
в 5 каналах
Get PRO
апрель '24
+105
в 2 каналах
Get PRO
март '24
+94
в 2 каналах
Get PRO
февраль '24
+119
в 4 каналах
Get PRO
январь '24
+327
в 6 каналах
Дата
Привлечение подписчиков
Упоминания
Каналы
08 июня+1
07 июня0
06 июня+4
05 июня+10
04 июня+6
03 июня+3
02 июня+5
01 июня+1
Посты канала
Квен на самом-деле Чивен. Теперь живите с этим. [Видео]

2
Неожиданный опенсорс от Ideogram - Ideogram-4. Чекпоинты прилагаются в fp8 и nf4 форматах. Утверждается, что оно state-of-the
Неожиданный опенсорс от Ideogram - Ideogram-4. Чекпоинты прилагаются в fp8 и nf4 форматах. Утверждается, что оно state-of-the-art среди open-source моделей и не сильно уступает ведущим closed-source. При этом размер модели вообще не огромный - всего 9.3B параметров (то есть превосходит куда более увесистые модели типа Flux-2-dev, Hunyuan-Image-3 и Qwen-Image). Лицензия, правда, некоммерческая. [Блогпост]
7 489
3
TileLang (DSL для написания кернелов, представленный на ICLR 2026), как мне кажется, они из самых перспективных языков для написания кернелов. С одной стороны, дает гораздо больший контроль над работой кернела, так как пользователь может явно работать с разными видами памяти (регистры, shared memory / tensor memory), с разбиением задач на блоки и потоки, контролировать тип используемых gemm-ов, задавать синхронизации, барьеры, и многое другое. И в то же время он все еще значительно проще в освоении и в синтаксисе, чем CUDA + CUTLASS, CuTe DSL. Из проектов и реализаций, использующих его стоит отметить: • TileKernels от DeepSeek • FlashQLA от Qwen3 • tilelang-ascend (адаптация tilelang под хуавеевские асценды) Из обучающих материалов могу порекомендовать: • tilelang-puzzles - набор задачек возрастающей сложности, чтобы пощупать язык • Примеры из оригинального репозитория • Туториал по написанию FlashAttention под AMDшные GPU Мне он видится как довольно хороший баланс между эффективностью / гибкостью и сложностью в освоении.
929
4
🔬 Метод Кодирование двустадийное: 1️⃣ Сначала эмбеды прогоняют через замороженную GPT-2 2️⃣ Затем переводят в целевое латентное пространство через обучаемый энкодер (в котором приятнее диффундировать) Декодирование тоже двустадийное: 1️⃣ Прогоняем через обучаемый латентный декодер 2️⃣ Выход декодера подаем уже в обучаемый токен декодер, чтобы получить токены При обучении вход декодера замумляется, но система энкодер + декодер пытаеся реконструировать исходный эмбед (GPT2). Суть данной аугментации в том, чтобы сделать декодер более устойчивым к шуму, а также предотвратить коллапс латентного пространства. Диффузионная модель просто оптимизирует L2 лосс для x0 оценки. Она может обусловливаться на предыдущую оценку x0. Все учится end-to-end с диффузионным лоссом, лоссами реконструкции и кросс-энтропией на предсказание следующего токена (лосс влияет только на token decoder, после него stopgrad). Для того чтобы все хорошо училось важно 🔥 Разогреть энкодер, сначала обучая его только на реконструкцию, а лишь затем включить диффузию. 🕔 Адаптивное расписание сэмплирования шагов времени. Оно подбирается так, чтобы в каждом бине был примерно одинаковый лосс в сумме. ❗️ Различие с ELF ELF тоже оперирует в латентном пространстве, но фиксированном (Т5 эмбеды). 🧪 Эксперименты В качестве базового энкодера используется GPT-2 и DiT как диффузионная тушка. В ablation гоняют на отрезках из OpenWebText длиной 128 токенов. Показывают, что все компоненты метода - разогрев энкодера, обучаемый энкодер поверх GPT-2, расписание шагов диффузии и правильная величина шума важны для качества. В финальных экспериментах увеличивают длину контекста до 1024 и сравниваются с разными современными подходами по текстовой диффузии 👉 MDLM 👉 Duo 👉 CANDI 👉 FLM И оказываются лучше по соотношению между перплексией и энтропией (разнообразием). Учится оно несколько дольше большинства бейзлайнов, но зато сэмплирует быстрее на инференсе (за счет того, что декодировать надо только в конце?). 💡 Выводы Интересный результат. Но как всегда в этой отрасли, встает вопрос о масштабируемости на уровень более-менее SOTA моделек.
895
5
How to Train Your Latent Diffusion Language Model Jointly With the Latent Space [Статья] Диффузионные модели выступают привле
How to Train Your Latent Diffusion Language Model Jointly With the Latent Space [Статья] Диффузионные модели выступают привлекательной альтернативной авторегрессионным моделям как текстовые модели с точки зрения эффективности и возможности пересматривать выбор токенов по ходу генерации. Существуют дискретные диффузионные модели, которые каким-то образом расшмуляют категориальное распределение (маскированная и равномерная диффузии). Но в итоге все равно надо факторизовать распределение и предсказывать токены по отдельности. Да и на каждом шаге надо декодировать в токены. Непрерывная диффузия позволяет декодировать в дискретные токены только в конце генерации. Но тогда остро встает вопрос правильного пространства для латентной диффузии. Можно взять предобученные эмбеды, а можно учить их совместно с моделью, что и предлагают авторы рассматриваемой статьи.
898
6
[11/19] RUN cd flash-attention && python3 -m pip install . --no-build-isolation 31733.0s Флэш аттентшен долго запрягает, да быстро едет
1 139
7
Обожаю ревьюить конфы по ML-ю. Чуваки в одной статье утверждают, что они первые придумали mixed-precision квантизацию 🤣. А еще хвастаются тем, что с 2.7 бит в среднем на параметр бьют бейзлайны по качеству с 2 битами на параметр.
1 550
8
19 сентября в Москве пройдет Practical ML Conf - конференция про ML-технологии, с упором на практическое применение, пользу и
19 сентября в Москве пройдет Practical ML Conf - конференция про ML-технологии, с упором на практическое применение, пользу и новизну для научного и инженерного сообщества. Подать заявку на доклад и выступить можно вплоть до 1 июня 23:59. В программном комитете состоят многие уважаемые и известные люди из мира отечественного AI. Так что, если есть что сказать интересного и нового, что бы хотелось показать честной публике - милости просим и будем рады) PS. За рекламу обещали двойную норму сырков Александрова.
1 602
9
🔬 Метод Ключевое наблюдение статьи заключается в следующем: 🎯 Стандартная диффузия делает много шагов интегратора и много раз запускает диффузионную модель 🎯 Дистиллированная диффузия делает мало шагов интегратора и мало раз запускает диффузионную модель А что если делать много шагов интегратора и мало раз запускать диффузионную модель? Авторы предлагают модифицировать процесс дистилляции так, чтобы модель выдавала некоторую политику (нечто определяющее процесс интегрирования) на всей траектории. Выходы модели необходимо модифицировать так (расширив число выходных каналов), чтобы она выдавала несколько характеристик, соответствующих разному уровня шума, на ODE траектории. Предлагают 2 политики: 📌 DX - политику. Выглядит как просто предсказание скоростей на разных участках траектории. 📌 GMFlow. Сеть предсказывает факторизованную по шагам расшумления смесь Гауссиан, каждая компонента отвечает своей моде расшумления. Процедура обучения напоминает Consistency Distillation: 1️⃣ Сэмплируется начальный шаг зашумления. 2️⃣ Предсказывается политика. 3️⃣ С замороженной политикой (no grad) расшумляют немного. 4️⃣ Предсказывают политику из новой точки. 5️⃣ Считают MSE между ее предсказаниями и предсказаниями из исходной точки. Траектории на обучении можно генерить расшумляя некоторые входные данные, а можно прямо с нуля генерировать. 🧪 Эксперименты Тестируют все это дело на ImageNet и Flux-1 / Qwen-Image. GMFlow работает заметно лучше, чем DX и выдает около SOTA FID при 1- и 2- шаговой генерации. π-Flow дистиллы Flux и Qwen-Image примерно на одном уровне по метрикам (HPS, ClipScore, FID) с другими SOTA дистиллами. Впрочем, без user preference study сложно сделать конкретные выводы. Далее на конкретных картинках показывают, что конкуренты шакалят текстуры, а они нет. Скорость инференса от перехода к многошаговой политике практически не меняется. 💡 Выводы Выглядит как Consistency Distillation на стероидах, и будто бы не хватает сравнения с sCM / rCM. Здесь, правда, не надо париться с JVP.
1 420
10
pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation [Статья][Код] Эту статью я как-то проглядел на ICLR 2026
pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation [Статья][Код] Эту статью я как-то проглядел на ICLR 2026, но, как показали ребята из Kandinsky на датафесте, тема вполне рабочая. Проблема малошаговых диффузионных дистилляций в том, что они либо теряют качество, либо разнообразие, либо и то, и другое. А хотелось бы, само собой, все это сохранить. И команда из Standford/Adobe Research предложила очередной способ дистилляции, который, как утверждается, удовлетворяет этих хотелкам.
1 156
11
И еще из приглянувшегося с Data Fest - это рассказ Льва Новицкого про дистилляцию Kandinsky Video 5.0 в малошаговую генерацию. Используемый метод представляет собой комбинацию pi-Flow (принято на ICLR 2026, но я как-то проглядел эту работу) и Sim LADD (адверсариальная дистилляция через сэмплирование). Как утверждается, оно не только быстрее, но и лучше по user preference, чем учитель. Таймлайн рассказа 4:00:27-4:15:33
2 191
12
🔬 Метод Первое явление, которое обнаруживают авторы - это смещение внимания от sink токенам к последним по ходу драфтинга (attention drift). Причем оно имеет место как и для EAGLE-3, так и для MTP. Кроме того, sink-like поведение и похожий сдвиг есть даже у моделей, специально заточенных бороться с sink-ами (Qwen3-Next, GPT-OSS). Чтобы разобраться в причинах возникновения, авторы замеряют нормы входных состояний в драфтер, скрытого состояния и выходов. Обнаруживают, что состояния из более поздних слоев имеют большую норму и могут на себя оттягивать внимание драфтера. Кроме того, нормы состояния драфтера и выходов растут 🔼 с ростом глубины спекуляции. Последний эффект, вероятно, и вызывает перекос attention ибо более высокие нормы ключей/значений перетягивают на себя вероятностную массу. Отсюда возникает идея заменить pre-norm на post-norm в драфтере, что поддерживать норму состояния примерно постоянной. Данная модификация заметно улучшает принятие с увеличением глубины драфта. Кроме того пробуют добавить gated attention, чтобы подавить влияние синка. Синк оно подавляет и attention drift, но нормы продолжают расти. Затем еще показывают, что post норма делает выход гораздо более устойчивым к шуму. 🧪 Эксперименты Итоговая модификация выглядит следующим образом: 📌 Добавляем RMS норм на входные хиддены таргета 📌 Заменяем pre-norm на post-norm для выходного состояния драфта Переход на post-norm повышает acceptance rate на 14% в среднем по моделям в ID режиме. Шатания шаблона заметно просаживают принятие у pre-norm, но почти не влияют на post-norm. Gated attention делает модель более чувствительной к системному промпту, поэтому в итоге не используется. Далее пробуют решить проблему с обобщаемостью на длинный контекст. Дефолтный EAGLE-3 ломается, acceptance уходит в 0. С post-norm уже заметно лучше, но все еще менее 1 принятого токена. А вот что реально позволяет обобщаться - это переход от полного attention к SWA (внимание только на скользящее окно последних токенов) + BOS (или системный промпт). Таким образом удается поддерживать acceptance length около 3. 💡 Выводы Как будто несложная, но хорошо мотивированная, подкрепленная анализом модификация EAGLE. Более того, это уже даже выкатили в vLLM под названием EAGLE-3.1 (см. блогпост) и обучили для Kimi K 2.6. Интересно было бы увидеть сравнение с DFlash.
1 335
13
Attention Drift: What Autoregressive Speculative Decoding Models Learn [Статья][Код] EAGLE (в особенности 3-ий) и MTP-головы
Attention Drift: What Autoregressive Speculative Decoding Models Learn [Статья][Код] EAGLE (в особенности 3-ий) и MTP-головы стали уже довольно стандартными техниками ускорения инференса за счет предсказания нескольких токенов наперед. Однако, длина принятия не так велика, как бы хотелось. Кроме того, драфтеры оказываются неустойчивы к изменению системного шаблона и длинным контекстам. В данной работе провели анализ причин проблем драфтеров и предложили некоторые архитектурные улучшения.
1 176
14
Еще из спекулятивных новостей. На vLLM появился блогпост про 🦅 EAGLE-3.1. Авторы заметили, что вход в драфтер несбалансирова
Еще из спекулятивных новостей. На vLLM появился блогпост про 🦅 EAGLE-3.1. Авторы заметили, что вход в драфтер несбалансирован, так как более поздние состояния из сети большие по величине доминируют во входе. Кроме того, скрытое состояние драфтера растет по величине в процессе из-за отсутствия нормализаций, что делает спекуляцию нестабильной на больших глубинах драфта. Потому: • Накидывают RMS нормализации на скрытые состояния таргета • Заменяют pre-norm на post-norm для скрытых состояний драфтера Предложенные модификации якобы делают EAGLE более стабильным к разным данным, шаблонам диалогов и улучшает acceptance. Но нормальных сравнений с EAGLE 3 нигде не приведено, потому непонятно, насколько оно накидывает. Они обучили драфтер поверх Kimi-K2.6, который дает ускорение 2x на батче 1, и 1.66 на батче 6.
0
15
К статье выше 👆 На Датафесте в Сбере был очень интересный доклад от Станислава Ильюшина из Хуавея про современное состояние области спекулятивного декодирования, текущие тренды, а также представлен разбор и эксперименты автора с вышеупомянутым DFlash. Рекомендую всем желающим освежить и углубить знания про спекулятивку!
1 390
16
🔬 Метод Ключевой идеей работы является использование представлений более мощной таргет - модели для драфта. А именно, берутся активации с разных слоев таргет-модели, конкатенируются, прогоняются через некий адаптер и подаются через kv-кэш (причем во все блоки). Все токены (в пределах расшумляемого блока) предсказываются за один проход сети. Процедура обучения выглядит следующим образом: 📌 Сэмплируются anchor токены начала блока 📌 Первый токен в последовательности - чистый, остальные заменяются на [MASK]. Это отличается от типичного обучения диффузии, где зашумляются токены на случайных позициях. Кроме того, утверждается что более ранние токены более важны для генерации, поэтому лосс убывает по экспоненте от начала расшумляемого блока. Голова и эмбеддинги берутся от таргет-модели. 🧪 Эксперименты Учат драфт-модели поверх Llama-3.1 Instruct (8B) , Qwen-3 (4B, 8B, Coder-30B-A3B-Instruct). Драфт-модель - диффузионка (той же архитектуры что и базовая модель?) с 5 блоками, 8 для Qwen-3-Coder. Учат драфт на смеси примеров из Nemotron Post-Training Dataset V2 и Code Alpaca. Замеряют ускорение (качество не надо, ибо lossless) на разных бенчах на математику/код и MTBench. Оно дает ускорение до 6 раз против ~2 раз у EAGLE-3. Acceptance length тоже заметно больше. На бенчах на ризонинг тоже все хорошо. Есть и SGLang интеграция, дающая ускорение до 4х раз на батче 1, и до 2 с чем-то раз на батче 32. В ablation показывают, что выбранный размер драфта более-менее оптимален по скорости / acceptance. Больше фичей от таргета улучшает качество, но повышает расход памяти. Выбранный размер блока расшумления 16 тоже около оптимален. 💡 Выводы Если все на самом деле так хорошо, то выглядит просто как имба. Надо учить диффузионный драфтер, но это все равно дешево по сравнению с обучением базовой авторегрессии. Команды, выкладывающие новые модели, могли бы выкладывать их вместе с таким драфтером. Оригинальный репозиторий уже содержит большое количество моделей разного размера - вплоть до Kimi K2.6.
1 294
17
DFlash: Block Diffusion for Flash Speculative Decoding [Статья] [Блог] [Код] Авторегрессионные модели генерят по одному токен
DFlash: Block Diffusion for Flash Speculative Decoding [Статья] [Блог] [Код] Авторегрессионные модели генерят по одному токену за раз, что медленно, а диффузионные могут за раз выдать много, но не всегда с первого раза хорошо, и на текущий момент все еще нет моделей уровня state-of-the-art AR-ок. Довольно успешной стратегией по ускорению AR генерации показывает себя спекулятивное декодирование, где маленькая моделька предсказывает несколько токенов наперед. В частности, EAGLE и его версии получили широкое распространение. Однако максимально достижимое ускорение все равно ограничено длиной принятия, и тем что драфт-модель приходится гонять несколько раз авторегрессивно. Диффузия в качестве драфта предлагает предсказание многих токенов за один проход.
1 134
18
🔬 Метод В основе идеи статьи лежит следующее наблюдение - query меняется не очень сильно между соседними токенами, косинусная близость порядка 0.9. Отсюда мысль - давайте будем держать в памяти, то что мы подгрузили на прошлом шаге и менять по мере необходимости. В качестве кратких summary 📜 по группам токенов, используемых для определения важных токенов на оффлоадинге, берутся ландмарки из QuEST (min-max pooled ключи). Всегда брать одни и те же ключи и значения, очевидно, плохо, и для каждой головы они следят за изменением query (косинусная близость), и если изменение превышает порог - пересчитывают актуальные ключи и значения. На практике, это надо делать не слишком часто. Кроме того, подгрузку KV можно перекрыть с вычислениями в attention / mlp, тем самым дополнительно сэкономив время. 🧪 Эксперименты Предложенный подход валидируют на семействах моделей Llama-3, Qwen-2.5 и дистиллах DeepSeek-R1. Удается достичь качества оффлоадинга, при этом будучи в разы, а то и десяток раз быстрее бейзлайнов. Правда, стоит заметить, что везде инференс поверх HF transformers, так что это гонки на инвалидных колясках. 💡 Выводы Вроде бы не слишком сложно реализуемый и логичный метод оффлоадинга. Но практическое применение будет упираться в возможность интеграции в эффективные фреймворки инференса vllm / sglang.
1 266
19
FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference [Статья] [Код] Есть две популярные техники сжатия KV-кэшей (в
FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference [Статья] [Код] Есть две популярные техники сжатия KV-кэшей (вообще говоря гораздо больше, но далее рассказ затронет только эти две): 💣 KV-Cache Pruning/Eviction - убирающий наименее полезные токены 🦾 KV-Cache Offloading - сгружающий KV-кэш в более медленную, но обьемную память RAM Первый из них потенциально дает некоторое ускорение, но на практике определять важные/неважные токены сложно, из-за чего имеют место заметные просадки в качестве. Оффлоадинг потенциально сохраняет качество, но замедляет инференс из-за дорогостоящего трансфера данных из CPU RAM в VRAM. А в идеале хотелось бы чего-то быстрого и сохраняющего качество.
1 277
20
Некто Niels Rogge с 🤗 просто машина 🦾 по производству ишшуей) • https://github.com/IST-DASLab/GridGames/issues/1 • https://
Некто Niels Rogge с 🤗 просто машина 🦾 по производству ишшуей) • https://github.com/IST-DASLab/GridGames/issues/1 • https://github.com/chunxiaoxx/nautilus-compass/issues/8 • https://github.com/chuningxdy/Noisy-Quadratic-System/issues/2
1 477