uz
Feedback
VF | Science

VF | Science

Kanalga Telegram’da o‘tish

Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь) Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий. Автор: @varfolomeefff

Ko'proq ko'rsatish
1 115
Obunachilar
+224 soatlar
-17 kunlar
Ma'lumot yo'q30 kunlar
Obunachilarni jalb qilish
Iyun '26
Iyun '26
+8
1 kanalda
May '26
+30
0 kanalda
Get PRO
Aprel '26
+15
0 kanalda
Get PRO
Mart '26
+20
0 kanalda
Get PRO
Fevral '26
+19
0 kanalda
Get PRO
Yanvar '26
+70
0 kanalda
Get PRO
Dekabr '25
+32
1 kanalda
Get PRO
Noyabr '25
+54
1 kanalda
Get PRO
Oktabr '25
+67
4 kanalda
Get PRO
Sentabr '25
+107
2 kanalda
Get PRO
Avgust '25
+132
6 kanalda
Get PRO
Iyul '25
+20
0 kanalda
Get PRO
Iyun '25
+48
0 kanalda
Get PRO
May '25
+23
0 kanalda
Get PRO
Aprel '25
+28
0 kanalda
Get PRO
Mart '25
+60
3 kanalda
Get PRO
Fevral '25
+173
4 kanalda
Get PRO
Yanvar '25
+49
1 kanalda
Get PRO
Dekabr '24
+21
0 kanalda
Get PRO
Noyabr '24
+64
0 kanalda
Get PRO
Oktabr '24
+50
1 kanalda
Get PRO
Sentabr '24
+52
2 kanalda
Get PRO
Avgust '24
+39
3 kanalda
Get PRO
Iyul '24
+141
4 kanalda
Get PRO
Iyun '240
0 kanalda
Get PRO
May '24
+17
1 kanalda
Get PRO
Aprel '240
0 kanalda
Get PRO
Mart '240
0 kanalda
Get PRO
Fevral '24
+147
0 kanalda
Sana
Obunachilarni jalb qilish
Esdaliklar
Kanallar
28 Iyun0
27 Iyun+2
26 Iyun0
25 Iyun0
24 Iyun0
23 Iyun0
22 Iyun0
21 Iyun0
20 Iyun0
19 Iyun0
18 Iyun0
17 Iyun0
16 Iyun0
15 Iyun+1
14 Iyun0
13 Iyun0
12 Iyun0
11 Iyun0
10 Iyun0
09 Iyun+1
08 Iyun0
07 Iyun0
06 Iyun0
05 Iyun0
04 Iyun+2
03 Iyun+1
02 Iyun+1
01 Iyun0
Kanal postlari
Накручиваем просмотры 😇 https://youtu.be/NOdTBdAXdIM

2
Бтв, приходите на DataFest что-ли, 23го в X5 Tech буду. В этот раз не так масштабно как в прошлом году и я занялся в целом абстрактной секцией ML for Audio. Спикеры по разным городам распределились) Из музыкальных докладов всего 2, один в Питере, другой в Уфе. Будем следить!)
693
3
6. Дальше RL. В речи RL зашёл быстро, потому что есть объективные метрики. TTS-1 берёт α·R_WER + β·R_SIM + γ·R_DNSMOS, считает всё через Whisper/WavLM/DNSMOS и катит GRPO. Без разметчиков. Плюс хитрость — conditional activation: reward на эмоции активен только на сэмплах с тегом эмоции, иначе он бессмысленно штрафует базовые сэмплы. Qwen3-TTS делает DPO, потом GSPO для стабильности на разных задачах. В музыке всё сложнее, потому что объективных метрик там нет. Musicality, harmony, запоминаемость - субъективщина. Два разных подхода. LeVo делает multi-preference DPO: три оси (lyric alignment через PER, соответствие промпту через MuQ-MuLan, musicality через human seed -> reward model -> 60К пар), под каждую обучают отдельный DPO, потом линейно интерполируют веса трёх моделей. Если оптимизировать одну ось - другие проседают. Интерполяция обходит этот конфликт. ACE-Step v1.5 пошёл дальше всех. Они отказались от внешних reward моделей вообще и придумали intrinsic rewards - модель сама себе judge через свои внутренние свойства. Attention Alignment Score считается прямо из кросс-атенншн карт диффузии: насколько внимание покрывает все lyric-токены, насколько оно монотонно движется по времени, насколько уверенно сидит в осмысленных регионах. Через DTW аггрегируется в один скаляр, корреляция с человеческой оценкой выше 95%. Далее Pointwise Mutual Information: одна и та же LM играет роль Composer (текст → audio codes) и Listener (audio codes → текст). Reward — это насколько Listener восстанавливает исходный промпт. Если модель сгенерила что-то общее, Listener даст generic caption, PMI будет около нуля. Если сгенерила что-то конкретное и попадающее в промпт - PMI большое. Никаких внешних judge'ов, никакого bias, никакого дрифта на странных генерациях. И ещё ACE-Step применяет RL не только к генератору. У них GRPO ещё и на captioner'е в пайплайне разметки. Улучшается captioner - улучшается весь корпус - улучшается финальная модель. #audio #perfomances
749
4
👀 Audio Generation 2024-2026 Недавно собрался силами провести семинар в МИСиС от AIKC. Рассказал как сейчас делают генерацию музыки и речи. От подготовки данных из большых сырых корпусов, до применения RL. Поделился своими инсайдами и направлениями ресерча. Презу приложил к посту. Запись выложат на Stepic. Структура семинара поделилась на общие паттерны для речи и музыки, и специфичные для речи и музыки. Некоторые идеи отлично ложатся с одного домена на другой, но еще не были применены для речи/музыки. 1. Говоря о данных, а у нас корпуса могут доходить до 5М часов как в Qwen3-TTS, или 1М часов как в Inworld TTS-1, или 27М семпов музыки как в ACE-Step-1,5... Хочется уметь автоматически и качественно отбирать данные для претрейна/CPT/SFT. В речи есть объективные метрики типа WER/PER, SIM, всякие MOS'ы. Это более приятный сценарий, в отличие от музыки, где нет объективных метрик. Поэтому сейчас хороший сценарий для музыки - использовать frontier LLM модели типа Gemini 2.5 Pro. Авторы ACE-Step предложили занятный self-evolving pipeline. 2. Говоря о репрезентациях аудио, сейчас идет смещение к аудио кодекам. В речи главный приоритет - стриминг. Низкий битрейт 12-25Hz, casual-only decoder для реалтайма, а попытки сжать битрейт еще ниже до 5Hz обычно неудачны, НО недавно вышел SiTok. В музыке стриминг не нужен, нам скорее хочется сделать кодек работающий с 48kHz аудио и длинным контекстом. Длина последовательности при 25Hz ~= 7500*количество кодбуков, бюджет растет до десятков тысяч токенов. Плюс хочется учитывать когерентность между треками: вокал и разные инструменты аккомпанемента. Авторы LeVo придумали классный кодек для этого. А для работы с длинным контекстом хорошее решение предложили авторы Qwen3-TTS, сделали curriculum по контексту с 8 до 32к токенов. Конечно сейчас также мейнстрим разными способами добавлять семантику в кодеки, стандарт - стиль Mimi Codec. 3. Собрав данные и определив репрезентации, подумаем о архитектуре. Тут мне нравится схема от BLIP3o-Next, хоть тут и про картинки. Их AR+Diffusion пайплайн. Накидывают RL на AR для хорошего понимания сцены, позиционирования объектов, прочей семантики. Потом через кросс-атеншн в DiT блоки добавляют инфу из AR блока. Почитайте работу) В речи подобный паттерн нарастает. Впрочем, говоря про pure AR: готовый стек LLM, in-context learning — voice cloning «из коробки», законы масштабирования, но бывает exposure bias, hallucinations, repetitions и качество ограничено codec bottleneck. Иначе гововря про Non-AR: параллельная генерация — нет последовательной задержки, continuous latents — нет codec bottleneck, нет exposure bias, но alignment text-audio — центральная сложность, long-form coherence хуже, чем у AR, тяжелее применять RL 4. Переходя к обучению, конечно увидим пайплайн PT->CPT->SFT->RL, а говоря про инференс и стримнг обратите внимание на техрепорт Iworld TTS-1. В музыке говоря про long-context снова обратите внимание на curriculum по длине от Qwen3-TTS, про структурное сегментирование у YuE/ACE-Step, dual-treck+mixed tokens generation от LeVo. 5. Для управляемости генерацией мейнстрим - LM как планировщик. Вместо промпт -> output делают промпт -> LM blueprint -> output. В речи это thinking pattern из Qwen3-TTS, активируется для сложных voice description промптов, как ризонинг в LLM. Плюс emotion/non-verbal tags ([whispering], [breathe]), которые в Inworld TTS-1 учат через LoRA на парных (neutral, stylized) данных - полный FT теряет базовую cloning capability. В музыке размах больше: ACE-Step делает Composer Agent, который раскладывает «sad jazz ballad» в YAML с BPM, key, structure, instruments, mood - DiT-рендерер занимается только акустикой. YuE добавляет structural progressive conditioning - генерация по сегментам [verse][chorus][bridge] с передачей контекста, авторы явно называют это CoT для музыки. #audio #perfomances
1 102
5
📊 Лекция 11: Advanced DL от AI Knowledge Club ⭐ Тема: Audio Generation ⭐ Лектор: Варфоломеев Захар Разберем современные пайп
📊 Лекция 11: Advanced DL от AI Knowledge Club ⭐ Тема: Audio Generation ⭐ Лектор: Варфоломеев Захар Разберем современные пайплайны для генерации речи и музыки. Обсудим как делают данные из больших сырых корпусов, архитектуры моделей, обучение, влияние семантики и RL. Выделю практические инсайды, поделюсь своими идеями для последующих модификаций Ссылка на степик ▫ 14 мая (этот четверг) в 18:15 ▫ Онлайн (ссылку на трансляцию пришлём в чат)
662