VF | Science

Kanalga Telegram’da o‘tish

Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь) Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий. Автор: @varfolomeefff

Ko'proq ko'rsatish

Rossiya304 389 Musiqi29 519

1 115

Obunachilar

+224 soatlar

-17 kunlar

Ma'lumot yo'q30 kunlar

910

Post ko'rishlar

Ma'lumot yo'q24 soatlar

Ma'lumot yo'q48 soatlar

81.54%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Ma'lumot yuklanmoqda...

O'xshash kanallar

DziS Science | Data Science

Ko'proq kanallar

Kirish va chiqish esdaliklari

---

Obunachilarni jalb qilish

Iyun '26

1 kanalda

May '26

+30

0 kanalda

Get PRO

Aprel '26

+15

0 kanalda

Get PRO

Mart '26

+20

0 kanalda

Get PRO

Fevral '26

+19

0 kanalda

Get PRO

Yanvar '26

+70

0 kanalda

Get PRO

Dekabr '25

+32

1 kanalda

Get PRO

Noyabr '25

+54

1 kanalda

Get PRO

Oktabr '25

+67

4 kanalda

Get PRO

Sentabr '25

+107

2 kanalda

Get PRO

Avgust '25

+132

6 kanalda

Get PRO

Iyul '25

+20

0 kanalda

Get PRO

Iyun '25

+48

0 kanalda

Get PRO

May '25

+23

0 kanalda

Get PRO

Aprel '25

+28

0 kanalda

Get PRO

Mart '25

+60

3 kanalda

Get PRO

Fevral '25

+173

4 kanalda

Get PRO

Yanvar '25

+49

1 kanalda

Get PRO

Dekabr '24

+21

0 kanalda

Get PRO

Noyabr '24

+64

0 kanalda

Get PRO

Oktabr '24

+50

1 kanalda

Get PRO

Sentabr '24

+52

2 kanalda

Get PRO

Avgust '24

+39

3 kanalda

Get PRO

Iyul '24

+141

4 kanalda

Get PRO

Iyun '240

0 kanalda

Get PRO

May '24

+17

1 kanalda

Get PRO

Aprel '240

0 kanalda

Get PRO

Mart '240

0 kanalda

Get PRO

Fevral '24

+147

0 kanalda

Sana	Obunachilarni jalb qilish	Esdaliklar	Kanallar
28 Iyun	0
27 Iyun	+2
26 Iyun	0
25 Iyun	0
24 Iyun	0
23 Iyun	0
22 Iyun	0
21 Iyun	0
20 Iyun	0
19 Iyun	0
18 Iyun	0
17 Iyun	0
16 Iyun	0
15 Iyun	+1
14 Iyun	0
13 Iyun	0
12 Iyun	0
11 Iyun	0
10 Iyun	0
09 Iyun	+1
08 Iyun	0
07 Iyun	0
06 Iyun	0
05 Iyun	0
04 Iyun	+2
03 Iyun	+1
02 Iyun	+1
01 Iyun	0

Kanal postlari

Накручиваем просмотры 😇 https://youtu.be/NOdTBdAXdIM

2	Бтв, приходите на DataFest что-ли, 23го в X5 Tech буду. В этот раз не так масштабно как в прошлом году и я занялся в целом абстрактной секцией ML for Audio. Спикеры по разным городам распределились) Из музыкальных докладов всего 2, один в Питере, другой в Уфе. Будем следить!)	693
3	6. Дальше RL. В речи RL зашёл быстро, потому что есть объективные метрики. TTS-1 берёт α·R_WER + β·R_SIM + γ·R_DNSMOS, считает всё через Whisper/WavLM/DNSMOS и катит GRPO. Без разметчиков. Плюс хитрость — conditional activation: reward на эмоции активен только на сэмплах с тегом эмоции, иначе он бессмысленно штрафует базовые сэмплы. Qwen3-TTS делает DPO, потом GSPO для стабильности на разных задачах. В музыке всё сложнее, потому что объективных метрик там нет. Musicality, harmony, запоминаемость - субъективщина. Два разных подхода. LeVo делает multi-preference DPO: три оси (lyric alignment через PER, соответствие промпту через MuQ-MuLan, musicality через human seed -> reward model -> 60К пар), под каждую обучают отдельный DPO, потом линейно интерполируют веса трёх моделей. Если оптимизировать одну ось - другие проседают. Интерполяция обходит этот конфликт. ACE-Step v1.5 пошёл дальше всех. Они отказались от внешних reward моделей вообще и придумали intrinsic rewards - модель сама себе judge через свои внутренние свойства. Attention Alignment Score считается прямо из кросс-атенншн карт диффузии: насколько внимание покрывает все lyric-токены, насколько оно монотонно движется по времени, насколько уверенно сидит в осмысленных регионах. Через DTW аггрегируется в один скаляр, корреляция с человеческой оценкой выше 95%. Далее Pointwise Mutual Information: одна и та же LM играет роль Composer (текст → audio codes) и Listener (audio codes → текст). Reward — это насколько Listener восстанавливает исходный промпт. Если модель сгенерила что-то общее, Listener даст generic caption, PMI будет около нуля. Если сгенерила что-то конкретное и попадающее в промпт - PMI большое. Никаких внешних judge'ов, никакого bias, никакого дрифта на странных генерациях. И ещё ACE-Step применяет RL не только к генератору. У них GRPO ещё и на captioner'е в пайплайне разметки. Улучшается captioner - улучшается весь корпус - улучшается финальная модель. #audio #perfomances	749
4	👀 Audio Generation 2024-2026 Недавно собрался силами провести семинар в МИСиС от AIKC. Рассказал как сейчас делают генерацию музыки и речи. От подготовки данных из большых сырых корпусов, до применения RL. Поделился своими инсайдами и направлениями ресерча. Презу приложил к посту. Запись выложат на Stepic. Структура семинара поделилась на общие паттерны для речи и музыки, и специфичные для речи и музыки. Некоторые идеи отлично ложатся с одного домена на другой, но еще не были применены для речи/музыки. 1. Говоря о данных, а у нас корпуса могут доходить до 5М часов как в Qwen3-TTS, или 1М часов как в Inworld TTS-1, или 27М семпов музыки как в ACE-Step-1,5... Хочется уметь автоматически и качественно отбирать данные для претрейна/CPT/SFT. В речи есть объективные метрики типа WER/PER, SIM, всякие MOS'ы. Это более приятный сценарий, в отличие от музыки, где нет объективных метрик. Поэтому сейчас хороший сценарий для музыки - использовать frontier LLM модели типа Gemini 2.5 Pro. Авторы ACE-Step предложили занятный self-evolving pipeline. 2. Говоря о репрезентациях аудио, сейчас идет смещение к аудио кодекам. В речи главный приоритет - стриминг. Низкий битрейт 12-25Hz, casual-only decoder для реалтайма, а попытки сжать битрейт еще ниже до 5Hz обычно неудачны, НО недавно вышел SiTok. В музыке стриминг не нужен, нам скорее хочется сделать кодек работающий с 48kHz аудио и длинным контекстом. Длина последовательности при 25Hz ~= 7500*количество кодбуков, бюджет растет до десятков тысяч токенов. Плюс хочется учитывать когерентность между треками: вокал и разные инструменты аккомпанемента. Авторы LeVo придумали классный кодек для этого. А для работы с длинным контекстом хорошее решение предложили авторы Qwen3-TTS, сделали curriculum по контексту с 8 до 32к токенов. Конечно сейчас также мейнстрим разными способами добавлять семантику в кодеки, стандарт - стиль Mimi Codec. 3. Собрав данные и определив репрезентации, подумаем о архитектуре. Тут мне нравится схема от BLIP3o-Next, хоть тут и про картинки. Их AR+Diffusion пайплайн. Накидывают RL на AR для хорошего понимания сцены, позиционирования объектов, прочей семантики. Потом через кросс-атеншн в DiT блоки добавляют инфу из AR блока. Почитайте работу) В речи подобный паттерн нарастает. Впрочем, говоря про pure AR: готовый стек LLM, in-context learning — voice cloning «из коробки», законы масштабирования, но бывает exposure bias, hallucinations, repetitions и качество ограничено codec bottleneck. Иначе гововря про Non-AR: параллельная генерация — нет последовательной задержки, continuous latents — нет codec bottleneck, нет exposure bias, но alignment text-audio — центральная сложность, long-form coherence хуже, чем у AR, тяжелее применять RL 4. Переходя к обучению, конечно увидим пайплайн PT->CPT->SFT->RL, а говоря про инференс и стримнг обратите внимание на техрепорт Iworld TTS-1. В музыке говоря про long-context снова обратите внимание на curriculum по длине от Qwen3-TTS, про структурное сегментирование у YuE/ACE-Step, dual-treck+mixed tokens generation от LeVo. 5. Для управляемости генерацией мейнстрим - LM как планировщик. Вместо промпт -> output делают промпт -> LM blueprint -> output. В речи это thinking pattern из Qwen3-TTS, активируется для сложных voice description промптов, как ризонинг в LLM. Плюс emotion/non-verbal tags ([whispering], [breathe]), которые в Inworld TTS-1 учат через LoRA на парных (neutral, stylized) данных - полный FT теряет базовую cloning capability. В музыке размах больше: ACE-Step делает Composer Agent, который раскладывает «sad jazz ballad» в YAML с BPM, key, structure, instruments, mood - DiT-рендерер занимается только акустикой. YuE добавляет structural progressive conditioning - генерация по сегментам [verse][chorus][bridge] с передачей контекста, авторы явно называют это CoT для музыки. #audio #perfomances	1 102
5	📊 Лекция 11: Advanced DL от AI Knowledge Club ⭐ Тема: Audio Generation ⭐ Лектор: Варфоломеев Захар Разберем современные пайплайны для генерации речи и музыки. Обсудим как делают данные из больших сырых корпусов, архитектуры моделей, обучение, влияние семантики и RL. Выделю практические инсайды, поделюсь своими идеями для последующих модификаций Ссылка на степик ▫ 14 мая (этот четверг) в 18:15 ▫ Онлайн (ссылку на трансляцию пришлём в чат)	662

Barcha postlarni ko‘rish