VF | Science

前往频道在 Telegram

Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь) Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий. Автор: @varfolomeefff

显示更多

俄罗斯301 919 音乐29 260

1 127

订阅者

+224 小时

+97 天

+930 天

910

帖子浏览量

~ 35424 小时

无数据48 小时

80.75%

参与率

无数据

每日帖子数

Ads index

beta

数据加载中...

吸引订阅者

七月 '26

+13

在0个频道中

六月 '26

+11

在1个频道中

Get PRO

五月 '26

+30

在0个频道中

Get PRO

四月 '26

+15

在0个频道中

Get PRO

三月 '26

+20

在0个频道中

Get PRO

二月 '26

+19

在0个频道中

Get PRO

一月 '26

+70

在0个频道中

Get PRO

十二月 '25

+32

在1个频道中

Get PRO

十一月 '25

+54

在1个频道中

Get PRO

十月 '25

+67

在4个频道中

Get PRO

九月 '25

+107

在2个频道中

Get PRO

八月 '25

+132

在6个频道中

Get PRO

七月 '25

+20

在0个频道中

Get PRO

六月 '25

+48

在0个频道中

Get PRO

五月 '25

+23

在0个频道中

Get PRO

四月 '25

+28

在0个频道中

Get PRO

三月 '25

+60

在3个频道中

Get PRO

二月 '25

+173

在4个频道中

Get PRO

一月 '25

+49

在1个频道中

Get PRO

十二月 '24

+21

在0个频道中

Get PRO

十一月 '24

+64

在0个频道中

Get PRO

十月 '24

+50

在1个频道中

Get PRO

九月 '24

+52

在2个频道中

Get PRO

八月 '24

+39

在3个频道中

Get PRO

七月 '24

+141

在4个频道中

Get PRO

六月 '240

在0个频道中

Get PRO

五月 '24

+17

在1个频道中

Get PRO

四月 '240

在0个频道中

Get PRO

三月 '240

在0个频道中

Get PRO

二月 '24

+147

在0个频道中

日期	订阅者增长	提及	频道
08 七月	+1
07 七月	+2
06 七月	+9
05 七月	0
04 七月	0
03 七月	0
02 七月	+1
01 七月	0

频道帖子

афтепати на ACL... фу а можно мне тоже?

2	Накручиваем просмотры 😇 https://youtu.be/NOdTBdAXdIM	947
3	Бтв, приходите на DataFest что-ли, 23го в X5 Tech буду. В этот раз не так масштабно как в прошлом году и я занялся в целом абстрактной секцией ML for Audio. Спикеры по разным городам распределились) Из музыкальных докладов всего 2, один в Питере, другой в Уфе. Будем следить!)	526
4	6. Дальше RL. В речи RL зашёл быстро, потому что есть объективные метрики. TTS-1 берёт α·R_WER + β·R_SIM + γ·R_DNSMOS, считает всё через Whisper/WavLM/DNSMOS и катит GRPO. Без разметчиков. Плюс хитрость — conditional activation: reward на эмоции активен только на сэмплах с тегом эмоции, иначе он бессмысленно штрафует базовые сэмплы. Qwen3-TTS делает DPO, потом GSPO для стабильности на разных задачах. В музыке всё сложнее, потому что объективных метрик там нет. Musicality, harmony, запоминаемость - субъективщина. Два разных подхода. LeVo делает multi-preference DPO: три оси (lyric alignment через PER, соответствие промпту через MuQ-MuLan, musicality через human seed -> reward model -> 60К пар), под каждую обучают отдельный DPO, потом линейно интерполируют веса трёх моделей. Если оптимизировать одну ось - другие проседают. Интерполяция обходит этот конфликт. ACE-Step v1.5 пошёл дальше всех. Они отказались от внешних reward моделей вообще и придумали intrinsic rewards - модель сама себе judge через свои внутренние свойства. Attention Alignment Score считается прямо из кросс-атенншн карт диффузии: насколько внимание покрывает все lyric-токены, насколько оно монотонно движется по времени, насколько уверенно сидит в осмысленных регионах. Через DTW аггрегируется в один скаляр, корреляция с человеческой оценкой выше 95%. Далее Pointwise Mutual Information: одна и та же LM играет роль Composer (текст → audio codes) и Listener (audio codes → текст). Reward — это насколько Listener восстанавливает исходный промпт. Если модель сгенерила что-то общее, Listener даст generic caption, PMI будет около нуля. Если сгенерила что-то конкретное и попадающее в промпт - PMI большое. Никаких внешних judge'ов, никакого bias, никакого дрифта на странных генерациях. И ещё ACE-Step применяет RL не только к генератору. У них GRPO ещё и на captioner'е в пайплайне разметки. Улучшается captioner - улучшается весь корпус - улучшается финальная модель. #audio #perfomances	506
5	👀 Audio Generation 2024-2026 Недавно собрался силами провести семинар в МИСиС от AIKC. Рассказал как сейчас делают генерацию музыки и речи. От подготовки данных из большых сырых корпусов, до применения RL. Поделился своими инсайдами и направлениями ресерча. Презу приложил к посту. Запись выложат на Stepic. Структура семинара поделилась на общие паттерны для речи и музыки, и специфичные для речи и музыки. Некоторые идеи отлично ложатся с одного домена на другой, но еще не были применены для речи/музыки. 1. Говоря о данных, а у нас корпуса могут доходить до 5М часов как в Qwen3-TTS, или 1М часов как в Inworld TTS-1, или 27М семпов музыки как в ACE-Step-1,5... Хочется уметь автоматически и качественно отбирать данные для претрейна/CPT/SFT. В речи есть объективные метрики типа WER/PER, SIM, всякие MOS'ы. Это более приятный сценарий, в отличие от музыки, где нет объективных метрик. Поэтому сейчас хороший сценарий для музыки - использовать frontier LLM модели типа Gemini 2.5 Pro. Авторы ACE-Step предложили занятный self-evolving pipeline. 2. Говоря о репрезентациях аудио, сейчас идет смещение к аудио кодекам. В речи главный приоритет - стриминг. Низкий битрейт 12-25Hz, casual-only decoder для реалтайма, а попытки сжать битрейт еще ниже до 5Hz обычно неудачны, НО недавно вышел SiTok. В музыке стриминг не нужен, нам скорее хочется сделать кодек работающий с 48kHz аудио и длинным контекстом. Длина последовательности при 25Hz ~= 7500*количество кодбуков, бюджет растет до десятков тысяч токенов. Плюс хочется учитывать когерентность между треками: вокал и разные инструменты аккомпанемента. Авторы LeVo придумали классный кодек для этого. А для работы с длинным контекстом хорошее решение предложили авторы Qwen3-TTS, сделали curriculum по контексту с 8 до 32к токенов. Конечно сейчас также мейнстрим разными способами добавлять семантику в кодеки, стандарт - стиль Mimi Codec. 3. Собрав данные и определив репрезентации, подумаем о архитектуре. Тут мне нравится схема от BLIP3o-Next, хоть тут и про картинки. Их AR+Diffusion пайплайн. Накидывают RL на AR для хорошего понимания сцены, позиционирования объектов, прочей семантики. Потом через кросс-атеншн в DiT блоки добавляют инфу из AR блока. Почитайте работу) В речи подобный паттерн нарастает. Впрочем, говоря про pure AR: готовый стек LLM, in-context learning — voice cloning «из коробки», законы масштабирования, но бывает exposure bias, hallucinations, repetitions и качество ограничено codec bottleneck. Иначе гововря про Non-AR: параллельная генерация — нет последовательной задержки, continuous latents — нет codec bottleneck, нет exposure bias, но alignment text-audio — центральная сложность, long-form coherence хуже, чем у AR, тяжелее применять RL 4. Переходя к обучению, конечно увидим пайплайн PT->CPT->SFT->RL, а говоря про инференс и стримнг обратите внимание на техрепорт Iworld TTS-1. В музыке говоря про long-context снова обратите внимание на curriculum по длине от Qwen3-TTS, про структурное сегментирование у YuE/ACE-Step, dual-treck+mixed tokens generation от LeVo. 5. Для управляемости генерацией мейнстрим - LM как планировщик. Вместо промпт -> output делают промпт -> LM blueprint -> output. В речи это thinking pattern из Qwen3-TTS, активируется для сложных voice description промптов, как ризонинг в LLM. Плюс emotion/non-verbal tags ([whispering], [breathe]), которые в Inworld TTS-1 учат через LoRA на парных (neutral, stylized) данных - полный FT теряет базовую cloning capability. В музыке размах больше: ACE-Step делает Composer Agent, который раскладывает «sad jazz ballad» в YAML с BPM, key, structure, instruments, mood - DiT-рендерер занимается только акустикой. YuE добавляет structural progressive conditioning - генерация по сегментам [verse][chorus][bridge] с передачей контекста, авторы явно называют это CoT для музыки. #audio #perfomances	839
6	📊 Лекция 11: Advanced DL от AI Knowledge Club ⭐ Тема: Audio Generation ⭐ Лектор: Варфоломеев Захар Разберем современные пайплайны для генерации речи и музыки. Обсудим как делают данные из больших сырых корпусов, архитектуры моделей, обучение, влияние семантики и RL. Выделю практические инсайды, поделюсь своими идеями для последующих модификаций Ссылка на степик ▫ 14 мая (этот четверг) в 18:15 ▫ Онлайн (ссылку на трансляцию пришлём в чат)	626

查看所有帖子