VF | Science
前往频道在 Telegram
Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь) Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий. Автор: @varfolomeefff
显示更多1 119
订阅者
无数据24 小时
+17 天
+2430 天
数据加载中...
吸引订阅者
六月 '26
六月 '26
+5
在1个频道中
五月 '26
+30
在0个频道中
Get PRO
四月 '26
+15
在0个频道中
Get PRO
三月 '26
+20
在0个频道中
Get PRO
二月 '26
+19
在0个频道中
Get PRO
一月 '26
+70
在0个频道中
Get PRO
十二月 '25
+32
在1个频道中
Get PRO
十一月 '25
+54
在1个频道中
Get PRO
十月 '25
+67
在4个频道中
Get PRO
九月 '25
+107
在2个频道中
Get PRO
八月 '25
+132
在6个频道中
Get PRO
七月 '25
+20
在0个频道中
Get PRO
六月 '25
+48
在0个频道中
Get PRO
五月 '25
+23
在0个频道中
Get PRO
四月 '25
+28
在0个频道中
Get PRO
三月 '25
+60
在3个频道中
Get PRO
二月 '25
+173
在4个频道中
Get PRO
一月 '25
+49
在1个频道中
Get PRO
十二月 '24
+21
在0个频道中
Get PRO
十一月 '24
+64
在0个频道中
Get PRO
十月 '24
+50
在1个频道中
Get PRO
九月 '24
+52
在2个频道中
Get PRO
八月 '24
+39
在3个频道中
Get PRO
七月 '24
+141
在4个频道中
Get PRO
六月 '240
在0个频道中
Get PRO
五月 '24
+17
在1个频道中
Get PRO
四月 '240
在0个频道中
Get PRO
三月 '240
在0个频道中
Get PRO
二月 '24
+147
在0个频道中
| 日期 | 订阅者增长 | 提及 | 频道 | |
| 12 六月 | 0 | |||
| 11 六月 | 0 | |||
| 10 六月 | 0 | |||
| 09 六月 | +1 | |||
| 08 六月 | 0 | |||
| 07 六月 | 0 | |||
| 06 六月 | 0 | |||
| 05 六月 | 0 | |||
| 04 六月 | +2 | |||
| 03 六月 | +1 | |||
| 02 六月 | +1 | |||
| 01 六月 | 0 |
频道帖子
| 2 | Бтв, приходите на DataFest что-ли, 23го в X5 Tech буду. В этот раз не так масштабно как в прошлом году и я занялся в целом абстрактной секцией ML for Audio. Спикеры по разным городам распределились) Из музыкальных докладов всего 2, один в Питере, другой в Уфе. Будем следить!) | 647 |
| 3 | 6. Дальше RL. В речи RL зашёл быстро, потому что есть объективные метрики. TTS-1 берёт α·R_WER + β·R_SIM + γ·R_DNSMOS, считает всё через Whisper/WavLM/DNSMOS и катит GRPO. Без разметчиков. Плюс хитрость — conditional activation: reward на эмоции активен только на сэмплах с тегом эмоции, иначе он бессмысленно штрафует базовые сэмплы. Qwen3-TTS делает DPO, потом GSPO для стабильности на разных задачах.
В музыке всё сложнее, потому что объективных метрик там нет. Musicality, harmony, запоминаемость - субъективщина. Два разных подхода. LeVo делает multi-preference DPO: три оси (lyric alignment через PER, соответствие промпту через MuQ-MuLan, musicality через human seed -> reward model -> 60К пар), под каждую обучают отдельный DPO, потом линейно интерполируют веса трёх моделей. Если оптимизировать одну ось - другие проседают. Интерполяция обходит этот конфликт.
ACE-Step v1.5 пошёл дальше всех. Они отказались от внешних reward моделей вообще и придумали intrinsic rewards - модель сама себе judge через свои внутренние свойства. Attention Alignment Score считается прямо из кросс-атенншн карт диффузии: насколько внимание покрывает все lyric-токены, насколько оно монотонно движется по времени, насколько уверенно сидит в осмысленных регионах. Через DTW аггрегируется в один скаляр, корреляция с человеческой оценкой выше 95%. Далее Pointwise Mutual Information: одна и та же LM играет роль Composer (текст → audio codes) и Listener (audio codes → текст). Reward — это насколько Listener восстанавливает исходный промпт. Если модель сгенерила что-то общее, Listener даст generic caption, PMI будет около нуля. Если сгенерила что-то конкретное и попадающее в промпт - PMI большое. Никаких внешних judge'ов, никакого bias, никакого дрифта на странных генерациях.
И ещё ACE-Step применяет RL не только к генератору. У них GRPO ещё и на captioner'е в пайплайне разметки. Улучшается captioner - улучшается весь корпус - улучшается финальная модель.
#audio #perfomances | 700 |
| 4 | 👀 Audio Generation 2024-2026
Недавно собрался силами провести семинар в МИСиС от AIKC. Рассказал как сейчас делают генерацию музыки и речи. От подготовки данных из большых сырых корпусов, до применения RL. Поделился своими инсайдами и направлениями ресерча. Презу приложил к посту. Запись выложат на Stepic.
Структура семинара поделилась на общие паттерны для речи и музыки, и специфичные для речи и музыки. Некоторые идеи отлично ложатся с одного домена на другой, но еще не были применены для речи/музыки.
1. Говоря о данных, а у нас корпуса могут доходить до 5М часов как в Qwen3-TTS, или 1М часов как в Inworld TTS-1, или 27М семпов музыки как в ACE-Step-1,5... Хочется уметь автоматически и качественно отбирать данные для претрейна/CPT/SFT. В речи есть объективные метрики типа WER/PER, SIM, всякие MOS'ы. Это более приятный сценарий, в отличие от музыки, где нет объективных метрик. Поэтому сейчас хороший сценарий для музыки - использовать frontier LLM модели типа Gemini 2.5 Pro. Авторы ACE-Step предложили занятный self-evolving pipeline.
2. Говоря о репрезентациях аудио, сейчас идет смещение к аудио кодекам. В речи главный приоритет - стриминг. Низкий битрейт 12-25Hz, casual-only decoder для реалтайма, а попытки сжать битрейт еще ниже до 5Hz обычно неудачны, НО недавно вышел SiTok. В музыке стриминг не нужен, нам скорее хочется сделать кодек работающий с 48kHz аудио и длинным контекстом. Длина последовательности при 25Hz ~= 7500*количество кодбуков, бюджет растет до десятков тысяч токенов. Плюс хочется учитывать когерентность между треками: вокал и разные инструменты аккомпанемента. Авторы LeVo придумали классный кодек для этого. А для работы с длинным контекстом хорошее решение предложили авторы Qwen3-TTS, сделали curriculum по контексту с 8 до 32к токенов. Конечно сейчас также мейнстрим разными способами добавлять семантику в кодеки, стандарт - стиль Mimi Codec.
3. Собрав данные и определив репрезентации, подумаем о архитектуре. Тут мне нравится схема от BLIP3o-Next, хоть тут и про картинки. Их AR+Diffusion пайплайн. Накидывают RL на AR для хорошего понимания сцены, позиционирования объектов, прочей семантики. Потом через кросс-атеншн в DiT блоки добавляют инфу из AR блока. Почитайте работу) В речи подобный паттерн нарастает.
Впрочем, говоря про pure AR: готовый стек LLM, in-context learning — voice cloning «из коробки», законы масштабирования, но бывает exposure bias, hallucinations, repetitions и качество ограничено codec bottleneck. Иначе гововря про Non-AR: параллельная генерация — нет последовательной задержки, continuous latents — нет codec bottleneck, нет exposure bias, но alignment text-audio — центральная сложность, long-form coherence хуже, чем у AR, тяжелее применять RL
4. Переходя к обучению, конечно увидим пайплайн PT->CPT->SFT->RL, а говоря про инференс и стримнг обратите внимание на техрепорт Iworld TTS-1. В музыке говоря про long-context снова обратите внимание на curriculum по длине от Qwen3-TTS, про структурное сегментирование у YuE/ACE-Step, dual-treck+mixed tokens generation от LeVo.
5. Для управляемости генерацией мейнстрим - LM как планировщик. Вместо промпт -> output делают промпт -> LM blueprint -> output. В речи это thinking pattern из Qwen3-TTS, активируется для сложных voice description промптов, как ризонинг в LLM. Плюс emotion/non-verbal tags ([whispering], [breathe]), которые в Inworld TTS-1 учат через LoRA на парных (neutral, stylized) данных - полный FT теряет базовую cloning capability. В музыке размах больше: ACE-Step делает Composer Agent, который раскладывает «sad jazz ballad» в YAML с BPM, key, structure, instruments, mood - DiT-рендерер занимается только акустикой. YuE добавляет structural progressive conditioning - генерация по сегментам [verse][chorus][bridge] с передачей контекста, авторы явно называют это CoT для музыки.
#audio #perfomances | 1 043 |
| 5 | 📊 Лекция 11: Advanced DL от AI Knowledge Club
⭐ Тема: Audio Generation
⭐ Лектор: Варфоломеев Захар
Разберем современные пайплайны для генерации речи и музыки. Обсудим как делают данные из больших сырых корпусов, архитектуры моделей, обучение, влияние семантики и RL. Выделю практические инсайды, поделюсь своими идеями для последующих модификаций
Ссылка на степик
▫ 14 мая (этот четверг) в 18:15
▫ Онлайн (ссылку на трансляцию пришлём в чат) | 662 |
| 6 | Interesting community on Reddit
https://www.reddit.com/r/VoiceAutomationAI/
will host AMA session with Tony Robinson, one of the most knowledgeable person I know
Upcoming AMA with Dr Tony Robinson (Founder Speechmatics)
Excited to announce that Dr Tony Robinson will be joining Unio - The Voice AI Community powered by SLNG for a live AMA with builders & founders.
If you’re building voice AI, you already know this:
it works in demos… and breaks in production.
Dr Tony has spent 36+ years in Voice AI, starting in 1989 at Cambridge where he built one of the earliest neural network based speech recognition systems, long before deep learning became mainstream.
Today, Speechmatics powers voice AI across 50+ languages, with customers seeing 9x growth in voice agent adoption in 2025.
📅 Date: 27 March
⏰ Time: 10:30 AM PST / 11:00 PM IST
📍 Location: Reddit (r/VoiceAutomationAI)
For the next 24 hours, he’ll be answering questions about:
• What actually breaks in production voice AI (and how to fix it)
• Accents, noise, latency & real-world edge cases
• Designing reliable STT-LLM-TTS pipelines
• Lessons from 35+ years building speech systems
• Where voice AI is really heading (beyond the hype)
• What he’d do differently if starting today
If you're building in Voice AI, AI agents, or conversational automation, this is a rare opportunity to learn from someone who has been solving these problems for decades.
Join the reddit community to drop questions👇
Link in the first comment. | 524 |
| 7 | Кто сказал «мяу»?
ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр», где нужно распознать, кто говорит!
Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука:
🔹искажения, вносимые акустической средой;
🔹посторонние шумы;
🔹реверберация;
🔹большое расстояние до микрофона;
🔹искажения каналов связи.
Участвуй и ты сможешь:
🟦получить шанс разделить призовой фонд в 600 000 рублей;
🟦разработать решения в области Audio/Speech ML;
🟦прокачать скиллы в Speaker Recognition и Deep Learning.
👆 Регистрируйтесь до 10 апреля включительно!
Подписывайтесь на телеграм-канал «Криптонит. Разработка, наука, шифрование» — там много всего интересного. | 1 857 |
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
