ch
Feedback
VF | Science

VF | Science

前往频道在 Telegram

Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь) Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий. Автор: @varfolomeefff

显示更多
1 119
订阅者
无数据24 小时
+17
+2430
帖子存档
Накручиваем просмотры 😇 https://youtu.be/NOdTBdAXdIM

Бтв, приходите на DataFest что-ли, 23го в X5 Tech буду. В этот раз не так масштабно как в прошлом году и я занялся в целом абстрактной секцией ML for Audio. Спикеры по разным городам распределились) Из музыкальных докладов всего 2, один в Питере, другой в Уфе. Будем следить!)

6. Дальше RL. В речи RL зашёл быстро, потому что есть объективные метрики. TTS-1 берёт α·R_WER + β·R_SIM + γ·R_DNSMOS, считает всё через Whisper/WavLM/DNSMOS и катит GRPO. Без разметчиков. Плюс хитрость — conditional activation: reward на эмоции активен только на сэмплах с тегом эмоции, иначе он бессмысленно штрафует базовые сэмплы. Qwen3-TTS делает DPO, потом GSPO для стабильности на разных задачах. В музыке всё сложнее, потому что объективных метрик там нет. Musicality, harmony, запоминаемость - субъективщина. Два разных подхода. LeVo делает multi-preference DPO: три оси (lyric alignment через PER, соответствие промпту через MuQ-MuLan, musicality через human seed -> reward model -> 60К пар), под каждую обучают отдельный DPO, потом линейно интерполируют веса трёх моделей. Если оптимизировать одну ось - другие проседают. Интерполяция обходит этот конфликт. ACE-Step v1.5 пошёл дальше всех. Они отказались от внешних reward моделей вообще и придумали intrinsic rewards - модель сама себе judge через свои внутренние свойства. Attention Alignment Score считается прямо из кросс-атенншн карт диффузии: насколько внимание покрывает все lyric-токены, насколько оно монотонно движется по времени, насколько уверенно сидит в осмысленных регионах. Через DTW аггрегируется в один скаляр, корреляция с человеческой оценкой выше 95%. Далее Pointwise Mutual Information: одна и та же LM играет роль Composer (текст → audio codes) и Listener (audio codes → текст). Reward — это насколько Listener восстанавливает исходный промпт. Если модель сгенерила что-то общее, Listener даст generic caption, PMI будет около нуля. Если сгенерила что-то конкретное и попадающее в промпт - PMI большое. Никаких внешних judge'ов, никакого bias, никакого дрифта на странных генерациях. И ещё ACE-Step применяет RL не только к генератору. У них GRPO ещё и на captioner'е в пайплайне разметки. Улучшается captioner - улучшается весь корпус - улучшается финальная модель. #audio #perfomances

👀 Audio Generation 2024-2026 Недавно собрался силами провести семинар в МИСиС от AIKC. Рассказал как сейчас делают генерацию музыки и речи. От подготовки данных из большых сырых корпусов, до применения RL. Поделился своими инсайдами и направлениями ресерча. Презу приложил к посту. Запись выложат на Stepic. Структура семинара поделилась на общие паттерны для речи и музыки, и специфичные для речи и музыки. Некоторые идеи отлично ложатся с одного домена на другой, но еще не были применены для речи/музыки. 1. Говоря о данных, а у нас корпуса могут доходить до 5М часов как в Qwen3-TTS, или 1М часов как в Inworld TTS-1, или 27М семпов музыки как в ACE-Step-1,5... Хочется уметь автоматически и качественно отбирать данные для претрейна/CPT/SFT. В речи есть объективные метрики типа WER/PER, SIM, всякие MOS'ы. Это более приятный сценарий, в отличие от музыки, где нет объективных метрик. Поэтому сейчас хороший сценарий для музыки - использовать frontier LLM модели типа Gemini 2.5 Pro. Авторы ACE-Step предложили занятный self-evolving pipeline. 2. Говоря о репрезентациях аудио, сейчас идет смещение к аудио кодекам. В речи главный приоритет - стриминг. Низкий битрейт 12-25Hz, casual-only decoder для реалтайма, а попытки сжать битрейт еще ниже до 5Hz обычно неудачны, НО недавно вышел SiTok. В музыке стриминг не нужен, нам скорее хочется сделать кодек работающий с 48kHz аудио и длинным контекстом. Длина последовательности при 25Hz ~= 7500*количество кодбуков, бюджет растет до десятков тысяч токенов. Плюс хочется учитывать когерентность между треками: вокал и разные инструменты аккомпанемента. Авторы LeVo придумали классный кодек для этого. А для работы с длинным контекстом хорошее решение предложили авторы Qwen3-TTS, сделали curriculum по контексту с 8 до 32к токенов. Конечно сейчас также мейнстрим разными способами добавлять семантику в кодеки, стандарт - стиль Mimi Codec. 3. Собрав данные и определив репрезентации, подумаем о архитектуре. Тут мне нравится схема от BLIP3o-Next, хоть тут и про картинки. Их AR+Diffusion пайплайн. Накидывают RL на AR для хорошего понимания сцены, позиционирования объектов, прочей семантики. Потом через кросс-атеншн в DiT блоки добавляют инфу из AR блока. Почитайте работу) В речи подобный паттерн нарастает. Впрочем, говоря про pure AR: готовый стек LLM, in-context learning — voice cloning «из коробки», законы масштабирования, но бывает exposure bias, hallucinations, repetitions и качество ограничено codec bottleneck. Иначе гововря про Non-AR: параллельная генерация — нет последовательной задержки, continuous latents — нет codec bottleneck, нет exposure bias, но alignment text-audio — центральная сложность, long-form coherence хуже, чем у AR, тяжелее применять RL 4. Переходя к обучению, конечно увидим пайплайн PT->CPT->SFT->RL, а говоря про инференс и стримнг обратите внимание на техрепорт Iworld TTS-1. В музыке говоря про long-context снова обратите внимание на curriculum по длине от Qwen3-TTS, про структурное сегментирование у YuE/ACE-Step, dual-treck+mixed tokens generation от LeVo. 5. Для управляемости генерацией мейнстрим - LM как планировщик. Вместо промпт -> output делают промпт -> LM blueprint -> output. В речи это thinking pattern из Qwen3-TTS, активируется для сложных voice description промптов, как ризонинг в LLM. Плюс emotion/non-verbal tags ([whispering], [breathe]), которые в Inworld TTS-1 учат через LoRA на парных (neutral, stylized) данных - полный FT теряет базовую cloning capability. В музыке размах больше: ACE-Step делает Composer Agent, который раскладывает «sad jazz ballad» в YAML с BPM, key, structure, instruments, mood - DiT-рендерер занимается только акустикой. YuE добавляет structural progressive conditioning - генерация по сегментам [verse][chorus][bridge] с передачей контекста, авторы явно называют это CoT для музыки. #audio #perfomances

Repost from AI Knowledge
📊 Лекция 11: Advanced DL от AI Knowledge Club ⭐ Тема: Audio Generation ⭐ Лектор: Варфоломеев Захар Разберем современные пайп
📊 Лекция 11: Advanced DL от AI Knowledge Club Тема: Audio Generation Лектор: Варфоломеев Захар Разберем современные пайплайны для генерации речи и музыки. Обсудим как делают данные из больших сырых корпусов, архитектуры моделей, обучение, влияние семантики и RL. Выделю практические инсайды, поделюсь своими идеями для последующих модификаций Ссылка на степик 14 мая (этот четверг) в 18:15 Онлайн (ссылку на трансляцию пришлём в чат)

Repost from Speech Technology
Interesting community on Reddit https://www.reddit.com/r/VoiceAutomationAI/ will host AMA session with Tony Robinson, one of the most knowledgeable person I know Upcoming AMA with Dr Tony Robinson (Founder Speechmatics) Excited to announce that Dr Tony Robinson will be joining Unio - The Voice AI Community powered by SLNG for a live AMA with builders & founders. If you’re building voice AI, you already know this: it works in demos… and breaks in production. Dr Tony has spent 36+ years in Voice AI, starting in 1989 at Cambridge where he built one of the earliest neural network based speech recognition systems, long before deep learning became mainstream. Today, Speechmatics powers voice AI across 50+ languages, with customers seeing 9x growth in voice agent adoption in 2025. 📅 Date: 27 March ⏰ Time: 10:30 AM PST / 11:00 PM IST 📍 Location: Reddit (r/VoiceAutomationAI) For the next 24 hours, he’ll be answering questions about: • What actually breaks in production voice AI (and how to fix it) • Accents, noise, latency & real-world edge cases • Designing reliable STT-LLM-TTS pipelines • Lessons from 35+ years building speech systems • Where voice AI is really heading (beyond the hype) • What he’d do differently if starting today If you're building in Voice AI, AI agents, or conversational automation, this is a rare opportunity to learn from someone who has been solving these problems for decades. Join the reddit community to drop questions👇 Link in the first comment.

Кто сказал «мяу»? ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр», где нужно распознать, кто говорит! Тебе пр
Кто сказал «мяу»? ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр», где нужно распознать, кто говорит! Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука: 🔹искажения, вносимые акустической средой; 🔹посторонние шумы; 🔹реверберация; 🔹большое расстояние до микрофона; 🔹искажения каналов связи. Участвуй и ты сможешь: 🟦получить шанс разделить призовой фонд в 600 000 рублей; 🟦разработать решения в области Audio/Speech ML; 🟦прокачать скиллы в Speaker Recognition и Deep Learning. 👆 Регистрируйтесь до 10 апреля включительно! Подписывайтесь на телеграм-канал «Криптонит. Разработка, наука, шифрование» — там много всего интересного.

А писать посты с разборами статей как то приелось, также есть нейронки, да и хочется делиться тем, что я знаю на практике длиною в год. Я просто выложу список самых интересных и ценных работ.

Цель номер 2 остается и горит 😇

photo content

Штош, что то достиг, другое отодвинул ибо переосмыслил и стало неважно, третье не успел. Но вообще, недурно 👍 Даже слишком быстро все пошло, я даже не понимаю, что достигать дальше, отделено от выполненных целей. Будто бы делать то, что есть качественнее и преумножать. Но все же выделю несколько новых. После праздников 🥳

Позвольте похвастаться

Repost from Audio2MIDI Channel
Audio2MIDI вошёл в ТОП-100 рейтинга Платформы университетского технологического предпринимательства В 2025 году на отбор пода
Audio2MIDI вошёл в ТОП-100 рейтинга Платформы университетского технологического предпринимательства В 2025 году на отбор подали заявки более 2300 команд со всей России, и наш проект сразу оказался в первой сотне 💯 Мы продолжаем развитие сервиса и уже внедряем улучшения, чтобы вывести конвертацию аудио в MIDI на новый уровень. Спасибо за ваше доверие❤️ —————— Audio2MIDI has entered the TOP 100 of the University Technological Entrepreneurship Platform ranking. In 2025, over 2,300 teams from across Russia applied for the selection, and our project immediately made it into the top hundred 💯 We continue to develop the service and are already implementing improvements to take audio-to-MIDI conversion to the next level. Thank you for your trust ❤️

Мои друзья в поиске MLщиков, ребята тоже делают транскрипцию музыки и много чего еще, попробуйте податься!) Мои доклады и посты в помощь 🤭

В команду успешной музыкальной платформы с 15-летней историей ищем талантливого ML-разработчика, для качественного усиления, в связи с ростом. Плеер гитарных табов (https://www.songsterr.com/) — наш основной продукт, которым ежемесячно пользуются миллионы. Мы работаем над сложными задачами в ML, включая разработку моделей для автоматической транскрипции музыки. Наши модели уже успешно создают табулатуры из аудио — вот пример результата (https://www.youtube.com/watch?v=rM4nAZOJoTQ). Это лишь часть наших проектов в области AI и музыки. Требуемые навыки: • Разработка и оптимизация DL-моделей, внедрение в прод • Глубокое знание современных DL-архитектур • Опыт тренировки на multi-GPU, оптимизация гиперпараметров • Работа с грязными user-generated датасетами: фильтрация, очистка • Желательно: аудиообработка и music information retrieval Стек: • Python + PyTorch • Accelerate/DeepSpeed/W&B Проекты завязаны на музыке и обучении — интерес к темам плюс. Главное — умение выдавать результат. Условия: • Полностью удалёнка, ставка от $9900/mo gross. • Оформление на контракт, можно из РФ/РБ. • Предпочитаем фулл-тайм, но график гибкий, сами выбираете когда работать. Хотите больше — допчасы с пропорциональной оплатой. В годовой уже ставке учтены месяц отпуска, 7 дней больничных, 14 праздников и компенсация техники, потому отдельно не оплачиваются. Процесс отбора: • Код-тест • Фидбек по тесту от нас • Если все ок — оплачиваемое тестовое (испытательный срок парт-тайм): реальная задача, график свободный, можно совмещать с текущей работой — никаких рисков Связь: @rammusin

Repost from Sinекура
Доклад вчера, кстати, безусловно удался. Большое спасибо Захару, он отлично подготовился, и этот семинар уже точно будет част
Доклад вчера, кстати, безусловно удался. Большое спасибо Захару, он отлично подготовился, и этот семинар уже точно будет частью курса DL в этом году.) Спасибо всем, кто пришёл, ну а дальше будет опять something completely different...

Капец я рад, именно лекции Сергея Николенко дали мне лучшую теорию и погружение в математику ML. Безусловно этот человек мой кумир. Очень классно совмещает знание истории и математики в своих лекциях. Впрочем, Сергей чемпион мира по ЧГК и автор множества книг :)

12го ноября прилечу в Питер к Сергею Николенко (@sinecor), буду рассказывать в главном здании СПбГУ все, что знаю про дискретные репрезентации и выбор между непрерывными фичами, это будет экстраполяция семинара про аудио кодеки на весь ML Пишите/заходите на огонек

Интерактивный tutorial по аудио кодекам от Kyutai labs 😎 https://kyutai.org/next/codec-explainer

Repost from ду́но
Открыли набор на практику по направлениям RL / VLA / IL. У нашей группы большой опыт в области RL: имеем публикации на самых топовых конференциях [см. Наши статьи]. Если вы хотите писать научные статьи, сдвигать соты, и развиваться как исследователь в области Reinforcement Learning (RL) и вокруг — то вам к нам!
Resident Research Scientist — RL / VLA / IL Вы будете заниматься написанием статей на top-tier конференции (NeurIPS, ICLR, ICML), проводить эксперименты и предлагать новые исследовательские идеи. Требования: - Наличие исследовательских идей. - Начитанность, знание и умение рассказать о последних заинтересовавших статьях с A* конференций. - Cамостоятельный опыт с чем-то из RL, Imitation Learning, Vision-Language-Action models и всем вокруг.
Подробное описание позиции и тестовое задание можно найти по ссылке выше, дедлайн подачи заявки — 10-го ноября. - - — @dunnolab