Voice stuff

Kanalga Telegram’da o‘tish

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Ko'proq ko'rsatish

Rossiya235 504 Texnologiyalar & Aralashmalar32 830

1 717

Obunachilar

+124 soatlar

+107 kunlar

+2030 kunlar

989

Post ko'rishlar

~ 45024 soatlar

~ 54148 soatlar

57.60%

Muloqot nisbati

Ma'lumot yo'q

Kuniga postlar

Ads index

beta

Postlar arxiv

1 717

Yes

1 717

Бета-тест Ищу несколько человек для закрытого тестирования приложения. Только для тех у кого есть своя собачка дома и iPhone на свежей iOS. Напишите в комментарии или в лс @frappuccino_o

1 717

Фронтир У меня сложилось впечатление будто индустрия и академия в синтезе речи сейчас в сильном разногласии. В статьях я читаю про 8B монстров с диффузией, в то время как на практике где-то и fastspeech в проде крутится. Я думал что это обычный лаг, но дело оказалось в другом: Сейчас есть три фронтира у синтеза речи: • Мощный и экспрессивный синтез - тут нам важно получить максимальную экспрессивность и качество любой ценой. Скоростью и стримингом можно пожертвовать в пользу качества. OmniVoice - это такая система. • Диалоговый синтез речи - Системы, заточенные под контекст диалога, под стриминг, под скорость до первого аудио и разговорный стиль речи. • Массовый недорогой - это тот самый fastspeech, который спокойно крутится в проде. От него требуется чтобы он был стабильный, чтобы дёшево мог обрабатывать большое количество параллельных запросов или на каком-то слабом железе и чтобы он просто выполнял свою задачу. Один размер не подходит всем. Для синтеза “клиент в очереди номер №134, пройдите к окошку 5” или “Для корпоративных клиентов, нажмите 3” не нужна 8B сетка умеющая смеяться, вздыхать, шептать и стонать. Будущее в моей голове не складывается в картинку, где одна огромная моделька победила всех. Есть, правда, сценарий, в котором вся эта классификация скоро устареет: TTS перестанет существовать как самостоятельная модель и станет одной из модальностей LLM Но в 2030 фразу “ваш звонок очень важен для нас” всё ещё будет говорить какой-нибудь VITS.

1 717

Бенчмарк для Speech LM моделей https://huggingface.co/datasets/DiscreteSpeech/SpeechEditBench https://arxiv.org/abs/2606.01804

1 717

Доброе утро! 💩

1 717

Google Analytycs Я стал с недоверием относиться к сторонним сервисам, куда скидываю свою датку. Google Analytics, если вы конечно к нему не привыкли, уже очень легко заменить без сторонних сервисов. К тому же они уже всё равно имеют доступ к вашим данным. Например, если сайт уже проходит через Cloudflare, у них есть вполне достаточная для маленького проекта web analytics. Скачивания аппки в App Store и её динамику отслеживает Apple и у них тоже уже есть доступ к этим данным, можно без избыточности здесь обойтись. Внутри самой аппки, правда, придётся самому добавлять события, которые мы отслеживаем, но это всё равно нужно делать. Для маленького продукта большая часть того, ради чего я открывал PostHog, оказалась обычными запросами к собственной таблице событий. Сейчас их проще сформулировать Claude на человеческом языке. Но тут правда вопрос доверяете ли вы клоду. Из плюсов - теперь чуть меньше провайдеров данных имеют доступ к вашим. И можно жить без плашки “is it OK to share your cookies?”. GA всё равно не рассказывает мне о пользователях ничего кроме их страны, так что и ладно. Но при этом, добвляет где-то 60-100мс к времени загрузки страницы.

1 717

Мне запретили пользоваться ChatGPT на собеседовании. Считаю это дискриминацией.

Перевод статьи с hacker news

Недавно я проходила собеседование на позицию профессора в одном очень известном университете. Всё шло отлично: доклад, встречи с преподавателями, обсуждение исследований. А потом начался chalk talk — нужно было у доски без слайдов рассказать о своих будущих исследованиях. Я спокойно открыла ноутбук, зашла в ChatGPT и приготовилась работать так, как работаю каждый день. В комнате повисла тишина. — Что вы делаете? — Готовлюсь отвечать на ваши вопросы. — С ChatGPT? — Ну да. А как ещё? Оказалось, правильный ответ — «из головы». Как будто я какой-то средневековый крестьянин. Я хороший учёный. У меня статьи, гранты, студенты, публикации. Просто процентов 85% всего этого я сделала, печатая промпты в большие языковые модели и потом слегка редактируя результат. Так сейчас и работает наука. Статья? «Напиши введение про такую-то тему». Грант? «Предложи сильные specific aims». Эксперимент? «Какие нужны контроли?» Это мой научный процесс. Быстро, современно и эффективно. Но на собеседовании почему-то ожидалось, что я… просто знаю всё сама. Меня попросили объяснить мой научный подход. Я начала печатать: «Объясни мой научный подход к исследованию…» — Без ноутбука. Я не поняла вопрос. — Просто своими словами. Своими словами? Я не пользовалась своими словами примерно с 2022 года. Когда передо мной нет окна с промптом, в голове только туман и мигающий курсор. Моя работа — писать запросы, а не думать абзацами. Я попыталась объяснить комиссии, что оценивать учёного без ИИ — всё равно что оценивать плотника без молотка. В реальной работе у меня всегда будет доступ к этим инструментам. Искусство сегодня — не помнить всё наизусть, а уметь задать правильный вопрос. Их это почему-то не убедило. Потом меня попросили нарисовать исследуемый биологический путь. Нарисовать? Руками? Я отлично знала, что этот путь существует. ChatGPT много раз прекрасно про него писал, а я полностью соглашалась с написанным. Но где именно стрелочки, какие узлы и связи… это хранилось не в моей голове. Это хранилось в облаке. Я нарисовала два кружочка. Первый подписала «Транскрипция». Второй — «Фазовое разделение». Соединила их стрелкой. Посмотрела на комиссию с надеждой. — Это всё? — Остальное есть в research statement… на ноутбуке. Работу мне не предложили. В письме написали, что у комиссии возникли сомнения в моём «самостоятельном мышлении» и «фундаментальных знаниях». Самостоятельном мышлении? Да буквально на прошлой неделе я самостоятельно попросила ChatGPT сравнить два экспериментальных подхода, самостоятельно прочитала ответ и самостоятельно выбрала тот, который понравился больше. Чем не научное мышление? Мне кажется, академия просто не успела за временем. Она всё ещё хочет видеть человека, который стоит у доски и с ходу рассуждает о своей области знаний, словно натуралист XIX века. А современная наука устроена иначе: сначала промпт, потом итерации, потом результат. Теперь я ищу работу в индустрии. Говорят, там гораздо спокойнее относятся к людям, которые быстро генерируют идеи с помощью ИИ. Видимо, это корпоративный способ сказать «умеет очень быстро печатать промпты». Но за chalk talk мне всё ещё обидно. Не за себя. Я переживу. За тех кандидатов, которые придут после меня с открытым ноутбуком и уже набранным промптом — и услышат, что здесь так не принято. Хотя именно так сегодня и делается почти всё. А если кто-то из комиссий всё ещё читает это — я по-прежнему открыта к предложениям. Моя научная программа отлично продумана. Она просто сохранена в Google Docs. Мы с ChatGPT очень старались. Оригинал: https://inpreparation.substack.com/p/opinion-i-was-not-allowed-to-type Комментарии: https://news.ycombinator.com/item?id=48777728

1 717

Какие иконка и название должны быть у приложения для картографии? Большинство из нас скажет что с картой, компасом или глобусом. А называться должно что-то вроде geo/map/find или что-то подобное. И когда будут создавать такое приложение, попадут в лимбо неинтересных приложений, которыми никто не будет пользоваться. Идея Zenly была в том что приложение должно вызывать эмоции. Чуваки сделали приложение для геолокации с иконкой эскимо! И это рвёт шаблоны как чёрный квадрат в красном углу. Задумка авторов что они должны ассоциироваться не с картой, а с вот этим вот ощущением прогулки и встречи друзей, поэтому выбрали эскимо. Zenly стало гипер-популярным приложением с 40М пользователей в месяц (MAU) в пике. И 160М скачиваний. Это настолько много что это было 2 по скачиванию приложение в русском App Store, обгоняя instagram Snap выкупили его за $213M.

1 717

Sidon Вчера на встрече у меня спросили чем можно почистить аудио и сделать из него конфетку. Так вот, Sidon отлично справляется. Реально супер модель. Все последние данные я через неё прогонял если они не студийные и поучалось супер. Потери интонации и эмоций намного ниже чем в предыдущих моделях. https://github.com/sarulab-speech/Sidon

1 717

Это мы 😎

1 717

Repost from N/a

🎙 audiogear — как разметить миллионы аудиозаписей для TTS Выложил инструмент, которым готовлю датасеты под синтез речи. Указываешь папку с аудио → получаешь таблицу, где у каждой записи дописаны фичи: MOS, SQUIM (STOI/PESQ/SI-SDR), SNR, pitch, темп речи, выразительность, bandwidth, WER/CER, пол, эмоция. Плюс две вещи, на которых обычно спотыкаются: 🔹 Консенсус-ASR для аудио без текста — гоняет несколько русских моделей (GigaAM + Whisper + T-one) и берёт медоид по CER. Галлюцинация одной модели просто отбрасывается, в довесок — оценка уверенности. 🔹 Спикер-лейблинг с порогом — присваивает id только когда это безопасно, иначе оставляет unknown. Не сольёт двух дикторов в один голос. И любую модель с HuggingFace (классификация или регрессия) подключаешь строкой в ямле — без кода. ⚡️ Про эффективность — это главное: • батч с бакетами по длине под VRAM-бюджет → GPU на 70–90%, а не на 20%; • длинная запись не роняет прогон — лестница OOM (батч пополам → окна → CPU → NaN); • параллельные дорожки CPU∥GPU — DSP-метрики считаются под инференсом, бесплатно; • модели грузятся один раз на воркер, а не на каждый шард; • масштаб от одной GPU до SLURM-кластера, прогоны resumable. 📝 Подробный разбор «что умеет / за счёт чего быстро / как гонять»: habr , medium 🔗 Код: https://github.com/lIkesimba9/audiogear

1 717

Repost from ML Underhood

Ускорили перевод видео в Яндекс Браузере в 1,5 раза — задистиллировали диффузионный декодер TTS Делимся свежей хабростатьёй о том, как ускорили синтез речи при переводе видео в Яндекс Браузере. Зачем это понадобилось, где были подводные камни и что в итоге уехало в прод — рассказал ML-инженер команды TTS в Яндексе Цырен-Доржо Цыбиков. С чего стартовали Внутри TTS — каскад из трёх частей: 🔴языковая модель предсказывает аудиотокены по тексту; 🔴диффузионный декодер восстанавливает мел-спектрограмму из латентов; 🔴вокодер превращает её в звуковую волну. После того как оптимизировали языковую модель (она долго была самой тяжёлой), узким местом стал декодер латентов: его forward pass запускается на каждом шаге семплинга, а шагов — десятки. Его и взялись ускорять. Что сделали с аттеншном Прогнали инференс через torch.profiler и увидели, что время съедают рукописный QKVAttention и пересчёт RelativePositionBias на каждой итерации. Дальше — по нарастающей: 🔴перевели self-attention на SDPA (memory-efficient) и закешировали bias → 2,5× на уровне QKVAttention и почти вдвое меньше GPU-памяти, всё без переобучения; 🔴проверили гипотезу RoPE + FlashAttention — и честно её похоронили: на наших размерах тензоров она не обогнала кешированный baseline. Зато получили полезный отрицательный результат; 🔴как более сильную архитектуру посмотрели DiT (на него уже перешли F5-TTS, CosyVoice3): качество выше, латенси сопоставимое. Главный буст — дистилляция флоуматчинга Самое интересное — поверх флоуматчинг-декодера навесили две дистилляции: 🔴CFG-distill: вместо двух forward pass'ов на шаг (conditional + unconditional) student воспроизводит guided-предсказание за один проход; 🔴progressive distillation: student учится за один шаг делать то, что teacher делает за два, и число шагов итеративно уменьшается вдвое. Вместе это срезало число шагов семплинга с ~20 до 3 при паритете качества по SBS (наивное снижение шагов так не умеет — звук заметно проседает). Бонус progressive distillation — почти не пришлось трогать прод-код инференса, поменяли число шагов в конфиге. Итог Ускорение флоуматчинга дало 1,5× к скорости видеоперевода — теперь пользователи получают переведённое видео в полтора раза быстрее. Подробности, замеры и блок с выводами — на Хабре. ML Underhood

1 717

Мы тут с Денисом решили собраться в сидерии на лубянке в среду в 19:00, добавляйтесь кто пойдет.) https://t.me/+1f2t_fI85aphOTBi Место: https://yandex.com/maps/-/CDaZFSla

1 717

Как делаются evalы для LLM Вот есть у вас агент. На претрейне его всему не научишь, так ещё и шума на веб данных больше чем сигнала - модель будет постоянно заблуждаться. Поэтому LLMы сейчас дообучают в RL средах. И это одна из причин почему Opus 4.x и ChatGPT-5.x так хороши. Один из ранних массовых подходов был RLHF - когда человек выбирал какой ответ сети нравится ему больше. Но асессоры тоже не источник идеального сигнала, могут что-то недоглядеть при разметке. Поэтому сейчас при дообучении используются eval environments. Агенту даётся контейнер, задачка и данные для её решения. Потом мы оцениваем решение по шкале от 0 до 1 и выдаём награду LLMке. Самый отличный пример таких сред - это leetcode. У вас есть задачка, у вас есть среда с python/c++/java и контрольные задания для проверки вашего решения на правильность, часть из которых скрыта чтобы вы не жульничали. В целом, на leetcode с небольшим изменением уже можно обучать LLM. Небольшое изменение тут - это небольшие награды за промежуточное решение. Программа компилится, 2-3 тестовых кейса проходятся, PEP8 соблюдается - такие вот критерии успешности называются рубриками. Но что если у вас задачку нельзя проверить через pytest? Скажем, вы пишете сочинение и вам нужно его оценить по критериям ЕГЭ/IELTS. Сравнивать сочинения слово в слово нет смысла. Зато здесь можно использовать другую LLM для оценки решения. А в качестве рубрик можно напрямую подставить то, что мы видим на приложенной картинке. Разумеется, LLM-as-judge тоже постоянно заблуждается и завышает оценки за длинные ответы и профессиональный тон. Впрочем, люди тоже этим грешат. В сумме то, с чем мы сверяем ответ, называется oracle. Это может быть комбинация детерминистических проверок и LLM-ных. Я не знаю почему рубрики нельзя было назвать критериями оценки, а oracle назвать test suite. Окей, прогнали мы нашу LLM через нашу среду и её решение через oracle. В большинстве задач награда будет либо слишком высокой - 1.0, либо слишком низкой 0.0. Потому что моделька, естественно, либо справляется либо нет. А нам нужно что-то посередине. Поэтому такие evals нужно усложнять или придумывать чуть ли не для каждой модели заново. Они очень быстро устаревают и протекают в трейн уже через полгода-год. Такой, живой расходник получается, который постоянно ломается об новые модели. Сам eval отличается от тестов тем, что это не один тест, а маленький экзамен для модели. Есть задание, есть среда, есть правила оценки, есть проверяющий и есть оценка.

1 717

We did it. We’ve maxed out claude max subscription

1 717

Как промптить? Сейчас, очевидно, промптинг агентов сильно изменился. “ты - хороший программист” - уже не очень хороший промпт для моделек и сфера развивается с подходами к ней. Вот что я использую в своей работе постоянно: 1. Напиши мне промпт для X. Как бы тривиально не звучало, работает довольно хорошо! 2. Autoreseach X. Как только у вас есть одна метрика, которую можно улучшать, можно просить агента ресёрчить бесконечно, пока его не остановят. Просим написать промпт (пункт 1) на основе вот этого вот для вашей задачи. https://github.com/karpathy/autoresearch/blob/master/program.md 3. /deep-research немного устаревает, но генерит неплохие артефакты для п.1 и п.2 4. skills. Сейчас хвалят https://github.com/DietrichGebert/ponytail. Весь потенциал раскрывается когда вы пишете свои. По факту скилл это просто .md файл, который подаётся модели как программа. Можете попросить написать вам такой. (п.1) 5. Я вместо ponytail воткнул свой мастер промпт в самом приложении claude code, который я попросил chatgpt написать на основе /deep-research (п.3) того, где лажают агенты. 6. Контекст не забывайте давать модели 7. /loop. Лупы - супер вещь. Они работают только в клоде, к сожалению. Лупы просто надёжнее чем долгие промпты и модель меньше теряется. На них же живёт autoresearch. Тут поможет мыслить о задачке не как о “Создай X”, а “Сделать X, который нам итеративно создаёт Y” Пока на этом всё. Рассказывайте какие у вас есть приёмы.

1 717

Офлайн Пока я в Москве, может встретимся на завтрак и познакомимся на недельке? Пишите в комменты кто был бы за.

1 717

Боты атакуют репозитории так быстро что даже можно не разрабатывать ничего самостоятельно, а просто issues писать. Вот такой агентушка залетел на мою.

1 717