uz
Feedback
Voice stuff

Voice stuff

Kanalga Telegram’da o‘tish

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Ko'proq ko'rsatish
1 700
Obunachilar
+524 soatlar
-37 kunlar
+1430 kunlar
Obunachilarni jalb qilish
Iyul '26
Iyul '26
+8
0 kanalda
Iyun '26
+44
4 kanalda
Get PRO
May '26
+40
0 kanalda
Get PRO
Aprel '26
+33
0 kanalda
Get PRO
Mart '26
+28
0 kanalda
Get PRO
Fevral '26
+25
0 kanalda
Get PRO
Yanvar '26
+27
0 kanalda
Get PRO
Dekabr '25
+24
0 kanalda
Get PRO
Noyabr '25
+29
0 kanalda
Get PRO
Oktabr '25
+32
0 kanalda
Get PRO
Sentabr '25
+34
0 kanalda
Get PRO
Avgust '25
+73
1 kanalda
Get PRO
Iyul '25
+52
1 kanalda
Get PRO
Iyun '25
+100
2 kanalda
Get PRO
May '25
+47
1 kanalda
Get PRO
Aprel '25
+34
3 kanalda
Get PRO
Mart '25
+27
2 kanalda
Get PRO
Fevral '25
+415
3 kanalda
Get PRO
Yanvar '25
+46
0 kanalda
Get PRO
Dekabr '24
+24
0 kanalda
Get PRO
Noyabr '24
+46
0 kanalda
Get PRO
Oktabr '24
+30
1 kanalda
Get PRO
Sentabr '24
+23
1 kanalda
Get PRO
Avgust '24
+23
2 kanalda
Get PRO
Iyul '24
+58
3 kanalda
Get PRO
Iyun '24
+59
1 kanalda
Get PRO
May '24
+34
0 kanalda
Get PRO
Aprel '24
+38
0 kanalda
Get PRO
Mart '24
+69
2 kanalda
Get PRO
Fevral '24
+84
2 kanalda
Get PRO
Yanvar '24
+237
2 kanalda
Get PRO
Dekabr '23
+617
4 kanalda
Get PRO
Noyabr '23
+115
4 kanalda
Get PRO
Oktabr '23
+512
1 kanalda
Sana
Obunachilarni jalb qilish
Esdaliklar
Kanallar
03 Iyul+3
02 Iyul+5
01 Iyul0
Kanal postlari
Какие иконка и название должны быть у приложения для картографии? Большинство из нас скажет что с картой, компасом или глобус
Какие иконка и название должны быть у приложения для картографии? Большинство из нас скажет что с картой, компасом или глобусом. А называться должно что-то вроде geo/map/find или что-то подобное. И когда будут создавать такое приложение, попадут в лимбо неинтересных приложений, которыми никто не будет пользоваться. Идея Zenly была в том что приложение должно вызывать эмоции. Чуваки сделали приложение для геолокации с иконкой эскимо! И это рвёт шаблоны как чёрный квадрат в красном углу. Задумка авторов что они должны ассоциироваться не с картой, а с вот этим вот ощущением прогулки и встречи друзей, поэтому выбрали эскимо. Zenly стало гипер-популярным приложением с 40М пользователей в месяц (MAU) в пике. И 160М скачиваний. Это настолько много что это было 2 по скачиванию приложение в русском App Store, обгоняя instagram Snap выкупили его за $213M.

2
Sidon Вчера на встрече у меня спросили чем можно почистить аудио и сделать из него конфетку. Так вот, Sidon отлично справляется. Реально супер модель. Все последние данные я через неё прогонял если они не студийные и поучалось супер. Потери интонации и эмоций намного ниже чем в предыдущих моделях. https://github.com/sarulab-speech/Sidon
478
3
Это мы 😎
Это мы 😎
592
4
🎙 audiogear — как разметить миллионы аудиозаписей для TTS Выложил инструмент, которым готовлю датасеты под синтез речи. Указываешь папку с аудио → получаешь таблицу, где у каждой записи дописаны фичи: MOS, SQUIM (STOI/PESQ/SI-SDR), SNR, pitch, темп речи, выразительность, bandwidth, WER/CER, пол, эмоция. Плюс две вещи, на которых обычно спотыкаются: 🔹 Консенсус-ASR для аудио без текста — гоняет несколько русских моделей (GigaAM + Whisper + T-one) и берёт медоид по CER. Галлюцинация одной модели просто отбрасывается, в довесок — оценка уверенности. 🔹 Спикер-лейблинг с порогом — присваивает id только когда это безопасно, иначе оставляет unknown. Не сольёт двух дикторов в один голос. И любую модель с HuggingFace (классификация или регрессия) подключаешь строкой в ямле — без кода. ⚡️ Про эффективность — это главное: • батч с бакетами по длине под VRAM-бюджет → GPU на 70–90%, а не на 20%; • длинная запись не роняет прогон — лестница OOM (батч пополам → окна → CPU → NaN); • параллельные дорожки CPU∥GPU — DSP-метрики считаются под инференсом, бесплатно; • модели грузятся один раз на воркер, а не на каждый шард; • масштаб от одной GPU до SLURM-кластера, прогоны resumable. 📝 Подробный разбор «что умеет / за счёт чего быстро / как гонять»: habr , medium 🔗 Код: https://github.com/lIkesimba9/audiogear
520
5
Ускорили перевод видео в Яндекс Браузере в 1,5 раза — задистиллировали диффузионный декодер TTS Делимся свежей хабростатьёй о том, как ускорили синтез речи при переводе видео в Яндекс Браузере. Зачем это понадобилось, где были подводные камни и что в итоге уехало в прод — рассказал ML-инженер команды TTS в Яндексе Цырен-Доржо Цыбиков. С чего стартовали Внутри TTS — каскад из трёх частей: 🔴языковая модель предсказывает аудиотокены по тексту; 🔴диффузионный декодер восстанавливает мел-спектрограмму из латентов; 🔴вокодер превращает её в звуковую волну. После того как оптимизировали языковую модель (она долго была самой тяжёлой), узким местом стал декодер латентов: его forward pass запускается на каждом шаге семплинга, а шагов — десятки. Его и взялись ускорять. Что сделали с аттеншном Прогнали инференс через torch.profiler и увидели, что время съедают рукописный QKVAttention и пересчёт RelativePositionBias на каждой итерации. Дальше — по нарастающей: 🔴перевели self-attention на SDPA (memory-efficient) и закешировали bias → 2,5× на уровне QKVAttention и почти вдвое меньше GPU-памяти, всё без переобучения; 🔴проверили гипотезу RoPE + FlashAttention — и честно её похоронили: на наших размерах тензоров она не обогнала кешированный baseline. Зато получили полезный отрицательный результат; 🔴как более сильную архитектуру посмотрели DiT (на него уже перешли F5-TTS, CosyVoice3): качество выше, латенси сопоставимое. Главный буст — дистилляция флоуматчинга Самое интересное — поверх флоуматчинг-декодера навесили две дистилляции: 🔴CFG-distill: вместо двух forward pass'ов на шаг (conditional + unconditional) student воспроизводит guided-предсказание за один проход; 🔴progressive distillation: student учится за один шаг делать то, что teacher делает за два, и число шагов итеративно уменьшается вдвое. Вместе это срезало число шагов семплинга с ~20 до 3 при паритете качества по SBS (наивное снижение шагов так не умеет — звук заметно проседает). Бонус progressive distillation — почти не пришлось трогать прод-код инференса, поменяли число шагов в конфиге. Итог Ускорение флоуматчинга дало 1,5× к скорости видеоперевода — теперь пользователи получают переведённое видео в полтора раза быстрее. Подробности, замеры и блок с выводами — на Хабре. ML Underhood
490
6
Мы тут с Денисом решили собраться в сидерии на лубянке в среду в 19:00, добавляйтесь кто пойдет.) https://t.me/+1f2t_fI85aphOTBi Место: https://yandex.com/maps/-/CDaZFSla
640
7
Как делаются evalы для LLM Вот есть у вас агент. На претрейне его всему не научишь, так ещё и шума на веб данных больше чем с
Как делаются evalы для LLM Вот есть у вас агент. На претрейне его всему не научишь, так ещё и шума на веб данных больше чем сигнала - модель будет постоянно заблуждаться. Поэтому LLMы сейчас дообучают в RL средах. И это одна из причин почему Opus 4.x и ChatGPT-5.x так хороши. Один из ранних массовых подходов был RLHF - когда человек выбирал какой ответ сети нравится ему больше. Но асессоры тоже не источник идеального сигнала, могут что-то недоглядеть при разметке. Поэтому сейчас при дообучении используются eval environments. Агенту даётся контейнер, задачка и данные для её решения. Потом мы оцениваем решение по шкале от 0 до 1 и выдаём награду LLMке. Самый отличный пример таких сред - это leetcode. У вас есть задачка, у вас есть среда с python/c++/java и контрольные задания для проверки вашего решения на правильность, часть из которых скрыта чтобы вы не жульничали. В целом, на leetcode с небольшим изменением уже можно обучать LLM. Небольшое изменение тут - это небольшие награды за промежуточное решение. Программа компилится, 2-3 тестовых кейса проходятся, PEP8 соблюдается - такие вот критерии успешности называются рубриками. Но что если у вас задачку нельзя проверить через pytest? Скажем, вы пишете сочинение и вам нужно его оценить по критериям ЕГЭ/IELTS. Сравнивать сочинения слово в слово нет смысла. Зато здесь можно использовать другую LLM для оценки решения. А в качестве рубрик можно напрямую подставить то, что мы видим на приложенной картинке. Разумеется, LLM-as-judge тоже постоянно заблуждается и завышает оценки за длинные ответы и профессиональный тон. Впрочем, люди тоже этим грешат. В сумме то, с чем мы сверяем ответ, называется oracle. Это может быть комбинация детерминистических проверок и LLM-ных. Я не знаю почему рубрики нельзя было назвать критериями оценки, а oracle назвать test suite. Окей, прогнали мы нашу LLM через нашу среду и её решение через oracle. В большинстве задач награда будет либо слишком высокой - 1.0, либо слишком низкой 0.0. Потому что моделька, естественно, либо справляется либо нет. А нам нужно что-то посередине. Поэтому такие evals нужно усложнять или придумывать чуть ли не для каждой модели заново. Они очень быстро устаревают и протекают в трейн уже через полгода-год. Такой, живой расходник получается, который постоянно ломается об новые модели. Сам eval отличается от тестов тем, что это не один тест, а маленький экзамен для модели. Есть задание, есть среда, есть правила оценки, есть проверяющий и есть оценка.
599
8
We did it. We’ve maxed out claude max subscription
We did it. We’ve maxed out claude max subscription
612
9
Matn yo'q...
875
10
Как промптить? Сейчас, очевидно, промптинг агентов сильно изменился. “ты - хороший программист” - уже не очень хороший промпт
Как промптить? Сейчас, очевидно, промптинг агентов сильно изменился. “ты - хороший программист” - уже не очень хороший промпт для моделек и сфера развивается с подходами к ней. Вот что я использую в своей работе постоянно: 1. Напиши мне промпт для X. Как бы тривиально не звучало, работает довольно хорошо! 2. Autoreseach X. Как только у вас есть одна метрика, которую можно улучшать, можно просить агента ресёрчить бесконечно, пока его не остановят. Просим написать промпт (пункт 1) на основе вот этого вот для вашей задачи. https://github.com/karpathy/autoresearch/blob/master/program.md 3. /deep-research немного устаревает, но генерит неплохие артефакты для п.1 и п.2 4. skills. Сейчас хвалят https://github.com/DietrichGebert/ponytail. Весь потенциал раскрывается когда вы пишете свои. По факту скилл это просто .md файл, который подаётся модели как программа. Можете попросить написать вам такой. (п.1) 5. Я вместо ponytail воткнул свой мастер промпт в самом приложении claude code, который я попросил chatgpt написать на основе /deep-research (п.3) того, где лажают агенты. 6. Контекст не забывайте давать модели 7. /loop. Лупы - супер вещь. Они работают только в клоде, к сожалению. Лупы просто надёжнее чем долгие промпты и модель меньше теряется. На них же живёт autoresearch. Тут поможет мыслить о задачке не как о “Создай X”, а “Сделать X, который нам итеративно создаёт Y” Пока на этом всё. Рассказывайте какие у вас есть приёмы.
942
11
Офлайн Пока я в Москве, может встретимся на завтрак и познакомимся на недельке? Пишите в комменты кто был бы за.
818
12
Боты атакуют репозитории так быстро что даже можно не разрабатывать ничего самостоятельно, а просто issues писать. Вот такой+1
Боты атакуют репозитории так быстро что даже можно не разрабатывать ничего самостоятельно, а просто issues писать. Вот такой агентушка залетел на мою.
1 186
13
Matn yo'q...
1 352
14
Ура, меня запомнили нейроночки! Скидывайте свои результаты https://intheweights.com/
Ура, меня запомнили нейроночки! Скидывайте свои результаты https://intheweights.com/
952
15
Yodas великолепен вот это вот аудиозапись, а вот аннотация к нему: {"id": "33481", "video_id": "yfB-zh3UodU", "duration": 1099.0999755859375, "utterances": {"utt_id": ["yfB-zh3UodU-00000-00001122-00001322"], "text": ["http://land.sm-tinibayevy.com/strojnost_web/?utm_source=youtube&utm_medium=video&utm_campaign=seriya_web_wes Интенсив \"Исцеляющие Сознание\" - это авторская инновационная методика психологической коррекции тела и сознания на дальних границах ума, на тонких планах, в процессе которой происходит изменение организма на клеточном уровне! Это то, что мне нужно! Больше, чем просто метод. Легенда! Призван вдохновить людей и вывести их за пределы ограниченной жизни. Испытан на практике. За 3 года уже более 4000 человек получили свои результаты. Это мощный инструмент по избавлению от каждодневных проблем (болезни, безденежье, карьерного роста, одиночество, отношение, похудение) Это ваш личный компас и помощник на каждый день!"], "start": [11.220000267028809], "end": [13.220000267028809]}} как мы видим, они не совпадают друг с другом. Даже более того, там аудиозапись 13 минут, и из них 90% тишины. Я не то чтобы жалуюсь - я в курсе что там аннотации весьма условные и что обрабатывать непереобрабатывать там.. Просто ржу с контента.
973
16
Всем привет ребятки, выложил тут датасет с ютуба, сделан через пайплайн FireRed Vad -> двойной гигаам с мерджингом (пунктуаци
Всем привет ребятки, выложил тут датасет с ютуба, сделан через пайплайн FireRed Vad -> двойной гигаам с мерджингом (пунктуация из е2е и текст из обычной) -> алайн через квен алайн -> отчистка через clearer voice Данные в формате опус, 48khz, mono, один спикер, у каждого опус файла есть txt файл с текстом аудио, в метадате данные в формате путь||текст(с ударениями)||время аудио в секундах https://huggingface.co/datasets/TeraTTS/betterset
694
17
Как обучить Аудио LLM по цене Macbookа Наконец-то опубликовали записи с DataFest с первого из двух выходных (я был в первом). Пока что предлагаю посмотреть доклад Саши Николича (он же Alex Wortega), автор канала @lovedeathtransformers https://www.youtube.com/watch?v=LMoEKaGyeXM&list=PLJOzdkh8T5kqjX7UpdyqHFzWobpX9SPEk&index=1&t=17s
842
18
Matn yo'q...
956
19
Новая версия русской нормализации Я заметил что моя трёхлетняя репа с нормализацией для русского TTS набрала аж 29 лайков. Я
Новая версия русской нормализации Я заметил что моя трёхлетняя репа с нормализацией для русского TTS набрала аж 29 лайков. Я решил натравить на неё claude autoresearch чтобы она справилась с известным сетом нормализации https://www.kaggle.com/competitions/text-normalization-challenge-russian-language И за несколько часов она мне выдала уже гораздо более полный сет для нормализации. Конечно же, это всё ещё rule-based, всё на regex поэтому там никаких склонений, спряжений и других словообразований. Но зато, там теперь есть даты, там есть время, есть аббревиатуры, акронимы, единицы измерения и чуть более полная поддержка числительных, а также словари. Конечно же это не прод, но зато тут только один импорт, три файла, два из которых - словари и непобедимая скорость. На картинке точность версии 1.0 против новой. Классы LETTERS, TELEPHONE и ELECTRIC можете сами посмотреть - уверен, вам такая нормализация, как в трейн сете том, не нужна. Claude Fable (царство ей небесное) справилась даже с тем чтобы вы могли сделать вот так: pip install rutextnorm а потом вот так: from rutextnorm import normalize_russian text = """У меня есть $1234 и 5678 рублей. Кроме того, я должен 90.50€ и взял в долг 4321 GBP. В моем кошельке было 876 UAH и 543.21 RUB, а также я нашел 20 центов.""" normalized_text = normalize_russian(text) print(normalized_text) он напишет вот это: У меня есть тысяча двести тридцать четыре доллара и пять тысяч шестьсот семьдесят восемь рублей. Кроме того, я должен девяносто евро пятьдесят евроцентов и взял в долг четыре тысячи триста двадцать один фунт. В моем кошельке было восемьсот семьдесят шесть гривен и пятьсот сорок три рубля двадцать одна копейка, а также я нашёл двадцать центов. Пользуйтесь и ставьте лайки! https://github.com/shigabeev/russian_tts_normalization
994
20
Ну давай уже
Ну давай уже
613