Voice stuff
Kanalga Telegram’da o‘tish
Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o
Ko'proq ko'rsatish1 700
Obunachilar
+524 soatlar
-37 kunlar
+1430 kunlar
Ma'lumot yuklanmoqda...
O'xshash kanallar
Taglar buluti
Kirish va chiqish esdaliklari
---
---
---
---
---
---
Obunachilarni jalb qilish
Iyul '26
Iyul '26
+8
0 kanalda
Iyun '26
+44
4 kanalda
Get PRO
May '26
+40
0 kanalda
Get PRO
Aprel '26
+33
0 kanalda
Get PRO
Mart '26
+28
0 kanalda
Get PRO
Fevral '26
+25
0 kanalda
Get PRO
Yanvar '26
+27
0 kanalda
Get PRO
Dekabr '25
+24
0 kanalda
Get PRO
Noyabr '25
+29
0 kanalda
Get PRO
Oktabr '25
+32
0 kanalda
Get PRO
Sentabr '25
+34
0 kanalda
Get PRO
Avgust '25
+73
1 kanalda
Get PRO
Iyul '25
+52
1 kanalda
Get PRO
Iyun '25
+100
2 kanalda
Get PRO
May '25
+47
1 kanalda
Get PRO
Aprel '25
+34
3 kanalda
Get PRO
Mart '25
+27
2 kanalda
Get PRO
Fevral '25
+415
3 kanalda
Get PRO
Yanvar '25
+46
0 kanalda
Get PRO
Dekabr '24
+24
0 kanalda
Get PRO
Noyabr '24
+46
0 kanalda
Get PRO
Oktabr '24
+30
1 kanalda
Get PRO
Sentabr '24
+23
1 kanalda
Get PRO
Avgust '24
+23
2 kanalda
Get PRO
Iyul '24
+58
3 kanalda
Get PRO
Iyun '24
+59
1 kanalda
Get PRO
May '24
+34
0 kanalda
Get PRO
Aprel '24
+38
0 kanalda
Get PRO
Mart '24
+69
2 kanalda
Get PRO
Fevral '24
+84
2 kanalda
Get PRO
Yanvar '24
+237
2 kanalda
Get PRO
Dekabr '23
+617
4 kanalda
Get PRO
Noyabr '23
+115
4 kanalda
Get PRO
Oktabr '23
+512
1 kanalda
| Sana | Obunachilarni jalb qilish | Esdaliklar | Kanallar | |
| 03 Iyul | +3 | |||
| 02 Iyul | +5 | |||
| 01 Iyul | 0 |
Kanal postlari
Какие иконка и название должны быть у приложения для картографии?
Большинство из нас скажет что с картой, компасом или глобусом. А называться должно что-то вроде geo/map/find или что-то подобное. И когда будут создавать такое приложение, попадут в лимбо неинтересных приложений, которыми никто не будет пользоваться.
Идея Zenly была в том что приложение должно вызывать эмоции. Чуваки сделали приложение для геолокации с иконкой эскимо! И это рвёт шаблоны как чёрный квадрат в красном углу.
Задумка авторов что они должны ассоциироваться не с картой, а с вот этим вот ощущением прогулки и встречи друзей, поэтому выбрали эскимо.
Zenly стало гипер-популярным приложением с 40М пользователей в месяц (MAU) в пике. И 160М скачиваний. Это настолько много что это было 2 по скачиванию приложение в русском App Store, обгоняя instagram
Snap выкупили его за $213M.
| 2 | Sidon
Вчера на встрече у меня спросили чем можно почистить аудио и сделать из него конфетку.
Так вот, Sidon отлично справляется. Реально супер модель.
Все последние данные я через неё прогонял если они не студийные и поучалось супер. Потери интонации и эмоций намного ниже чем в предыдущих моделях.
https://github.com/sarulab-speech/Sidon | 478 |
| 3 | Это мы 😎 | 592 |
| 4 | 🎙 audiogear — как разметить миллионы аудиозаписей для TTS
Выложил инструмент, которым готовлю датасеты под синтез речи. Указываешь папку с
аудио → получаешь таблицу, где у каждой записи дописаны фичи: MOS, SQUIM
(STOI/PESQ/SI-SDR), SNR, pitch, темп речи, выразительность, bandwidth, WER/CER,
пол, эмоция. Плюс две вещи, на которых обычно спотыкаются:
🔹 Консенсус-ASR для аудио без текста — гоняет несколько русских моделей
(GigaAM + Whisper + T-one) и берёт медоид по CER. Галлюцинация одной модели
просто отбрасывается, в довесок — оценка уверенности.
🔹 Спикер-лейблинг с порогом — присваивает id только когда это безопасно,
иначе оставляет unknown. Не сольёт двух дикторов в один голос.
И любую модель с HuggingFace (классификация или регрессия) подключаешь
строкой в ямле — без кода.
⚡️ Про эффективность — это главное:
• батч с бакетами по длине под VRAM-бюджет → GPU на 70–90%, а не на 20%;
• длинная запись не роняет прогон — лестница OOM (батч пополам → окна → CPU → NaN);
• параллельные дорожки CPU∥GPU — DSP-метрики считаются под инференсом, бесплатно;
• модели грузятся один раз на воркер, а не на каждый шард;
• масштаб от одной GPU до SLURM-кластера, прогоны resumable.
📝 Подробный разбор «что умеет / за счёт чего быстро / как гонять»:
habr , medium
🔗 Код: https://github.com/lIkesimba9/audiogear | 520 |
| 5 | Ускорили перевод видео в Яндекс Браузере в 1,5 раза — задистиллировали диффузионный декодер TTS
Делимся свежей хабростатьёй о том, как ускорили синтез речи при переводе видео в Яндекс Браузере. Зачем это понадобилось, где были подводные камни и что в итоге уехало в прод — рассказал ML-инженер команды TTS в Яндексе Цырен-Доржо Цыбиков.
С чего стартовали
Внутри TTS — каскад из трёх частей:
🔴языковая модель предсказывает аудиотокены по тексту;
🔴диффузионный декодер восстанавливает мел-спектрограмму из латентов;
🔴вокодер превращает её в звуковую волну.
После того как оптимизировали языковую модель (она долго была самой тяжёлой), узким местом стал декодер латентов: его forward pass запускается на каждом шаге семплинга, а шагов — десятки. Его и взялись ускорять.
Что сделали с аттеншном
Прогнали инференс через torch.profiler и увидели, что время съедают рукописный QKVAttention и пересчёт RelativePositionBias на каждой итерации. Дальше — по нарастающей:
🔴перевели self-attention на SDPA (memory-efficient) и закешировали bias → 2,5× на уровне QKVAttention и почти вдвое меньше GPU-памяти, всё без переобучения;
🔴проверили гипотезу RoPE + FlashAttention — и честно её похоронили: на наших размерах тензоров она не обогнала кешированный baseline. Зато получили полезный отрицательный результат;
🔴как более сильную архитектуру посмотрели DiT (на него уже перешли F5-TTS, CosyVoice3): качество выше, латенси сопоставимое.
Главный буст — дистилляция флоуматчинга
Самое интересное — поверх флоуматчинг-декодера навесили две дистилляции:
🔴CFG-distill: вместо двух forward pass'ов на шаг (conditional + unconditional) student воспроизводит guided-предсказание за один проход;
🔴progressive distillation: student учится за один шаг делать то, что teacher делает за два, и число шагов итеративно уменьшается вдвое.
Вместе это срезало число шагов семплинга с ~20 до 3 при паритете качества по SBS (наивное снижение шагов так не умеет — звук заметно проседает). Бонус progressive distillation — почти не пришлось трогать прод-код инференса, поменяли число шагов в конфиге.
Итог
Ускорение флоуматчинга дало 1,5× к скорости видеоперевода — теперь пользователи получают переведённое видео в полтора раза быстрее.
Подробности, замеры и блок с выводами — на Хабре.
ML Underhood | 490 |
| 6 | Мы тут с Денисом решили собраться в сидерии на лубянке в среду в 19:00, добавляйтесь кто пойдет.)
https://t.me/+1f2t_fI85aphOTBi
Место: https://yandex.com/maps/-/CDaZFSla | 640 |
| 7 | Как делаются evalы для LLM
Вот есть у вас агент. На претрейне его всему не научишь, так ещё и шума на веб данных больше чем сигнала - модель будет постоянно заблуждаться.
Поэтому LLMы сейчас дообучают в RL средах. И это одна из причин почему Opus 4.x и ChatGPT-5.x так хороши. Один из ранних массовых подходов был RLHF - когда человек выбирал какой ответ сети нравится ему больше. Но асессоры тоже не источник идеального сигнала, могут что-то недоглядеть при разметке.
Поэтому сейчас при дообучении используются eval environments. Агенту даётся контейнер, задачка и данные для её решения. Потом мы оцениваем решение по шкале от 0 до 1 и выдаём награду LLMке.
Самый отличный пример таких сред - это leetcode. У вас есть задачка, у вас есть среда с python/c++/java и контрольные задания для проверки вашего решения на правильность, часть из которых скрыта чтобы вы не жульничали. В целом, на leetcode с небольшим изменением уже можно обучать LLM. Небольшое изменение тут - это небольшие награды за промежуточное решение. Программа компилится, 2-3 тестовых кейса проходятся, PEP8 соблюдается - такие вот критерии успешности называются рубриками.
Но что если у вас задачку нельзя проверить через pytest? Скажем, вы пишете сочинение и вам нужно его оценить по критериям ЕГЭ/IELTS. Сравнивать сочинения слово в слово нет смысла. Зато здесь можно использовать другую LLM для оценки решения. А в качестве рубрик можно напрямую подставить то, что мы видим на приложенной картинке.
Разумеется, LLM-as-judge тоже постоянно заблуждается и завышает оценки за длинные ответы и профессиональный тон. Впрочем, люди тоже этим грешат.
В сумме то, с чем мы сверяем ответ, называется oracle. Это может быть комбинация детерминистических проверок и LLM-ных.
Я не знаю почему рубрики нельзя было назвать критериями оценки, а oracle назвать test suite.
Окей, прогнали мы нашу LLM через нашу среду и её решение через oracle. В большинстве задач награда будет либо слишком высокой - 1.0, либо слишком низкой 0.0. Потому что моделька, естественно, либо справляется либо нет. А нам нужно что-то посередине. Поэтому такие evals нужно усложнять или придумывать чуть ли не для каждой модели заново. Они очень быстро устаревают и протекают в трейн уже через полгода-год.
Такой, живой расходник получается, который постоянно ломается об новые модели.
Сам eval отличается от тестов тем, что это не один тест, а маленький экзамен для модели. Есть задание, есть среда, есть правила оценки, есть проверяющий и есть оценка. | 599 |
| 8 | We did it. We’ve maxed out claude max subscription | 612 |
| 9 | Matn yo'q... | 875 |
| 10 | Как промптить?
Сейчас, очевидно, промптинг агентов сильно изменился. “ты - хороший программист” - уже не очень хороший промпт для моделек и сфера развивается с подходами к ней.
Вот что я использую в своей работе постоянно:
1. Напиши мне промпт для X. Как бы тривиально не звучало, работает довольно хорошо!
2. Autoreseach X. Как только у вас есть одна метрика, которую можно улучшать, можно просить агента ресёрчить бесконечно, пока его не остановят. Просим написать промпт (пункт 1) на основе вот этого вот для вашей задачи. https://github.com/karpathy/autoresearch/blob/master/program.md
3. /deep-research немного устаревает, но генерит неплохие артефакты для п.1 и п.2
4. skills. Сейчас хвалят https://github.com/DietrichGebert/ponytail. Весь потенциал раскрывается когда вы пишете свои. По факту скилл это просто .md файл, который подаётся модели как программа. Можете попросить написать вам такой. (п.1)
5. Я вместо ponytail воткнул свой мастер промпт в самом приложении claude code, который я попросил chatgpt написать на основе /deep-research (п.3) того, где лажают агенты.
6. Контекст не забывайте давать модели
7. /loop. Лупы - супер вещь. Они работают только в клоде, к сожалению. Лупы просто надёжнее чем долгие промпты и модель меньше теряется. На них же живёт autoresearch. Тут поможет мыслить о задачке не как о “Создай X”, а “Сделать X, который нам итеративно создаёт Y”
Пока на этом всё. Рассказывайте какие у вас есть приёмы. | 942 |
| 11 | Офлайн
Пока я в Москве, может встретимся на завтрак и познакомимся на недельке?
Пишите в комменты кто был бы за. | 818 |
| 12 | Боты атакуют репозитории так быстро что даже можно не разрабатывать ничего самостоятельно, а просто issues писать.
Вот такой агентушка залетел на мою. | 1 186 |
| 13 | Matn yo'q... | 1 352 |
| 14 | Ура, меня запомнили нейроночки!
Скидывайте свои результаты
https://intheweights.com/ | 952 |
| 15 | Yodas великолепен
вот это вот аудиозапись, а вот аннотация к нему:
{"id": "33481", "video_id": "yfB-zh3UodU", "duration": 1099.0999755859375, "utterances": {"utt_id": ["yfB-zh3UodU-00000-00001122-00001322"], "text": ["http://land.sm-tinibayevy.com/strojnost_web/?utm_source=youtube&utm_medium=video&utm_campaign=seriya_web_wes Интенсив \"Исцеляющие Сознание\" - это авторская инновационная методика психологической коррекции тела и сознания на дальних границах ума, на тонких планах, в процессе которой происходит изменение организма на клеточном уровне! Это то, что мне нужно! Больше, чем просто метод. Легенда! Призван вдохновить людей и вывести их за пределы ограниченной жизни. Испытан на практике. За 3 года уже более 4000 человек получили свои результаты. Это мощный инструмент по избавлению от каждодневных проблем (болезни, безденежье, карьерного роста, одиночество, отношение, похудение) Это ваш личный компас и помощник на каждый день!"], "start": [11.220000267028809], "end": [13.220000267028809]}}
как мы видим, они не совпадают друг с другом.
Даже более того, там аудиозапись 13 минут, и из них 90% тишины.
Я не то чтобы жалуюсь - я в курсе что там аннотации весьма условные и что обрабатывать непереобрабатывать там.. Просто ржу с контента. | 973 |
| 16 | Всем привет ребятки, выложил тут датасет с ютуба, сделан через пайплайн FireRed Vad -> двойной гигаам с мерджингом (пунктуация из е2е и текст из обычной) -> алайн через квен алайн -> отчистка через clearer voice
Данные в формате опус, 48khz, mono, один спикер, у каждого опус файла есть txt файл с текстом аудио, в метадате данные в формате путь||текст(с ударениями)||время аудио в секундах
https://huggingface.co/datasets/TeraTTS/betterset | 694 |
| 17 | Как обучить Аудио LLM по цене Macbookа
Наконец-то опубликовали записи с DataFest с первого из двух выходных (я был в первом).
Пока что предлагаю посмотреть доклад Саши Николича (он же Alex Wortega), автор канала @lovedeathtransformers
https://www.youtube.com/watch?v=LMoEKaGyeXM&list=PLJOzdkh8T5kqjX7UpdyqHFzWobpX9SPEk&index=1&t=17s | 842 |
| 18 | Matn yo'q... | 956 |
| 19 | Новая версия русской нормализации
Я заметил что моя трёхлетняя репа с нормализацией для русского TTS набрала аж 29 лайков. Я решил натравить на неё claude autoresearch чтобы она справилась с известным сетом нормализации
https://www.kaggle.com/competitions/text-normalization-challenge-russian-language
И за несколько часов она мне выдала уже гораздо более полный сет для нормализации.
Конечно же, это всё ещё rule-based, всё на regex поэтому там никаких склонений, спряжений и других словообразований.
Но зато, там теперь есть даты, там есть время, есть аббревиатуры, акронимы, единицы измерения и чуть более полная поддержка числительных, а также словари.
Конечно же это не прод, но зато тут только один импорт, три файла, два из которых - словари и непобедимая скорость.
На картинке точность версии 1.0 против новой.
Классы LETTERS, TELEPHONE и ELECTRIC можете сами посмотреть - уверен, вам такая нормализация, как в трейн сете том, не нужна.
Claude Fable (царство ей небесное) справилась даже с тем чтобы вы могли сделать вот так:
pip install rutextnorm
а потом вот так:
from rutextnorm import normalize_russian
text = """У меня есть $1234 и 5678 рублей. Кроме того, я должен 90.50€ и взял в долг 4321 GBP.
В моем кошельке было 876 UAH и 543.21 RUB, а также я нашел 20 центов."""
normalized_text = normalize_russian(text)
print(normalized_text)
он напишет вот это:
У меня есть тысяча двести тридцать четыре доллара и пять тысяч шестьсот семьдесят восемь рублей. Кроме того, я должен девяносто евро пятьдесят евроцентов и взял в долг четыре тысячи триста двадцать один фунт.
В моем кошельке было восемьсот семьдесят шесть гривен и пятьсот сорок три рубля двадцать одна копейка, а также я нашёл двадцать центов.
Пользуйтесь и ставьте лайки!
https://github.com/shigabeev/russian_tts_normalization | 994 |
| 20 | Ну давай уже | 613 |
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
