cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

Voice stuff

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

نمایش بیشتر
پست‌های تبلیغاتی
1 273
مشترکین
+124 ساعت
-27 روز
-1230 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

Repost from ODS Events
Photo unavailableShow in Telegram
📢 Специальное объявление! 📢 Через месяц нас ждет невероятное событие! Да-да, Data Fest 2024 уже на подходе! 🚀 И мы рады объявить, что открылась первая регистрация на офлайн мероприятие в Москве - Data Fest 2024 в гостях у VK! 📅 Когда: 25 мая 📍 Где: Москва, офис VK на Ленинградском проспекте Готовы погрузиться в мир данных, встретиться с профессионалами отрасли и обменяться опытом? Участников ждут увлекательные доклады из таких секций, как RecSys, Teamlead, NLP, CV и многие другие! Не упустите свой шанс поучаствовать в конференции офлайн (live-трансляция на ODS YouTube тоже обязательно будет). 👉Регистрируйтесь по ссылке: https://ods.ai/events/fest2024-vk 📝 — Для спикеров: Сбор заявок на доклады продлён до 7 мая, в Москве программа практически собрана, очень ждём спикеров на офлайн-мероприятия в Новосибирске, Питере, Ереване и Алматы 👀💖
نمایش همه...
🤡 3👍 1💩 1
На статью от stability AI про TTS, который контроллируется промптом https://arxiv.org/pdf/2402.01912 выпустили код! https://github.com/huggingface/parler-tts И даже несколько моделек https://huggingface.co/parler-tts/parler_tts_mini_v0.1 https://huggingface.co/parler-tts/parler-tts-mini-expresso Моделька довольно сильная. Очень советую попробовать. Семпл: prompt = "Stop it! Why do you make me do these examples? They're *so* generic." description = "Alice is shouting in an angry tone with emphasis and high quality audio."
نمایش همه...
👍 3🔥 2 1
نمایش همه...
GitHub - fishaudio/fish-speech: Brand new TTS solution

Brand new TTS solution. Contribute to fishaudio/fish-speech development by creating an account on GitHub.

Photo unavailableShow in Telegram
نمایش همه...
🤡 3👎 2🤣 1
Photo unavailableShow in Telegram
You Only Cache once У трансформеров есть беда с потреблением памяти на длинных контекстах. Карта attention это квадрат от длины входа. В Майкрософт предлложили как сделать модель О(1) по памяти и скорости инференса. И надо сказать что результаты многообещающие. https://arxiv.org/abs/2405.05254 https://github.com/microsoft/unilm/tree/master/YOCO
نمایش همه...
👍 6🔥 5
Photo unavailableShow in Telegram
В новый айпад запихнули RTX 3090 и OLED дисплей При этом он какой-то невероятно тонкий. 3090 - это если сравнить флопсы c M4. Приложений всё ещё не завезли из-за жадного App Store. Обязательно сообщу вам когда айпадом можно будет пользоваться нам, работягам. Пока всё ещё нет. Действительно тонко)))))
نمایش همه...
😁 6🤡 3🤣 1
Кто-то хочет в СФ на хакатон по ЛЛаМе от Меты? Это уже на следующей неделе 🤖 https://partiful.com/e/p5bNF0WkDd1n7JYs3m0A
نمایش همه...
RSVP to Meta Llama 3 Hackathon | Partiful

We’re excited to welcome you to the official Meta Llama 3 Hackathon, hosted by Meta in collaboration with Cerebral Valley and SHACK15! This is a unique opportunity to build new AI apps on top of the new Llama 3 model, alongside the best hackers in AI. Meta's Llama team will be in attendance, and hackers will receive hands-on support from the Meta team. Winning teams will receive $10K+ in cash prizes and credits to kickstart their Llama 3 projects. We'd like to thank our sponsors for their contributions to this event: - AWS (

https://aws.amazon.com/)

- Groq (

https://groq.com/)

- Lambda (

https://lambdalabs.com/)

- Weights & Biases (

https://wandb.ai/site)

- HuggingFace (

https://huggingface.co/)

- Octo AI (

https://octo.ai/)

- LlamaIndex (

https://www.llamaindex.ai/)

- Ollama (

https://ollama.com/)

- Brave (

https://brave.com/)

Our speakers and judges will be some of the top names in the industry, and we will be announcing them soon... stay tuned! Please note: This is a fully in-person event - remote teams are not…

🤡 6 4🖕 2🔥 1💩 1
Repost from Den4ik Research
RUNorm v1 - открытый русскоязычный нормализатор текста перед TTS. Примерно месяц назад был открытый бета-тест RUNorm в телеграм-боте. С этого момента было много экспериментов с тэггером и нормализатором. Отдельная модель для нормализации чисел была удалена. Был обновлен набор моделей, теперь их 3: - RUNorm_big (FRED-T5_LARGE 860M параметров) - RUNorm_medium (ruT5-base 222M параметров) - RUNorm_small (FRED-T5-95M. Дистиллят большой модели. 95M параметров) Как и на чем обучались модели? Изначально, датасет состоял из очень грязных данных, частично написанных руками, частично размеченных chatGPT. После, был обучен FRED-T5-1.7B. Потом взял большой текстовый датасет (pikabu) и регуляркой вытащил предложения, где предположительно должны быть сокращения и прогнал через этого фреда. Идея пайплайна для чисел была взята отсюда, но с небольшими доработками, в виде нормализации чисел еще до подачи в модель. Таким образом, модели не обязательно знать, как число перевести в текст, остается только склонить. Модель для английских слов училась транслитерировать небольшие последовательности из разных английских слов в русские. Датасет также полусинтетический, часть размечена руками, часть взята из датасета с соревы от гугла на каггле, часть размечена chatGPT. За основу датасета модели-тэггер был взят тот же с соревы гугла по нормализации текста, но с небольшим обогащением сокращениями. Модели можно потыкать тут: ссылка GitHub: ссылка P.S Возможна некоторая деградация качества для больших чисел, постараюсь поправить в будущих релизах. @den4ikresearch
نمایش همه...
🔥 11🤡 4🖕 2
Introducing google vids Гугл представила новый инструмент для создания видео из презентаций. Довольно симпатичный и интересный. Эх, скоро все будем клепать красивые видосики! https://youtu.be/4SCjXcBeW1E?si=GaMBkzNMlMkzfFOI
نمایش همه...
Introducing Google Vids

Meet your new AI-powered video creation app for work. Google Vids is a new app that helps you easily share ideas and create rich video content. Coming soon to Gemini for Google Workspace. What is Google Workspace →

https://goo.gle/3IYTB4f

Set up Google Workspace →

https://goo.gle/49gTgV3

Follow Google Workspace on Twitter →

https://goo.gle/3TYUC2d

Follow Google Workspace on Facebook →

https://goo.gle/3TVo8WJ

Follow Google Workspace on LinkedIn →

https://goo.gle/3PMsj4J

Follow Google Workspace on Instagram →

https://goo.gle/49isvzM

Follow Google Workspace on TikTok →

https://goo.gle/49el7Fu

#GoogleWorkspace

2
نمایش همه...
taras sereda (@taras_y_sereda) on X

Last month I was invited to give lectures on TTS modelling at @ucu_apps Happy to share my lecture notes. I cover classics as well as modern approaches in auto-regressive and parallel sequence modelling, neural codecs and discrete speech representations.

👍 3😁 2