Voice stuff

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

Rusia210 034Ruso227 978Tecnologías y Aplicaciones31 838

Publicaciones publicitarias

1 286

Suscriptores

Sin datos24 horas

-57 días

+1530 días

856

Visitas de la publicación

~ 33224 horas

~ 40348 horas

66.51%

Tasa de compromiso

25.8%24 horas

31.3%48 horas

Menciones

Sin datos7 días

130 días

Sin datos

Mensajes por día

~ 10

Reacciones

~ 5

Comentarios

~ 14

Republicar

Suscriptores
Cobertura postal
ER - ratio de compromiso

Carga de datos en curso...

flow matching consistently better than diffusion https://arxiv.org/abs/2406.10970

Mostrar todo...

Joint Audio and Symbolic Conditioning for Temporally Controlled...

We present JASCO, a temporally controlled text-to-music generation model utilizing both symbolic and audio-based conditions. JASCO can generate high-quality music samples conditioned on global...

Repost from OutOfScope

Photo unavailableShow in Telegram

🔍 ЛЕКТОРИЙ ЯНДЕКСА 2024 ❣️ Уже две недели прошло с открытия Летних школ и Лектория Яндекса 2024 — эфир. И я по своей хорошей традиции собираю все лекции, которые уже были проведены. Всем приятного просмотра и погружения в большое количество лекций 🔥 ШМЯ 2024 (Школа менеджеров Яндекса) 💯 ➖ Все в одной лодке: менеджер и команда (кругляй стол) ➖ Больше, чем фича-оунер: зачем мне думать про стратегию, если я управляю конкретной фичей ➖ Стратегическая прожарка Яндекс Лавки ШАР 2024 (Школа аналитиков-разработчиков) ✨ ➖ Что такое аналитика? ШРИ 2024 (Школа разработчиков интерфейсов) 💎 ➖ Node.js. Бэкенд для фронтендера ➖ Асинхронность ➖ Тулинг ➖ Типизация ➖ Типизация продвинутый ШМР Android 2024 (Школа мобильной разработки) 💻 ➖ Вводная по платформе ➖ View в Android ➖ Jetpack Compose ➖ Погружение в Kotlin и JVM ➖ Многопоточность ШМР Flutter 2024 (Школа мобильной разработки) 💻 ➖ Флаттер-мастерская: опыт команд Яндекса в разработке на Flutter ➖ Асинхронка ➖ Architecture. Часть 1: App Architecture Overview ➖ Advanced Widgets ➖ Architecture. Часть 2: Flutter, State Management, существующие решения ШМР iOS 2024 (Школа мобильной разработки) 💻 ➖ Вводная по платформе ➖ Advanced Swift programming Part 1 ➖ Advanced Swift Programming Part 2 ➖ Basic SwiftUI ➖ Advanced SwiftUI ШБР 2024 (Школа бэкенд-разработки) 💻 💻 💻 ➖ Вводная лекция про бэкенд ➖ Архитектура кода (Java) ➖ Архитектура кода (Python) ➖ Архитектура кода (C++) ➖ Вводная лекция про userver (С++) ➖ Как проектировать HTTP API КИТ 2024 (Курсы информационных технологий) ⚙️ ➖ Как всё организовано в Linux ➖ Инструменты Linux #ШколаМенеджеровЯндекса #ЛекцииЯндекса Давай наберем 30 🔥, если было полезно! OutOfScope | OOS

Mostrar todo...

🔥 8👍 1

00:11

Video unavailableShow in Telegram

IMG_6304.mp43.30 MB

😁 9

GitHub - yandexdataschool/speech_course: YSDA course in Speech Processing. https://github.com/yandexdataschool/speech_course

Mostrar todo...

GitHub - yandexdataschool/speech_course: YSDA course in Speech Processing.

YSDA course in Speech Processing. . Contribute to yandexdataschool/speech_course development by creating an account on GitHub.

🔥 12

Repost from AbstractDL

Photo unavailableShow in Telegram

Goldfish Loss: заставим LLM запоминать смысл, а не текст Языковые модели часто вызубривают обучающие примеры, а это очень неприятно, особенно когда в датасете есть приватные данные, диалоги реальных пользователей или контент с копирайтом. Да и вообще, хочется, чтобы LLM запомнила именно смысл обучающих данных, а не заучивала их наизусть. Оказалось, что одним из самых эффективных способов борьбы с таким поведением — это простой дропаут лосса, то есть маскирование ошибки для случайного сабсета токенов в тексте (~25%). Таким образом модель не научится дословно воспроизводить то, что видит. Даже после 10 эпох дообучения на Гарри Поттере "плагиат" в генерациях модели остаётся на уровне нуля. А главное, что такая регуляризация не ухудшает финальные метрики, в том числе на претрейне. Статья, GitHub

Mostrar todo...

🔥 6👍 2❤ 1

Когда я был в школе и научился программировать, мне казалось что если просто уделить достаточно времени, то можно запрограммировать всё, что угодно. Типо, написать операционную систему, беспилотный вертолёт - нужно просто дать достаточно инструкций. Со временем я понял, что на такие крупные проблемы может и жизни не хватить чтобы всё написать в одно лицо. А ещё позже я понял что не всё можно запрограммировать. Какие вы можете придумать инструкции чтобы распознать кошку на фотографии? Да их просто не может существовать. И чем логичнее подходить к этому вопросу, тем хуже выйдет. Тут нужен другой подход. Инструкции тут должны написать сами себя и с какой-то вероятностью мы найдём кошку на фото. И тут кажется что вот мы сейчас найдём достаточно данных и тоже всё обучим. Я *подозреваю* что с AI тоже есть какие-то дырки, которые всем кажутся легко преодолимыми. Ну например, я ещё не видел одного агента, который был бы автономным и не требовал постоянного надзора человека за ним. Если дать gpt-4 интерпретатор и попросить запрограммировать что-то, что не гуглится - вроде детектора черно-белых фотографий. Она не справится даже если ей дать бесконечно много времени. (Я решил эту задачку CLIPом и разметкой на 100 изображений) ChatGPT хорошо заменяет гугл и писателя и это очень крутой прогресс. Но думает она всё ещё очень ограниченно. И несмотря на тренд что она становится умнее, что-то фундаментальное должно сдвинуться сначала. Так что я бы относился со спокойствием к заявлениям о том что *AGI is about to break out и поработит нас*. Конечно же это крутая технология и многое меняет, но бесполезно говорить что она станет умнее/быстрее/выносливее нас - она безусловно, уже стала, но мы с вами живём примерно той же жизнью. Машины всегда были в чем-то лучше людей, но людьми они от этого не стали. https://situational-awareness.ai/

Mostrar todo...

Introduction - SITUATIONAL AWARENESS: The Decade Ahead

Leopold Aschenbrenner, June 2024 You can see the future first in San Francisco. Over the past year, the talk of the town has shifted from $10 billion compute clusters to $100 billion clusters to trillion-dollar clusters. Every six months another zero is added to the boardroom plans. Behind the scenes, there’s a fierce scramble to

❤‍🔥 11🤡 5❤ 2

Numpy 2.0 👏 Судя по релизу, улучшения чисто эстетические и более заметные для тех, кто разрабатывает numpy, чем для пользователей. Как я понял, главная цель релиза была навести чистоту в namespace. Поэтому в удалённом там почистили много ссылок на типы. Теперь есть только одно название у каждого типа. И np.cast не работает - но он уже был deprecated. И ещё где-то 5 функций, которые я никогда не использовал. Ещё почистили импорты, поубирали from ... import * для внутренних компонентов. Так что теперь в видимых модулях должна наступить чистота. Несмотря на такое обширное удаление, всё должно быть очень совместимым. Я не нашёл ничего часто используемого. Так что релиз должен пройти на уровне PyTorch 2.0, где никому не пришлось переписывать код под новую версию. https://numpy.org/devdocs/release/2.0.0-notes.html

Mostrar todo...

👍 2🤡 2

Photo unavailableShow in Telegram

Да

Mostrar todo...

😁 3🤝 1

Новый кодек от Меты https://engineering.fb.com/2024/06/13/web/mlow-metas-low-bitrate-audio-codec/

Mostrar todo...

MLow: Meta’s low bitrate audio codec

At Meta, we support real-time communication (RTC) for billions of people through our apps, including WhatsApp, Instagram, and Messenger. We are working to make RTC accessible by providing a high-q…

👍 4😱 3

Photo unavailableShow in Telegram

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers Есть два типа статей : 1. A are B 2. C is all you need Говорят, если называть статью не вторично, то у авторов мгновенно отваливается жопа. https://arxiv.org/pdf/2406.05370

Mostrar todo...

❤ 4👍 3

Elige un Plan Diferente

Tu plan actual sólo permite el análisis de 5 canales. Para obtener más, elige otro plan.