cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

Voice stuff

Канал про голосовые технологии. Чат группы @voice_stuff_chat Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом. Контакт: @frappuccino_o

نمایش بیشتر
پست‌های تبلیغاتی
1 296
مشترکین
+124 ساعت
+127 روز
+430 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

Смотрите что Карпатый снова придумал! https://github.com/karpathy/LLM101n
نمایش همه...
GitHub - karpathy/LLM101n: LLM101n: Let's build a Storyteller

LLM101n: Let's build a Storyteller. Contribute to karpathy/LLM101n development by creating an account on GitHub.

👍 2
Repost from эйай ньюз
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases Юзать LLM хотят все, но инференс в облаке стоит конских денег. Но есть простое решение - давайте юзеры будут запускать LLM у себя, а не в облаке. Однако не стоит забывать – большинство пользователей интернета владеют лишь телефоном. Оперативной памяти там не так уж и много - у iPhone это 6 гигов, у большинства андроид флагманов до 12, так что нужно оптимизировать параметры, но и не забывать про перформанс. Авторам пейпера удалось заметно улучшить качество инференса на телефонах, без потерь в перформансе. Как это вышло? ➖ Авторы выяснили, что масштабирование модели вглубь при таком же количестве параметров работает лучше чем при масштабировании модели вширь. Таким образом модель на 125 миллионов параметров имеет 30 слоёв (у GPT-2, Bert и вообще всего в такой весовой категории обычно 12). ➖ Традиционный для "эффективных" моделей шеринг входного и выходного слоя эмбеддингов. ➖ Завезли Group Query Attention, который раньше в таких моделях не использовался. ➖ Убедились что все слои влезают в кэш телефонов, потому что оперативка значительно медленнее. Самая интересная часть - layer sharing, так что её разберём поподробнее. Идея в том, чтобы использовать один и тот же слой несколько раз, и таким образом улучшить перформанс. Попробовали несколько стратегий: ➖ Повторять слои незамедлительно - то есть слой компьютит что-то, а потом его вывод кормится в него же. ➖ Повторять все слои в том же порядке - по сути моделька запускается два раза на одном и том же инпуте. ➖ Сначала считать слои в обычном порядке, а потом задом наперёд. Лучше всех показал себя второй способ, но выбрали первый, потому что он заметно быстрее работает (не нужно грузить слой в кэш несколько раз). В итоге вышло хорошо так улучшить результаты, без раздутия количества параметров или времени выполнения модели. Итоговая модель выдаёт более чем 50 токенов в секунду на обычном телефоне. Статья февральская, но код выложили только сейчас. Весов нет. Пейпер Код @ai_newz
نمایش همه...
👍 10
Photo unavailableShow in Telegram
После стольких лет развития синтеза речи, мы снова возвращаемся в эру Такотрона 🌮 Нашёл Николай Шмырёв
نمایش همه...
👍 7
Repost from N/a
Photo unavailableShow in Telegram
🤡 7💩 2😁 1🤩 1🖕 1
https://techcrunch.com/2024/07/10/aws-app-studio-promises-to-generate-enterprise-apps-from-a-written-prompt/ Вы когда-нибудь задумывались что писать программы по промпту мало чем отличается от программирования на обычных языках программирования?
نمایش همه...
AWS App Studio promises to generate enterprise apps from a written prompt

AWS released App Studio today in preview, which lets you create enterprise from a written prompt using generative AI.

🤡 5💩 2👍 1
Repost from N/a
Транскрипцию аудио произвольного содержания в ноты для 1 инструмента теперь буду решать как end-2-end. Для этого мне нужен хороший токенезатор музыки. При чем обучить модель я смогу буквально на стандартной видюхе с 12 Гб памяти 😏 Еще я был приятно удивлен, когда узнал что уже существует с два десятка музыкальных токенезаторов и все они собраны в открытой и развивающейся либе MidiTok: https://github.com/Natooz/MidiTok Последняя обнова была 2 недели назад, это приятно) В использовании она довольно проста, люди успели сделать ее удобной 👍 В то же время, мои новые коллеги пробуют другой вариант на основе разделения инструментов и вокала. Если что, на дата фесте я приобрел знакомства с единомышленниками и теперь решать задачу куда интереснее. Привет Дима) 😬 #research #music_generation
نمایش همه...
5🤡 3
Photo unavailableShow in Telegram
babe wake up leetcode for ML just dropped https://www.deep-ml.com/ (жду когда добавят побольше задачек 😎)
نمایش همه...
🔥 12😱 3🤡 2👍 1🤣 1🖕 1
Друзья, сегодня у меня для вас отборная подборка каналов от коллег по цеху! Каждый из них - настоящая жемчужина в мире речевых технологий и ML. Давайте знакомиться: @roman_kubansky — начинающий молодой редактор и дизайнер, энтузиаст в области ИИ. Рассказывает о своём опыте о редактуре, UX/UI и нейронках. Знает всю кухню «Википедии» изнутри — автор свыше 850 статей там на разные общественно-политические темы. У него может 80 подписчиков на канале, но 13к подписчиков на YouTube. т.к. раньше он писал Countryballs видео. Также увлекается Speech to speech клонированием голоса и нейродубляжом. @asisakov_channel - здесь Александр делится своим опытом в ML, рассказывает о собеседованиях и выступлениях. Отличный ресурс для тех, кто хочет быть в курсе практической стороны машинного обучения. @den4ikresearch - настоящая находка для любителей NLP! Денису всего 15 лет и он - автор крутых инструментов для обработки русского языка (RUAccent, RUNorm, RUPunct). В канале - технические детали, результаты экспериментов и ссылки на открытый код. @vf_science - тот канал ведёт 17-летний Захар! Он занимается генерацией аудио, транскрипцией музыки, читает лекции в МГТУ и выступает на конференциях. Настоящий источник вдохновения и свежих идей в мире аудио-ML. @teraspace_news - замечательный канал для любителей TTS! Диме всего 16 лет и он - автор TTS для русского языка (TeraTTS). В канале - результаты экспериментов, технические детали, ссылки на открытый код и мысли по TTS на будущее. Рекомендую подписаться на всех - каждый канал уникален и полон инсайтов. Уверен, вы найдёте для себя много интересного и полезного! А какие ещё каналы по теме речевых технологий и ML вы можете посоветовать? Делитесь в комментариях! 🚀🎙️🧠
نمایش همه...
Russian Text To Speech - a Hugging Face Space by TeraTTS

Discover amazing ML apps made by the community

🔥 9 5😁 1
نمایش همه...
BigVGAN-v2 release · NVIDIA/BigVGAN@2d44823

Official PyTorch implementation of BigVGAN (ICLR 2023) - BigVGAN-v2 release · NVIDIA/BigVGAN@2d44823

NVIDIA выпустила новый BigVGAN
نمایش همه...
🔥 4
یک طرح متفاوت انتخاب کنید

طرح فعلی شما تنها برای 5 کانال تجزیه و تحلیل را مجاز می کند. برای بیشتر، لطفا یک طرح دیگر انتخاب کنید.