cookie

نحن نستخدم ملفات تعريف الارتباط لتحسين تجربة التصفح الخاصة بك. بالنقر على "قبول الكل"، أنت توافق على استخدام ملفات تعريف الارتباط.

avatar

grokaem себя

A small bunch of things that I encounter during my journey as a young NLP developer: math, DL, ML, python and stories

إظهار المزيد
مشاركات الإعلانات
1 924
المشتركون
لا توجد بيانات24 ساعات
+57 أيام
+1930 أيام

جاري تحميل البيانات...

معدل نمو المشترك

جاري تحميل البيانات...

13.04_14.7.wav1.56 KB
13.04_14.7.wav2.86 KB
👍 1😁 1
На удивление приятный speech enhacement, который мне порекомендовали, роботовойс сильно не уберет, но идеально чистит шум на фоне и хорошо повышает голос по силе. Resemble Enhance * для запуска только надо не resemble_enhace, а resemble-enhance * gradio demo #grokaem_audio
إظهار الكل...

👍 4🔥 2 1
Сегодня на обзоре статья, которая возможно вам не особо и нужна. Но давайте сделаем вид будто другие статьи, которые я обозреваю прям сильно вам сдались. Поехали. MULTILINGUAL TTS: Saeki, T., (2024). Extending Multilingual Speech Synthesis to 100+ Languages without Transcribed Data. 🐑Проблема: на много языков у нас нет текстов. Почему нет текстов? Потому что полевые лингвисты не боги и не могут сделать транскрибацию всех аудио. На много языков у нас нет аудио. Почему? Потому что люди умирают. Вместе с ними умирают и языки линк. 🐑Зачем это надо? Чтобы сохранять культуру и воспитывать клевое поколение, которое умеет говорить на родном языке (не такие как я да) 🐑Метод: По сути мы почти всегда крутимся вокруг одной модальности - это какое-то скрытое представление. Будто то asr или tts, у нас всегда есть encoder и decoder. По сути мы можем сделать так, чтобы это скрытое состояние было похожим и для asr, и для tts. Тогда мы возьмем две модальности: utf-8 tokens + speech. Сделаем 4 блока (картинка внизу): Speech2Feature Feature2Text Text2Feature Feature2Speech Главные вопрос, как это тренировать? 🐑Стадия 1. Pretrain. Помните, что мы должны как-то получить классные энкодеры для речи и для текста. Для этого мы обычно тренируемся в self-supervised mode. Для текста возьмем MLM, тут берем unpaired texts из писем бабушки. А для speech encoder возьмем аудио записи от полевых лингвистов и будем обучать с BEST-RQ. Эта метрика то же самое, что и с MLM, но на спектрограмме. Проджектим слайс спектрограммы с random initilized matrix, берем random initialized codebook, прогоняем максированную спетрограмму, считаем лосс как MLM. 🐑Стадия 2. Supervised. И тут мы заинициализируем text encoder, а speech encoder заморозим. Лингвисты херней не страдали, так что у нас есть все таки paired data: speech -> text. Ее и возьмем. Тут мы будем обучать компоненты T2F: text encoder, duration upsampler, feature decoder, vae. Как? Пропускаем аудио через S2F, получаем скрытое клевое z, пропускаем текст через T2F, тоже получаем z. Но стоп! С L1 лосс приближаем их. Но погодите ка, у нас вообще разные модальности. Для стабилити и правильного feature space, мы вставим тут VAE и посчитаем KL divergence, топчик! Прогоняем к F2T, получаем текст. Считаем RNN-T loss. 🐑Стадия 3. Но как добавить инфу для unpaired data? К этому моменту мы только обновились при pretrain на наших unpaired samples. Но таких языков у нас дофига и если мы уже нормально обучили блоки с speech encoder и text encoder, то почему бы их не заюзать? Для unspoken text (то есть просто речь) прогоним через T2F и F2T, посчитаем RNN-T, не сильно заумно. А untranscribed text сделаем transcribed, у нас уже есть S2F блок. По сути можем и whisper взять, но что мы зря учили? А потом прогоним через T2F, сравним скрытые и обновимся. 🐑language id: К этому моменту мы не добавили только language ID and speaker ID. Для них мы возьмем просто их embedding, а также добавим OOV ID для незнакомых языков и спикеров, также будем иногда добавлять их в тренировку, чтобы уменьшить bias комбинаций языков и спикеров. Таким образом мы получаем систему, которая на инференсе берет текст, семплит с VAE, получает классное скрытое z представление похожее на скрытое для речи. И потом прогоняет через WaveFit, его мы кстати просто на american speech натренировали. Статья мб и не такая важная, если вы не занимаетесь multilingual tts, но клевая, чтобы подчерпнуть идей для работы с разными модальностями данных. Моя презентация и заметки в комментариях. статья семплы #grokaem_audio
إظهار الكل...
👍 11👏 6 4🔥 2🤩 1
А suno.ai теперь по 4 минуты генерит треки (сначала для этого 3, а потом делаешь extension и склеиваешь)
إظهار الكل...
Trust the Night.mp36.77 MB
7🔥 3👍 1
🌱МАЙ 2024 🌱 Разберем мои пересланные сообщения. Сумбурный получился месяц. SPEECH: 0. про эту статью еще будет обзор, но в этом месяце я ее активно юзала mp-senet (speech enhacement с magnitude and phase decoding) 1. xtts выставляет кол-о токенов для генерации кастомно и легко лечится с 250 -> 500 2. еще одна и на этот раз интересная статья с LLM + TTS 3. интересный подход с error correction у asr 4. elevenLabs начали петь NLP: 0. long-text functionality с retrieval heads 1. llama 3 from scratch 2. в hf добавили квантование kv 3. интересный подход рассказать про attention, я все еще ссылаюсь на когда-то где-то пример с поисковиком 4. лекция про attention O(n) 5. Илья выложил бота с разными русскоговорящими моделями, role model честн слово 6. вышла статья с your transformer is linear рандомные: 0. свежий обзор PEFT 1. по квантизации учебные материалы 2. очень приятный обзор по multiple gpu 3. открыла для себя канал rizzearch, мне очень по душе статьи 4. бот для генерации арта, бизнес идея - подтянуть chatgpt и генерить объяснение этого арта что я пропустила? (про chatgpt не писать)
إظهار الكل...
13🔥 4
SELF-SUPERVISED SPEECH REPRESENTATION LEARNING review Большое и классное ревью self-supervised подходов. link Обычно у нас есть representation model и какая-то downstream модель. Мы итак это знаем по pretrained model, но важно, что representation model почти всегда учится в self-supervised mode. Почему? Потому что для этого нам просто нужно больше данных, а unlabeled data у нас много. Но что не так с речью? Она sequence с variable длиной та и без заданных сегментов, так еще и continuous. Обзор покрывает кучу других вещей: - history behind - datasets - benchmarks и как с ними работать - очень классные и подробные описания базовых моделей - multimodal и acoustic embeddings Основные подходы: - GENERATIVE: (pre-text задача генерить на основе маски или corruption): autoencoding, autoregressive (VG-APC quantization), masked reconstruction, reconstruct другие тагреты - СONTRASTIVE: CPC (Contrastive Predictive Coding), wav2vec - PREDICTIVE: continuous loss, например, squared error (HuBERT, Discreate BERT, WavLM, data2vec) #grokaem_audio
إظهار الكل...
8🔥 6
Better & Faster Language Models via Multi-token prediction Только ленивый не восхитился статей с multi-token на линкедине, быстренько разберемся в чем соль. 0️⃣ Помните, мы говорили про speculative decoding? папир Его можно делать как self, то есть когда вы предсказываете несколько токенов сразу -> blockwise parallel decoding. Это когда вы параллельно предсказываете следующие токены, но используете только один контекст. То есть для генерации 10-ого слова у вас есть 9 предыдущих, для генерации 11-ого слова у вас также есть 9 предыдущих, для генерации 12-ого тоже только 9. И так вы считаете в параллель. Но если мы можем предсказывать без ближайшего контекста, то почему мы не можем также тренировать? 1️⃣ Почему это может быть выгодно? Мы можем генерить быстрее. Вроде бы этого достаточно, но! Нужно же качество чтобы все снова сравнивали с мозгом, так увеличение до 4 токенов для маленьких помогает в задаче induction (предсказать токен-пару), улучшает метрики для algorithmic reasoning и лечит кукуху. 2️⃣Как это сделать? Авторы предлагают шарить несколько частей: общий trasformer truck и unembedding matrix (впервые видела, чтобы так называли...). Что не шарим? N-голов, каждая из голов отвечает за следующую x+n позицию, но каждой голове известен один и тот же контекст. Собственно почему бы не перестать делать несколько n прогонов? Так и делают, после прохода через shared truck, мы идем по головам и собственно считаем лоссы, как прошлись посчитали предыдущий лосс с shared truck'a. Картинка в комментариях 3️⃣А разве раньше уже не показали, что это неверный подход? Да, как раз авторы показывают, что такой кейс появляется только с usefullness only on scale. Так показатели повышаются только с увеличением модели от 3B. (Figure 3) 4️⃣Почему это может работать? Одно из объяснений - это lookahead reinforces choice points, то есть для предсказания сложного токена мы увидим цепочку n раз, а не 1. Например, сложно предсказать 5 токен. Раньше мы видели его как 4 токен -> 5 токен. А теперь с предсказанием по 3 токена мы увидим его в 2 -> 5, 3 -> 5, 4 -> 5. Там еще формул накидали за information-theoretical argument, но кажется смысл тот же. папир #grokaem_nlp
إظهار الكل...
12🤯 4🔥 3👍 2
🏵АПРЕЛЬ 2024🏵 предупреждение - я не читаю все и я не читаю все новости SPEECH: - Вышел релиз у Assemby AI на 12.5M данных для asr, playground - Прошел ICASSP, было довольно много интересных статей, наверное надо дойти до нормального обзора. Одна из последних Noise masking attacks в asr. - Прошел семинар по удалению шума от вшэ, советую анонсы этого канала, классные. И сам семинар был хороший, у ребят есть также свой канал с лекциями - Вышла flash speech, 20x по инференсу для TTS - Денис выложил RuNorm - нормализатор русского текста для TTS (сокращения, числа и тд). Подробнее и потестить тут - *Обновился* комон войс с validated 124 languages NLP: - Новый дроп Mixtral 8*22B (262GB, bruh) - У AIRI вышел обзор их статьи про пространство языковых моделей - У 3Blue1Brown вышло видео с объяснение attention, экстетика you know - Вышла LLAMA 3 посты, которые лучше прочитать, но мне понравились: - обзор статьи с not all tokens are what we need - еще одна статья, подкрепляющая мысль о том, что dataset is important и фильтрация от предобученной модели - это круто - пост с перепроверкой фактов модели, по сути то, чего не хватает LLM и мне в частности - перепроверить всю инфу, а для этого нужно прочесать весь интернет. Пайплайн классный с автономными фактами, есть возможная модификация с связью фактов с друг другом (do we need graphs?) - обновился справочник по PEFT
إظهار الكل...
22👍 2
оукей, пост про мозг должен был быть, да? И нельзя сказать, что я прям вот сильно лох педальный, я тщетно искала нормальную статью на обзор. Например, на linkedin наткнулась на одно ссылка: Neosensory develops wearable devices that empower people with new senses. —— Идея в том, что для многих "стал плохо слышать" - это не про то, что надо громкость прибавить. А скорее про "не могу понять, что ты говоришь". Разница большая. То есть нам не нужен усилитель - нам надо разобрать только определенные звуки (например, женский или детский голос с более высокими частотами) —— Смысл: алгоритм, который фильтрует background noise, достает установленные target phonemes (s, t, z, k). Каждая из фонем дает импульс на браслете. Таким образом мы как будто заполняем то, что не услышали маленькой вибрацией, но эта вибрация у нас на руке, а не в ушной раковине. 🤳🏻 —— Что сделали? А вот хер знает что. Соединили LibriSpeech и LibriSpeech augmented - записи с микрофона на браслете. И про модель скромно сказали: "neural network model that used a real-time temporal convolutional network structure optimized for real-time speech recognition." Скорее всего спектрограмма + маленькая cnn. Занимательно. Latency у них получилось в 10 milliseconds. —— Через 6 неделек носки браслета встретили участников и провели *барабанная дробь* опрос 🫡. Ну и показали, что да - люди стали лучше слышать, как неожиданно и приятно.🎁 Но камон эффект плацебо никто не отменял, плюс участникам заплатили. Ну и что прям вот ты скажешь компании, которая тебе заплатила, что устройство 0 benefit дает? Конечно, адаптивность мозга на замену сигнала с слухового нерва на кожу - это классно, но как-то proof of concept хромает. —— Но так как мне было стремно выкладывать только это, вот вам подборка каких-то ссылок: - пост c статьями по связи GPT like и EEG - ardEEG на ардуино - началось соревнование по декодированию eeg, ребята из the last neural cell будут участвовать - нашла канал Нейроинтерфейсы, интересные посты и с новостями, и с статьями
إظهار الكل...
9👍 4🔥 2💩 1
n
إظهار الكل...