cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

градиент обреченный

• Машинное обучение c уклоном в NLP • Популярная лингвистика • tg-буст канала https://t.me/doomgrad?boost

Show more
Advertising posts
5 546
Subscribers
-124 hours
+77 days
+3130 days

Data loading in progress...

Subscriber growth rate

Data loading in progress...

Photo unavailableShow in Telegram
Тестируем новый функционал.
Show all...
😁 29👍 12🔥 8 5🎉 2
Photo unavailableShow in Telegram
🔺 110 🔸 Это не только средняя температура на Юпитере, но и количество языков, которые на днях добавили в Google Translate (список). 🔸 После того, как Meta выпустила модель NNLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть. 🔸 При переводе также используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский). 🔸 Модель может иногда ошибается в грамматике. Подобный эффект заметен, когда вы общаетесь с языковыми моделями на русском языке, а при обучении таких данных было недостаточно. 🔸 Вообще, подобный шаг — это отличная поддержка для малоресурсных языков, перевод можно встраивать по API в приложения или использовать для того же выравнивания параллельных книг. 🔸 Чем ответит Яндекс?
Show all...
🔥 33👍 12💯 4😁 3 1
Photo unavailableShow in Telegram
🔺 «Маленький принц» на хакасском Благодаря Василию Адешкину @adskat, удалось собрать средства на перевод книги на хакасский язык и, собственно, перевести её (перевел Илья Топоев). Большое им спасибо! 📚 Текст выровнял и добавил к другим редакциям, так что можно читать книгу в любых языковых комбинациях. 👉 Книжка, чат
Show all...
23🔥 15👍 3 1🤗 1
🔺 Nemotron NVIDIA выложила в открытый доступ свою большую модель Nemotron-4 340B. 🔸 Претрейн шел на 8T токенах, затем изменили распределение данных и обучили еще на 1T токенах (пишут, что на этом этапе добавили вопросно-ответные данные и уменьшили LR). Обучали на 6144 H100. 🔸 На этапе SFT (дообучение на инструкциях), было немного размеченных людьми данных (около 20k), а 98% инструкций были синтетическими. 🔸 Данные. 70% — английский, 15% — код, 15% — мультиязычные данные (моно- и параллельные корпуса). В мультиязычной части было 53 языка, русский там в топе, 3.88%. Больше про данные есть в отчете другой модели (данные были те же). 🔸 Провели SBS тест с GPT-4-1106-preview, получили выигрыш (win : tie : loss = 28.19% : 46.57% : 25.24%). 🔸 Чтобы запустить модель у вас дома вам понадобятся две стойки по 8 H100 или A100 (80Gb). 👉 Если стоек не нашлось, то можно пообщаться с моделью можно на чат-арене (вкладка direct chat). 👉 Тех. отчет | HF
Show all...
🔥 22😁 9🎉 5👍 4😱 2
Photo unavailableShow in Telegram
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book «Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
Show all...
🔥 37👍 7👏 5 3 3
Собрал датасетик метаданных из книжек либрусека (~500k). Может, будет полезно. 👉 HF
Show all...
👍 35💯 4🔥 3
Photo unavailableShow in Telegram
🔺 DPF Тут коллеги решили выложить в открытый доступ инструмент, которым обрабатывают данные — Data Processing Framework. Основной упор на картинки, видео и оптимизации по их обработке, для текстов тоже есть фильтры типа детекции языка и автоперевода. Задачки довольно частые при работе с данными, поэтому рекомендую r использованию (если чего-то не хватает, то оставляйте Issue на GitHub). Собрал простой колаб с примером определения языка. В документации есть много других рабочих примеров. 👉 GitHub | Colab
Show all...
👍 19 6🔥 4👏 1
🔺 SD 3 Пришло письмо, что 12 июня на HF выложат веса Stable Diffusion 3. Пока что c моделью можно поиграться на сайте в Stable Assistant с триалом на три дня. Потыкал в нее, по качеству явно получше предыдущей модели, умеет рисовать надписи на английском. Ждём.
Show all...
👍 20🔥 18🎉 5😁 1
С пониманием новых шуток, по-моему, справляется плюс-минус также, в целом нравится. Заявлена мультиязычность, пишите что перевести и на какой язык, проверим как она переводит.
Show all...
🔥 14👍 5 2 1
Photo unavailableShow in Telegram
Тестируем GPT-4o
Show all...
🆒 45😁 34🔥 6 1
Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.