cookie

We use cookies to improve your browsing experience. By clicking «Accept all», you agree to the use of cookies.

avatar

nlp_daily

nlp_daily - это канал о крутой части машинного обучения, связанной с обработкой естественного языка (NLP). Здесь будут последние новости, исследования и туториалы. Ничего лишнего, только самое необходимое для NLP самурая. Контакт админа: @Markus85

Show more
Advertising posts
1 450
Subscribers
-124 hours
-17 days
+5330 days

Data loading in progress...

Subscriber growth rate

Data loading in progress...

​​Итак, долгожданный релиз состоялся. Грег Брокман в кожанке (видимо, отжал её у Дженсена Хуанга) продемонстрировал голосовые возможности новой модельки. Что ж, очень впечатляет, работникам колл-центров точно стоит напрячься. Все необходимые элементы для создания терминаторов теперь в наличии, осталось напечатать баблишко и начать строить заводы. Кстати, о деньгах. Люди задаются вопросом, как же теперь OpenAI будет зарабатывать, если лучшая модель доступна бесплатно. Будут зарабатывать на апишке, тем более после такого вкусного релиза количество желающих автоматизировать всё и вся в своём бизнесе только вырастет. Инсайдеры из долины также сообщают, что в ходе борьбы башен было решено выделить Саме 7 триллионов (правда не 7, а 5), поэтому собирать копейки с подписок вроде как не комильфо, надо работать по-крупному.
Show all...

🔥 20
​​Ну а пока топовые перцентили замерли в ожидании предстоящей трансляции OpenAI, вернемся к нашим баранам. Я уже упоминал чатик LLM под капотом и парадигму Knowledge Map (knowledge map — это про построение эффективных RAG систем), которая там активно пропагандируется. Недавно удалось побывать (к сожалению, большую часть удалось послушать только в записи) на семинаре по этой теме. Семинар платный, поэтому я не буду забирать хлеб у авторов и расписывать все фишки, остановлюсь только на общих моментах. Как мне кажется, ядро концепции в том, где находится точка сборки (привет Кастанеде). Обычно инженеры исходят из технологии и думают, как бизнес-задачу впихнуть в уже существующий стек. Если задача решается не очень хорошо, пробуем усложнить нашу технологию. Например, если наивный RAG дал течь, закидываем в него дополнительные плюшки в виде разных стратегий чанкинга, реранка, тюна векторайзера и так далее. Это даже может сработать и повысить метрики (особенно если вы их сами и подобрали). Но можно пойти и другим путем: во главу угла поставить бизнес и трансформировать саму технологию. Кажется, что это то же самое, только в профиль, но нет. В первом подходе мы копаемся в технологии, во втором — в бизнес-процессе. Для инженера это бывает тяжко, так как надо из тонкого мира лосов и тензоров упасть в грешный мир человеческих страстей. Если долго смотреть в бездну общаться с бизнесом, то базовая интуиция knowledge map формируется сама собой. Для одного нашего внутреннего клиента я как-то наклепал модельку по лекалам knowledge map и даже придумал название — enhanced retrieval. Правда, не дошел до понимания, что такой подход можно масштабировать практически для любой задачи. В общем, спасибо Ринату за семинар, было полезно, для себя нашел много интересных идей.
Show all...

👍 10 5
С Днём Победы!
Show all...
👍 61🔥 6🤮 5🤣 1
​​Третьего дня по совету проверенных камрадов протестировал файнтюн ламы3 suzume. Suzume в переводе с японского означает воробей, что у маленьких девочек и здоровых рыл старше тридцати вызывает неконтролируемый приток чувств. Сразу же, задыхаясь от жадности, открыл терминал и заюзал мегамодель. Ощущения — атас. С мистралем не идёт ни в какое сравнение. Качество отличное, всем рекомендую к скачиванию. Всё это, как водится, реклама.
Show all...

😁 17👍 5🔥 4
Опенсурс подписчиков: Модели: Нормализатор текстов: https://github.com/saarus72/text_normalization Расстановщик ударений: https://github.com/Den4ikAI/ruaccent Антиспам: https://github.com/iamwavecut/ngbot Local gpt для обсидана: https://github.com/pfrankov/obsidian-local-gpt ЭЭЭЭЭЭЭ дефорум. https://github.com/ai-forever/deforum-kandinsky Прикольная штука для рисования псевдо 3д на sd: https://github.com/attashe/stable_points Кодовые проекты: Очень текстовый интернет: https://github.com/TxtDot/txtdot GUI для разметки lima like: https://github.com/oKatanaaa/lima-gui Поиск по базе мвд: https://pypi.org/project/ru-mvd-search-wanted/ Реврайт kingsbounty на js: https://github.com/oulenspiegel/kingsbounty3 Поиск по тг: github.com/torchme/PostFinder Обертка над LightAutoMl c UI: https://github.com/versus666jzx/MultiAutoML
Show all...
GitHub - saarus72/text_normalization: T5-based (russian) text normalization

T5-based (russian) text normalization. Contribute to saarus72/text_normalization development by creating an account on GitHub.

👍 7🔥 3 2
​​Периодически слежу за чатиком LLM под капотом Если вы как-то задействованы в разработке AI решений, то там можно найти много чего полезного. Например вчера был опубликован кейс про создание базового прототипа AI Search. Автор использует методологию Knowledge Map, древним римлянам она была известна под именем divide and conquer. Для себя отметил несколько интересных моментов: 1. Использование Content-Addressable Storage. Т.е вы сначала сохраняете все файлики проекта в такое хранилище (таким образом будет реализована базовая дедубликация), а уже потом из CAS раскидываете документы по индексам. В комментах можете накидать варианты для CAS. 2. Использование LLM в качестве интент-классификатора. Решение хорошее, но вот насколько это будет сходиться по баблишку. 3. Коробочное решение Unstructured для обработчика сырых документов. Можно использовать как альтернативу конвееров из LangChain. Ну, еще я заметил, что автор в качестве индекса накатил SQLite с расширением FTS. Шах и мат всем, кто молится исключительно на векторные базы.
Show all...

👍 13
Когда с корешем заехал с удаленки в офис
Show all...
😁 10👍 3
​​Я как-то писал про магистратуру, которую запустил Самолет совместно с ВШЭ, и даже рекомендовал туда поступать (мага если что бесплатная). Я и мои коллеги с работы будем вести там практические курсы на разные темы, в частности я буду что-то рассказывать про NLP. Вчера был первый заход с семинаром про мэтчинг. Рассказал про наш практический кейс для сопоставления товарных позиций с универсальным справочником. Не обошлось без metric learning. Было волнительно, но аудитория попалась хорошая, задавали толковые вопросы. Впечатления отличные, надеюсь студентам тоже понравилось. Презу можно глянуть здесь
Show all...

👍 28🔥 3
Продолжим тему искусства и нейросетей. Пару дней назад аккаунт в open ai достиг 6 тира, и я обнаружил там модельку sora.net (да, да, та самая сора). В версии net можно загрузить свои свои фото и создать ролик по графу своей истории (в каждом узле фотография и описательный промпт, а также роутер-промпт перехода к следующему узлу). Вообщем, удалось в полной мере вернуть свой 2007 https://www.youtube.com/watch?v=dZ20ugtT4ak
Show all...
Таинственные загадки

Группа энтузиастов пытается раскрыть таинственную загадку паранормального явления, имеющего связь с потусторонним миром. Фильм 2009 года. Публикуется с разрешения одного из создателей фильма.

😁 7👍 3
Не знаю, что вам еще надо для аджиай
Show all...
10🤣 3🎉 2👍 1