cookie

Мы используем файлы cookie для улучшения сервиса. Нажав кнопку «Принять все», вы соглашаетесь с использованием cookies.

avatar

nlp_daily

nlp_daily - это канал о крутой части машинного обучения, связанной с обработкой естественного языка (NLP). Здесь будут последние новости, исследования и туториалы. Ничего лишнего, только самое необходимое для NLP самурая. Контакт админа: @Markus85

Больше
Рекламные посты
1 477
Подписчики
+224 часа
+107 дней
+4230 дней

Загрузка данных...

Прирост подписчиков

Загрузка данных...

Были вопросы про раскрытие подробностей подхода knowledge map, как раз подъехал доклад на эту тему от автора: https://youtu.be/1z9yCZTS73o
Показать все...
Knowledge Maps - как бороться с галлюцинациями в RAG-системах?

Все ссылки:

https://abdullin.com/e/df-2024

Давайте поговорим про борьбу с галлюцинациями в современных RAG системах. Почему возникают галлюцинации, и как нам с ними бороться? Мы возьмем в качестве примера галлюцинации классическую систему на базе векторной RAG-системы и посмотрим, как она безудержно выдумывает ответы на простейший вопрос. Потом мы заглянем под капот в поисках источника ошибок и используем подход Knowledge Mapping для исправления этой ситуации. В завершение мы посмотрим на применение этого подхода в разных кейсах.

🔥 13
​​Случайно натолкнулся на клевый сервис для скреппинга Jina AI, который упрощает парсинг информации с внешних ресурсов для её подачи в формате, удобном для LLM-ок. Может стать альтернативой красивому супчику, особенно если нужно собрать быстрый прототип. Фишечки: Легко: Просто добавьте воды https://r.jina.ai/ к любому url, и получите контент страницы в чистом и удобном формате. Бесплатно: Для доступа по апишке дают 1М бесплатных токенов, просто как ридер работает вообще бесплатно (видимо пока есть баблишко от инвесторов). Веб-поиск: Можно включить https://s.jina.ai/ к запросу. Например, если ваш запрос Когда будет релиз gpt-5?, url будет выглядеть так: https://s.jina.ai/Когда%20будет%20релиз%20gpt-5%3F. Reader извлекает топ-5 результатов, посещает каждый url и применяет r.jina.ai к каждому из них. Можно потыкать ноутбук
Показать все...

🔥 16
​​Итак, долгожданный релиз состоялся. Грег Брокман в кожанке (видимо, отжал её у Дженсена Хуанга) продемонстрировал голосовые возможности новой модельки. Что ж, очень впечатляет, работникам колл-центров точно стоит напрячься. Все необходимые элементы для создания терминаторов теперь в наличии, осталось напечатать баблишко и начать строить заводы. Кстати, о деньгах. Люди задаются вопросом, как же теперь OpenAI будет зарабатывать, если лучшая модель доступна бесплатно. Будут зарабатывать на апишке, тем более после такого вкусного релиза количество желающих автоматизировать всё и вся в своём бизнесе только вырастет. Инсайдеры из долины также сообщают, что в ходе борьбы башен было решено выделить Саме 7 триллионов (правда не 7, а 5), поэтому собирать копейки с подписок вроде как не комильфо, надо работать по-крупному.
Показать все...

🔥 20
​​Ну а пока топовые перцентили замерли в ожидании предстоящей трансляции OpenAI, вернемся к нашим баранам. Я уже упоминал чатик LLM под капотом и парадигму Knowledge Map (knowledge map — это про построение эффективных RAG систем), которая там активно пропагандируется. Недавно удалось побывать (к сожалению, большую часть удалось послушать только в записи) на семинаре по этой теме. Семинар платный, поэтому я не буду забирать хлеб у авторов и расписывать все фишки, остановлюсь только на общих моментах. Как мне кажется, ядро концепции в том, где находится точка сборки (привет Кастанеде). Обычно инженеры исходят из технологии и думают, как бизнес-задачу впихнуть в уже существующий стек. Если задача решается не очень хорошо, пробуем усложнить нашу технологию. Например, если наивный RAG дал течь, закидываем в него дополнительные плюшки в виде разных стратегий чанкинга, реранка, тюна векторайзера и так далее. Это даже может сработать и повысить метрики (особенно если вы их сами и подобрали). Но можно пойти и другим путем: во главу угла поставить бизнес и трансформировать саму технологию. Кажется, что это то же самое, только в профиль, но нет. В первом подходе мы копаемся в технологии, во втором — в бизнес-процессе. Для инженера это бывает тяжко, так как надо из тонкого мира лосов и тензоров упасть в грешный мир человеческих страстей. Если долго смотреть в бездну общаться с бизнесом, то базовая интуиция knowledge map формируется сама собой. Для одного нашего внутреннего клиента я как-то наклепал модельку по лекалам knowledge map и даже придумал название — enhanced retrieval. Правда, не дошел до понимания, что такой подход можно масштабировать практически для любой задачи. В общем, спасибо Ринату за семинар, было полезно, для себя нашел много интересных идей.
Показать все...

👍 10 5
Фото недоступноПоказать в Telegram
С Днём Победы!
Показать все...
👍 61🔥 7🤮 5🤣 1
​​Третьего дня по совету проверенных камрадов протестировал файнтюн ламы3 suzume. Suzume в переводе с японского означает воробей, что у маленьких девочек и здоровых рыл старше тридцати вызывает неконтролируемый приток чувств. Сразу же, задыхаясь от жадности, открыл терминал и заюзал мегамодель. Ощущения — атас. С мистралем не идёт ни в какое сравнение. Качество отличное, всем рекомендую к скачиванию. Всё это, как водится, реклама.
Показать все...

😁 17👍 5🔥 4
Опенсурс подписчиков: Модели: Нормализатор текстов: https://github.com/saarus72/text_normalization Расстановщик ударений: https://github.com/Den4ikAI/ruaccent Антиспам: https://github.com/iamwavecut/ngbot Local gpt для обсидана: https://github.com/pfrankov/obsidian-local-gpt ЭЭЭЭЭЭЭ дефорум. https://github.com/ai-forever/deforum-kandinsky Прикольная штука для рисования псевдо 3д на sd: https://github.com/attashe/stable_points Кодовые проекты: Очень текстовый интернет: https://github.com/TxtDot/txtdot GUI для разметки lima like: https://github.com/oKatanaaa/lima-gui Поиск по базе мвд: https://pypi.org/project/ru-mvd-search-wanted/ Реврайт kingsbounty на js: https://github.com/oulenspiegel/kingsbounty3 Поиск по тг: github.com/torchme/PostFinder Обертка над LightAutoMl c UI: https://github.com/versus666jzx/MultiAutoML
Показать все...
GitHub - saarus72/text_normalization: T5-based (russian) text normalization

T5-based (russian) text normalization. Contribute to saarus72/text_normalization development by creating an account on GitHub.

👍 7🔥 3 2
​​Периодически слежу за чатиком LLM под капотом Если вы как-то задействованы в разработке AI решений, то там можно найти много чего полезного. Например вчера был опубликован кейс про создание базового прототипа AI Search. Автор использует методологию Knowledge Map, древним римлянам она была известна под именем divide and conquer. Для себя отметил несколько интересных моментов: 1. Использование Content-Addressable Storage. Т.е вы сначала сохраняете все файлики проекта в такое хранилище (таким образом будет реализована базовая дедубликация), а уже потом из CAS раскидываете документы по индексам. В комментах можете накидать варианты для CAS. 2. Использование LLM в качестве интент-классификатора. Решение хорошее, но вот насколько это будет сходиться по баблишку. 3. Коробочное решение Unstructured для обработчика сырых документов. Можно использовать как альтернативу конвееров из LangChain. Ну, еще я заметил, что автор в качестве индекса накатил SQLite с расширением FTS. Шах и мат всем, кто молится исключительно на векторные базы.
Показать все...

👍 13
01:05
Видео недоступноПоказать в Telegram
Когда с корешем заехал с удаленки в офис
Показать все...
😁 10👍 3
​​Я как-то писал про магистратуру, которую запустил Самолет совместно с ВШЭ, и даже рекомендовал туда поступать (мага если что бесплатная). Я и мои коллеги с работы будем вести там практические курсы на разные темы, в частности я буду что-то рассказывать про NLP. Вчера был первый заход с семинаром про мэтчинг. Рассказал про наш практический кейс для сопоставления товарных позиций с универсальным справочником. Не обошлось без metric learning. Было волнительно, но аудитория попалась хорошая, задавали толковые вопросы. Впечатления отличные, надеюсь студентам тоже понравилось. Презу можно глянуть здесь
Показать все...

👍 28🔥 3