cookie

Ми використовуємо файли cookie для покращення вашого досвіду перегляду. Натиснувши «Прийняти все», ви погоджуєтеся на використання файлів cookie.

avatar

Artificial stupidity

Пишу об анализе данных и Data Science (и не только о них). Связь с автором @gofat

Більше
Росія227 589Російська247 191Категорія не вказана
Рекламні дописи
1 124
Підписники
-124 години
+27 днів
+730 днів

Триває завантаження даних...

Приріст підписників

Триває завантаження даних...

​​#llm Используем LLM для разметки (часть 1). А так вообще можно? Оказывается, что можно. Но только с осторожностью. Итак, давайте разбираться. Думаю, что в один пост все не влезет, потому по этой теме будет несколько постов. Сначала вспомним, что такое разметка данных. Разметка данных (Data labeling) (иногда называемая аннотированием данных (data annotation)) — это процесс добавления меток или тэгов в сырые данные, чтобы показать модели машинного обучения целевые атрибуты (ответы), которые она должна предсказывать. Соответственно, разметкой данных обычно занимаются отдельные компании по договору или люди на краудсорсинговых площадках (Толока, Mechanical Turk). В случае, если данных немного, в команде отряжают кого-то из коллег размечать данные (ну или используют кого-то из представителей заказчиков, например, на одной из прошлых моих работ, мы использовали модераторов для разметки данных по антифроду). Ну и, конечно же, этот процесс не так прост, каким кажется. Вот несколько сложностей, которые могут возникнуть в этом процессе: 1. Большие объемы данных. Если у нас много задач, которым требуется разметка, то нам придется потратиться на разметку. Увы, но производительность там растет примерно линейно - больше разметчиков дают больший объем разметки; 2. Специализация удорожает разметку. Не для всякой задачи подойдет случайно выбранный человек с краудсорсинговой платформы. Например, в случае работы с медицинскими данными, обычный человек попросту не сможет правильно проинтерпретировать снимок или результаты анализов; 3. Данные не статичны. Мир постоянно меняется. Поэтому далеко не факт, что единожды собранный набор данных будет давать то же качество работы модели в будущем. Потому процесс разметки обычно не останавливается (нам желательно иметь приток новых меток со временем); 4. Согласованность данных. Если разметкой какого-то набора или экземпляра данных занимается только один человек, то в данные могут попасть его ошибки или заблуждения. Поэтому, часто используется перекрестная разметка (когда несколько человек проставляют метку, а результат получается консенсусным решением). Соответственно, разметка может стать весьма затратным мероприятием. И вполне себе может стоить тысячи и десятки тысяч долларов (тут, конечно, все зависит от задачи и объема). Да и скорость разметки все еще ограничена скоростью человека (или группы людей), который ее проводит. И тут на сцену выходит LLM. Какие же плюсы могут быть от использования такого рода моделей в разметке данных: 1. Ниже стоимость разметки. Некоторые авторы приводят разницу в разы, другие - на порядок. Но даже разница в 5-7 раз - это весьма существенная экономия; 2. Выше скорость разметки. Здесь мы не ограничены скоростью человека, потому вполне можем ускорить разметку на порядок (см. изображение к посту); 3. Адаптивность. Изменением промпта мы можем менять задачу для разметки. При этом, LLM показали свою эффективность в достаточно большом наборе задач (от машинного перевода до выделения именованных сущностей). Соответственно, переход от задачи к задаче должен быть достаточно прост. На этом интригующем моменте давайте остановимся. И продолжим уже тем, как мы можем применить LLM к процессу разметки, какие есть инструменты и особенности работы с LLM-разметчиком.
Показати все...

👍 3 1
Ух, какая офигенная история
Показати все...
👎 2
Фото недоступнеДивитись в Telegram
Меня закэнселили забанили на стендап шоу. Две недели занимаюсь стендапом, а уже драма! Вчера выступил в четвертый раз. Прошло неплохо. После шоу я уже вызвал такси, подхожу попрощаться с ведущим и парой комиков. Одна из комиков посмотрела на меня и говорит ведущему: "Ой, а ему не заплатили." Я такой: "You guys getting paid?" Ведущий говорит: "Everyone gets paid, but YOU are not." Интонация была какая-то странная, будто высокомерная, и я заглотил наживку, спросил почему. Он объяснил, что они не платят новым комикам, тем кто выступает меньше трех месяцев, потому что потом они пропадают и больше не приходят, "don't wanna be part of this scene." Я не понял логической связи. Обозначил, что мне все равно на эти деньги, но сказал, что это какая-то странная схема: комики ведь делают твое шоу, посетители приносят деньги, и причём тут вообще пропадают эти комики позже или нет? Он выдал мне тираду о том, что он в комедии шесть лет, и почему они должны платить опытным комикам так же, как мне? Стало уже совсем неловко, я сказал, что "I can see the reasoning, not cool, but I am going", а он не пожал мне руку и говорит "Get out, you are not getting on this show." Я развернулся и пошел в свое такси, благо моя самооценка не держится на том, что я N лет в комедии (пока что). Весь разговор длился минуты полторы, поэтому я вообще не уловил, что это было. Нормально же общались, как говорится. Позже, подумав, понял, что его задело: он решил, что я учу его как делать шоу. Хотя я ведь просто пытался понять, как это работает и почему, а потом сказал, что думаю. Возможно тут есть нечто культурное: в русском эгалитарном обществе высказывать свое мнение это священное право, а при обсуждении того, что справедливо, а что нет, вообще нельзя пройти мимо. Очень хотелось объяснить человеку на языке тела, что общаться с людьми через "Get out" неуважительно. Но подостыл и написал ему в вотсап, что не хотел обидеть (что правда) и "no hard feelings." Больше всего беспокоило, что он пойдет рассказывать плохие вещи в тесной тусовочке, и мне отрубят доступ к другим площадкам, после чего карьера великого рейнджера комика закончится не начавшись. Поэтому хотелось по крайней мере не дать конфликту разгораться. Он выдал мне в ответ тираду, что мол, сначала поживи в комедии с моё, а потом делись своим мнением. Чтож, окей. Вот он какой, суровый шоу-бизнес, в котором все работает совсем не так, как я привык. Вынес из этого важный урок коммуникации: не лезь куда не надо и считывай комнату.
Показати все...
🕊 8😱 3🎃 3👎 1😐 1
#education Что я вынес для себя после преподавания на курсе по анализу данных во ВШЭ на совместной магистерской программе с X5? 1. Я сильно лучше начал понимать своих преподов (особенно из индустрии). У тебя и так не очень много времени, а тут еще нужно делать лекции, семинары, смотреть домашки, консультировать (если есть проекты или сложные домашки). И на это уже начинает не хватать времени; 2. Подготовка хороших материалов занимаем очень много времени (если делать хорошо). И не только создание материалов, а потом еще их адаптация по итогам обратной связи от коллег и студантов; 3. У нецелевых курсов меньше внимания студентов. И это, в целом, логично (программа все же про менеджмент). Я тоже в свое время не особо обращал внимания на философию или культурологию, когда учился на математика. Но теперь понимаю преподавателей этих дисциплин ;) 4. Есть вещи, которые определенно пойдут не так. Что-то, что ты рассчитывал, как достаточно быстрое задание, может занять сильно больше времени. Какие-то темы, которые ты считал более интересными, не будут вызывать особого ажиотажа. А те, что ты считал проходными, наоброт, будут более интересны; 5. Я весьма неплохой лектор. По крайней мере, особых жалоб не было, народ слушал. Да и мне самому нравится болтать на эту тему (иначе я бы столько докладов на разных конференциях не делал бы). А что по итогу? Было прикольно, но готовить курс лучше, если у тебя побольше свободного времени. Делиться знаниями - круто, но это если есть ресурс. В следующем году, вероятно, я тоже прочитаю сколько-то лекций на курсе. Но вряд ли столько же, как в прошлом году. P.S. Кстати, скоро начнется набор на новый год этой программы. Раз уж решил пост про это написать, то можно и упомянуть.
Показати все...
👍 13🔥 8 3
Repost from Data Secrets
Фото недоступнеДивитись в Telegram
Это лучший роадмап по Deep Learning, который вы когда-либо видели. Лучше сохранить
Показати все...
🔥 10 2 1
Коллеги постарались и сделали по мотивам моего выступления статью на хабре. Поддержите усилия ребят вашими лайками! https://habr.com/ru/companies/X5Tech/articles/814579/
Показати все...
Бутстрап временных рядов

Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о...

👍 17
А вот и запись митапа. Старт с моего доклада, но я рекомендую посмотреть и доклады коллег — они сделали очень клевые и интересные доклады. https://www.youtube.com/live/bcgFvx6HZnQ?si=OvRtKyG0j3Vkwc0i&t=9113
Показати все...
X5 Data Science meetup #3

Бурный рост эффективности ML систем провоцирует огромное количество дискуссий. X5 Tech приглашает экспертов в Data Science, чтобы обсудить как с помощью новых методов и подходов победить неэффективные процессы. В наших докладах мы рассмотрим проверенные и новые методы взаимодействия с пользователями: от рекомендаций музыки до генерации контента и чат-ботов на основе искусственного интеллекта. Конечно же, мы также обсудим сложности: галлюцинации, мониторинг языковых моделей, методы улучшения RAG-систем. X5 Tech всегда на связи:

https://t.me/x5_tech

https://vk.com/x5tech

https://habr.com/ru/company/X5Tech/

https://vc.ru/x5group

10
Я тоже буду выступать на этом митапе. Будут интересные доклады, как от нас, так и от других экспертов рынка
Показати все...
🔥 3
Repost from X5Tech
Фото недоступнеДивитись в Telegram
25 апреля X5 Tech приглашает на митап экспертов в Data Science, чтобы обсудить ML системы и как с помощью новых методов и подходов победить неэффективные процессы. Поговорим про проверенные и новые методы взаимодействия с пользователями: от рекомендаций музыки до генерации контента и чат-ботов на основе искусственного интеллекта. Ну и обсудим сложности: галлюцинации, мониторинг языковых моделей, методы улучшения RAG-систем. Регистрируйтесь по ссылке. Мероприятие пройдёт в офлайн и онлайн форматах. Приходите, будет интересно! 😉
Показати все...
👍 4
#conference И снова о конференциях. В мае (21–22 мая) я буду выступать с докладом о галлюцинациях в LLM: что это, как понять, что модель галлюцинирует, как нам с этим работать. Помимо моего доклада, будет еще много интересных выступлений. В общем, будет на что посмотреть. Конференция пройдет в онлайн формате (кайф, можно пижаму не снимать). Подробности, расписание и прочее тут: https://imlconf.com
Показати все...
👍 5❤‍🔥 2🔥 1
Оберіть інший тариф

На вашому тарифі доступна аналітика тільки для 5 каналів. Щоб отримати більше — оберіть інший тариф.