ML for Value / Ваня Максимов
الذهاب إلى القناة على Telegram
Путь от ML-модели до Value для компании | RecSys, Search, LLM, Pricing и CLTV Ваня Максимов, @Ivan_maksimov Head of AI | Recsys, search, llm @Y.Market, ex-WB, ex-Delivery Club Консультирую компании, Веду курсы Публикую релевантную рекламу
إظهار المزيد5 666
المشتركون
+224 ساعات
+107 أيام
+930 أيام
أرشيف المشاركات
Начинать писать после перерыва всегда непросто, поэтому пока легкий пост про мои новости)
Официально стал частью Transactional AI в Яндексе 🤖
Помимо персонализации всего в Я.Маркете буду делать ИИ-агентов для покупок товаров
Съездил на теннисный турнир Barcelona Open 🎾
Мой первый турнир в качестве зрителя - это конечно топ! В полуфинале Рублев был крут, но и восходящие звезды Фис и Ходар впечатлили.
Теперь еще больше мотивации все же сыграть и самому pro турнир уровня сильно пониже: ATP 15/25
Отметил 4ую годовщину с моей женой ❤️
Лучшее решение, всем советую)
Бодро иду к своим 30 годам: записался на все чекапы и операции на год вперед 🔴
Собираю базу данных анализов для терапевта gpt :)
Возобновил регулярный спорт: бег, качалка, теннис и улучшил питание
Вот такие новости: а дальше пойдут посты про фейлы в ml — stay tuned, будет интересно!
LLM - велосипед в новой обертке
Холиварный пост выходного дня)
Доля правды в этом есть - и это наоборот круто!
LLM научились довольно неплохо решать в zero shot режиме (без обучения на доп данных) классические задачи:
- Классификация текста
- Named entity recognition (NER)
- Суммаризация текста
- Question answering по тексту (хотя тут еще есть куда расти)
Куча бизнес-задач = комбинация нескольких таких простых классических задач
🆘 Автоматизация поддержки пользователей = Классифицировать запрос пользователя + достать нужный кусок документации / инфы о юзере из базы данных (RAG) + ответить на вопрос по вытащенным данным (question answering)
И если раньше на каждый кусочек задачи нужно было учить свои модели, что долго/дорого, то сейчас это решает LLM…не всегда дешево, но заметно быстрее!
Подобных примеров в бизнесе еще довольно много: автоматизация пушей, генерация простого контента по шаблону, …
P.S. Настоящий reasoning я пока вижу только на очень «строгих» и задачах с понятными критериями успеха: написание отдельных кусков кода и решение не оч сложных математических задач
В общем, решать много простых задач = решать и сложные задачи, которые можно разделить на несколько простых. И тогда хорошо решать простые задачи = успех 🚀
+5
LLM долгосрочные интересы пользователя
Понемногу LLM-ки находят полезное применение в рекомендациях!
Обычная реком система упрощенно устроена так:
- Модель на короткой realtime истории пользователя (SLIM, SASRec, …) вытаскивает товары текущего интереса
- Модель на очень длинной offline истории пользователя (часто ALS, LightFM) вытаскивает некие долгосрочные интересы
- Их результаты смешиваются и переранжируются
Есть гипотеза, что кусочек с длинной историей можно обрабатывать LLM-кой и вытаскивать оттуда доп профит!
Отчасти такой подход сработал в Taobao (их модель RecGPT v2). Ну и мы в Я.Маркете тоже внедрили свою адаптацию - Влад из моей команды недавно рассказал об этом на ML Party
Подход относительно простой, но с кучей подводных камней: о них как раз в нашем докладе 😎
Не проводи АВ-тест, пока не прочитаешь этот пост
Да-да, это кликбейтный заголовок)
Остановись на минутку. Вероятно, прямо сейчас у тебя идет какой-то АВ-тест. Вот скажи, зачем ты его проводишь?
Вроде понятно, что это нужно для честного замера метрик. Но зачем их честно замерять? Попробуй ответить на несколько подряд идущих "Зачем?"
Не только же для аналитического удовольствия мы АВ-тесты крутим 😅
А зачем нужны АВ-тесты намой взгляд, можно почитать ниже:
1. Не катить в прод красные фичи с падением бизнес-мерик + находить баги
Все хотят новой фичей нанести благо компании (все же, да?). Но по ходу написания фич периодически вылезают проблемы: забыли корнер кейс, не рассчитали нагрузку, отсортировали реком ленту в обратном порядке (тут и я грешен) - все это не всегда можно отловить на ручном/авто-тестировании. АВ как финальный босс покажет явные слабости и баги
2. Не катить в прод серые фичи без изменения метрик = сильно снижаем тех долг и упрощаем систему
Это нас частично избавляет от напиливания фич ради фичей, а не реальной пользы. Плюс, меньше кода в проде - проще система, быстрее внедрять изменения и меньше времени на тех долг. По сути, экономия на часах разработки ну или на токенах ai-агентов, если вы уже в будущем, где они пишут подакшен код)
3. Понимать, что работает, а что нет = выявлять направления развития
Если просто делать тикеты без оценки эффекта, то не получится узнать, что реально дает доп метрики и на чем стоит фокусироваться. Можно год оптимизировать UI и гордо говорить, что мы молодцы. А можно посмотреть на результаты пары АВ и увидеть, что конверсия от этого прекрасного UI не меняется - гораздо раньше переключиться на что-то другое
4. Оценивать команды по реальному вкладу
Я сторонник того, что практически любую метрику можно свести к итоговому эффекту на выручку/прибыль компании. Соответственно, работу любой команды над ее метрикой можно свести к влиянию на выручку/прибыль = легко оценить их вклад и сравнить между собой
Я знаю единственный кейс, где это и правда сложно: команды, которые строят совсем новые направления, такие мини-стартапы внутри компании. И то только потому, что их влияние долгосрочное, а не в моменте. Но и его оценить можно (существует же оценка стоимости стартапов как-никак)
💬 Можете поспорить со мной про DWH, BI, поддержку и другие команды, кого якобы "нельзя оценить в приросте денег компании" в комментариях:)
Middle+ ML engineers ко мне в команду рекомендаций Я.Маркета (3 вакансии)
300-400к руб на руки
Москва, Спб или remote
*если вы senior - тоже пишите, договоримся)
Наша команда рекомендаций Яндекс.Маркета делает персональные рекомендации товаров на главной странице, подбирает похожие и сопутствующие товары, персонализирует поиск, crm-коммуникации и другие поверхности. Мы - бизнесовая команда, которая приносит прямой прирост выручки/прибыли компании в АВ-тестах. Баланс бизнес-рисерч у нас 80-20
Сейчас мы ищем уверенных ML инженеров на 3 трека: нейросетевые рекомендации, более классический recsys + discovery, СRM-персонализация.
Внутри команды со временем трек можно менять, это скорее фокус на ближайшие полгода
1. Нейросетевые рекомендации
Предстоит работать в первую очередь над трансформерной моделью ARGUS-8k, глубоко погружаться в архитектуру
- Добавление новых входных данных для нейросетей: поисковые запросы, новые типы действий (шеринг ссылки на товар), фичи пользователей и тп
- Эксперименты с эмбеддингом товара: что из текстового описания и характеристик использовать, как учесть картинки товаров, semantic id и дп
- Эксперименты с архитектурой: добавление отдельной головы под новый таргет, изменение лосса и тп
- Адаптация моделей под сценарии: рекомендации на главной странице, товары-аналоги (учет контекста основного товара), поиск (учет контекста поискового запроса)
- Анализ наших данных и поиск точек роста в ML-моделях через новые таргеты, входные данные или фичи
2. RecSys и Discovery
Нужно оптимизировать не только количество действий пользователя в моменте (заказы, корзины и тп), но и учитывать юнит экономику товара
+ оптимизировать долгосрочный LTV пользователя. С нейронками работать тоже нужно, но без настолько глубокого погружения как в выкансии выше: и BERT-ы для похожих товаров учить, и LLM-ки применять, и многое другое.
Основы нашей архитектуры рекомендаций можно посмотреть в докладе на highload
- Эксперименты с таргетом ранжирующих моделей: как учесть юнит экономику товаров? как балансировать текущий интерес и новые discovery категории для пользователя?
- Discovery брендов: например, как любителям одежды показывать новые фэшн-бренды?
- Lifelong рекомендации: как запомнить релевантные интересы пользователя из далекого прошлого? Купил сноуборд 1,5 года назад (интерес/хобби - катание на сноуборде) -> рекомендуем ботинки для сноуборда или горнолыжный шлем сейчас
- Развитие моделей для подбора товаров-аналогов: коллаборативная фильтрация, статистическая со-встречаемость (PMI, swing, ...), BERT и тп
- Внедрять и улучшать LLM для рекомендаций
- Анализ наших данных и поиск точек роста в ML-моделях через новые таргеты, фичи или бизнес-логику
3. Персонализация CRM
- Строить ML-модели склонности к покупке категорий и брендов (Catboost, ALS, LightFM, трансформерные модели)
- Uplift-модели для коммуникаций с пользователем
- Определять персональную контактную политику (как часто коммуницировать? в какие дни и время?)
- Запускать АВ-тесты и влиять на бизнес-метрики
- Анализ наших данных и поиск точек роста в ML-моделях через новые таргеты, фичи или бизнес-логику
Что жду от кандидата
- Опыт работы в ML/DL от 1 года
- Python, Airflow
- SQL
- A/B тестирование и статистика
- Классический ML: catboost и способы генерации фич, ml-метрики
- Базовые знания в DL: эмбеддинги, типы слоев, функции активации, attention
- (доп для DL) Глубокое понимание нейросетей в NLP или RecSys: BERT-подобные модели
Будет плюсом
- Продакшен опыт работы с задачами поиска или рекомендаций
- Опыт работы с LLM: rag, sgr, so
- (доп для DL) Опыт с нейросетевыеми моделями рекомендаций: SASRec, HSTU
🔤 Резюме можно присылать напрямую мне в лс - @Ivan_maksimov
[3/3] Тщетные надежды и мечты
Очень надеялся, что в рексис или поиске будет прорыв в этих темах в 2025, но он пока не случился
1. Economic recsys research
А именно, внятное объединение recsys + pricing/promo в единую систему
Даже в самом простом виде: продавец дал скидку 30%, но в кандидаты товар чаще попадать не стал, тк обычные двубашенный кандген ничего про скидку не знает
В более сложном: мы можем сами давать скидку + наливать трафик на товар рекомендациями. Как правило, просто скидка на не самый популярный товар не работает, тк никто о ней не знает. А наливание трафика без скидок - непонятно, в чем доп вэлью (и прирост конверсий) пользователя
2. Крутые решения по сбору наборов/образов
В сопутствующих товарах все еще рулят статистические методы. А в визуальной сопутке (одежда) дальше статьи 2017 года от ASOS на базе сближения векторов товаров от картиночного энкодера, мир особо не продвинулся
3. Long-term eval
- Почти все текущие датасеты имеют feedback loop: надо предсказать позитивы, смещенные на то, что показывала прод модель рекомендаций
- Все же мы эвалим точность next action или в лучшем случае actions за последующие 1-2 недели. А вот long-term эффект на LTV считает мало кто и осоьо про это не рассказывают (тут конечно nda, все дела)
- RL в recsys, который мог бы все это решить, все же пока скорее мертв в нашей сфере 💀
А на какие прорывы в 2026г надеетесь вы?
+9
[2/3] Продуктовые изменения в мире recsys & search и около них за 2024-25гг
Больше про маркетплейсы, такая уж специфика у меня
1. VR-примерка одежды у крупных продавцов (Zara, ASOS)
Наконец-та!
Убийца маржи всех маркетплейсов (особенно fashion) - возвраты. Если их заметно снизить, то ecom вполне может совсем уничтожить оффлайн-магазины
Обычно возврат идет после «примерки» одежды или товара в интерьере. В 2025 появились наконец приличные open-source virtual try-on модельки и компании стали их понемного внедрять. Пока все же в тестовом режиме (фото 1)
2. PUGC - Professional user generated content
Ощущение, что уже 50+% карточек товаров и отзывов сгенерированы LLM-кой: пользователям нужны пруфы, что товар хороший. Тут в бой идет контент от экспертов (PUGC)
В Lazada вместо фотки товара уже по дефолту стоит его видео-обзор от продавца (фото 2)
В Китае процветает реинкарнация магазина на диване: social ecom
В России эта история пока не особо летит, но посмотрим, что нам сулит Новый год
3. Казино и игры в каждый продукт
Дают возможность получать баллы за заход в приложение/игры внутри и крутить колесо призов - обычно, случайная скидка на категорию или бренд
Механика простая, но прилично растит частотность. Есть в Lazada, Озоне, Я.Маркете, вот недавно запустилась даже в Золотом Яблоке! (Фото 3-5)
4. Маркетплейсы в GPT и GPT в маркетплейсах
Самое сладкое оставил в конце
General LLM заходят в ecom/кино/книги и другие классические области рексис и поиска. Посоветоваться с llm-кой перед крупной покупкой или выбрать с ней сериал на вечер становится нормой. Сами AI-браузеры стали делать лендинги для товаров прямо в результатах своих ответов: первая заметная коллаба случилась между Perplexity и Shopify (фото 6-7)
Но и сами маркетплейсы внедряют AI-ассистенты у себя. Мне пока заходят точечные юзкейсы: выбор подарка, уточнение про товар, сравнение товаров и тп. Никак уж не могу не упомянуть наш ai-ассистент в Я.Маркете (фото 8)
Интересно, кто в итоге победит в этой битве? Или каждое решение займут свою нишу?
5. Супер-пупер аппы
Поиск информации агрегируется в супераппах (да, chatgpt - тоже суперапп). Думаю, года через 3-4 около 80% всей потребляемой информации будет приходиться на ~10 супераппов (пара соцсетей, мессенджер, маркетплейс, банк и может еще пара сервисов). И сейчас многие пробуют таким супераппом стать или усилить существующий апп
Этот год запомнился попыткой WB стать супераппом: они купили Рив Гош, тревел-оператора Fun&Sun, строят отель в Египте, ну и конечно запустили Wibes (фото 9)
Еще Яндекс.Go не так заметно добавил много новых сервисов (бери заряд, межгород, аптеки, помощник) и кросс-сервисного ai-помощника, пока посмотреть можно через лист ожидания (фото 10)
Ничего не имею против супераппов - это хороший способ привлекать и монетизировать аудиторию. Посмотрим, что из всего этого выйдет 🍿
Дайте знать, интересно ли в канале читать не только про ML, но и про продукт
❤️ - кайф и про продукт
👍 - норм, если не слишком часто
👎 - только ML, только хардкор
[1/3] Что случилось в мире рекомендаций и поиска за 2024-25гг?
За последние 2 года в мире recsys идет революция не меньше изобретения attention и gpt. С интересом наблюдаю и применяю многое в работе - хочу поделиться, что происходит в нашем мире:)
1. Large Recsys Models
LRM, получается? 😅
Еще год-два назад SOTA SASRec работал с максимум 512 последними действиями (заказы, корзины, лайки, клики) пользователя. Естественно, у многих юзеров даже за 6 мес действий больше, а у активных контекст переполнялся за 1 месяц
Потом вышла революционная статья Actions Speak Louder than words с генеративной recsys моделью HSTU-8к. Основная фишка: меняем парадигму обучения с next action prediction на генеративную. По факту, чуть по-другому собираем датасет и эффективнее считаем матричные произведения
Это позволяет ускориться х5-х15 раз (снижается сложность О(seq_len^3) до О(seq_len^2). И, собственно, скейлиться до длины последовательности в 8к и размера модели в 1.5В параметров
Хайп HSTU подхватили и другие компании: Вышли более эффективные реализации вроде Argus-8k от Яндекса (мы в Я.Маркете тоже его используем), модели с 100k контекстом от Kuaishou и другие
2. Маленький «словарь» товаров с Semantic IDs 📕
Годами область RecSys отличалась от NLP по факту размером словаря. В NLP - это 30-100к благодаря эффективным токенайзерам, а в рексис 10-100М, тк «слово» = товар, а уникальных товаров много
Эта проблема мешала масштабированию моделек, холодному старту, качеству обучения и еще в десятках мест поменьше
Рисерчеры из Google придумали Better Generalization with Semantic IDs. Берут контентные вектора товаров (текст, картинка) и хитро последовательно кластеризуют их через RQ-VAE. Основная фишка в том, что финальный id товара = сумме id его кластеров
semantic_itemid = cluster_iter1 + cluster_iter2
Кластеров всего ~10-100K. Вуаля, наш словарь как у LLM — опять же можно масштабировать модели и делать генеративное обучение как в llm
3. Рекомендации в один шаг🦵
Классика рекомендаций: отбираем топ-1к товаров-кандидатов легкой моделью (обычно вектор юзера х вектор товара в faiss). Затем переранжируем более тяжелой моделью. Из-за такой схемы на первом этапе кандидатогегерации могут теряться релевантные товары
OneRec объединили генерацию кандидатов, ранжирование и еще реранкер по разнообразию в один шаг! Честно говоря, сам еще продолжаю разбираться: там серия из 5 статей страниц на 200. Но это явно будет hot topic и в 2026
4. LLM-ки нашли свое место в RecSys 🧐
Нам долго обещали, что LLM заменят чисто рекомендательные модели, но нет. Попыток было много, в итоге пришли к компромиссу: LLM генерит «интерес пользователя» текстом (одежда для походов, декор в японском стиле), а более классические recsys модели - товары внутри этих интересов. Вариантов реализации много, мне нравится RecGPT: можно считать в оффлайн, не так много запросов к llm (ну как.. 10-100М, а не миллиарды-триллионы), можно прикручивать SGR и другие приятности
Хотя бы одно из этих улучшений внедрено в прод хорошо если в 10-20 компаниях в мире, с огромными приростами метрик. Так что сейчас - самое время внедрять это у вас, если еще не успели!)
В следующей части будут продуктовые recsys & search изменения, без статей, но с картинками 🖼
С наступающим Новым Годом 🎄🎅
Уходящий год выдался очень насыщенным: я сильно погрузился в lifelong рекомендации с огромным контекстом истории юзера (argus и llm x recsys), пробовал дружить персонализацию и промо (тут еще многое впереди!), расширялся в content intelligence, crm и поиск
А еще много путешествовал и тренировался в одном из топ теннисных центров на Тенерифе: немало последил за тренировками игроков топ-30 мира и сам сильно прокачался. В общем, было насыщенно!
Желаю, чтобы в 2026 у вас было еще больше впечатлений и чтобы исполнились все ваши ML-ные мечты: вкатиться в IT или вырасти в навыках/грейде, опубликовать статью на А* конфе, обучить SOTA модель, найти свое призвание и идеальную компанию
Ну и чтобы модельки учились, деньги мутились - ml4value все же 👍
👿 Data Dojo 27 ноября: программа встречи
Data Dojo — мероприятие Яндекса для ML-энтузиастов всех уровней. Какие будут лекции:
17:10 Обзор трендов и предварительные итоги года
Сергей Овчаренко, руководитель отдела мультимодального анализа и генерации
17:40 Научить AI не бредить, сдать физику и получить права: как мы готовили задачи ML-квалификации Yandex Cup
Сергей Фиронов, ведущий разработчик службы поведения и предсказания департамента Автономного транспорта
18:10 Кухня, гости, музыка: как мы научили колонку реагировать в реальном хаосе
Дмитрий Солодуха, руководитель команды голосовой активации
Собираемся в 16:00. Фуршет, нетворкинг, мастер-класс, afterparty — будет всё.
Регистрируйся
+3
➡️ Навигация по каналу v3
На связи Ваня Максимов @Ivan_maksimov - AI & Analytics Head в Яндекс.Маркете, 10+ лет в DS
Сложилось сразу 2 фактора: канал дорос до 5.5К подписчиков и наступило аж 400 дней на новом месте работы -- пора сделать апдейт про канал и меня
Чем я занимаюсь?
Магия дискавери: помогаю найти неочевидные и полезные товары в Я.Маркете.
На фотках к посту 3 неочевидных товара, которые я нашел в своих же рекомендациях
Кстати, "магия дискавери" - реальное название одной команды в я.картах!
Поформальнее, руковожу командами AI для персонализации и продуктовыми аналитиками:
60% - рексис: DL + классика + аналитика
20% - поиск и crm: персональное ранжирование + аналитика
15% - content intelligence с LLM, скажем так
5% - реклама
До этого из области RecSys построил с нуля все рекомендации в Delivery Club, внедрил R&D в Wildberries
А еще активно зарабатывал деньги для компаний классическим ML: оптимизация цен и промо-акций, автоматический заказ товаров на склады, планирование смен курьеров. Ну и конечно А/В тестировал все это дело! Довелось даже построить 2 платформы А/В: в Delivery Club и Лавке
На канале пишу о том, как преодолеть путь от ML модели до реального Value для бизнеса. И какие грабли я собрал на этом пути за 10 лет
👍 Самые залайканные / обсуждаемые посты с хэштегами
- Как впихнуть все интересы пользователя в один экран приложения? Новинки в DL RecSys: ARGUS-1B #recsys
- Серия про оптимизацию цен на товары #pricing
- Прогноз спроса и метрики регрессии: от RMSE до WAPE. Сколько товаров заказать на склад? #timeseries
- 13 способов ускорить АВ тест или “не CUPED-ом единым” #ab
- 70% фейлят ML system design собеседование #hiring #system_design
- Что тебя ждет при переходе team lead —> head of ML #career
💡Написать мне: @Ivan_maksimov
Можно позвать меня рассказать что-то интересное на конференции или в вашей компании, обсудить занятную ml-задачу, или проконсультироваться на счет ml-проекта
Cold-cold start
🥶 Уже скоро зима, холода - пора вспомнить и о холодном старте в рекомендациях!
Вообще полезно смотреть на рекомендательные системы не только как генератор нужных товаров и интересного контента для пользователей, но и как генератор трафика для продавцов и креаторов. Ведь долгосрочно мы хотим, чтобы и пользователям, и продавцам/креаторам было хорошо. Поэтому круто решать сразу комбинированную задачу
Прибыль --> max,
Каждый продавец / креатор получает > Х заказов
Постановка задачи довольно необычная, но крайне полезная. В продакшен системах для упрощения заменяют ограничение на:
Каждая новая единица контента получает > Х просмотров
Ровно такое продакшен ограничение и предлагается учесть в соревновании
VK RecSys Challenge
- Необычная продакшен постановка задачи
- Реально большие данные: 20 млн роликов и 40 млрд взаимодействий
- Призовой фонд 2.5 млн руб 💰
Зарегистрироваться и узнать больше деталей можно до 15 декабря по ссылке
ML в кино
Люблю необычные ml-задачи в логистике, производстве и спорте. Но наконец ML добрался и до производства кино! Один фильм могут делать целый год-два — автоматизация и ускорение тут будут явно полезны
На хакатоне Wink AI Challenge предлагается делать модели поверх текстовых сценариев для фильмов и сериалов
🔸 Структурирование сценариев через NLP/NER
Сделать из сценария структурированную таблицу сцен с указанием локаций, времени суток, персонажей, массовки, реквизита и спецэффектов
🔸 Раскадровка через text2image
Предстоит распознать ключевые объекты (персонажей, реквизит и локации) и рисовать раскадровки от черно-белых эскизов до детализированных ключевых кадров
🔸 18+ и не только
Возрастной рейтинг сериала/фильма сильно влияет на аудиторию. Предлагается классифицировать контент и находить сцены, влияющие на возрастной рейтинг
Твой ИИ-сервис оценят и будут использовать продюсеры российских хитов: «Слово пацана», «Ёлки», «Фишер» и многих других. Финал пройдёт в Москве — двум участникам из команды Wink оплатит билеты и проживание.
Призовой фонд — 1 125 000 рублей.
Регистрация до 31 октября включительно
LLM х RecSys = ?
Почти все продакшен рекомендации состоят из 2ух частей: стабильные предпочтения пользователя + рекомендации по последним взаимодействиям
До недавних пор основной прогресс был за счет последних взаимодействий
-> Переход к real-time рекомендациям
-> Похожие товары на последние клики
-> SLIM/EASE по последним действиям
-> SASRec
-> Даже модный HSTU в основном опирается на последние действия
При этом стабильные предпочтения моделировались простым подходом вроде ALS над покупками за последний год - и было норм. Но в 2025 году вышло штук 5 статей от крупных компаний про учет стабильных предпочтений юзера через LLM с приличными приростами бизнес-метрик
И в вот этот кейс применения LLM я вполне верю (и он даже самоокупается!):
- Стабильные предпочтения пользователя по определению редко меняются.
Можно прогонять LLM лишь раз в неделю и только по юзерам с новыми действиями = не так много запросов к LLM + тайминги ответа не важны
- Нетривиальная связь покупки товара Х и интереса юзера.
Например, купил палатку -> вероятно, есть интерес ко всему походному (одежда, экипировка, сублиматы и тп), а не только палатки и вокруг них. ALS такую взаимосвязь не выучит, а LLM - вполне
- Особенность рексис
Как правило, за год-два почти все товары (и их item_id) в базе обновляются. Фактически это означает, что модели, завязанные на item_id очень быстро устаревают = плохо работают с учетом интереса юзера на горизонте 1-3 года. И в этом проблема ALS.
Но LLM работают с текстом (название + описание), который все еще актуален и спустя 3 года — это позволяет LLM лучше «пережить» обновление товаров (и item_id) с течением времени
В совокупности, эти 3 фактора привели к буму LLM в рекомендациях в 2025г. Но почти только в рекомендациях на основе стабильных предпочтений. В учете недавней истории все еще царят SASRec и HSTU
Занятные статьи про LLM для учета стабильных предпочтений в рексис: RecGPT от Taobao, моделька от LinkedIn, и отчасти PLUM от Google
В общем, некоторый LLM-прорыв имеется 🚀
LLM ради денег, а не хайпа
Наконец, многие начали задумываться, приносят ли LLM-проекты реальную прибыль (пора перименовываться в LLM4Value 💀). По ощущениям:
~5% LLM и правда приносят прибыль
~20% примерно также эффективны по деньги-качество как и более простые решение (да-да, регулярки)
~75% адски жгут бюджеты и веру в скорый AGI
Хочется поскорее узнать о набитых шишках и провальных llm-инвестициях, чтобы не наступать на грабли
Конференция Conversations обещает быть как раз таким местом: много докладов про экономику LLM-проектов
5 декабря, оффлайн в Москве и онлайн отовсюду
Какие анонсы докладов меня заинтриговали:
- GenAI в разработке: как внедрять генеративные технологии в вашей самой дорогой команде и считать профит в деньгах и других метриках. Григорий Бездольный, Axenix
- LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов. Иван Четвериков, Raft
Как я и говорил, деньги-то начинают считать!)
- Автоматизация на грани: почему LLM-проекты терпят фиаско и как этого избежать? Дмитрий Легчиков, 2ГИС
Надеюсь на доклад в факап-митап стиле. Обычно фейлы идут из-за "классических" проблем с данными (нет нормального val dataset, итераций улучшения), таргетом (да-да, для llm его надо еще более строго определять) и несходимости экономики LLM-проекта
- AI-боты вместо звонков: как управлять диалогом с помощью LLM и масштабировать клиентский сервис. Александр Жариков, МТС
Имхо, ai чат-боты в поддержке - одна из немногих сфер положительного ROI от LLM
Еще будут доклады от Яндекс, Т-Банк, Just AI, Plata card и не только.
Полную программу можете посмотреть на сайте.
И там же взять билет со скидкой 10% по промокоду CVS25mlVm
Реклама. ООО «Маинд Крафт» ИНН: 7813286694 erid: 2W5zFJhLDUU
Вы не готовы, пацаны
Прочитал сегодня очередной пост про быстрые итерации, lean startup, все дела. Ощущение, что уже все хотят проверять по 300к гипотез в наносекунду. Но, по факту, мало кто к этому готов
2 А/В в месяц ломают хребет B2B-стартапам
Возникают риски для клиентов - нестабильный продукт, нужно обьяснять изменение метрик даже третьего порядка.
Внезапно оказывается, что эксперименты могут стоить денег! Не только потенциальная потеря метрик, но и косты не те же GPU. А минимальный бюджет на них выделить забыли
А еще и логгировать все данные нужно корректно: если у вас теряется 10% логов, тооо замерить эффект в +5% вряд ли получится
20 А/В - тестируют аналитическую культуру средних компаний
Неожиданно, но 20 А/В в месяц означает, что в среднем каждый день нужно принимать решение по завершившемуся АВ.
Это означает: корректно разводить аудиторию между АВ, пофиксить баги в сборе данных, сделать автоматические скрипты расчета всех метрик, договориться что все в компании смотрят на однин и тот же набор метрик и версию расчета конверсии, договориться о размене метрик...
Ну и самое главное: научиться по готовому анализу быстро принимать бинарное решение: катим в прод / нет.
А нет, погодите, еще при выкатке в прод фиксить все конфликты, накопившиеся за период экспа + костыли эксперимента превращать в продакшен-код:)
200 А/В - проверяют все процессы в IT-гигантах
Столько экспериментов в месяц означает, что их массово проводят все команды: продукт, маркетинг, логистика и тп. Следить за всеми невозможно. Тут придется налаживать процессы на уровне всей компании, чтобы проверка гипотез была полезной, а не запутывала все еще больше
Влияют ли эксперименты разных команд друг на друга? Одни катают экспы по 5 дней, другие только на сегменте ios, третьи показывают в копеечном экспе +30% выручки -- а каким экспериментам мы вообще можем доверять?
Придется построить плафторму А/В. Придется договариваться о метриках. Придется говорить, что в А/В маркетинг принес +3% клиентов, а не атрибуцировал к открывшим пуш 60% заказов
А вам оно надо? 😂
В общем, lean startup и быстрая проверка гипотез - это здорово, я сам очень топлю за это. Но будьте готовы, что нужно вложить немало училий и денег, чтобы все это действительно приносило пользу
❤️ - В моей компании идет 200+ АВ тестов в месяц
🔥- 20-200 АВ
👍 - 2-20 АВ
😀 - Живем без АВ и счастливы
🚀 Открытое собеседование по Data Science — Авито изнутри!
Как выглядит собеседование Data Scientist’а внутри Авито? 13 октября в 18:30 мы проведем открытое интервью с реальным кандидатом и покажем всё изнутри – от постановки задачи до финального фидбека.
Разберём кейс, который недавно предлагали на собеседовании, обсудим влияние ML-решений на пользователей и расскажем, какие навыки отличают сильного DS-специалиста. Интервью проведут руководители DS-направлений Авито Максим Каширин и Александр Ледовский, а кандидатом станет Дмитрий Савелко, LLM-инженер и автор блога «Еbout Data Science».
🔥 Смотрите трансляцию, задавайте вопросы и готовьтесь к DS weekend offer 18–19 октября!
➡ Участие бесплатное – регистрируйтесь по ссылке.
Вроде модель в А/В показала себя хорошо, но после выкатки в прод предлагает то 10 млн сырков заказать, то кредит выдать всем подряд, то считает, что рекомендовать всем скотч - гениальная идея
Знакомо? Это все следствия маленьких коварных сдвигов в данных: данных для обучения vs инференс, новые значения признаков появляются со временем, да и фродеры не спят
Хотите стабильную модель - придется это все учитывать
6 октября (пн) в 19:00 по мск будет бесплатный крок «Minority drift: от методов детекции до стабильного прода»
2 часа вместе с Team Lead Yandex на практике узнаете виды Minority Drift, как делать модели устойчивыми к дрейфу, оценивать деградацию и финансовые риски. От PSI и KL-дивергенции до Fairness Metrics.
Что будет на уроке:
1️⃣Виды Minority Drift в продакшен данных: Class-wise, Conditional, Subpopulation, Hidden Drift
2️⃣Оценка деградации моделей и финансовых потерь на практике
3️⃣Методы стабилизации признаков и моделей: PSI и KL-дивергенция
4️⃣Контроль качества — построение Fairness Metrics
Преподает Дмитрий Сафонов, Data Science Team Lead в Яндекс.
Урок для Data Scientists, Classic ML и NLP-инженеров. Нужны базовые знания основ ML, математики и программирования.
➡️ Записаться на урок, все бесплатно
+2
Осенний сезон конференци обьявляю открытым!
Традиционно в сентября-ноябре проходит много конференций по ML. Успел уже выступить на NDA части PML conf: рассказывал, как рекомендациями растить действия в новых для юзера категориях, и зачем это вообще нужно
Были прикольные доклады про рекомендации в я.картах и про маршрутизацию роверов-доставщиков (обожаю ml в оффлайне)
Хайлайтом PML preparty имхо стало название команды рекома в я.картах "Группа магии дискавери" 🪄✨
P.S. Очень жду в этом сезоне побольше докладов про эффективность и зарабатывание денег от ML (и особенно LLM) внедрений - пока таких явно не хватает. Если вы раскаазываете (или только планируете) что-то про денежки от ML - пишите, пересечемся на ближайших конференциях!)
+2
Economic recsys research
Где деньги, Лебовски? Этот вопрос беспокоит меня в первую очередь во всех моих начинаниях. Не зря ж канал назван ml4value
И наконец я нашел целое рисерч направление, которое занимается прибылью от рекомендаций:
🧑💻💵 Economic recsys research
Что лично мне интересно в этой сфере:
- Как балансировать рекламу и релевантность? В маркетплейсах до 30% прибыли идет от рекламы в рекомендациях, в соцсетях - до 80%
- Правильно посчитать и учесть юнит экономику товара сразу в ML модели (желательно в лосс функции)
- Какие механики апселла (продаем более дорогой и маржинальный товар) хорошо работают? Как их визуально отображать? Например, продать не просто чайник за 4к, а умный чайник xiaomi за 7к
- Как и где удачнее всего делать кросс-селл новых категорий: аксессуары, сопутка -> продажа бандлов (например, не 1 джинсы, а сразу образ из 4 вещей)
- Где во всей этой битве маржиналтности счастье пользователя / релевантность и как ее посчитать?
Очень верю, что в ближайшие пару лет мир сильно продвинется в ответах на эти вопросы. Тренд по числу публикаций положительный, но
но все еще выходит по 15-20 за год штук 🥶
Короче, Economic recsys research - интересная, прибыльная, но пока достаточно сырая сфера. Почти все крутится поверх переранжирования / аукционом над маленьким топом рекомеднаций (20-100 товаров) и "с этим товаром покупают"
Problem №1: Нет нормальных открытых датасетов с юнит экономикой товаров. Даже с ценами товаров в данных большая проблема
Problem №2: Большинство рисерчей валидируются на симуляциях, а не в АВ. Моя практика показывает, что в вопросах юнит экономики оффлайн метрики часто расходятся с онлайном
Поэтому ногие прорывы делатся внутри компаний под достаточно строгим NDA
Но если интересно познакомиться со сферой, то все же кое-что просачивается и на arxiv: https://arxiv.org/pdf/2308.11998
На картинках к посту - как раз скрины из этого овервью: о каких темах в области пишут, где успешно внедрено и на каких датасетах валидируются. Датасеты эти использовать не советую, а остальное - норм)
Буду теперь двигать Economic recsys research в массы 🔥
متاح الآن! بحث تيليغرام 2025 — أهم رؤى العام 
