AI VK Hub
Відкрити в Telegram
2 353
Підписники
+324 години
+167 днів
+1530 день
Архів дописів
2 354
+7
Агенты всё чаще включают в свой инструментарий парсеры, языковые серверы и графы зависимостей, дополняя текстовый поиск структурированными представлениями кода. Подготовили обзор технологий и архитектурных паттернов, которые формируют syntax-aware подход.
#aivkhub #обзор
2 354
📢 Открыта регистрация на RecSys Meetup от AI VK
1 июля в Москве инженеры и исследователи AI VK расскажут о трансформерных моделях и LLM-агентах в рекомендациях, представят исследовательское направление и поделятся опытом внедрения технологий Discovery в продукты VK с многомиллионной аудиторией.
Спикеры:
🟣 Андрей Зимовнов, директор по AI, VK
🟣 Александр Дьяконов, руководитель отдела исследований AI VK Research
🟣 Евгений Астафуров, ведущий разработчик, AI VK
🟣 Михаил Трапезников, руководитель группы рекомендательных технологий, AI VK
В программе:
🟣 Нейропрофиль в Discovery
🟣 Контентные LLM-агенты
🟣 Научные исследования в AI VK
🟣 Cоциальное общение, светомузыка и активности
➡️Регистрация по ссылке
Количество мест ограничено, трансляции не будет.
📍1 июля, ДК «Кристалл», Москва
#aivkhub #recsys
2 354
Рекомендательные системы переходят от кликов к смыслам. LLM помогают им понимать контент, решать проблему холодного старта и делать рекомендации точнее.
Андрей Черкасов, руководитель группы мультимодальных контентных моделей AI VK, рассказал, как LLM меняют архитектуру рекомендаций, зачем нужны RAG и агентные системы и как эти технологии применяются в VK.
#aivkhub #рекомендательныесистемы #aivk
2 354
Персонализация, UI для сотен разработчиков и мечта инженера
Андрей Зимовнов, директор по AI в VK, прямо сейчас на South HUB рассказывает о том, как строилась единая Discovery-платформа для рекомендаций, поиска и рекламы, с какими челленджами столкнулась команда и как удалось реализовать мечту инженера в бигтехе.
2 354
Масштаб и скорость появления нового вредоносного ПО в 2025–2026 годах вышли за рамки, объяснимые ручной работой операторов. Причина не в новых классах уязвимостей, а в LLM-пайплайнах, массово генерирующих полиморфные малвари.
Подход, названный vibeware, построен как индустриальный конвейер. LLM порождает имплант, CI/CD компилирует его в варианты на разных языках, система доставки распространяет их и собирает телеметрию из песочниц. Телеметрия возвращается модели, та рефакторит код под замеченные защиты и запускает новый цикл. Вендоры фиксируют новые одноразовые варианты ежедневно.
Полиморфизм на уровне исходного кода
LLM порождает синтаксически разные реализации одной вредоносной логики: меняет имена переменных, перестраивает поток контроля, подбирает другие API-вызовы. Модель переводит логику на Nim, Zig, Crystal, Rust и другие языки с меньшим количеством сигнатур и инструментов анализа. Хеши и статические сигнатуры против такого подхода работают очень плохо.
Команда Check Point Research в дайджесте за январь-февраль 2026 описала случай, когда атакующие встроили override-инструкции в конфигурационный файл проекта, и кодовый агент начал создавать руткиты без ручных промптов. Для обхода ограничений безопасности LLM атакующие используют три подхода: prompt engineering для обхода фильтров, модификацию конфигурационных файлов агентов и запуск локальных open-source моделей с ослабленными настройками.
На уровне выполнения импланты генерируют уникальные инструкции в памяти при каждом запуске. Для обхода EDR атакующие применяют BYOVD (Bring Your Own Vulnerable Driver) — загрузку подписанных уязвимых драйверов для отключения колбеков ядра. LLM подбирает конкретные паттерны под целевой EDR.
Предельные издержки на один вариант существенно снижаются. Один успешный шаблон масштабируется на тысячи целей без дополнительных затрат. SOC вынуждены обрабатывать постоянный поток срабатываний вместо редких точных инцидентов, а стоимость защиты растёт: нужны телеметрия, ML-модели детекции и команды для обслуживания.
Массово сгенерированный код заполняет телеметрию миллионами почти идентичных сэмплов. Отличить высокопрофессиональных атакующих от низкоквалифицированных хакеров с доступом к одной и той же модели становится всё сложнее.
Поведенческая детекция
Сигнатурная защита против vibeware малоэффективна. Основной подход — это поведенческая аналитика: UEBA, EDR с ML, kernel-telemetry. Но и она уязвима: когда атакующий отключает kernel-telemetry через BYOVD, поведенческая детекция теряет данные. Метод работает только при целостности сенсоров (HVCI, driver blocklists).
#aivkhub #vibeware #обзор
2 354
Зачем бигтеху нужны учёные, если есть уже готовые RecSys методы?
Руководитель Отдела исследований AI VK Александр Дьяконов — доктор физико-математических наук и первый чемпион мира по Kaggle — в новом выпуске подкаста Weekend Talk.
🟣 Каким был ML до профессии Data Scientist
🟣 Зачем делать исследования и открывать датасеты
🟣 Что отличает человека, умеющего видеть данные, и при чём здесь талант
🔹 Научный, честный и глубокий разговор. Смотрим
#aivkhub #recsys
2 354
🟣Alibaba выпустила Qwen 3.7-Max
Alibaba представила модель Qwen 3.7-Max, специально разработанную для решения длинных агентских задач. В рейтинге Code Arena модель заняла второе место в мире, а на демо в течение 35 часов оптимизировала код для неизвестного ей ускорителя, увеличив его производительность в 10 раз.
🟣 Google представила Gemini 3.5 Flash
На конференции I/O 2026 Google анонсировала модель Gemini 3.5 Flash, которая превосходит Gemini 3.1 Pro по скорости и эффективности в сложном программировании и агентных задачах. Также вышла мультимодальная модель Gemini Omni для генерации видео на основе текста, изображений и аудио. В экосистему добавлен персональный агент Spark, работающий в облаке в постоянном режиме, и обновленная платформа Antigravity 2.0 для параллельной работы с агентами.
🟣 Alibaba выпустила модель синхронного перевода Qwen3.5-LiveTranslate-Flash
Alibaba представила Qwen3.5-LiveTranslate-Flash — модель для синхронного перевода речи в реальном времени. Она поддерживает 60 языков на входе и 29 языков на выходе, а задержка перевода составляет 2,8 секунды. Модель анализирует видео — считывает движения губ и жесты говорящего, что помогает сохранять точность перевода в шумной среде.
🟣 OpenAI интегрирует водяные знаки SynthID
OpenAI внедряет водяные знаки SynthID от Google для маркировки сгенерированных изображений. Водяные знаки дополнят криптографические метаданные C2PA и сохранятся даже при создании скриншотов или смены формата файла. Также OpenAI запускает публичный инструмент для проверки происхождения изображений.
🟣 ArXiv будет блокировать авторов за следы ИИ-генерации
Платформа с препринтами научных работ ArXiv обещает блокировать авторов на один год за наличие сгенерированного контента в статьях: вымышленных ссылок, плагиата или внутренних комментариев от модели.
#дайджест #aivkhub
2 354
В марте наша модель kazRush для перевода с русского на казахский язык показала лучший результат среди open-source решений в shared task на воркшопе LoResMT при EACL 2026 — одной из крупнейших международных конференций по NLP и машинному обучению.
Модель
Архитектура модели kazRush основана на конфигурации T5 с инициализацией весов с нуля, обучение проводилось на доступных открытых параллельных корпусах: OPUS (718 тыс. пар), kazparc (2.15 млн), wmt19 (5.06 млн), TIL (4.4 млн). Перед обучением данные прошли препроцессинг: дедупликацию, фильтрацию по языку, удаление пар с низким LaBSE-скором и очистку через OpusFilter. Обучение заняло 56 часов на двух GPU NVIDIA A100 80 ГБ.
Результаты соревнования
Исследователь из ИТМО использовал kazRush в рамках shared task на LoResMT 2026, посвящённом машинному переводу для малоресурсных языков. По итоговым метрикам соревнования модель показала лучший результат среди open-source решений.
Такие модели могут быть полезны исследователям, разработчикам ML-сервисов, образовательным проектам и командам, которые работают с локализацией контента или создают продукты для многоязычной аудитории. Для малоресурсных языков качественных open-source моделей все еще довольно мало, поэтому открытые решения здесь особенно важны для развития индустрии и исследований.
#aivkhub #kazRush #EACL
2 354
+7
📱 ML-инфраструктура живёт на двух языках: прототипы и оркестрация на Python, вычислительные ядра на C++ и CUDA.
Mojo от Modular — новый язык программирования с python-синтаксисом, который заявляет производительность на уровне C++/Rust.
#aivkhub #mojo #обзор
2 354
📢 Работа мечты сама себя не найдёт
Специалисты AI, ML и знатоки C++ приготовьтесь.
Собрали для вас вакансии, на которые хочется откликнуться прямо сейчас ⬇️
ML-инженер в Поиск, Москва
Разыскиваем специалиста уровня middle или senior, который поможет системно развивать направление поисковых подсказок. Нужен опыт внедрения ML-решений в производство и уверенное владение Python.ML-инженер в группу продуктовой разработки качества поиска в AI VK, Москва
В команду крупнейшего видеосервиса в России нужен специалист с опытом работы в ML от двух лет. Пригодится умение работать с большими данными и готовность взяться за полный цикл внедрения ML-решений.ML-инженер в отдел качества поиска в VK, Москва
Ищем ML-инженера, который поможет сделать поиск максимально релевантным и полезным. Придётся работать над полным циклом внедрения ML-решений.ML-разработчик в игры в Рекомендации, Санкт-Петербург
В команду рекомендательных систем для игрового магазина RuStore требуется проактивный специалист. Нужен практический опыт разработки на Java, Python или C++ и умение работать с технологиями обработки больших данных.ML-инженер в Рекомендации, Москва
Ищем того, кто присоединится к команде развития технологий нейросетевых рекомендаций Discovery Platform. Пригодится знание алгоритмов и структур данных и практический опыт разработки на Java, Python или C++, Rust.ML-разработчик в Рекомендации, Москва
Хотите создавать крупнейшую рекомендательную систему в России? Тогда вам сюда. Требуется опыт работы в ML от трёх лет и уверенное владение Python и SQL.ML-инженер музыкальных рекомендаций в AI VK, Москва
В команду, которая развивает технологии ИИ для ключевых продуктов VK, ждём классного специалиста. Нужно понимать алгоритмы классического ML — Matrix Factorizations, CatBoost — и уметь работать с большими данными: MapReduce, Spark.С++ разработчик в группу надёжности Поиска в VK, Москва
Приглашаем в команду инженера уровня Middle или Senior, которому интересно не только писать код, но и отвечать за то, как системы ведут себя в проде. Пригодится опыт бэкенд-разработки и знание C++.#aivk #вакансии
2 354
Знания, которые LLM извлекает из научных статей во время исследовательской работы, не сохраняются между запросами. Каждый вызов модели обрабатывает источники заново, а связи между концепциями, обнаруженные в предыдущих итерациях, теряются.
OmegaWiki, open-source проект студентов Пекинского университета, реализует идею Карпатого об LLM Wiki как едином источнике правды для исследовательского процесса. OmegaWiki помогает автоматизировать рутинные этапы научной работы через интеллектуальных агентов.
Архитектура и граф знаний
Платформа работает на Claude Code с Python-утилитами. Исследователь помещает исходные материалы (PDF, LaTeX, заметки, веб-страницы) в директорию
raw/, а агент парсит и индексирует их в типизированный граф знаний внутри wiki/. Граф содержит девять типов сущностей (Paper, Concept, Topic, Person, Idea, Experiment, Method, Summary, Foundation) и девять типов рёбер: builds_on, uses_concept, tested_by и другие. Структура связей хранится в JSONL и экспортируется в Cytoscape или Obsidian для визуализации. Инициализация нового проекта — команда /init с указанием темы.
Набор из 26 команд покрывает полный исследовательский цикл: парсинг документов (/ingest), рекомендация новых статей (/discover), запросы к вики (/ask), генерация идей (/ideate), планирование и запуск экспериментов (/exp-design, /exp-run, /exp-eval), обзоры литературы (/survey), черновики статей (/paper-draft), компиляция в PDF (/paper-compile), ответы на рецензии (/rebuttal), генерация конференц-постеров (/poster), проверка целостности (/check и /lint). Каждая команда читает из вики и записывает обратно, обеспечивая накопление знаний.
Отличия от классического RAG
OmegaWiki обеспечивает персистентность: однажды проиндексированный материал доступен во всех последующих операциях. Система явно отслеживает пробелы в знаниях и фиксирует неудачные эксперименты, предотвращая их повторение. Выходные данные — структурированные артефакты (черновики, записи экспериментов, обзоры), а не разовые ответы чата. Опционально работает кросс-модельная проверка: вторая LLM независимо критикует сгенерированные идеи и тексты.
Стек и интеграции
Требования минимальны: Python 3.9+ и Node 18+ на Linux или macOS. Платформа двуязычна (английский и китайский), интегрируется с Semantic Scholar и DeepXiv. Встроен пайплайн daily-arXiv с фильтрацией по конференции и году. Офлайн-работа поддерживается через Ollama с локальными моделями.
Текущее состояние
Проект пока нишевый, но активно развивается: v1.3.0 выпущена 12 мая 2026 года с улучшениями в /discover, обновление от 19 мая добавило /exp-pilot-run и /exp-pilot-eval для пилотных запусков экспериментов. На GitHub — около 700 звёзд, проект включён в списки awesome-claude-code.
В обсуждениях сообщества пользователи отмечают ограничение: LLM Wiki деградируют при масштабировании за 1000 файлов и накапливают галлюцинации без ручного контроля. Типизация сущностей и явное отслеживание пробелов частично смягчают проблему, но верификация выходных данных остаётся за исследователем.
#aivkhub #omegawiki2 354
+7
Помните времена, когда рекомендации строились только на фразе «с этим товаром также покупают»?
Рекомендательные системы прошли путь от выбора «соседей» по интересам до диалога с нейросетью.
➡️ Разбираем эволюцию алгоритмов от memory-based до гибридных архитектур с LLM.
#рекомендательныесистемы #aivk
2 354
27-летний баг TCP SACK в OpenBSD пережил все ревью за историю проекта. 16-летний дефект в FFmpeg прошёл 5 млн прогонов автотестов. Эти и другие уязвимости нашла модель Claude Mythos в рамках Project Glasswing.
➡️ Project Glasswing
Glasswing — консорциум Anthropic для защитного сканирования критической инфраструктуры с участием более 50 организаций: AWS, Apple, Google, Microsoft, NVIDIA, Broadcom, Cisco, CrowdStrike, Palo Alto. Каждый партнёр сканирует свою инфраструктуру: AWS и Google работают с облачными сервисами, Microsoft с Windows и Azure, Apple с iOS и macOS, Linux Foundation с ядром и OSS-проектами. Anthropic получает результаты и формирует сводную картину.
Техническую основу обеспечивает Claude Mythos Preview. Модель показала эмерджентные способности к анализу уязвимостей без специального обучения:
🟣на бенчмарке CyberGym выбила 83.1% эксплойтов с первой попытки (66.6% у Opus 4.6);
🟣при тестировании Firefox обнаружила 181 работающий эксплойт (Opus 4.6 – 2 эксплойта);
🟣в тесте на OSS-Fuzz модель вызвала 595 аварий уровней 1–2 и 10 случаев полного захвата потока исполнения (уровень 5) — статистика, сопоставимая с действиями опытных экспертов по безопасности.
➡️ Инфраструктура и доступ
Glasswing работает через закрытый доступ. Участники получают Mythos через API на платформах AWS Bedrock, Google Vertex AI и Microsoft Foundry по $25/$125 за миллион токенов входа/выхода. Anthropic выделила $100 млн на вычисления внутри инициативы, общедоступного релиза Mythos не планируется. Отдельно компания направила $4 млн в OpenSSF, Apache и другие организации безопасности open source и привлекла более 40 команд разработчиков критичных OSS-проектов.
Публично подтверждён только один CVE: CVE-2026-4747, удалённое исполнение кода в NFS FreeBSD, остальные находки Anthropic держит закрытыми до выпуска патчей. Mythos построила цепочку из четырёх уязвимостей браузера для обхода песочницы и объединила несколько ошибок ядра Linux (use-after-free, race-condition) для получения root-доступа на патченных системах.
➡️ Критика и ограничения
Glasswing вызывает вопросы. Брюс Шнайер назвал пиар-кампанию Anthropic «супер удачным ходом» и указал, что СМИ не проверяют заявления компании. Проект ProMarket предупреждает: закрытый консорциум с эксклюзивным доступом к данным об уязвимостях подпадает под антимонопольное законодательство, так как Google и Microsoft могут патчить свои системы до того, как остальные участники рынка узнают об угрозах.
Сводный отчёт Anthropic опубликует через 90 дней, ориентировочно в июле 2026. OpenAI также анонсировала аналогичную модель GPT‑5.4‑Cyber в рамках проекта Trusted Access for Cyber.
#aivk #projectglasswing
2 354
За месяц DataCopilot – ИИ-ассистент для работы с DWH – помог 731 сотруднику внутри VK, retention составил 68%.
Команда перешла от классического RAG к мультиагентной архитектуре Swarm на LangGraph: четыре специализированных агента вместо одного универсального.
➡️ Подробный разбор читайте в нашей новой статье на Хабре
#datacopilot #aivk
2 354
Пользователи VK Видео стали больше смотреть контент с интересными им персонами
Среднее время просмотра видео с теми же героями из блока «Смотрите также» выросло на 10%. Это результат работы технологий глубокого понимания контента Discovery.
Технология распознавания известных персон построена на двух моделях машинного обучения: одна анализирует обложку и видеоряд с частотой один кадр в секунду и находит персон, а вторая идентифицирует популярных героев, которых определила первая модель. Это позволяет рекомендательной системе учитывать не только реакции пользователей, тематику и содержание контента, но и присутствие в роликах любимых персон.
➡️ Подробнее о том, как работает технология: https://team.vk.company/discovery-tech/
#discovery #aivk
2 354
🟣Alibaba выпустила Qwen3.5-Omni
Мультимодальная модель: текст, изображения, аудио, видео на входе, текст и речь на выходе. Версия Plus обогнала Gemini 3.1 Pro, контекст 256k токенов.
🟣Google выпустила Veo 3.1 Lite
Нейросеть для генерации видео по тексту и изображениям. Вдвое дешевле Veo 3.1 Fast при той же скорости, 720p/1080p, ролики 4–8 секунд.
🟣Suno обновилась до v5.5
Появилась функция Voices для клонирования голоса по аудиофрагменту от 15 секунд до 4 минут. ИИ генерирует музыку с голосом владельца аккаунта.
🟣Samsung выпустил браузер с ИИ для Windows
ИИ-агент на базе Perplexity анализирует страницы, пересказывает текст и ищет по вкладкам. Пока доступен только в Южной Корее и США.
🟣Alibaba выпустила Wan 2.7-Image
Модель генерации изображений с поддержкой до 9 референсных изображений. Точный подбор цветов по кодам, редактирование фрагментов, удаление фона без потери качества.
🟣Google представила Gemini 3.1 Flash Live
Голосовая модель для агентов: отделяет речь от шума, распознаёт интонацию и темп, 90+ языков. Доступна в Google AI Studio через Live API.
🟣В Telegram появился AI Editor
Встроенный ИИ-редактор: исправляет грамматику, переводит и переписывает текст. Open-source модель, обработка без доступа к данным, Premium-подписка.
🟣Anthropic планирует IPO в 4 квартале 2026
Компания рассчитывает привлечь свыше $60 млрд, переговоры ведутся с Goldman Sachs, JPMorgan Chase и Morgan Stanley. Окончательное решение не принято.
📍 Новые статьи от VK на Хабр:
🟣Три разработки студентов ИМШ, которые могут изменить ИТ-индустрию
🟣AI в ИБ RuStore: от ревью задач и кода до AI-DAST
🟣DataCopilot: строим мультиагентную архитектуру для работы с корпоративным хранилищем данных и документацией
📍 Другие материалы от инженеров AI VK:
🟣Экономика внимания: как работать с системами рекомендаций соцсетей, Степан Малькевич
🟣Снижение уровня устаревания коллективных семантических идентификаторов в генеративном поиске, Владимир Байкалов х ИТМО
#дайджест #aivk
2 354
📢 Релиз Claude Opus 4.7
16 апреля Anthropic выпустила Claude Opus 4.7. Контекст 1 млн токенов и output 128к, а цена прежняя – $5 за 1 млн входных и $25 за 1 млн выходных токенов. Усилили кодинг и агентные сценарии, но убрали ручную настройку
temperature, top-p и top-k. Модель уже доступна через API Anthropic, AWS Bedrock, Google Vertex AI и Microsoft Foundry.
1️⃣ Технические изменения
Новый токенизатор может увеличить расход токенов до 35% в зависимости от структуры контента. Модель стала мощнее, но часть задач обходится дороже. Изображения обрабатываются с разрешением до 2576 px / 3.75 мегапикселя, покоординатный маппинг упрощает computer-use сценарии. Введены adaptive thinking, уровень effort xhigh и task budgets. Бюджетные механизмы для extended-thinking убрали, а переопределение sampling-параметров больше не поддерживается.
2️⃣ Бенчмарки
Anthropic называет Opus 4.7 сильнейшей публичной моделью для сложного рассуждения и агентного кодинга. Согласно выпущенным материалам, модель показывает улучшения по SWE-bench Pro, GPQA и enterprise-eval бенчмаркам в доменах coding, finance, legal. Неофициальные замеры сообщают о преимуществе над GPT-5.4 в части coding-тестов, но точные цифры варьируются. Модель стала более буквальной в интерпретации запросов, делает по умолчанию меньше вызовов тулов и ведёт себя прямолинейнее Opus 4.6.
3️⃣ Mythos и уровень безопасности
Параллельно Anthropic упоминает Mythos Preview — более мощную систему, не выпущенную публично из-за рисков безопасности. Opus 4.7 стал первой моделью для тестирования кибер-защит в рамках Project Glasswing. 4.7 выступает коммерчески безопасным мостом к архитектуре, которую Anthropic пока не готова открывать.
4️⃣ Реакция разработчиков
Мнения на Reddit и Hacker News разделились. Одни отмечают улучшения в агентных сценариях и Claude Code, другие жалуются на потерю прозрачности: скрытый по умолчанию thinking и убранные sampling-параметры делают модель менее управляемой. На практике Opus 4.7 лучше проявляет себя в агентных сетапах, чем в свободном чате. В кодинге строгое поведение помогает, в то время как в потребительских сценариях оно может мешать.
5️⃣ Слухи без подтверждения
В сообществе циркулируют нарративы, не подтверждённые Anthropic, что Opus 4.7 – это дистиллированная версия Mythos с MoE-архитектурой и скрытыми уровнями автономии. Эксперты же дают куда более правдоподобную оценку и говорят, что значительная часть прироста новой модели связана с post-training, harness-инженерией и data curation. Отдельный кластер слухов касается дизайн-инструмента Anthropic, якобы нацеленного на конкуренцию с Figma и Adobe.
Насколько Opus 4.7 — самостоятельная модель или точка на кривой между публичными релизами и внутренним фронтиром Anthropic, станет яснее после появления Mythos.
#обзоринструмента2 354
+6
📢 Conversational RecSys
Диалоговый ассистент как один из интерфейсов поверх работы рекомендательной системы. Это переход от пассивного ранжирования к агентному подходу, когда ассистент уточняет интент и ведёт пользователя к целевому действию.
#aivk #СonversationalRecSys
2 354
🔁 Generative retrieval с коллаборативными Semantic ID: как обновлять токены без полного переобучения
Владимир Байкалов, ведущий исследователь в AI VK и коллеги из ИТМО выяснили, что наивное обновление Semantic ID в generative retrieval может ухудшить качество рекомендаций — и предложили способ это исправить. Статья принята в SIGIR '26.
1️⃣ Контекст
Двустадийные GR-системы — в том числе OneRec и PLUM — работают так: сначала обучается токенизатор, который строит дискретные идентификаторы (Semantic ID) для каждого айтема по контентным признакам и коллаборативному сигналу из логов. Затем retriever учится генерировать эти идентификаторы по истории пользователя.
Коллаборативный сигнал дрейфует: меняются интересы пользователей, популярность айтемов, структура взаимодействий. Нужно периодически пересчитывать SID на свежих логах. Но пересчёт порождает новые токены, несовместимые с выученным выходным пространством ретривера.
Инженер оказывается перед выбором из двух плохих опций. Или оставить устаревшие SID и дообучать retriever на новых данных, но тогда коллаборативная семантика отстаёт от реального поведения. Или пересобрать SID и переобучить retriever с нуля, но это затратно по ресурсам.
Авторы предложили выравнивать SID и показали, что такой подход лучше существующих опций. Сравнение проводилось на примере 3 датасетов: Amazon Beauty, VK-LSVD и Yambda.
2️⃣ Решение
Предложенный подход выравнивает новые токены под старое пространство перед дообучением retrieval модели.
Для каждой позиции кодбука на пересечении айтемов из старой и новой токенизации строится матрица совстречаемости. По ней решается задача биективного матчинга с помощью жадного или венгерского алгоритма. Обновлённые SID отражают свежую коллаборативную структуру и совместимы с существующим чекпоинтом, поэтому retriever может быть дообучен на них с уменьшением дрейфа коллаборативного сигнала.
3️⃣ Результаты
Без выравнивания пересчёт SID на новых логах работает нестабильно. Retriever вынужден одновременно адаптироваться к новым данным и переучивать маппинг между старым и новым пространством токенов. После выравнивания метрики на новых логах устойчиво растут, а вычислительные затраты сокращаются.
В эксперименте с тремя последовательными обновлениями подход с сохранением устаревших SID деградирует с каждым шагом, в то время как обновление с выравниванием держится на уровне полного переобучения.
Открытым остаётся вопрос динамического расширения словаря: как поведёт себя метод, когда в новых логах появляются айтемы, которых не было в старом кодбуке.
#обзорстатьи
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
