ru
Feedback
Data Secrets

Data Secrets

Открыть в Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Больше

📈 Аналитический обзор Telegram-канала Data Secrets

Канал Data Secrets (@data_secrets) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 90 893 подписчиков, занимая 1 401 место в категории Технологии и приложения и 6 182 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 90 893 подписчиков.

Согласно последним данным от 01 июля, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 628, а за последние 24 часа — 36, при этом общий охват остаётся высоким.

  • Статус верификации: Верифицирован (официально подтверждён Telegram)
  • Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 26.37%. В первые 24 часа после публикации контент обычно набирает 19.13% реакций от общего числа подписчиков.
  • Охват публикаций: В среднем каждый пост получает 23 954 просмотров. В течение первых суток публикация набирает 17 375 просмотров.
  • Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 318.
  • Тематические интересы: Контент сосредоточен на ключевых темах, таких как claude, openai, контекст, стартап, llm.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Благодаря высокой частоте обновлений (последние данные получены 02 июля, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

90 893
Подписчики
+3624 часа
+1667 дней
+62830 день
Архив постов
У Meta Superintelligence Labs вышла первая статья. Давайте же посмотрим, чем там занимаются ученые за миллионы долларов 🤔 Ра
У Meta Superintelligence Labs вышла первая статья. Давайте же посмотрим, чем там занимаются ученые за миллионы долларов 🤔 Работа называется "REFRAG: Rethinking RAG based Decoding" и речь в ней про то, как радикально ускорить RAG без потери качества. Краткий экскурс в RAG. Сначала запрос поступает на вход ретриверу, который как-то ищет в базе (чаще всего векторной) самые релевантные к этому запросу куски текста – пассажи или чанки. Затем они склеиваются в один контекст и скармливаются вместе с исходным промптом декодеру (aka LLMке), который уже лепит из этого итоговый ответ. Так вот проблема в том, что на практике декодер использует из всех найденных чанков только небольшую часть. А платить приходится за весь входной контекст + страдает latency. Это уже не говоря про взрыв KV-кэша и другие аппаратные сложности. В REFRAG же предлагается заменить токены из контекста на компактные чанк-эмбеддинги и подавать их в декодер напрямую вместо токенов. Благодаря этому: 1. Вход в декодер сильно короче. 2. Можно не пересчитывать эмбеддинги, а переиспользовать заранее посчитанные из ретривера. Надо только спроецировать их в правильную размерность и все. 3. Сложность аттеншена становится квадратичной по числу чанков, а не токенов. Если проводить аналогию, то в классическом RAG контекст похож на блочно-диагональную матрицу. То есть кусочки слабо связаны, и для итогового ответа полезны только некоторые блоки, НО внимание все равно обсчитывается полностью N×N, а это куча операций. Здесь же вместо векторов для токенов – векторы для целых чанков (о них можно думать как о супер-токенах, фактически k векторов токенов заменяются на один "общий"). И внимание, получается, стоится уже между чанками, а не токенами. Вы скажете: "Ну тогда мы теряем много деталей". Да. И поэтому параллельно работает лёгкая policy network, которая оценивает важность каждого чанка по текущим активациям модели и уже после аттеншена может позволить развернуть какие-то отдельные кусочки в токены, чтобы сеть освоила их подробнее. Это называется selective expansion. Ну и самое главное: насколько ускоряет? Ответ: REFRAG быстрее классической LLaMA в 33 раза по Time To First Token без потери качества. Это чуть меньше, чем теоретический прирост (как раз из-за selective expansion), но все равно неплохо. Throughput при этом растет в 6–7 раз, и KV-кэш уменьшается пропорционально размеру чанка. И главное: окно контекста можно расширять в разы. Единственный минус: такое довольно сложно обучать. Ну и для маленьких контекстов, скорее всего, такая система себя не оправдает. Тем не менее, статья занятная. https://arxiv.org/pdf/2509.01092

В своем прогнозе на 2035 Сбер выделил 2 темы: ИИ и defi - децентрализованные финансы, надежная альтернатива рублевым вкладам
В своем прогнозе на 2035 Сбер выделил 2 темы: ИИ и defi - децентрализованные финансы, надежная альтернатива рублевым вкладам и фондовому рынку Реальная доходность в defi 30-50% в валюте - за счет отсутствия посредников, которые обычно снимают все сливки. Вы просто храните доллары и USDT на депозите, и они работают. Пулы ликвидности, смарт контракты - там своя терминология, но изучить ее стоит. Это даст свободу и пассивный доход. FAQ: как хранить деньги в валюте и получать на них 30-50% годовых без рисков - читайте тут Есть практика на живом МК с преподавателем экономики и опытным дефай инвестором Валентином Упоровым. Инструкции, эфиры и готовые стратегии - в закрепе канала

Илон Маск написал, что верит в то, что Grok 5 станет AGI Больше обещаний богу обещаний 😛 P.S. Ладно, если серьезно, потенциа
Илон Маск написал, что верит в то, что Grok 5 станет AGI Больше обещаний богу обещаний 😛 P.S. Ладно, если серьезно, потенциал xAI нельзя недооценивать. У них куча железа и куча данных: помимо основного потока даты, у них еще X + беспилотные такси. И не забываем про их новое огромное подразделение разметчиков.

А вот так выглядела робототехника в OpenAI в 2019 году. Это было 6 лет назад, еще задолго до ChatGPT Проект был посвящен решению кубика Рубика с помощью антропоморфной робо-руки с пятью пальцами. Конечно, до гуманоидов, как у Figure, на тот момент было еще далеко, но эта модель стала одной из первых, которую обучали только в симуляции. На тот момент, считай, прорыв (статью можно почитать тут). Для переноса навыков использовался метод автоматизированной доменной рандомизации (ADR). В симуляцию время от времени добавляли какие-то "случайные" физические условия, и тем самым во время обучения в симуляции сеть готовилась к неожиданным и разнообразным условиям реального мира. В итоге рука собирала кубик за 2-4 минуты и даже работала с помехами: например, с прерыванием работы камер или механическим вмешательством человека. Крутой проект, в общем, был.

OpenAI продолжает бесшумно формировать свое отделение робототехники И если раньше они нанимали просто робототехников, то тепе
OpenAI продолжает бесшумно формировать свое отделение робототехники И если раньше они нанимали просто робототехников, то теперь среди вакансий: – Рисерчеры в области управления и обучения гуманоидов – Инженеры для разработки симуляторов и прототипирования сенсорных систем – Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)" Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI. Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре. Прикиньте: 2028 год, GPT-10 моет вам посуду

🤩 Приглашаем вас на курс «MLOps» Что такое MLOps? Это мощный набор инструментов и практик, который превращает хаос в порядок
🤩 Приглашаем вас на курс «MLOps» Что такое MLOps? Это мощный набор инструментов и практик, который превращает хаос в порядок, а идеи — в работающие решения. ❔Почему MLOps — это must-have 2025 года? • Автоматизация процессов — забудьте о рутине • Контроль версий — никаких потерянных моделей • Масштабируемость — ваши решения растут вместе с бизнесом • Надежность — модели работают по актуальным технологиям. 📚Почему OTUS? + Мы ЗА живое общение с преподавателями + Курс переработан и актуален на 2025 год - программа обучения на сайте + 80% практики с реальными проектами + Курс разработан при поддержке крупных компаний, которым нужны новые специалисты! Записывайтесь на бесплатный вебинар ⏰ 18 сентября в 20:00 мск. 🎁 Участники вебинара смогут активировать скидку 5% на курс по промо-коду: MLOps_9 до 10.10.2025г. Регистрация на сайте. ⏰ Старт курса: 29 сентября. Оставить заявку ➡️ OTUS.RU Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2) Его можно будет использовать как расши
Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2) Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций. На практике это будет работать благодаря цифровым мандатам: – Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально. – Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку. – В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия. То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука. В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce. Интересно, взлетит или нет GitHub | Блогпост

Figure AI привлек 1 миллиард долларов при оценке в 39 миллиардов. Это делает его одним из самых дорогих стартапов с мире и самым дорогим робо-стартапом в истории В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital. Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных. Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они: – Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью – Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи – Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв – Анонсировали собственный завод по производству роботов Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов

Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи Внезапно, но факт: менее 50% ориенти
+2
Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются. Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data. Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось: ➖ Бенчмарки и рейтинги LLM теряют доверие, команды всё чаще (в 82.2% случаев) полагаются на собственные тесты. ➖ Более четверти респондентов (26.7%) вообще не используют бенчмарки из принципа. Смотрят на них только 48.9%, и то – в основном как на косвенный сигнал. 37.8% больше доверяют тг-каналам и обзорам юзеров. Ну и только 18% вообще заглядывают в рейтинги типа llm-stats. ➖ Среди причин такого недоверия к бенчмаркам: проблемы с методологией (мы разбирали всякие статистические ошибки рейтингов здесь, например); нерелевантность покрытия задач; лабораторные условия (на проде все иначе, как известно); накрученность рейтингов и хайп; переобучение под конкретные тесты. Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена. Полное исследование тут, советуем посмотреть на графики

POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code
POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code

О, смотрите какую прикольную интерактивную визуализацию выкатили Anthropic Это график использования Claude по штатам Америки. Можно потыкать и посмотреть, где ИИ используют для каких целей. Например: в Колорадо чаще используют клода для планирования путешествий, а в Вашингтоне для редактирования документов и карьерных консультаций. То есть структура экономики штата напрямую связана с тем, как люди используют ИИ, это забавно. И кстати, штаты, где больше всего айтишников – не самые активные по уровню использования. Плюс опубликовали немножко свежей статистики. Смотрим: – Оказывается, использование Claude в разных странах тесно коррелирует с доходом. В странах с низким доходом ИИ используют намного чаще именно для автоматизации (делегировать и забыть), в богатых странах – больше в сотрудничестве и обучении. Ну и по уровню проникновения тоже: 1% роста ВВП = +0,7% использования Claude на работающего жителя. – Уже 40% работников в США используют ИИ в работе. Два года назад было 20%. Это в разы быстрее, чем распространялся, например, Интернет или ПК. – Доля прямой автоматизации (когда Claude выполняет задачи полностью, без итераций) выросла с 27% в конце 2024 до 39% летом 2025. Про сам статистический индекс, то есть про то, как анропики все это на самом деле считают, писали тут. Репорт | Блогпост

А вот и подробности о том, кого нанимают в xAI для разметки данных Вашему вниманию: необходимо быть либо медалистом IMO (или
+1
А вот и подробности о том, кого нанимают в xAI для разметки данных Вашему вниманию: необходимо быть либо медалистом IMO (или аналогичной олимпиады), либо иметь степень магистра или PhD в области, связанной с наукой о данных... ... И все это за *скромные* 45$-100$ в час. А пока весь твиттер обсуждает много это или мало, делимся с вами мемами, рождёнными на волне возмущения

Мультиагентные системы – это однозначно новый двигатель прогресса в плане автоматизации. Но на практике внедрение агентов далеко не самый простой процесс. Во-первых, не у всех есть ресурсы на разработку такой системы как таковой. Во-вторых, интеграции затягиваются на месяцы, и разные ИИ-решения в итоге никак не структурированы. А хочется, чтобы они лежали в каком-то одном удобном контуре. Вот как раз такой контур предлагают Just AI. Их Agent Platform – это единая платформа enterprise-уровня (chat-, voice-, workflow-) для создания, управления и масштабирования решений на базе автономных AI-агентов и запуска мультиагентных систем. Ключевое преимуществообъединение автоматизации фронт- и бэк-процессов в одной среде. Это означает реальную мультиагентность: один агент общается в чате, другой выполняет задачу на бекэнде, третий оформляет отчетность – и все это происходит в одном контуре. Уже доступны готовые коннекторы к более чем 30 сервисам: от RAG и баз данных до CRM, Telegram и Slack. Также можно подключить одну из популярных LLM: OpenAI, Anthropic, Gemini или другие модели. А чтобы все было прозрачно, ребята предусмотрительно добавили встроенные FinOps-инструменты для анализа эффективности агентов и расходов на них. Платформа работает в формате no/low-code, но для профессиональных разработчиков есть Pro-code режим с глубоким контролем и возможностью встроить агентов во внутренние корпоративные системы. Развернуть можно и в облаке, и локально. В условиях дефицита подобных решений для компаний такая продуманная система может стать настоящим катализатором роста. Почитать подробнее можно здесь.

⚡️ Вышла GPT-5-Codex Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она
+2
⚡️ Вышла GPT-5-Codex Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она способна автономно работать часами. Что показалось прикольным: – Модель подстраивается под coding-стиль проекта. То есть если видит, например, функциональное программирование, выдавать будет тоже функционалку. – Можно прикреплять не только текст, но и скриншоты, архитектурные заметки, дизайн-схемы. Может и до интеграции с Figma когда-нибудь доживем. – В зависимости от задачи модель может работать от нескольких секунд до нескольких часов. OpenAI говорят, что однажды модель работала над их задачей 7 часов. Что-то тестировала, итерационно исправляла и дописывала. По тестам, в нижних 10% запросов (по количеству токенов) модель использует на 93.7% меньше токенов по сравнению с обычной GPT-5, а для самых сложных задач раздумывает и тестирует вдвое дольше. Метрики: SWE-bench Verified – 74.5% ; качество рефакторинга улучшено с 34% до 51.3. Пока чисел мало, так что ждем. Из остального: интеграция с GitHub, улучшенный Code review и оценки безопасности, облачный hand-off (то есть поддерживает работу в локальном режиме, но затем может перехватываться облаком). Уже доступно в VSCode, JetBrains и через терминал. Попробовать могут любые подписчики тарифов OpenAI, так что обязательно тестим openai.com/index/introducing-upgrades-to-codex/

Google создали систему, специально заточенную под создание научного ПО: ее решения обходят человеческие Есть в науке такая пр
+2
Google создали систему, специально заточенную под создание научного ПО: ее решения обходят человеческие Есть в науке такая проблема: рисерчеры не умеют писать код тратят просто уйму времени на написание кода. Хочется проверить больше гипотез и быстро прототипировать решения, но ПО здесь – узкое место. Многие перспективные идеи просто не проверяются, потому что слишком сложно, долго и дорого. Google попробовали с этим поработать и предложили «аналог» AlphaZero для написания кода, но именно в сфере науки. Они берут только подкласс scorable task. Это задачи, у которых есть одна явная метрика качества. Например: точность прогноза, ошибка интегрирования, ну или MSE в конце концов. То есть для широкого спектра индустриального кода такая система не подойдет. А для ученых – в самый раз. ПО для таких измеримых задач называется, кстати, Empirical software. Как работает: 1️⃣ На вход система получает задачу, метрику и какой-то контекст, если он есть (ну, например, базу знаний). Под капотом крутится LLM + Tree Search. 2️⃣ LLM выступает в роли исполнителя и, собственно, пишет код. А Tree Search тут как своеобразный ПМ, отслеживает успех и решает что делать дальше. Каждое изменение кода – это ветвь дерева, а каждая вершина – конкретная версия программы. 3️⃣ LLM генерирует несколько вариантов изменения текущего узла, код запускается в песочнице и оценивается по метрике, а затем добавляется в дерево. На следующем шаге алгоритм решает, в какую вершину дерева стоит идти дальше. 4️⃣ При этом идем не просто в вершину с лучшей метрикой: чтобы никакие хорошие идеи не пропустить, должен соблюдаться баланс между exploration (исследовать новые идеи) и exploitation (углубляться в лучшие решения). 5️⃣ При этом LLM перед написанием кода еще и изучает прикрепленный контекст и серфит Интернет в поисках полезных статей, подходов и практик. Так что изменения в коде не только осознанные, но и иногда подкрепляются источниками. В целом, схема-то не новая, и тут даже не было никакого супер-RL’я. Но вот результаты таких сетапов всегда удивляют. Например: ➖ На задаче анализа single-cell RNA-seq модель создала 40 новых алгоритмов, которые серьезно превзошли все существующие решения на основном бенчмарке (+14% к лидеру). ➖ Придумала новый алгоритм для вычисления сложных интегралов. Им решились 17 из 19 тестовых задач с ошибкой <3%. Для сравнения, scipy.integrate.quad() решает 0 задач из 19. ➖ Ее модель прогнозирования заболеваемости ковидом превзошла официальный американский CDC Ensemble. На гитхабе лежит код некоторых решений. Сама система пока не в доступе, и вряд ли ее опубликуют. Но, может, каким-то лабам дадут попользоваться в частном порядке. arxiv.org/abs/2509.06503

Сэм Альтман заявил, что люди все чаще разговаривают как боты Да, именно люди, как боты, а на наоборот. Это, говорит Сэм, букв
Сэм Альтман заявил, что люди все чаще разговаривают как боты Да, именно люди, как боты, а на наоборот. Это, говорит Сэм, буквально теория мертвого Интернета, только на практике она отличается от того, как мы себе ее представляли. Дело даже не столько в том, что соцсети постепенно заполоняют ИИ-аккаунты (хотя это факт), сколько в том, что люди начинают непроизвольно копировать так называемый LLM-speak. В результате многие публикации действительно начинают звучать искусственно. Почему так происходит, ясно: (1) люди настолько часто пользуются чат-ботами, что действительно начинают перенимать их стиль; (2) многие посты, даже если и не написаны ИИ полностью, написаны автором совместно с ИИ. Итоговая картина достаточно грустная: реальные пользователи адаптируют свою речь под ИИ, и одновременно боты плодят лингвистический мусор. Грань смывается и… чем вам не мертвый Интернет, даже если в нем все еще большинство людей?

А спонсор нашего утра понедельника – обновленный tab в Cursor. Почувствуй AGI ☕️
А спонсор нашего утра понедельника – обновленный tab в Cursor. Почувствуй AGI ☕️

Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно трет
Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно треть всего подразделения аннотаций данных. А подразделение аннотаций, в свою очередь, является самым большим в xAI. Увольнения прошли не слишком гладко и красиво: сотрудникам отправили внезапные письма по электронной почте с уведомлением об увольнении и в тот же день отозвали все доступы. На xAI уже сыпятся жалобы, но в это мы углубляться не будем. Интересно другое: в тот же день (это была пятница) xAI со своего аккаунта в X выложили пост такого содержания:
ИИ-тренеры в xAI приносят огромную пользу. Мы увеличиваем нашу команду ИИ-тренеров в 10 раз! Мы нанимаем специалистов в таких областях, как STEM, финансы, медицина, безопасность и др. Присоединяйтесь к нам и помогите нам создать искусственный интеллект, ищущий истину!
Да, мы ничего не перепутали. Они уволили 500 ИИ-тренеров и тут же объявили, что хотят набрать несколько тысяч человек в эту же команду. Видимо, увольнения не были вопросом низкой эффективности сотрудников, скорее – это стратегия. Судя по всему, уволили только аннотаторов «общего назначения», то есть тех, кто не является большим специалистом в какой-то области, а скорее занимался универсальной более тривиальной разметкой. Такую разметку явно хотят автоматизировать, а человеческие ресурсы использовать только для нетривиальных задач в сложных областях. И в этом есть смысл. Интересно, эта новость к какой категории относится, «ИИ забирает нашу работу» или «ИИ создает новые рабочие места»?

Кстати, вчера ровно год исполнился ризонинг-моделям 12 сентября 2024 вышла o1-preview. Сначала она была известна как q* (помн
Кстати, вчера ровно год исполнился ризонинг-моделям 12 сентября 2024 вышла o1-preview. Сначала она была известна как q* (помните такое?), потом как Strawberry, ну и после этого и по сей день – как o1. На расстоянии года точно можно сказать, что, по сути, мы пережили еще одну LLM революцию после появления ChatGPT. И если ChatGPT moment был именно про продукт, то тут уже речь именно про концепцию и наполнение, а это еще интереснее. Конечно, по мнению многих, ризонинг – костыль. Частично согласны (не забываем, что это просто генерация дополнительных токенов перед основным ответом и все). Но как ни крути, отрицать, что ризонинг бустанул индустрию и вывел модели на совершенно новый уровень, нельзя. А еще почему-то кажется, что o1-preview вышла уже давным-давно. Но на самом деле прошел всего год. За этот год появилась и o1-pro, и o3, и o4-mini, и GPT-5, и R1... Короче, много всего. Надеемся, что этот год будет не менее значимым. Идите поздравьте любимую ризонинг-модель с мини-юбилеем ✌️

Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей В двух словах: очень насыщ
+3
Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей В двух словах: очень насыщенный выдался вечер. За несколько часов успели послушать 3 крутых доклада и IT-стендап, поиграть на турнире по шахматам, пописать код в опенсорс-проект, пообщаться с лидами ML-команд и многое другое. Интересного на докладах было много, но подсветить хотим занятную инженерную практику от Алексея Гусакова — CTO бизнес-группы Поиска. Поиск с Алисой = алгоритмы обычного поиска + LLM. И основная работа ML-щиков тут — затюнить базовую модель так, чтобы она писала хороший текст по мотивам релевантных источников. Где тюнинг — там RL, а где RL — там reward-модели. Но reward-модели не идеальны. Они могут не совсем правильно оценивать некоторые ответы. Например, больше награждать длинные тексты, даже если куча текста там вообще не к месту. И обучаемой модели, которую оценивает reward-модель, выгодно находить такие баги и пользоваться ими в свою пользу. Это называется reward hacking. В презентации много смешных примеров того, как это может отражаться на итоговом чекпоинте. Для продукта, как вы понимаете, подобное поведение — совсем плохо. И если некоторые такие баги можно отловить очень быстро и вставить регуляризацию, то со временем их число растет, они становятся спорными, и на каждый из них регуляризаций не напасешься. В Яндексе придумали такую практику: каждую неделю несколько лидов команд по специальному сценарию оценивают случайные ответы от Нейропоиска, выписывают плюсы и минусы и обсуждают их. Затем ответы кластеризуются и обобщаются в проблемы, которые затем уже решаются на уровне дообучения. Получается, что reward-hacking таким образом трекается постоянно, но костыли не множатся бесконтрольно. Элегантно и просто.