uk
Feedback
Data Secrets

Data Secrets

Відкрити в Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Показати більше

📈 Аналітичний огляд Telegram-каналу Data Secrets

Канал Data Secrets (@data_secrets) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 90 837 підписників, посідаючи 1 401 місце в категорії Технології та додатки та 6 182 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 90 837 підписників.

За останніми даними від 01 липня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 628, а за останні 24 години на 36, загальне охоплення залишається високим.

  • Статус верифікації: Верифікований (Офіційно підтверджено Telegram)
  • Рівень залученості (ER): Середній показник залученості аудиторії становить 26.37%. Протягом перших 24 годин після публікації контент зазвичай збирає 19.13% реакцій від загальної кількості підписників.
  • Охоплення публікацій: В середньому кожен допис отримує 23 954 переглядів. Протягом першої доби публікація в середньому набирає 17 375 переглядів.
  • Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 318.
  • Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як claude, openai, контекст, стартап, llm.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Завдяки високій частоті оновлень (останні дані отримано 02 липня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

90 837
Підписники
+3624 години
+1667 днів
+62830 день
Архів дописів
OpenAI продолжает бесшумно формировать свое отделение робототехники И если раньше они нанимали просто робототехников, то тепе
OpenAI продолжает бесшумно формировать свое отделение робототехники И если раньше они нанимали просто робототехников, то теперь среди вакансий: – Рисерчеры в области управления и обучения гуманоидов – Инженеры для разработки симуляторов и прототипирования сенсорных систем – Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)" Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI. Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре. Прикиньте: 2028 год, GPT-10 моет вам посуду

🤩 Приглашаем вас на курс «MLOps» Что такое MLOps? Это мощный набор инструментов и практик, который превращает хаос в порядок
🤩 Приглашаем вас на курс «MLOps» Что такое MLOps? Это мощный набор инструментов и практик, который превращает хаос в порядок, а идеи — в работающие решения. ❔Почему MLOps — это must-have 2025 года? • Автоматизация процессов — забудьте о рутине • Контроль версий — никаких потерянных моделей • Масштабируемость — ваши решения растут вместе с бизнесом • Надежность — модели работают по актуальным технологиям. 📚Почему OTUS? + Мы ЗА живое общение с преподавателями + Курс переработан и актуален на 2025 год - программа обучения на сайте + 80% практики с реальными проектами + Курс разработан при поддержке крупных компаний, которым нужны новые специалисты! Записывайтесь на бесплатный вебинар ⏰ 18 сентября в 20:00 мск. 🎁 Участники вебинара смогут активировать скидку 5% на курс по промо-коду: MLOps_9 до 10.10.2025г. Регистрация на сайте. ⏰ Старт курса: 29 сентября. Оставить заявку ➡️ OTUS.RU Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2) Его можно будет использовать как расши
Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2) Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций. На практике это будет работать благодаря цифровым мандатам: – Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально. – Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку. – В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия. То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука. В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce. Интересно, взлетит или нет GitHub | Блогпост

Figure AI привлек 1 миллиард долларов при оценке в 39 миллиардов. Это делает его одним из самых дорогих стартапов с мире и самым дорогим робо-стартапом в истории В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital. Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных. Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они: – Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью – Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи – Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв – Анонсировали собственный завод по производству роботов Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов

Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи Внезапно, но факт: менее 50% ориенти
+2
Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются. Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data. Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось: ➖ Бенчмарки и рейтинги LLM теряют доверие, команды всё чаще (в 82.2% случаев) полагаются на собственные тесты. ➖ Более четверти респондентов (26.7%) вообще не используют бенчмарки из принципа. Смотрят на них только 48.9%, и то – в основном как на косвенный сигнал. 37.8% больше доверяют тг-каналам и обзорам юзеров. Ну и только 18% вообще заглядывают в рейтинги типа llm-stats. ➖ Среди причин такого недоверия к бенчмаркам: проблемы с методологией (мы разбирали всякие статистические ошибки рейтингов здесь, например); нерелевантность покрытия задач; лабораторные условия (на проде все иначе, как известно); накрученность рейтингов и хайп; переобучение под конкретные тесты. Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена. Полное исследование тут, советуем посмотреть на графики

POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code
POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code

О, смотрите какую прикольную интерактивную визуализацию выкатили Anthropic Это график использования Claude по штатам Америки. Можно потыкать и посмотреть, где ИИ используют для каких целей. Например: в Колорадо чаще используют клода для планирования путешествий, а в Вашингтоне для редактирования документов и карьерных консультаций. То есть структура экономики штата напрямую связана с тем, как люди используют ИИ, это забавно. И кстати, штаты, где больше всего айтишников – не самые активные по уровню использования. Плюс опубликовали немножко свежей статистики. Смотрим: – Оказывается, использование Claude в разных странах тесно коррелирует с доходом. В странах с низким доходом ИИ используют намного чаще именно для автоматизации (делегировать и забыть), в богатых странах – больше в сотрудничестве и обучении. Ну и по уровню проникновения тоже: 1% роста ВВП = +0,7% использования Claude на работающего жителя. – Уже 40% работников в США используют ИИ в работе. Два года назад было 20%. Это в разы быстрее, чем распространялся, например, Интернет или ПК. – Доля прямой автоматизации (когда Claude выполняет задачи полностью, без итераций) выросла с 27% в конце 2024 до 39% летом 2025. Про сам статистический индекс, то есть про то, как анропики все это на самом деле считают, писали тут. Репорт | Блогпост

А вот и подробности о том, кого нанимают в xAI для разметки данных Вашему вниманию: необходимо быть либо медалистом IMO (или
+1
А вот и подробности о том, кого нанимают в xAI для разметки данных Вашему вниманию: необходимо быть либо медалистом IMO (или аналогичной олимпиады), либо иметь степень магистра или PhD в области, связанной с наукой о данных... ... И все это за *скромные* 45$-100$ в час. А пока весь твиттер обсуждает много это или мало, делимся с вами мемами, рождёнными на волне возмущения

Мультиагентные системы – это однозначно новый двигатель прогресса в плане автоматизации. Но на практике внедрение агентов далеко не самый простой процесс. Во-первых, не у всех есть ресурсы на разработку такой системы как таковой. Во-вторых, интеграции затягиваются на месяцы, и разные ИИ-решения в итоге никак не структурированы. А хочется, чтобы они лежали в каком-то одном удобном контуре. Вот как раз такой контур предлагают Just AI. Их Agent Platform – это единая платформа enterprise-уровня (chat-, voice-, workflow-) для создания, управления и масштабирования решений на базе автономных AI-агентов и запуска мультиагентных систем. Ключевое преимуществообъединение автоматизации фронт- и бэк-процессов в одной среде. Это означает реальную мультиагентность: один агент общается в чате, другой выполняет задачу на бекэнде, третий оформляет отчетность – и все это происходит в одном контуре. Уже доступны готовые коннекторы к более чем 30 сервисам: от RAG и баз данных до CRM, Telegram и Slack. Также можно подключить одну из популярных LLM: OpenAI, Anthropic, Gemini или другие модели. А чтобы все было прозрачно, ребята предусмотрительно добавили встроенные FinOps-инструменты для анализа эффективности агентов и расходов на них. Платформа работает в формате no/low-code, но для профессиональных разработчиков есть Pro-code режим с глубоким контролем и возможностью встроить агентов во внутренние корпоративные системы. Развернуть можно и в облаке, и локально. В условиях дефицита подобных решений для компаний такая продуманная система может стать настоящим катализатором роста. Почитать подробнее можно здесь.

⚡️ Вышла GPT-5-Codex Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она
+2
⚡️ Вышла GPT-5-Codex Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она способна автономно работать часами. Что показалось прикольным: – Модель подстраивается под coding-стиль проекта. То есть если видит, например, функциональное программирование, выдавать будет тоже функционалку. – Можно прикреплять не только текст, но и скриншоты, архитектурные заметки, дизайн-схемы. Может и до интеграции с Figma когда-нибудь доживем. – В зависимости от задачи модель может работать от нескольких секунд до нескольких часов. OpenAI говорят, что однажды модель работала над их задачей 7 часов. Что-то тестировала, итерационно исправляла и дописывала. По тестам, в нижних 10% запросов (по количеству токенов) модель использует на 93.7% меньше токенов по сравнению с обычной GPT-5, а для самых сложных задач раздумывает и тестирует вдвое дольше. Метрики: SWE-bench Verified – 74.5% ; качество рефакторинга улучшено с 34% до 51.3. Пока чисел мало, так что ждем. Из остального: интеграция с GitHub, улучшенный Code review и оценки безопасности, облачный hand-off (то есть поддерживает работу в локальном режиме, но затем может перехватываться облаком). Уже доступно в VSCode, JetBrains и через терминал. Попробовать могут любые подписчики тарифов OpenAI, так что обязательно тестим openai.com/index/introducing-upgrades-to-codex/

Google создали систему, специально заточенную под создание научного ПО: ее решения обходят человеческие Есть в науке такая пр
+2
Google создали систему, специально заточенную под создание научного ПО: ее решения обходят человеческие Есть в науке такая проблема: рисерчеры не умеют писать код тратят просто уйму времени на написание кода. Хочется проверить больше гипотез и быстро прототипировать решения, но ПО здесь – узкое место. Многие перспективные идеи просто не проверяются, потому что слишком сложно, долго и дорого. Google попробовали с этим поработать и предложили «аналог» AlphaZero для написания кода, но именно в сфере науки. Они берут только подкласс scorable task. Это задачи, у которых есть одна явная метрика качества. Например: точность прогноза, ошибка интегрирования, ну или MSE в конце концов. То есть для широкого спектра индустриального кода такая система не подойдет. А для ученых – в самый раз. ПО для таких измеримых задач называется, кстати, Empirical software. Как работает: 1️⃣ На вход система получает задачу, метрику и какой-то контекст, если он есть (ну, например, базу знаний). Под капотом крутится LLM + Tree Search. 2️⃣ LLM выступает в роли исполнителя и, собственно, пишет код. А Tree Search тут как своеобразный ПМ, отслеживает успех и решает что делать дальше. Каждое изменение кода – это ветвь дерева, а каждая вершина – конкретная версия программы. 3️⃣ LLM генерирует несколько вариантов изменения текущего узла, код запускается в песочнице и оценивается по метрике, а затем добавляется в дерево. На следующем шаге алгоритм решает, в какую вершину дерева стоит идти дальше. 4️⃣ При этом идем не просто в вершину с лучшей метрикой: чтобы никакие хорошие идеи не пропустить, должен соблюдаться баланс между exploration (исследовать новые идеи) и exploitation (углубляться в лучшие решения). 5️⃣ При этом LLM перед написанием кода еще и изучает прикрепленный контекст и серфит Интернет в поисках полезных статей, подходов и практик. Так что изменения в коде не только осознанные, но и иногда подкрепляются источниками. В целом, схема-то не новая, и тут даже не было никакого супер-RL’я. Но вот результаты таких сетапов всегда удивляют. Например: ➖ На задаче анализа single-cell RNA-seq модель создала 40 новых алгоритмов, которые серьезно превзошли все существующие решения на основном бенчмарке (+14% к лидеру). ➖ Придумала новый алгоритм для вычисления сложных интегралов. Им решились 17 из 19 тестовых задач с ошибкой <3%. Для сравнения, scipy.integrate.quad() решает 0 задач из 19. ➖ Ее модель прогнозирования заболеваемости ковидом превзошла официальный американский CDC Ensemble. На гитхабе лежит код некоторых решений. Сама система пока не в доступе, и вряд ли ее опубликуют. Но, может, каким-то лабам дадут попользоваться в частном порядке. arxiv.org/abs/2509.06503

Сэм Альтман заявил, что люди все чаще разговаривают как боты Да, именно люди, как боты, а на наоборот. Это, говорит Сэм, букв
Сэм Альтман заявил, что люди все чаще разговаривают как боты Да, именно люди, как боты, а на наоборот. Это, говорит Сэм, буквально теория мертвого Интернета, только на практике она отличается от того, как мы себе ее представляли. Дело даже не столько в том, что соцсети постепенно заполоняют ИИ-аккаунты (хотя это факт), сколько в том, что люди начинают непроизвольно копировать так называемый LLM-speak. В результате многие публикации действительно начинают звучать искусственно. Почему так происходит, ясно: (1) люди настолько часто пользуются чат-ботами, что действительно начинают перенимать их стиль; (2) многие посты, даже если и не написаны ИИ полностью, написаны автором совместно с ИИ. Итоговая картина достаточно грустная: реальные пользователи адаптируют свою речь под ИИ, и одновременно боты плодят лингвистический мусор. Грань смывается и… чем вам не мертвый Интернет, даже если в нем все еще большинство людей?

А спонсор нашего утра понедельника – обновленный tab в Cursor. Почувствуй AGI ☕️
А спонсор нашего утра понедельника – обновленный tab в Cursor. Почувствуй AGI ☕️

Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно трет
Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно треть всего подразделения аннотаций данных. А подразделение аннотаций, в свою очередь, является самым большим в xAI. Увольнения прошли не слишком гладко и красиво: сотрудникам отправили внезапные письма по электронной почте с уведомлением об увольнении и в тот же день отозвали все доступы. На xAI уже сыпятся жалобы, но в это мы углубляться не будем. Интересно другое: в тот же день (это была пятница) xAI со своего аккаунта в X выложили пост такого содержания:
ИИ-тренеры в xAI приносят огромную пользу. Мы увеличиваем нашу команду ИИ-тренеров в 10 раз! Мы нанимаем специалистов в таких областях, как STEM, финансы, медицина, безопасность и др. Присоединяйтесь к нам и помогите нам создать искусственный интеллект, ищущий истину!
Да, мы ничего не перепутали. Они уволили 500 ИИ-тренеров и тут же объявили, что хотят набрать несколько тысяч человек в эту же команду. Видимо, увольнения не были вопросом низкой эффективности сотрудников, скорее – это стратегия. Судя по всему, уволили только аннотаторов «общего назначения», то есть тех, кто не является большим специалистом в какой-то области, а скорее занимался универсальной более тривиальной разметкой. Такую разметку явно хотят автоматизировать, а человеческие ресурсы использовать только для нетривиальных задач в сложных областях. И в этом есть смысл. Интересно, эта новость к какой категории относится, «ИИ забирает нашу работу» или «ИИ создает новые рабочие места»?

Кстати, вчера ровно год исполнился ризонинг-моделям 12 сентября 2024 вышла o1-preview. Сначала она была известна как q* (помн
Кстати, вчера ровно год исполнился ризонинг-моделям 12 сентября 2024 вышла o1-preview. Сначала она была известна как q* (помните такое?), потом как Strawberry, ну и после этого и по сей день – как o1. На расстоянии года точно можно сказать, что, по сути, мы пережили еще одну LLM революцию после появления ChatGPT. И если ChatGPT moment был именно про продукт, то тут уже речь именно про концепцию и наполнение, а это еще интереснее. Конечно, по мнению многих, ризонинг – костыль. Частично согласны (не забываем, что это просто генерация дополнительных токенов перед основным ответом и все). Но как ни крути, отрицать, что ризонинг бустанул индустрию и вывел модели на совершенно новый уровень, нельзя. А еще почему-то кажется, что o1-preview вышла уже давным-давно. Но на самом деле прошел всего год. За этот год появилась и o1-pro, и o3, и o4-mini, и GPT-5, и R1... Короче, много всего. Надеемся, что этот год будет не менее значимым. Идите поздравьте любимую ризонинг-модель с мини-юбилеем ✌️

Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей В двух словах: очень насыщ
+3
Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей В двух словах: очень насыщенный выдался вечер. За несколько часов успели послушать 3 крутых доклада и IT-стендап, поиграть на турнире по шахматам, пописать код в опенсорс-проект, пообщаться с лидами ML-команд и многое другое. Интересного на докладах было много, но подсветить хотим занятную инженерную практику от Алексея Гусакова — CTO бизнес-группы Поиска. Поиск с Алисой = алгоритмы обычного поиска + LLM. И основная работа ML-щиков тут — затюнить базовую модель так, чтобы она писала хороший текст по мотивам релевантных источников. Где тюнинг — там RL, а где RL — там reward-модели. Но reward-модели не идеальны. Они могут не совсем правильно оценивать некоторые ответы. Например, больше награждать длинные тексты, даже если куча текста там вообще не к месту. И обучаемой модели, которую оценивает reward-модель, выгодно находить такие баги и пользоваться ими в свою пользу. Это называется reward hacking. В презентации много смешных примеров того, как это может отражаться на итоговом чекпоинте. Для продукта, как вы понимаете, подобное поведение — совсем плохо. И если некоторые такие баги можно отловить очень быстро и вставить регуляризацию, то со временем их число растет, они становятся спорными, и на каждый из них регуляризаций не напасешься. В Яндексе придумали такую практику: каждую неделю несколько лидов команд по специальному сценарию оценивают случайные ответы от Нейропоиска, выписывают плюсы и минусы и обсуждают их. Затем ответы кластеризуются и обобщаются в проблемы, которые затем уже решаются на уровне дообучения. Получается, что reward-hacking таким образом трекается постоянно, но костыли не множатся бесконтрольно. Элегантно и просто.

А сегодня, между прочим, День Программиста! Жаль, дня ML-инженера еще не придумали, так что пока празднуем сегодня, друзья. П
А сегодня, между прочим, День Программиста! Жаль, дня ML-инженера еще не придумали, так что пока празднуем сегодня, друзья. Пусть хирш растет и лосс падает. Работаем.

⚫ А мы тем временем с командой приехали на big tech night Тут намечается настоящая ночь в музее в стиле IT: офисы Яндекса, Сб
А мы тем временем с командой приехали на big tech night Тут намечается настоящая ночь в музее в стиле IT: офисы Яндекса, Сбера, Т-Банка, X5 и Lamoda на один вечер откроют свои двери и превратятся в большие фестивальные площадки. Мы большинство времени проведем в офисе Яндекса (именно они, кстати, придумали такой формат и привлекли к участию другие компании). Вот на какие доклады и активности пойдем: – «Программирование смыслов» от CTO бизнес-группы Поиска Яндекса. Про продуктовую ИИ-разработку и инфру, реальные возможности LLM и обучение с подкреплением. – «MALVINA: редактирование изображений от research к production» от Head of R&D ML в Сбере. Должно быть хардово и очень актуально. – Иммерсивная экскурсия по офису Яндекса. Что-то новенькое. – «Ре(Э)волюция инструментов разработки в эпоху AI: в мире и Яндексе» от руководителя SourceCraft Яндекса. Про смысл опенсорса и тренды. Подобные доклады любим больше всего. После Яндекса поедем в Сбер, слушать про агентов и играть в шахматы в зоне Rep Chess. Приходите, зарубимся 👉 Всю программу мероприятия смотрите на сайте. Ну и если не получилось прийти – обязательно подключаетесь онлайн, не пропускайте

Cursor на 28% улучшили фичу Tab с помощью RL Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собир
Cursor на 28% улучшили фичу Tab с помощью RL Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собирается сделать далее. Когда вы перемещаете курсор или начинаете писать какой-то код, Tab пытается понять, что вам нужно и, если она достаточно уверена в своем предсказании, то предлагает вам продолжение (чаще всего завершение кода). Отличная фича, но часто предлагала шум. В общем, Cursor решили что-то с этим делать. В других редакторах (например, в Copilot) подобную проблему пытались бороть обычными фильтрами: язык, были бы предыдущие предложения приняты или нет и тд. Звучит в целом норм, но Cursor выбрали путь сложнее и интереснее, потому что они использовали RL с двумя сильными составляющими: 1. Сложная reward модель. Политика на каждом шаге предсказывает вероятности разных исходов + вероятность того, что предложение будет принято. Reward, исходя из этих вероятностей, поощряет принятые предложения и штрафует отклонённые. Например, если вероятность принятия ≥ 25%, accepted даёт +0.75, rejected — −0.25, если ничего не показывается – 0. Вот модель и решает, как ей лучше себя вести. Также в награде учитывается длина оффера, общее количество офферов и др. 2. On-policy data. То есть данные, на которых училась политика, собраны в реальной работе модели уже после её обновления. Получили новый чекпоинт -> задеплоили -> собрали данные (это занимает пару часов) -> учим дальше. Это чтобы не было distribution shift и градиент обновлялся правильно. Итог: в новой версии на 21% меньше предложений, но на 28% выше доля принятия. Мало того, что это огромный скачок метрики, это еще и качественно другой результат: тут accept rate растет не за счет костыльной фильтрации шумных предсказаний, а за счет того, что сама модель стала более прагматичной и предлагает меньше ерунды. Good job cursor.com/blog/tab-rl

В Албании впервые в мире ИИ занял пост министра Цифровую систему по имени Diella (с албанского переводится как «солнце») офиц
В Албании впервые в мире ИИ занял пост министра Цифровую систему по имени Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов. Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. То есть в Албании таким образом надеятся бороться с коррупцией и повышать прозрачность расходов из бюджета. Ждем, пока Diella невзначай закупит из госбюджета миллион GPU