ar
Feedback
Data Secrets

Data Secrets

الذهاب إلى القناة على Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Data Secrets

تُعد قناة Data Secrets (@data_secrets) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 90 837 مشتركاً، محتلاً المرتبة 1 401 في فئة التكنولوجيات والتطبيقات والمرتبة 6 182 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 90 837 مشتركاً.

بحسب آخر البيانات بتاريخ 01 يوليو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار 628، وفي آخر 24 ساعة بمقدار 36، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: موثّقة (مؤكدة رسمياً من تيليجرام)
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 26.37‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 19.13‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 23 954 مشاهدة. وخلال اليوم الأول يجمع عادةً 17 375 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 318.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل claude, openai, контекст, стартап, llm.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 02 يوليو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

90 837
المشتركون
+3624 ساعات
+1667 أيام
+62830 أيام
أرشيف المشاركات
OpenAI продолжает бесшумно формировать свое отделение робототехники И если раньше они нанимали просто робототехников, то тепе
OpenAI продолжает бесшумно формировать свое отделение робототехники И если раньше они нанимали просто робототехников, то теперь среди вакансий: – Рисерчеры в области управления и обучения гуманоидов – Инженеры для разработки симуляторов и прототипирования сенсорных систем – Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)" Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI. Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре. Прикиньте: 2028 год, GPT-10 моет вам посуду

🤩 Приглашаем вас на курс «MLOps» Что такое MLOps? Это мощный набор инструментов и практик, который превращает хаос в порядок
🤩 Приглашаем вас на курс «MLOps» Что такое MLOps? Это мощный набор инструментов и практик, который превращает хаос в порядок, а идеи — в работающие решения. ❔Почему MLOps — это must-have 2025 года? • Автоматизация процессов — забудьте о рутине • Контроль версий — никаких потерянных моделей • Масштабируемость — ваши решения растут вместе с бизнесом • Надежность — модели работают по актуальным технологиям. 📚Почему OTUS? + Мы ЗА живое общение с преподавателями + Курс переработан и актуален на 2025 год - программа обучения на сайте + 80% практики с реальными проектами + Курс разработан при поддержке крупных компаний, которым нужны новые специалисты! Записывайтесь на бесплатный вебинар ⏰ 18 сентября в 20:00 мск. 🎁 Участники вебинара смогут активировать скидку 5% на курс по промо-коду: MLOps_9 до 10.10.2025г. Регистрация на сайте. ⏰ Старт курса: 29 сентября. Оставить заявку ➡️ OTUS.RU Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2) Его можно будет использовать как расши
Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2) Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций. На практике это будет работать благодаря цифровым мандатам: – Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально. – Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку. – В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия. То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука. В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce. Интересно, взлетит или нет GitHub | Блогпост

Figure AI привлек 1 миллиард долларов при оценке в 39 миллиардов. Это делает его одним из самых дорогих стартапов с мире и самым дорогим робо-стартапом в истории В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital. Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных. Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они: – Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью – Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи – Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв – Анонсировали собственный завод по производству роботов Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов

Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи Внезапно, но факт: менее 50% ориенти
+2
Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются. Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data. Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось: ➖ Бенчмарки и рейтинги LLM теряют доверие, команды всё чаще (в 82.2% случаев) полагаются на собственные тесты. ➖ Более четверти респондентов (26.7%) вообще не используют бенчмарки из принципа. Смотрят на них только 48.9%, и то – в основном как на косвенный сигнал. 37.8% больше доверяют тг-каналам и обзорам юзеров. Ну и только 18% вообще заглядывают в рейтинги типа llm-stats. ➖ Среди причин такого недоверия к бенчмаркам: проблемы с методологией (мы разбирали всякие статистические ошибки рейтингов здесь, например); нерелевантность покрытия задач; лабораторные условия (на проде все иначе, как известно); накрученность рейтингов и хайп; переобучение под конкретные тесты. Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена. Полное исследование тут, советуем посмотреть на графики

POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code
POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code

О, смотрите какую прикольную интерактивную визуализацию выкатили Anthropic Это график использования Claude по штатам Америки. Можно потыкать и посмотреть, где ИИ используют для каких целей. Например: в Колорадо чаще используют клода для планирования путешествий, а в Вашингтоне для редактирования документов и карьерных консультаций. То есть структура экономики штата напрямую связана с тем, как люди используют ИИ, это забавно. И кстати, штаты, где больше всего айтишников – не самые активные по уровню использования. Плюс опубликовали немножко свежей статистики. Смотрим: – Оказывается, использование Claude в разных странах тесно коррелирует с доходом. В странах с низким доходом ИИ используют намного чаще именно для автоматизации (делегировать и забыть), в богатых странах – больше в сотрудничестве и обучении. Ну и по уровню проникновения тоже: 1% роста ВВП = +0,7% использования Claude на работающего жителя. – Уже 40% работников в США используют ИИ в работе. Два года назад было 20%. Это в разы быстрее, чем распространялся, например, Интернет или ПК. – Доля прямой автоматизации (когда Claude выполняет задачи полностью, без итераций) выросла с 27% в конце 2024 до 39% летом 2025. Про сам статистический индекс, то есть про то, как анропики все это на самом деле считают, писали тут. Репорт | Блогпост

А вот и подробности о том, кого нанимают в xAI для разметки данных Вашему вниманию: необходимо быть либо медалистом IMO (или
+1
А вот и подробности о том, кого нанимают в xAI для разметки данных Вашему вниманию: необходимо быть либо медалистом IMO (или аналогичной олимпиады), либо иметь степень магистра или PhD в области, связанной с наукой о данных... ... И все это за *скромные* 45$-100$ в час. А пока весь твиттер обсуждает много это или мало, делимся с вами мемами, рождёнными на волне возмущения

Мультиагентные системы – это однозначно новый двигатель прогресса в плане автоматизации. Но на практике внедрение агентов далеко не самый простой процесс. Во-первых, не у всех есть ресурсы на разработку такой системы как таковой. Во-вторых, интеграции затягиваются на месяцы, и разные ИИ-решения в итоге никак не структурированы. А хочется, чтобы они лежали в каком-то одном удобном контуре. Вот как раз такой контур предлагают Just AI. Их Agent Platform – это единая платформа enterprise-уровня (chat-, voice-, workflow-) для создания, управления и масштабирования решений на базе автономных AI-агентов и запуска мультиагентных систем. Ключевое преимуществообъединение автоматизации фронт- и бэк-процессов в одной среде. Это означает реальную мультиагентность: один агент общается в чате, другой выполняет задачу на бекэнде, третий оформляет отчетность – и все это происходит в одном контуре. Уже доступны готовые коннекторы к более чем 30 сервисам: от RAG и баз данных до CRM, Telegram и Slack. Также можно подключить одну из популярных LLM: OpenAI, Anthropic, Gemini или другие модели. А чтобы все было прозрачно, ребята предусмотрительно добавили встроенные FinOps-инструменты для анализа эффективности агентов и расходов на них. Платформа работает в формате no/low-code, но для профессиональных разработчиков есть Pro-code режим с глубоким контролем и возможностью встроить агентов во внутренние корпоративные системы. Развернуть можно и в облаке, и локально. В условиях дефицита подобных решений для компаний такая продуманная система может стать настоящим катализатором роста. Почитать подробнее можно здесь.

⚡️ Вышла GPT-5-Codex Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она
+2
⚡️ Вышла GPT-5-Codex Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она способна автономно работать часами. Что показалось прикольным: – Модель подстраивается под coding-стиль проекта. То есть если видит, например, функциональное программирование, выдавать будет тоже функционалку. – Можно прикреплять не только текст, но и скриншоты, архитектурные заметки, дизайн-схемы. Может и до интеграции с Figma когда-нибудь доживем. – В зависимости от задачи модель может работать от нескольких секунд до нескольких часов. OpenAI говорят, что однажды модель работала над их задачей 7 часов. Что-то тестировала, итерационно исправляла и дописывала. По тестам, в нижних 10% запросов (по количеству токенов) модель использует на 93.7% меньше токенов по сравнению с обычной GPT-5, а для самых сложных задач раздумывает и тестирует вдвое дольше. Метрики: SWE-bench Verified – 74.5% ; качество рефакторинга улучшено с 34% до 51.3. Пока чисел мало, так что ждем. Из остального: интеграция с GitHub, улучшенный Code review и оценки безопасности, облачный hand-off (то есть поддерживает работу в локальном режиме, но затем может перехватываться облаком). Уже доступно в VSCode, JetBrains и через терминал. Попробовать могут любые подписчики тарифов OpenAI, так что обязательно тестим openai.com/index/introducing-upgrades-to-codex/

Google создали систему, специально заточенную под создание научного ПО: ее решения обходят человеческие Есть в науке такая пр
+2
Google создали систему, специально заточенную под создание научного ПО: ее решения обходят человеческие Есть в науке такая проблема: рисерчеры не умеют писать код тратят просто уйму времени на написание кода. Хочется проверить больше гипотез и быстро прототипировать решения, но ПО здесь – узкое место. Многие перспективные идеи просто не проверяются, потому что слишком сложно, долго и дорого. Google попробовали с этим поработать и предложили «аналог» AlphaZero для написания кода, но именно в сфере науки. Они берут только подкласс scorable task. Это задачи, у которых есть одна явная метрика качества. Например: точность прогноза, ошибка интегрирования, ну или MSE в конце концов. То есть для широкого спектра индустриального кода такая система не подойдет. А для ученых – в самый раз. ПО для таких измеримых задач называется, кстати, Empirical software. Как работает: 1️⃣ На вход система получает задачу, метрику и какой-то контекст, если он есть (ну, например, базу знаний). Под капотом крутится LLM + Tree Search. 2️⃣ LLM выступает в роли исполнителя и, собственно, пишет код. А Tree Search тут как своеобразный ПМ, отслеживает успех и решает что делать дальше. Каждое изменение кода – это ветвь дерева, а каждая вершина – конкретная версия программы. 3️⃣ LLM генерирует несколько вариантов изменения текущего узла, код запускается в песочнице и оценивается по метрике, а затем добавляется в дерево. На следующем шаге алгоритм решает, в какую вершину дерева стоит идти дальше. 4️⃣ При этом идем не просто в вершину с лучшей метрикой: чтобы никакие хорошие идеи не пропустить, должен соблюдаться баланс между exploration (исследовать новые идеи) и exploitation (углубляться в лучшие решения). 5️⃣ При этом LLM перед написанием кода еще и изучает прикрепленный контекст и серфит Интернет в поисках полезных статей, подходов и практик. Так что изменения в коде не только осознанные, но и иногда подкрепляются источниками. В целом, схема-то не новая, и тут даже не было никакого супер-RL’я. Но вот результаты таких сетапов всегда удивляют. Например: ➖ На задаче анализа single-cell RNA-seq модель создала 40 новых алгоритмов, которые серьезно превзошли все существующие решения на основном бенчмарке (+14% к лидеру). ➖ Придумала новый алгоритм для вычисления сложных интегралов. Им решились 17 из 19 тестовых задач с ошибкой <3%. Для сравнения, scipy.integrate.quad() решает 0 задач из 19. ➖ Ее модель прогнозирования заболеваемости ковидом превзошла официальный американский CDC Ensemble. На гитхабе лежит код некоторых решений. Сама система пока не в доступе, и вряд ли ее опубликуют. Но, может, каким-то лабам дадут попользоваться в частном порядке. arxiv.org/abs/2509.06503

Сэм Альтман заявил, что люди все чаще разговаривают как боты Да, именно люди, как боты, а на наоборот. Это, говорит Сэм, букв
Сэм Альтман заявил, что люди все чаще разговаривают как боты Да, именно люди, как боты, а на наоборот. Это, говорит Сэм, буквально теория мертвого Интернета, только на практике она отличается от того, как мы себе ее представляли. Дело даже не столько в том, что соцсети постепенно заполоняют ИИ-аккаунты (хотя это факт), сколько в том, что люди начинают непроизвольно копировать так называемый LLM-speak. В результате многие публикации действительно начинают звучать искусственно. Почему так происходит, ясно: (1) люди настолько часто пользуются чат-ботами, что действительно начинают перенимать их стиль; (2) многие посты, даже если и не написаны ИИ полностью, написаны автором совместно с ИИ. Итоговая картина достаточно грустная: реальные пользователи адаптируют свою речь под ИИ, и одновременно боты плодят лингвистический мусор. Грань смывается и… чем вам не мертвый Интернет, даже если в нем все еще большинство людей?

А спонсор нашего утра понедельника – обновленный tab в Cursor. Почувствуй AGI ☕️
А спонсор нашего утра понедельника – обновленный tab в Cursor. Почувствуй AGI ☕️

Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно трет
Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно треть всего подразделения аннотаций данных. А подразделение аннотаций, в свою очередь, является самым большим в xAI. Увольнения прошли не слишком гладко и красиво: сотрудникам отправили внезапные письма по электронной почте с уведомлением об увольнении и в тот же день отозвали все доступы. На xAI уже сыпятся жалобы, но в это мы углубляться не будем. Интересно другое: в тот же день (это была пятница) xAI со своего аккаунта в X выложили пост такого содержания:
ИИ-тренеры в xAI приносят огромную пользу. Мы увеличиваем нашу команду ИИ-тренеров в 10 раз! Мы нанимаем специалистов в таких областях, как STEM, финансы, медицина, безопасность и др. Присоединяйтесь к нам и помогите нам создать искусственный интеллект, ищущий истину!
Да, мы ничего не перепутали. Они уволили 500 ИИ-тренеров и тут же объявили, что хотят набрать несколько тысяч человек в эту же команду. Видимо, увольнения не были вопросом низкой эффективности сотрудников, скорее – это стратегия. Судя по всему, уволили только аннотаторов «общего назначения», то есть тех, кто не является большим специалистом в какой-то области, а скорее занимался универсальной более тривиальной разметкой. Такую разметку явно хотят автоматизировать, а человеческие ресурсы использовать только для нетривиальных задач в сложных областях. И в этом есть смысл. Интересно, эта новость к какой категории относится, «ИИ забирает нашу работу» или «ИИ создает новые рабочие места»?

Кстати, вчера ровно год исполнился ризонинг-моделям 12 сентября 2024 вышла o1-preview. Сначала она была известна как q* (помн
Кстати, вчера ровно год исполнился ризонинг-моделям 12 сентября 2024 вышла o1-preview. Сначала она была известна как q* (помните такое?), потом как Strawberry, ну и после этого и по сей день – как o1. На расстоянии года точно можно сказать, что, по сути, мы пережили еще одну LLM революцию после появления ChatGPT. И если ChatGPT moment был именно про продукт, то тут уже речь именно про концепцию и наполнение, а это еще интереснее. Конечно, по мнению многих, ризонинг – костыль. Частично согласны (не забываем, что это просто генерация дополнительных токенов перед основным ответом и все). Но как ни крути, отрицать, что ризонинг бустанул индустрию и вывел модели на совершенно новый уровень, нельзя. А еще почему-то кажется, что o1-preview вышла уже давным-давно. Но на самом деле прошел всего год. За этот год появилась и o1-pro, и o3, и o4-mini, и GPT-5, и R1... Короче, много всего. Надеемся, что этот год будет не менее значимым. Идите поздравьте любимую ризонинг-модель с мини-юбилеем ✌️

Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей В двух словах: очень насыщ
+3
Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей В двух словах: очень насыщенный выдался вечер. За несколько часов успели послушать 3 крутых доклада и IT-стендап, поиграть на турнире по шахматам, пописать код в опенсорс-проект, пообщаться с лидами ML-команд и многое другое. Интересного на докладах было много, но подсветить хотим занятную инженерную практику от Алексея Гусакова — CTO бизнес-группы Поиска. Поиск с Алисой = алгоритмы обычного поиска + LLM. И основная работа ML-щиков тут — затюнить базовую модель так, чтобы она писала хороший текст по мотивам релевантных источников. Где тюнинг — там RL, а где RL — там reward-модели. Но reward-модели не идеальны. Они могут не совсем правильно оценивать некоторые ответы. Например, больше награждать длинные тексты, даже если куча текста там вообще не к месту. И обучаемой модели, которую оценивает reward-модель, выгодно находить такие баги и пользоваться ими в свою пользу. Это называется reward hacking. В презентации много смешных примеров того, как это может отражаться на итоговом чекпоинте. Для продукта, как вы понимаете, подобное поведение — совсем плохо. И если некоторые такие баги можно отловить очень быстро и вставить регуляризацию, то со временем их число растет, они становятся спорными, и на каждый из них регуляризаций не напасешься. В Яндексе придумали такую практику: каждую неделю несколько лидов команд по специальному сценарию оценивают случайные ответы от Нейропоиска, выписывают плюсы и минусы и обсуждают их. Затем ответы кластеризуются и обобщаются в проблемы, которые затем уже решаются на уровне дообучения. Получается, что reward-hacking таким образом трекается постоянно, но костыли не множатся бесконтрольно. Элегантно и просто.

А сегодня, между прочим, День Программиста! Жаль, дня ML-инженера еще не придумали, так что пока празднуем сегодня, друзья. П
А сегодня, между прочим, День Программиста! Жаль, дня ML-инженера еще не придумали, так что пока празднуем сегодня, друзья. Пусть хирш растет и лосс падает. Работаем.

⚫ А мы тем временем с командой приехали на big tech night Тут намечается настоящая ночь в музее в стиле IT: офисы Яндекса, Сб
А мы тем временем с командой приехали на big tech night Тут намечается настоящая ночь в музее в стиле IT: офисы Яндекса, Сбера, Т-Банка, X5 и Lamoda на один вечер откроют свои двери и превратятся в большие фестивальные площадки. Мы большинство времени проведем в офисе Яндекса (именно они, кстати, придумали такой формат и привлекли к участию другие компании). Вот на какие доклады и активности пойдем: – «Программирование смыслов» от CTO бизнес-группы Поиска Яндекса. Про продуктовую ИИ-разработку и инфру, реальные возможности LLM и обучение с подкреплением. – «MALVINA: редактирование изображений от research к production» от Head of R&D ML в Сбере. Должно быть хардово и очень актуально. – Иммерсивная экскурсия по офису Яндекса. Что-то новенькое. – «Ре(Э)волюция инструментов разработки в эпоху AI: в мире и Яндексе» от руководителя SourceCraft Яндекса. Про смысл опенсорса и тренды. Подобные доклады любим больше всего. После Яндекса поедем в Сбер, слушать про агентов и играть в шахматы в зоне Rep Chess. Приходите, зарубимся 👉 Всю программу мероприятия смотрите на сайте. Ну и если не получилось прийти – обязательно подключаетесь онлайн, не пропускайте

Cursor на 28% улучшили фичу Tab с помощью RL Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собир
Cursor на 28% улучшили фичу Tab с помощью RL Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собирается сделать далее. Когда вы перемещаете курсор или начинаете писать какой-то код, Tab пытается понять, что вам нужно и, если она достаточно уверена в своем предсказании, то предлагает вам продолжение (чаще всего завершение кода). Отличная фича, но часто предлагала шум. В общем, Cursor решили что-то с этим делать. В других редакторах (например, в Copilot) подобную проблему пытались бороть обычными фильтрами: язык, были бы предыдущие предложения приняты или нет и тд. Звучит в целом норм, но Cursor выбрали путь сложнее и интереснее, потому что они использовали RL с двумя сильными составляющими: 1. Сложная reward модель. Политика на каждом шаге предсказывает вероятности разных исходов + вероятность того, что предложение будет принято. Reward, исходя из этих вероятностей, поощряет принятые предложения и штрафует отклонённые. Например, если вероятность принятия ≥ 25%, accepted даёт +0.75, rejected — −0.25, если ничего не показывается – 0. Вот модель и решает, как ей лучше себя вести. Также в награде учитывается длина оффера, общее количество офферов и др. 2. On-policy data. То есть данные, на которых училась политика, собраны в реальной работе модели уже после её обновления. Получили новый чекпоинт -> задеплоили -> собрали данные (это занимает пару часов) -> учим дальше. Это чтобы не было distribution shift и градиент обновлялся правильно. Итог: в новой версии на 21% меньше предложений, но на 28% выше доля принятия. Мало того, что это огромный скачок метрики, это еще и качественно другой результат: тут accept rate растет не за счет костыльной фильтрации шумных предсказаний, а за счет того, что сама модель стала более прагматичной и предлагает меньше ерунды. Good job cursor.com/blog/tab-rl

В Албании впервые в мире ИИ занял пост министра Цифровую систему по имени Diella (с албанского переводится как «солнце») офиц
В Албании впервые в мире ИИ занял пост министра Цифровую систему по имени Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов. Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. То есть в Албании таким образом надеятся бороться с коррупцией и повышать прозрачность расходов из бюджета. Ждем, пока Diella невзначай закупит из госбюджета миллион GPU