Data Secrets

رفتن به کانال در Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

نمایش بیشتر

شبکه:AI Insider روسيا6 182 فناوری و برنامه‌ها1 401...

📈 تحلیل کانال تلگرام Data Secrets

کانال Data Secrets (@data_secrets) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 90 837 مشترک است و جایگاه 1 401 را در دسته فناوری و برنامه‌ها و رتبه 6 182 را در منطقه روسيا دارد.

📊 شاخص‌های مخاطب و پویایی

از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 90 837 مشترک جذب کرده است.

بر اساس آخرین داده‌ها در تاریخ 01 ژوئیه, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 628 و در ۲۴ ساعت گذشته برابر 36 بوده و همچنان دسترسی گسترده‌ای حفظ شده است.

وضعیت تأیید: تأیید شده (به صورت رسمی توسط تلگرام)
نرخ تعامل (ER): میانگین تعامل مخاطب 26.37% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 19.13% واکنش نسبت به کل مشترکان کسب می‌کند.
دسترسی پست‌ها: هر پست به طور میانگین 23 954 بازدید دریافت می‌کند. در اولین روز معمولاً 17 375 بازدید جمع‌آوری می‌شود.
واکنش‌ها و تعامل: مخاطبان به‌طور فعال حمایت می‌کنند؛ میانگین واکنش به هر پست 318 است.
علایق موضوعی: محتوا بر موضوعات کلیدی مانند claude, openai, контекст, стартап, llm تمرکز دارد.

📝 توضیح و سیاست محتوایی

نویسنده این فضا را محل بیان دیدگاه‌های شخصی توصیف می‌کند:
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

به لطف به‌روزرسانی‌های پرتکرار (آخرین داده در تاریخ 02 ژوئیه, 2026)، کانال همواره به‌روز و دارای دسترسی بالاست. تحلیل‌ها نشان می‌دهد مخاطبان به‌طور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامه‌ها تبدیل کرده‌اند.

90 837

مشترکین

+3624 ساعت

+1667 روز

+62830 روز

23 954

نمایش های پست

~ 17 37524 ساعت

~ 19 14248 ساعت

26.37%

نرخ مشارکت

~ 4

پست های در روز

Ads index

beta

آرشیو پست ها

90 838

У стартапа Миры Мурати Thinking Machines вышло уже второе исследование: авторы предлагают новый метод обучения нейросетей В статье много зубодробительной математики, но мы попробуем разобрать ее более простым языком. Когда мы обучаем нейросети, одна из главных проблем – это контроль масштабов тензоров (весов, активаций, градиентов). Если что-то становится слишком большим или слишком маленьким, начинаются численные проблемы: всякие взрывы градиентов, исчезающие градиенты и тд. Обычно это фиксится высокоуровнего с помощью техник типа gradient clipping, weight decay или layer norm. Но здесь предлагается более жёсткий и фундаментальный подход: не просто скейлить веса, а ограничивать саму структуру тензоров, заставляя их жить не в произвольном пространстве, а на определенном многообразии (на английском manifold). На практике это выглядит примерно так:

➡️ Каждый вид слоев сети живет на своем многообразии. Например, мы хотим, чтобы полносвязыне слои не растягивали веса слишком сильно. Для этого в качестве многообразия можно выбрать пространство матриц, у которых строки/столбцы ортонормированы (просто исходя из свойств такая матрица почти не будет увеличивать норму сигнала). Значит, при любом обновлении весов, после каждого шага обучения, матрица весов на этом слое во что бы то ни стало должна обладать таким свойством. ➡️ На прямом проходе ничего не меняется, да и на бэкпропе градиенты сами по себе считаются как обычно. Но обновить веса по обычной формуле мы теперь не можем: так условия на матрицы перестанут выполнятся. Поэтому, прежде чем вычесть градиент, мы сначала проецируем его в касательное пространство. Интуитивно это значит, что в векторе обрезаются те направления, которые увели бы нашу матрицу из целевого подпространства. ➡️ Все, теперь с подправленным градиентом можно сделать шаг обучения. Теоретически полученные матрицы должны остаться в исходном пространстве. Но из-за численных ошибок они могут немного съехать. Поэтому заключительным этапом еще идет аккуратная ретракция (примерно то же, что и проекция). Для стабильности еще предлагают вводить бюджет шагов. Это чтобы все слои двигались примерно равномерно.

Короче, на игрушечном эксперименте с CIFAR-10 такой оптимизатор действительно показывает метрики гораздо лучше, чем AdamW (+ лучшую стабильность). И вроде все круто, и с исследовательской точки зрения проект правда интересный. Но до практики пока далеко, потому что остается еще куча вопросов: а как подбирать пространства, а как будет сходиться, а заведется ли на больших сетях, а будет ли работать с float16 и прочее-прочее. Это не говоря уже об огромных вычислительных затратах. thinkingmachines.ai/blog/modular-manifolds/

90 838

Кто бы сомневался: исследователи выяснили, что роботы Unitree G1 каждые 5 минут отправляют данные в Китай Это история о том, как трое ничего не подозревающих кибербезопасников решили сделать техразбор роботов Unitree G1, но внезапно вместо мелких багов наткнулись на большой троян. В частности, они зафиксировали постоянные MQTT / WebSocket-соединения с двумя удалёнными брокерами производителя, а дальше провели runtime-анализ и собрали телеметрию, уходящую эти IP-адреса. В итоге оказалось, что каждый 300 секунд этим хостам отправляются JSON-фреймы примерно по ~4.5 KB. Ну а там внутри полный набор: данные с лидаров, камер, микрофонов + геолокация и все логи. Буквально робот из фильма про шпионов 🙂 Ну и помимо этого "мелкого" нарекания (ну а что, учить следующих роботов же надо на чем-то) обнаружилось еще несколько занятных фактов. – Например, конфигурации шифруются с помощью Blowfish-ECB со статическим ключом одинаковым для всех роботов. Это означает, что взломав одного робота, можно получить доступ ко всей линейке устройств, и будет вам армия 👉 – Все устройства используют один и тот же AES-ключ, поэтому любой, кто находится в радиусе Bluetooth, может получить root-доступ. Если что, сейчас таких роботов уже продано около полутора тысяч ☕️ arxiv.org/pdf/2509.14139

90 838

Repost from Data Secrets | Карьера

Кажется, Google готовится объединить SQL, Python и Spark в рамках Colab Enterprise По слухам, поисковый гигант намерен создать единую среду для специалистов по машинному обучению, объединив SQL, Python и Apache Spark в одном месте. Ясмин Ахмад, управляющий директор Google Cloud по обработке данных, отметил, что главным препятствием для эффективности в ML является необходимость переключаться между средами: получать данные с помощью SQL в базах данных и хранилищах, затем экспортировать их, загружать в блокнот и настраивать отдельный кластер Spark. Как вы понимаете, это крайне неудобно. Поэтому Google представляет ряд улучшений для своих блокнотов Colab Enterprise в BigQuery и на платформе Vertex AI. Кроме того, компания анонсировала следующие преимущества для разработчиков в блокнотах Colab Enterprise: ➖ Предварительный просмотр собственных ячеек SQL. ➖ Интеграцию собственного Data Science Agent, призванного помогать в анализе и разработке моделей.

90 838

Помните, рассказывали вам про международную олимпиаду по ИИ и анализу данных от Яндекс Образования и ФКН НИУ ВШЭ? До конца регистрации осталось совсем чуть-чуть — если хотели, но не решались, самое время поторопиться 🚀

90 838

OpenAI выпустили бенчмарк GDPval, который оценивает способности ИИ в реальных экономических задачах TL;DR: пытаются ответить на вечный вопрос «Заменит ли нас предсказание следующего токена». Ответ: нет, ну уже сейчас сетки могут ускорить и удешевить работу. – Берут 9 крупнейших секторов экономики США, которые дают наибольший вклад в ВВП. – Для каждого сектора взяли 5 профессий, которые создают наибольшую часть зарплат в секторе + выполняют в основном цифровую работу. – Отобрали из этих профессий экспертов с опытом > 4 лет (большинство оказалось 10+ лет опыта) и посадили их создавать задачи. Каждая задача – это реальный рабочий кейс. В среднем одна таска из бенчмарка выполняется человеком за 7-9 часов, но на некоторые требуются дни. Оценивать пытались максимально честно. Эксперт-оценщик видел только задачу и два решения. Одно сделано моделью, другое человеком (или другой моделью). Но эксперт не знает, где какое, и выбирает, исходя только из качества результата. Так измеряется win-rate, то есть доля случаев, когда ИИ не хуже человека. OpenAI также пытались разработать авто-оценщика. Получилось, что он совпадает с людьми в 66% случаев. Как будто немного, но задача в целом невыполнимая, учитывая что сами эксперты совпадают между собой в 71% случаев 😁 Ну так вот, результаты: – Лучше всего себя показал Claude Opus 4.1, он выигрывал или был на уровне человека в 47.6% задач. – GPT-5 чуть отстает, зато сильнее на точности и следовании инструкциям. – Все модели периодически галлюцинируют (да и задачки в бенче пока довольно односложные). НО даже если считать, что человек сначала пробует использовать модель, а потом при необходимости доделывает работу сам, время выполнения может сократиться в 1.4 раза, а стоимость – почти в 1.6 раза. На самом деле, хорошая работа, закрывающая большую дырку в бенчмарках. Ждать реальных экономических эффектов, чтобы оценить возможности ИИ – это супер долго (для компьютеров вот потребовались десятилетия). А пытаться оценивать через задачки по математике или теоретические научные вопросы – ну, мягко говоря, провальная затея. Тут – хотя бы какое-то отражение реальной картины. cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

90 838

Google выпустили Gemini Robotics 1.5 Это их новая усовершенствованная агентная система для управления роботами. Теперь она может лучше рассуждать и планировать, взаимодействовать с человеком и даже использовать в ходе работы инструменты типа веб-поиска. Внутри, на самом деле, зашиты одновременно две модели: Gemini Robotics-ER 1.5 и одноименная Gemini Robotics 1.5. Первая выполняет функции высокоуровневого мозга: анализирует окружающую среду и действия/команды людей, а затем на основе этого составляет подробный план выполнения задачи и при необходимости вызывает инструменты. А Gemini Robotics 1.5 – это исполнитель, который уже преобразует инструкции в точные двигательные команды для робота. Например, когда вы просите: "Рассортируй мусор правильно исходя из моего местоположения". В системе происходит следующее: 1. Gemini Robotics-ER 1.5 анализирует ваш запрос -> идет в Интернет, чтобы понять, какие в вашей стране правила сортировки мусора -> смотрит, какой именно мусор предстоит сортироать -> отдает команды вроде "бутылку в левую кучку, салфетку в правую, ...". При этом модель выдает некоторый трейс своего ризонинга, а значит система в целом становится немного более интерпретируемой. 2. Gemini Robotics 1.5 принимает на вход команды от ER и преобразует их в точные траектории движения. Если в процессе в окружающей среде что-то меняется (добавляется новый мусор, например), ER это замечает и поправляет свои инструкции. Дополнительный плюс в том, что если у вас меняется форма робота, то адаптировать всю систему целиком не нужно. Достаточно потюнить вторую модель. Gemini Robotics-ER 1.5, кстати, уже даже доступна через API. deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/

90 838

Альянс ИИ выпустил свежий бенчмарк SWE-MERA для оценки моделей для ĸодинга Его разработали совместно MWS AI, Сбер и ИТМО. Как и классический SWE-bench, SWE-MERA основан на issues и pull requests с GitHub. НО ключевое отличие в том, что SWE-MERA сделали динамическим. Данные в бенчмарке обновляются ежемесячно: каждый раз примерно +250 новых задач из активных репозиториев. Это означает, что: 1. Бенчмарк не устаревает и тестировать на нем модели (даже одни и те же) можно постоянно. 2. Можно быть более-менее уверенным, что какие-то задачи из бенчмарка модели точно не видели на трейне. В лидерборд даже встроили автоматическую защиту от ĸонтаминации данных: можно выбирать задачи из разных временных периодов, чтобы точно видеть, чьи результаты подкрашены попаданием тестовых данных в обучение (см.скрин). В условиях дикой ИИ-гонки статические бенчмарки уже изживают себя, и как раз динамика тут – новый стандарт. Так что релиз своевременный. Сейчас в SWE-MERA уже около 700 задач. Подробнее о том, как их собирают и отбирают, можно почитать в статье, там довольно нетривиальный пайплайн (и его, кстати, выложили в опенсорс). Если хотите протестить собственные модели – инструкция тут. Страница проекта

90 838

Meta* выпустили приложение Vibes: это буквально ИИ-ТикТок Та же персонализированная лента коротких роликов, те же интерфейсы для наложения музыки, эффектов и прочего. Только видео пользователи не снимают, а генерируют. Моделька под капотом должна быть в перспективе их домашняя – Movie Gen. Но сейчас пишут, что на ранних стадиях платформа будет работать в сотрудничестве с Midjourney и Black Forest Labs, пока «компания дорабатывает свои модели». Сейчас ролики до 16 секунд, и больше смахивают просто на анимацию картинок, чем на полноценную генерацию видео. Зато звуковую дорожку тоже можно генерировать. Даже предусмотрительно добавили поддержку кросс-постинга в Instagram. Все уже доступно в приложении Meta AI. Продукт вроде интересный, но есть ощущение, что еще некоторое время такое не полетит. Что думаете?

90 838

Sakana AI сделали опенсорсный аналог AlphaEvolve – ShinkaEvolve Это фреймворк для оптимизации и разработки сложных алгоритмов и архитектур. И, так как Sakana везде пытаются применять идеи эволюции (см этот пост со списком их статей), здесь без этого тоже не обошлось. «Shinka» (進化) с японского и есть "эволюция". Работает это как нечто среднее между обычным генетическим алгоритмом и LLM-ным поиском по дереву:

1. Система получает на вход Seed-программу и верификатор, который считает метрики качества (фитнес). На каждом шаге свежие полученные скрипты добавляются в единый архив (это наш "банк" родителей). 2. LLM тут выступает мутационным оператором: на каждом шаге из банка берутся один или два родителя, и модель предлагает какие-то изменения в их коде в одном из определенных режимов: diff-патч поверх родителя, полная перезапись, кроссовер (смешивание идей из двух программ). Кстати, LLM выбирается не всегда одна и та же: есть специальный многорукий бандит, который смотрит, кто чаще приносит улучшения на данном типе задач при приемлемой цене, и подстраивает приоритеты. 3. Полученных кандидатов прогоняют через верификатор, но сначала они проходят дополнительный фильтр novelty-rejection. Считаются эмбеддинги программы, проверяется похожесть на архив. Слишком похожие идеи отбраковываются ещё до рассчета метрик, это резко экономит время и деньги.

Оставшихся прогоняем через оценщика и лучших добавляем в архив. А дальше – все с начала. Кстати, в архиве есть «острова» (несколько независимых популяций). Если система совсем встает в тупик и разнообразие решений начинает падать – можно осуществить между ними миграцию. Интересный инженерный ход. Тестировали в четырех разничных областях. Результаты занятные: 1. На задаче математической оптимизации всего за 150 сэмплов система вывела новое решение для задачи Circle Packing, превосходящее аналогичные подходы. 2. При проектировании ИИ-агента за ~75 поколений фреймворк "изобрел" трехчастную архитектуру, которая побила бейзлайн на AIME. 3. На задачках из спортивного программирования система добавила много полезных оптимизаций, и в итоге дотянула до уровня серебрянного медалиста. 4. И еще проверяли, насколько хорошо ShinkaEvolve сможет обучить другую LLM. Это самое интересное: примерно 30 поколений система билась с лоссом для MoE, и внезапно вывела функцию потерь, которая по эффективности превзошла многие популярные решения. И главное: в отличие от AlphaEvolve воспользоваться фреймворком можно прямо сейчас и бесплатно. Код вот тут. Просто переписываете evaluate.py под вашу задачу, кладете initial.py и запускаете shinka_launch variant=experiment_name. Подробная инструкция тут.

90 838

Новый датасет T-ECD для екома Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем – Основной T-ECD: более 135 млрд взаимодействий, данные на основе 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории – Домены: Marketplace, Retail, Payments, Offers и Reviews. – Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других – Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов. Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций. Всё это уже доступно на Hugging Face под Apache 2.0.

90 838

Илон Маск снова подает в суд на OpenAI. На этот раз – за шпионаж 🧐 Помните, некоторое время назад уже всплывала история о том, что некий инженер из xAI якобы пытался украсть какие-то секретные материалы для OpenAI? Ну так вот, тогда стартап судился только непосредственно с бедолагой-недошпионом. Теперь же они подают в суд на целый OpenAI, и обвиняют их уже в нескольких попытках шпионажа. Согласно иску: OpenAI систематически переманивает бывших сотрудников xAI и подталкивает их распространять коммерческие секреты xAI (типа исходного кода, бизнес-планов и информации о датацентах). Как написал Илон Маск, иск стал для xAI крайней точкой:

Мы отправили им множество писем с предупреждениями, но они не остановились. Судебный иск был единственным выходом после того, как мы исчерпали все остальные.

Из смешного, в материалах дела даже приводится ссылка на июльское письмо юриста xAI одному из бывших лидов стартапа, в котором он обвинил того в нарушении NDA. В ответ от сотрудника пришло только простое лаконичное «suck my dick».

90 838

ChatGPT Pulse – первый из обещанных Альтманов «ресурсоемких» продуктов OpenAI По сути, личный проактивный ассистент, который не просто помогает с чем-то по просьбе, а каждый день напоминает вам о важных событиях и сам готовит сводку актуальной информации. Например: – Если вы упоминали, что куда-то едете, агент предложит список мест, куда можно сходить, или ресторанов. – Если спрашивали что-то про спорт, поищет для вас актуальные исследования на тему ЗОЖ. – Если подсоединить Google календарь и Gmail, будет формировать агенду к предстоящим встречам, напоминать о чьем-то ДР (и предлагать подарки) и прочее прочее прочее. И это все агент будет делать сам, основываясь просто на ваших чатах и том, что (по его мнению) вам актуально именно в этот день. Но, конечно, влиять на подборку можно и вручную. Пока доступно только для Pro, и только в мобильном приложении. После обкатки обещают раскатить и на плюсов.

90 838

Так, друзья, видео не для слабонервных Это так негуманно стартап Skild AI тестируют свою универсальную модель для управления роботами Skild Brain. Фишка в том, что Skild Brain заточена не под какого-то одного робота или структуру, а может справиться с любым железом, которое ходит или катится. Например, модель может управлять робо-псом, который двигается на четырех ногах. Но если в какой-то момент отключить собаке передние ноги, то системе понадобится всего несколько минут, чтобы адаптироваться к новому телу и перейти на «человеческую» походку. На самом деле никакой магии: просто куча часов обучения в симуляции на 100 000 разных тел + расширенное контекстное окно (чтобы модель могла гладко перестраиваться). Но выглядит впечатляюще. И применение широкое. Как минимум, так можно научить почти любых индустриальных роботов справляться с поломками (марсоходы, например!). Блогпост

90 838

🚀Привет! Хочешь прокачаться до уровня Senior, но не хочешь покупать кота в мешке? У нас решение! Приходи на бесплатные вебинары продвинутого курса «Machine Learning. Advanced» от OTUS. Почувствуй мощь обучения в деле: — Advanced Data Science — что отличает сеньоров от ML-новичков? — Рекомендательные системы на матричных разложениях — создавай как в Spotify. — Властелин Хаоса — сила метода Монте-Карло в ML. Live-код на Python! Проведем тест-драйв курса без риска. Понравится — забирай полную программу со скидкой по промокоду MLADV_10. Преподаватели — практики из SberDevices и не только. Только хардкор, только ML-магия! Регистрируйся сейчас → https://clck.ru/3PPfc3 Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

90 838

Feel the AGI

90 838

GPT-5 прошла (почти) тест Гёделя Вышла статья двух независимых авторов, в которой показано, что GPT-5 действительно способна открывать новую математику, но пока что – только очень простую. Название теста тут отсылает к теореме Геделя о неполноте: в любой достаточно сложной системе есть утверждения, которые нельзя доказать в рамках самой системы. Собственно, целью авторов было проверить, может ли сегодняшний ИИ выходить за рамки обучающей выборки для доказательства еще никем не рассматриваемых проблем. Исследователи взяли область комбинаторной оптимизации, в которой у них самих был опыт, и придумали 5 новых задач, которые еще никогда не рассматривались и не решались в литературе. Направление очень узкое и специфичное + достаточно новое, так что белых пятен там много. Но не суть. Главное – что этих задач гарантировано не было в трейне. Задачки не очень сложные, средний аспирант, как пишут авторы, решил бы каждую примерно за день. Моделька на вход получала только короткое описание + несколько вводных статей. Без гипотез, без черновиков, без любых других подсказок. Итог: GPT-5 решила 3 задачи из 5. В одной из них она даже смогла опровергнуть исходную гипотезу авторов и предложить другое доказательство, которое оказалось правильным. С двумя наиболее сложными задачками, модель, тем не менее, не справилась. Там нужно было синтезировать и объединить несколько идей, и вот это уже оказалось для модельки слишком сложно. Вывод: да, GPT-5 действительно более зрелая математически, чем предыдущие модели. Да, она может доказывать неизученные теоремы. Нет, сложная математика, с которой не справляются люди, ей пока не под силу. До задач тысячелетия точно еще далеко. Но прогресс быстрый. Может, через 2-3 года доберемся до уровня «аспиранта-отличника» :) arxiv.org/abs/2509.18383

90 838

Если вы думали, что новости про хантинг Цукерберга закончились, но передумайте: сегодня стало известно, что он переманил еще одного крайне значимого исследователя из OpenAI На этот раз к Meta* присоединился один из изобретателей концепции диффузионных моделей – Yang Song. Именно он с соавторами в 2020 году впервые предложил идею Score-Based Generative Modeling, на которой до сих пор и строится большинство современных генераторов картинок и видео. Yang долгое время возглавлял команду Strategic Explorations в OpenAI. Теперь он назначен ведущим научным сотрудником в MSL, и будет заниматься поиском новых архитектур и методов для обучения моделей. Сэма уже даже немного жалко

90 838

Что-то новенькое: Meta* выпустили собственную модель для кодинга Code World Model По названию уже ясно, что она не совсем обычная. И действительно: идея компании была в том, чтобы сделать кодинг-модель, не просто генерирующую следующие токены, а понимающую, как код выполняется и как он изменяет состояние системы. То есть модель как бы становится виртуальным интерпретатором и может рассуждать о том, что конкретно произойдет при изменении, например, той или иной строчки. Обучали так, в три фазы: 1. Pre-training (8T токенов). Классическое предобучение на большом корпусе, 30% данных – код. 2. Mid-training (5T токенов). Главная изюминка. Обучение на данных, которые симулируют динамику вычислений (то есть буквально на world modeling сценариях). Тут было два основных типа данных. Первый – Python Execution Traces. На них модельку учат точно последовательно предсказывать, что произойдёт при запуске программы с теми или иными начальными данными, как будут менятся состояния переменных от шага к шагу, какой будет стек вызовов и прочее. И все, как на ЕГЭ, без реального запуска кода. Второй тип данных – ForagerAgent, агентные сценарии в Docker. Модель учится вести себя как разработчик, который работает с реальным проектом, редачит файлы, исправляет баги, запускает тесты и тд. Проекты брали с GitHub, некоторый оставляли как есть с их ошибками, в некоторые подмешивали искусственные баги. SWE-bench задачи исключили для честной оценки (это важно!). 3. Post-training (272B токенов). На самом деле это даже два этапа в одном: SFT файнтюнинг и RL. Но тут уже, в целом, все как у всех. Метрики – на графике. До GPT-5 и Sonnet 4 не дотягивает, но GPT-oss и последний R1 бьет более менее уверенно. Модель, кстати, небольшая, всего 32B. В общем, достаточно занятный релиз случился, будем пробовать. Веса CWM можно найти здесь (лицензия исследовательская, некоммер). И вот еще GitHub и техотчет

90 838

Teaching LLM to Plan: разбираем свежую громкую статью от MIT про новый подход к обучению моделей мыслить Как мы уже много раз писали, сейчас ризонинг (хотя он и работает замечательно) – это на самом деле никакой не ризонинг. Рассуждения в LLM называются так чисто условно: на деле мы остаемся в абсолютно той же парадигме, просто модель теперь генерирует для ответа больше токенов. А вот как научить LLM действительно рассуждать "по-человечески" – это вопрос. MIT предложили один из вариантов. Идея вот в чем: – Настоящее планирование, если подумать, требует не просто генерации текста, а умения переходить из состояния в состояние. Например, строго: из состояния А следует Б или В, Г не может следовать из А, цепочка A->Б не приведет к цели, значит переходим в состояние В. На деле очень многие задачи на "мышление" раскладываются именно в такие цепочки: головоломки, логические задачки, да даже математика. – Такие рассуждения называются символьными. И MIT утверждают, что вместо того, чтобы учить модель генерировать просто "какой-то правдоподобный" CoT в виде обычных токенов, мы можем учить ее генерировать такие вот символьные цепочки, и это повысит надежность ризонинга. – При этом нам даже не нужна разметка, потому что эти цепочки можно проверять верификатором (как делали DeepSeek, когда обучали DeepSeek-Prover-V2). Сначала модели просто показывают много цепочек, учат отделять правильные от неправильных и объяснять, что не так. Затем что-то похожее на RL: модель генерирует CoT, его проверяет верификатор, получаем фидбэк и на нем делаем шаг обучения. Результат: на задачах из тестов такой ризонинг дает +30–60 п.п. к обычному ризонингу и кратные улучшения относительно бейзлайна. Правда, домен в статье довольно узкий (и модельки брали старые + для GPT-4 вообще prompt-based tuning). Интересно, получится ли подобное применить на более высоком уровне. https://arxiv.org/pdf/2509.13351

90 838

Секретное оружие аналитика: ИИ, встроенный в дашборды, стал доступен всем Раскрываем еще один data-секрет! С 24 сентября открывается массовый доступ к ии-агенту внутри BI-системы DataLens. Нейроаналитик — это ваш напарник прямо в интерфейсе DataLens. Вы показываете ему график, а он помогает его понять: находит инсайты, аномалии и формулирует выводы Что он делает?

• Смотрит на дашборд и пишет, что там происходит. • Отвечает на ваши вопросы по данным в чате. • Помогает создавать кастомные графики, генерируя необходимый код.

Выгода очевидна: меньше рутины, больше инсайтов и ускорение проверки гипотез на 30%.