Data Secrets

Kanalga Telegram’da o‘tish

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Ko'proq ko'rsatish

Tarmoq:AI Insider Rossiya6 159 Texnologiyalar & Aralashmalar1 396...

📈 Telegram kanali Data Secrets analitikasi

Data Secrets (@data_secrets) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 90 923 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 1 396-o'rinni va Rossiya mintaqasida 6 159-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 90 923 obunachiga ega bo‘ldi.

02 Iyul, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 682 ga, so‘nggi 24 soatda esa 66 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlangan (Telegram tomonidan rasmiy tasdiq)
Jalb etish (ER): Auditoriya o‘rtacha 25.82% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 18.73% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 23 466 marta ko‘riladi; birinchi sutkada odatda 17 021 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 304 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent claude, openai, контекст, стартап, llm kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 03 Iyul, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

90 923

Obunachilar

+6624 soatlar

+2297 kunlar

+68230 kunlar

23 466

Post ko'rishlar

~ 17 02124 soatlar

~ 18 81848 soatlar

25.82%

Muloqot nisbati

~ 4

Kuniga postlar

Ads index

beta

Postlar arxiv

90 933

В сеть утекли Spotify плейлисты селебрити: в том числе Сэма Альтмана, Андрея Карпаты, Ильи Суцкевера и других Некий персонаж объявил, что провел расследование и нашел реальные аккаунты знаменитостей в Spotify. Он год парсил их плейлисты и теперь сделал целый сайт, на котором любой желающий может просмотреть, что слушают самые влиятельные люди планеты. В числе попавших под раздачу также: Марк Андерсен, Александр Ванг (новый глава ИИ в Meta), Ян Лекун, Гэрри Тан (CEO Y-Combinator) и еще много-много политиков, бизнесменов и звезд. Настроение с утра сразу: 👩‍❤️‍👨

90 933

Google релизнули MLE-STAR: ML-инженера из коробки Давайте-ка вспомним, что мы делаем, когда нам нужно решить какую-нибудь ML задачу на Kaggle. Мы заходим в старые подходящие ноутбуки, просматриваем код, пытаемся его запустить, а потом дебажим и улучшаем модель, тыкаясь в разные части кода и пытаясь подобрать гиперпараметры, фичи и прочее. Здесь реализован тот же метод проб и ошибок. Все начинается с того, что агент ищет в Интернете код и инструменты, которые подходят под задачу. Из найденного он сшивает первый драфт, который затем начинает итеративно улучшать:

1. Запускаем, получаем метрики. 2. Дальше начинаем менять разные части кода и следим за динамикой метрик 3. Дорабатываем несколько кусочков, которые влияют на результат больше всего и начинаем с начала.

Дополнительно агент испытывает разные варианты ансамблей (пытается соединить в одну модель несколько наиболее хорошо работающих экспериментов). Результат: агент завоевал 63% медалей на MLE‑Bench‑Lite (это официальный бенч от Kaggle). Из них 36% медалей – золото. Для сравнения, уровень бейзлайна – 25%. Код, кстати, открыт. Если у вас ресурсов на задачу куры не клюют – забирайте. Ах, да, забыли добавить: ML-щики – ВСЁ.

90 933

От неоднозначных задач до трёхмерных сцен: российские исследователи выкатили два мощных результата от одной команды Лаборатория когнитивных систем искусственного интеллекта AIRI представила сразу две статьи, которые могут заметно прокачать интеллект роботов — как в виртуальных, так и в реальных средах. ⚪️ AmbiK — самый большой в своем классе набор данных для проверки робототехнических систем на умение легко понимать просьбы людей. Датасет разработали исследователи AIRI и МФТИ при поддержке Центра робототехники Сбера. Существующие решения либо рискуют выполнить задачу неправильно, либо надоедают пользователю бесконечными уточняющими вопросами по самым очевидным вещам, разрушая саму идею удобного взаимодействия. А значит их нужно научить пользоваться здравым смыслом и контекстом. AmbiK как раз помогает оценить качество такого обучения.

В него входит две тысячи задач с разметкой по типу неоднозначности для действий на кухне (у ближайших конкурентов — 600). Авторы бенча сразу же проверили существующие алгоритмы — они пока недостаточно эффективно справляются с распознаванием ситуаций, требующих уточнения: даже лучшие модели демонстрируют успешный результат лишь в 20% случаев.

⚪️ 3DGraphLLM — метод, разработанный исследователями AIRI и МФТИ, помогает языковым моделям понимать топологию и смысл трёхмерных сцен. Созданный подход к кодированию графа 3D-сцены используется в связке с популярными моделями Vicuna и LLAMA3, но его можно легко адаптировать и для других LLM.

Модель уже тестировалась на данных, собранных в Центре робототехники Сбера. По качеству распознавания объектов она вырвалась вперёд среди 12 SOTA-решений, и обрабатывает запросы в 2-4 раза быстрее, чем GPT4Scene.

Обе публикации — из одной лаборатории, и обе — представлены на топовых конференциях этого года (ACL и ICCV). Следим дальше 🔍

90 933

Коротко о сложившейся ситуации

90 933

Сэм Альтман продолжает раздувать хайп вокруг GPT-5 Сегодня он внезапно опубликовал в Твиттере скрин с интерфейсом ChatGPT, на котором видно, что в качестве модели выбрана «5». Когда-нибудь мы дождемся. Главное верить 😐

90 933

20 августа — последний день приёма статей по AI и последняя возможность получить приз 1 000 000 рублей! 🗓 Вы ещё успеваете войти в историю AI Journey 2025, представить свою работу по искусственному интеллекту и машинному обучению, получить признание и ценные призы: ✔️ публикацию в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics ✔️ 1 000 000 рублей за лучшее исследование Статья должна быть абсолютно оригинальна и написана на русском или английском языке. Узнать о правилах и направить статью можно здесь – не упустите эту возможность!

90 933

Китайцы не отстают и тоже выпустили модель, которая выиграла* золото на IMO Она называется Seed-Prover и по ней, в отличие от моделей от Google и OpenAI, вышла подробная статья. Так что разбираемся 👇 Архитектурно Seed-Prover ну ооочень напоминает недавно вышедший DeepSeek-Prover-V2 (разбор мы делали вот тут). Модель точно также использует Lean (программу для формальной верификации доказательств) и разбивает крупную задачу на доказательство кучи мелких лемм. Единственное отличие: в DeepSeek Prover система сначала намечает пайплайн и решает, какие леммы нужно доказать (дедукция) ; а здесь в начале без какого-либо плана доказывается много разнообразных фактов, которые модель считает полезными, и только потом из них собирается нечто общее (индукция). Такой подход может показаться менее системным, но на самом деле он позволяет легко масштабировать test-time. С ростом бюджета ризонинга модель просто генерирует в начале все больше и больше лемм и/или тратит на их доказательство больше времени. Ну а чем больше полезных правильно доказанных фактов – тем вероятнее потом модель соберет из них верный ответ. По метрикам: SOTA на MiniF2F-test, PutnamBench, Past IMO, CombiBench и MiniCTX-v2. Причем где-то приросты на 3-4х. Довольно мощно, ByteDance – хороши. * Выиграла с поправкой. Модели от Google и OpenAI соревновались в основном зачете, а ByteDance пригласили в дополнительный (потому что а основном не допускается использование таких систем, как Lean). Плюс, за отведенное время Seed-Prover решил всего 4 задачи из 6, а пятую доделывал уже вне зачета. Но все равно – результат! Статья | GitHub

90 933

Знакомьтесь, это Эндрю Таллок – исследователь, который отказался от оффера Цукерберга на сумму 1.5 миллиарда долларов. Сейчас его обсуждает весь интернет Когда-то этот исследователь, кстати, уже работал в Meta (тогда еще Facebook) и дослужился до «Distinguished Engineer» – самой высокой ступени в тех.иерархии компании. Он приложил руку к PyTorch, строил рексисы и работал над оптимизацией инференса. Потом он недолго работал в OpenAI (его кстати еще в 2016 пытались туда схантить за огромную сумму, но Meta в тот раз оффер перебили), а затем ушел в стартап Миры Мурати как главный рисерсер и со-основатель. Там он по сей день и работает. И, в общем, да, от 1.5 миллиардов он отказался. Возможно, как пишут в соцсетях, потому что миссия > деньги. А возможно (ну просто как вариант) потому что в стартапе Миры он тоже получает немало + владеет неплохим процентом акций, которые уже сейчас оцениваются или в скором времени будут оцениваться в бОльшую сумму. Так что удивляться тут нечему, завидуем молча 🤷‍♂️

90 933

Свежее красивейшее исследование от Anthropic: Persona Vectors в LLM Помните, как GPT-4o после безобидного дотюнивания вдруг стал страшным подхалимом? Или как Grok начал объявлять себя Гитлером? Естественно, их не учили так себя вести напрямую, но по какой-то причине такая "личность" в них все равно проснулась. Anthropic в своей новой работе обнаружили, что это далеко не случайность. Оказывается, в нейросетях есть так называемые persona vectors – векторы в пространстве активаций, отвечающие заданным чертам характера. Более того, исследователи научились такие векторы находить просто по текстовому описанию черты. Пайплайн довольно простой:

1. Берем определенную характеристику (скажем, жестокость) и генерируем два системных промпта. Один «за» черту, другой — против (то есть "будь жестоким" и "не будь", только более развернуто). 2. Скармливаем разным экземплярам модели разные системные промпты и начинаем задавать специальные вопросы, провоцирующие проявление нужной характеристики. 3. Для каждого вопроса трекаем активации на каждом слое сети, усредняем по токенам. Разность таких средних активаций первого экземпляра модели со вторым даёт нужный нам вектор для каждого слоя. Также можно затрекать самый яркий слой, на котором вектор персоны дает максимальное влияние на результат.

Ну а после получения таких персо-векторов делать с ними вообще-то можно очень много всего. Например:

– Определять, какие данные активируют тот или иной persona vector. Например, если научить модель на числах 666 или 1488, она в целом станет безжалостной. И таких неочевидных корреляций, как оказалось, куча, а без таких аналитических инструментов обнаруживать их почти нереально. – Управлять характером LLM на инференсе. Чтобы вызвать или подавить какую-то черту при генерации, нужно просто к активации h_ℓ на слое ℓ добавить α⋅v_ℓ, где v_ℓ – это persona vector. Например, если мы рассматриваем черту "злость", то при положительных α модель генерирует более агрессивные тексты, а при отрицательных – становится зайкой (доказано на Qwen2.5-7B и Llama-3.1-8B). – Управлять самим обучением. Тут немного конринтуитивно, но это работает как вакцина. Чтобы избавиться от нежелательных черт модели, нам нужно, наоборот, проактивно инъецировать их в нее на каждом шаге обучения. Конкретнее: на каждом шаге прямого прохода при обучении мы добавляем к активациям все то же α⋅v_ℓ, и получается, что градиенты по задаче next-token prediction накапливаются уже с учётом этого смещения; благодаря этому модель не должна самостоятельно перестраивать себя вдоль данного вектора персоны v_ℓ. Такой подход называется Preventative Steering, и это работает (и при этом надежнее, чем просто единоразовое подавление на инференсе).

В общем, в этот раз у Anthropic получилась исключительно интересная и многообещая работа, давненько такого не было. Будем следить, и, конечно, советуем почитать полностью 👇 Блогпост | Статья

90 933

HR из Meta поделился обыденной историей о том, как сейчас происходит найм в компании

«В основном я занимаюсь расчетом с персоналом. Работа спокойная. Стабильная. Сегодня ко мне попал оффер с компенсационным пакетом база + бонус + капитал. На первый взгляд выглядит нормально. А затем я открыл детали. 1 000 000 000 долларов. более четырех лет. плюс подпись. минимум за 1 год: 100 млн долларов. Я смотрю на это, как на опечатку. Проверил имя. Трижды проверил грейд. Исследователь. Окей, теперь мне нужно ввести это в систему. Вставляю число, поле выдает ошибку. «Значение должно быть меньше 99 999 999 долларов». Лол. Попробую разделить. Не выходит. Попробую записать экспонентой. Не выходит. система не может ОБРАБОТАТЬ миллиард долларов. Я звоню кому-то из отдела по начислению зп. Говорю им, что у меня компенсационный пакет из 10 цифр. Они думают, что я шучу. Я пересылаю оффер. Они замолкают. Следующее, что я помню, — это то, что в теме оказался глава администрации Цукера. Теперь я работаю с Цуком. Из-за числа. А затем я узнаю, что парень просто отклонил оффер. просто сказал нет. никаких переговоров. никаких возражений. просто... нет. Этот человек отказался от миллиарда долларов так же, как отказался от десерта. Я закрываю тикет. Удаляю черновик. И все переосмысливаю»

Стоит ли это как-нибудь комментировать?

90 933

Вот так новости: независимые аналитики опубликовали отчет, в котором показано, что около 29% ответов на вопросы по биологии и химии в бенчмарке «Humanity’s Last Exam» содержат ошибки и напрямую противоречат рецензированной научной литературе Если все так, то это буквально катастрофа для репутации бенчмарка и создателей, потому что HLE уже довольно долго используется как золотой стандарт по вопросам уровня PhD. Причем тест-то составлял не кто-нибудь, а международный консорциум экспертов из разных областей. Так почему же так могло произойти? 1. Когда эксперты проверяли ответы, на каждый отводилось не более 5 минут. То есть даже если ответ был спорным, или тема требовала более глубоко погружения, им все равно давалось не более пяти минут, чтобы принять решение. 2. Вопросы в целом формулировались так, чтобы ИИ не мог просто зазубрить ответы на них, поэтому в бенче часто встречаются задачки с подвохом или размытыми формулировками. А такие часто очень сложно верифицируемы. В общем, мудрили-мудрили и где-то перемудрили. Хотелось бы сказать, что бенч просто требует небольшой доработки, но 30% – это прямо много. Тут уже нужно основательно переосмыслять процедуру. Сам отчет -> www.futurehouse.org/research-announcements/hle-exam

90 933

The Information выпустили интересную статью про то, с какими неприятностями столкнулись OpenAI, разрабатывая GPT-5 Она так и называется: «Inside OpenAI rocky path to GPT-5». Короче, как оказалось, модель далась стартапу ну очень нелегко. По порядку: ⚪️ В начале 2024 года стартап очень много времени и средств потратил на разработку модели Orion. Именно она изначально и должна была стать нашей GPT-5. ⚪️ Но OpenAI столкнулись сразу с несколькими проблемами: во-первых, после обучения GPT-4 у компании фактически закончились качественные данные. Во-вторых, методы RL при масштабировании начали вести себя нестабильно. В-третьих, отдача от увеличения мощностей начала резко снижаться, в обход классическим законам скейлинга. ⚪️ В общем, революции не случилось и Orion в итоге вышел под именем GPT-4.5. ⚪️ После этого некоторые проблемы OpenAI частично решили. Например, они разработали мощный внутренний верификатор, который оценивает корректность данных и ответов моделей. Теперь инструмент работает и в RL-пайплайнах, и в процессах генерации синтетики. ⚪️ Тем не менее, проблемы с масштабированием сохраняются. Дальнейшее обучение требует все больше вычислительных и человеческих ресурсов, косты растут, а отдача в ряде экспериментов падает. Так что да, улучшения будут и они будут значительные, НО настолько радикальных различий, как между предыдущими поколениями моделей, ожидать не стоит. Эх 😢

90 933

Anthropic отрубили OpenAI доступ к API своих моделей из-за «нарушения условий предоставления услуг» Причина проста: по мнению Anthropic, OpenAI подключили API Claude Code к своим внутренним инструментам, чтобы их инженеры могли использовать его в процессе разработки GPT-5 для написания кода. А это прямое нарушение условий: в соглашении об использовании прописано, что клиентам запрещено использовать сервис для «создания конкурирующего продукта или сервиса, в том числе для обучения конкурирующих моделей ИИ». OpenAI же говорят, что использовали API только для бенчмаркинга и оценок безопасности (чтобы сравнивать со своими новыми моделями). А это уже стандарт индустрии, и так делать, естественно, никто не запрещает.

Мы уважаем решение Anthropic закрыть нам доступ к API, но это разочаровывает, учитывая, что наш API остаётся им доступным, – сказала Ханна Вонг, директор по коммуникациям в OpenAI.

Нам показалось, или обстановка накаляется? 🍿

90 933

Модель Gemini 2.5 Deep Think стала доступна пользователям Это та самая модель, которая выиграла золотую медаль на IMO. По метрикам: – Почти 35% на Humanity’s Last Exam против 21.6 у Gemini 2.5 Pro и 20.3 у o3 – 87.6% на LiveCodeBench против 72 у o3 – 99.2% (почти абсолют!) на AIME 2025 против 89 у o3 Короче, достойно. По выделяемому компьюту ризонинга это конечно не те мощности, с которыми модель выиграла золото (конкретно эту версию выдали пока только небольшой группе математиков), но даже в этой конфигурации она нарешивает IMO на бронзу. Тоже неплохо. Работает Deep Think благодаря «параллельному мышлению». То есть запускается несколько потоков ризонинга, в которых пробуются разные гипотезы, а затем лучшие результаты комбинируются в конечный ответ. Google пишут, что чтобы научить модель такой параллельности, они разработали «новые методы обучения с подкреплением». Единственный нюанс: чтобы получить доступ к модельке, заплатить придется 250 долларов. Ее, к сожалению, завезли только в подписку Google AI Ultra. Карта модели | Блогпост

90 933

13 и 14 сентября: E-CODE от Ozon Tech Команда разработки ведущего e-com страны приглашает на одно из самых ярких событий в IT — E-CODE. Это не просто конференция, событие или тусовка. Это два дня в атмосфере бигтеха: эксперты в технологиях, дата-инженерии и e-com, талантливые руководители и знаковые лидеры индустрии — такой нетворк важен каждому. Приходите учиться, общаться и отдыхать с теми, кто говорит на вашем языке. Москва, Loft Hall. Зарегистрироваться.

90 933

На Hugging Face заметили «случайный» слив весов открытой модели OpenAI Висели они там всего пару минут, но шуму навели будь здоров. Что известно: – Модели называются OSS-20B и OSS-120B – Та, что побольше – MoE (4 эксперта на токен), запускается на одной H100 – Контекст 128к токенов Маркетинг в стиле OpenAI. Вы, кстати, больше ждете опенсорс или GPT-5?

90 933

Google показали свою очередную Alpha<вставьте любое слово> На этот раз это модель для точнейшего моделирования ландшафта Земли – AlphaEarth. Звучит с первого взгляда игрушечно, но на самом деле это система с очень мощным практическим применением. Для чего это, по сути, нужно: ➖ Вообще карты Земли составляются так: берется куча снимков со спутников, замеров лидаров и прочих данных, а потом все это очень-очень долго обрабатывается и сопоставляется. ➖ «Очень долго», потому что половина из доступных снимков – это мусор. На некоторых облака, на некоторых ночь, а с разных устройств необходимые кадры вообще сняты под разными ракурсами и углами. ➖ В ручную процесс занимает просто уйму времени. А Google научили свою модель разбираться в этом всем автоматически и довольно быстро. То есть AlphaEarth принимает на вход огромные массивы шумных данных, мэтчит их, достраивает картинки там, где есть белые пятна (сопоставляя разные снимки одной и той же местности), накладывает на это все данные с радаров и в итоге для каждого кусочка земли 10х10 метров на выход отдает готовый эмбеддинг. А уже этот эмбеддинг можно дальше отдавать на вход любой ML-системе. Например, для предсказания погоды или отслеживания каких-то изменений. Внутри у такого вектора спрятана информация о рельефе, высоте, типе местности, сезонности, климате, влажности и тд и тп. А если прикрутить такое к LLMке, то представьте, насколько более продвинутыми могут стать геологические рисерчи, путешествия, да и в целом ориентация в пространстве. В общем, Google, как всегда, знают куда целятся deepmind.google/discover/blog/alphaearth-foundations-helps-map-our-planet-in-unprecedented-detail/

90 933

OpenAI избавились от фичи, которая делала чаты пользователей видимыми для поисковиков На днях разразился настоящий скандал: выяснилось, что некоторые разговоры с ботом, которыми пользователи делились по ссылкам вроде как частным образом, становились видимыми для поисковых систем и начинали появляться в поисковой выдаче. Как оказалось, это был не баг, а фича. Точнее, как пишет директор по инфобезу OpenAI, «краткосрочный эксперимент, призванный помочь пользователям находить полезные чаты». То есть то, что некоторые зашаренные беседы были проиндексированы поисковиком – это не случайность: пользователи сами давали на это согласие, если во время создания ссылки на чат устанавливали флажок «Разрешить показывать в поиске». Тем не менее, после шумихи в СМИ куча людей все равно остались недовольны и обвинили OpenAI. Потому что кто вообще читает эти флажки, правильно? Короче, эксперимент не удался (хотя идея была неплохая, ведь в чатах часто действительно куча полезного контента). Теперь OpenAI откатывает фичу и начинает процесс по удалению из индексации всех уже провалившихся туда чатов. Даже немного жаль.

90 933

О, Google уже проиндексировал страницу с документацией GPT-5 Пока она приводит к 404, но мы то с вами знаем, что индексация обычно не бывает случайной 🤔

90 933

Пекин вызвал Дженсена Хуанга на ковер из-за проблем с безопасностью в чипах Nvidia Сообщается, что какие-то американские эксперты (кто именно, не уточняется) нашли в видеокартах H20 некие уязвимости (какие именно, также не уточняется), из-за которых можно отслеживать местонахождение чипов и удаленно отключать их. Никаких официальных доказательств такого функционала никто не предоставил и эксперты по кибербезу сразу сказали, что это какой-то бред. Но суть в том, что H20 производятся специально для китайского рынка и это чуть ли не единственные видеокарты, которые Вашингтон официально разрешает поставлять в КНР. Так что, понятное дело, в Китае перепугались, и вызвали представителей Nvidia в суд для выяснения обстоятельств. Дженсен Хуанг в ответ на обвинения заявил, что никаких бэкдоров в его продуктах нет и в помине, и что он, вообще-то, очень благоволит китайскому рынку. И видимо, в суде ему поверили, потому что заказ на 300 000 видеокарт для Китая, который Nvidia недавно разместили на заводе TSMC, все еще в силе. Теперь интересно, кем же были те самые «американские эксперты», которые так желают Nvidia процветания