Data Secrets

Відкрити в Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Сітка:AI Insider Росія6 159 Технології та додатки1 396...

📈 Аналітичний огляд Telegram-каналу Data Secrets

Канал Data Secrets (@data_secrets) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 90 923 підписників, посідаючи 1 396 місце в категорії Технології та додатки та 6 159 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 90 923 підписників.

За останніми даними від 02 липня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 682, а за останні 24 години на 66, загальне охоплення залишається високим.

Статус верифікації: Верифікований (Офіційно підтверджено Telegram)
Рівень залученості (ER): Середній показник залученості аудиторії становить 25.82%. Протягом перших 24 годин після публікації контент зазвичай збирає 18.73% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 23 466 переглядів. Протягом першої доби публікація в середньому набирає 17 021 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 304.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як claude, openai, контекст, стартап, llm.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

Завдяки високій частоті оновлень (останні дані отримано 03 липня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

90 923

Підписники

+6624 години

+2297 днів

+68230 день

23 466

Перегляди допису

~ 17 02124 години

~ 18 81848 годин

25.82%

Коефіцієнт залучення

~ 4

Дописів на день

Ads index

beta

Архів дописів

90 925

Пользователи настолько перегрузили Claude Code, что Anthropic пришлось ввести новые недельные лимиты Они говорят, что изменения спроектированы так, что затронут только небольшой процент пользователей. Например, по их словам, есть те, кто использует Claude Code 24/7 и сжигает десятки тысяч долларов в тарифе за 200$ (признавайтесь, кто из вас?). Другая группа тех, кому мы обязаны новыми лимитами, – это пользователи, которые шарят аккаунты с друзьями и коллегами или перепродают доступ. Если вы не относитесь ни к тем, ни к другим – лимиты не должны вас затронуть. Однако все-таки, для информации: – Для Pro: 40-80 часов Sonnet 4 в неделю – Для Max за 100$: 140-280 часов Sonnet 4 и 15-35 часов Opus 4 – Для Max за 200$: 240-480 часов Sonnet 4 и 24-40 часов Opus 4 Все лимиты указаны только в рамках Claude Code. В чате они другие. Изменения вступят в силу 28 августа. И да, конечно далеко не все восприняли новую политику с пониманием. Многие жалуются, что цены на тарифы у Anthropic и так неоправданно дорогие, чтобы еще и вводить дополнительные лимиты, и что это просто очередная акция вытягивания денег с пользователей.

90 925

Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLM Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам. Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут или загляните в наш коспект в раздел "Обучение с подкреплением". GRPO работает здорово и довольно стабильно, но на уровне токенов. То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов". А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику. В чем преимущество такого подхода? 1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки. 2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие показатели при тех же ресурсах. 3. Инженерно реализуется гораздо проще. Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе). Статью полностью читаем тут

90 925

В Китае развернули масштабную переделку игровых GeForce RTX 5090 в видеокарты для ИИ Новостям про то, как в КРН справляются с экспортными ограничениями на железо, просто нет конца. Но в этот раз они превзошли сами себя. Оказалось, что на заводах в Шэньчжэне работают уже целые автоматизированные линии, которые пачками перерабатывают оригинальные RTX 5090. Их разбирают и извлекают чипы GPU GB202 и память GDDR7, которые затем переустанавливаются на новые двухслотовые платы. Добавили серверное вентиляторное охлаждение, 16-контактный разъём питания – и, считай, готово. Дополнительно так называемые 5090 Turbo еще проходят краш-тесты, чтобы отсеить непрочные кристаллы. Оставшиеся уже отправляются в дата-центры. И кстати, полноценные RTX 5090 уже ввозить в Китай нельзя: официально разрешены только ослабленные RTX 5090D, в которых аппаратно ограничены вычисления для ИИ. Так что даже для того, чтобы вот так переделывать видеокарты, их сначала надо обходными путями доставить из Сингапура, ОАЭ и пр. Видят цель – не видят препятствий

90 925

Начинаем понедельник с ✨интересных фактов✨ Мы в сегодня лет обнаружили, что термин «галлюцинации» тоже придумал Андрей Карпаты. Почти все знают, что именно он ввел в эксплуатацию «вайб-кодинг», но это то было относительно недавно, – а вот корни «галлюцинаций» уходят еще в 2015 год. Оказывается, тогда термин был впервые использован в известной статье “Unreasonable Effectiveness of RNNs” (ссылка), и с тех пор разлетелся по комьюнити, ну а дальше – в глобал. Сам Андрей, кстати, пишет, что он «нагаллюцинировал это понятие» 👓

90 925

Еще одна очень громкая статья последних дней – AlphaGo Moment for Model Architecture Discovery TL;DR: ученые представили первую в мире систему, автономно генерирующую новые рабочие архитектуры ИИ -> проверили ее на на 20 000 GPU‑часах -> открыли закон масштабирования, который говорит, что количество обнаруженных архитектур растёт линейно по мере увеличения числа ресурсов. После выхода AlphaEvolve ученые всё больше и больше говорят о том, что пора нам переходить от NAS к ASI4AI: то есть от классического Neural Architecture Search, ограниченного человеческим фактором, к ИИ, который улучшает ИИ, который улучшает ИИ, который .... Ну вы поняли. История действительно перспективная (и в том числе эта статья это подтверждает). Ведь способности ИИ по законам масштабирования растут экспоненциально, но в то же время скорость исследований остаётся линейной из‑за ограничений человеческого внимания и времени. Парадокс. Ну так вот. Сама архитектура ASI‑ARCH из статьи состоит из трех модулей: Researcher, Engineer и Analyzer. Один генерирует гипотезы и "ТЗ", другой пишет код и собирает метрики, третий анализирует результаты. Долго останавливаться на архитектуре не будем, тут самое интересное – результат. Было проведено 1 773 эксперимента на 20 000 GPU‑часах, в результате обнаружено 106 новых SOTA архитектур (это линейная зависимость). Под SOTA тут, кстати, подразумеваются именно линейные модели (НЕ трансформер), которые демонстрируют лучшие метрики в своем классе. При этом в итоговых архитектурах действительно присутствуют какие-то непривычные конструкции. Отсюда и название – исследователи проводят прямую аналогию с ходом 37 AlphaGo в матче с Ли Седолем и говорят, что это яркий показатель способности системы находить прорывные идеи, а не просто подражать. arxiv.org/pdf/2507.18074

90 925

Ничего необычного, просто а Твиттере вспомнили, как в 2022 году после запуска ChatGPT кто-то сказал Альтману, что это худший из возможных концептов ИИ-продукта Вот бы распечатать – и на стенку в офисе OpenAI

90 925

Learning without training: разбираем новую крайне интересную статью от Google Смотрите, все мы знаем, что если модели в промпте показать несколько примеров решения похожих задач, то она может легко подхватить паттерн, и качество ответов станет лучше. При этом веса модели, естественно, не меняются. Это называется in‑context learning (ICL), но вот вам fun fact: никто до сих пор до конца не знает, почему это работает, и как трансформер это делает. И вот в этой статье авторы предлагают почти революционную гипотезу – что на самом деле веса меняются, просто иначе, чем мы привыкли. То есть на самом деле внутри блока трансформера происходит нечто похожее на файнтюнинг, только не через градиенты, а за счёт самой механики self‑attention и MLP. Идея сводится к следующему: 1. Контекст порождает локальные изменения активаций, и когда вы добавляете примеры в промпт, self‑attention пересчитывает эмбеддинги токенов так, что после этого они зависят от всего контекста. Разницу между «чистыми» активациями и активациями с учётом примеров можно назвать контекстным сдвигом. Это все известные вещи. 2. А вот дальше зарыта собака: оказывается, MLP превращает этот контекстный сдвиг в ранг‑1 обновление весов. Иначе говоря, если посмотреть на первый линейный слой MLP (матрицу W), то влияние дополнительных примеров эквивалентно тому, что эту самую матрицу дополняют маленькой поправкой ранга 1. Причем эта поправка описывается достаточно простой формулой. То есть если мы берем оригинальные веса и вручную добавляем к ним эту поправку, модель без без контекста выдаст то же самое, что и оригинал с контекстом. Но всё это происходит во время инференса, без обратного прохода и без изменения глобальных моделей параметров. Получается, Google буквально дают ключ к возможному обучению без градиентного спуска. Если такие ранг‑1 апдейты научиться усиливать или контролировать, это может быть началом абсолютно новых архитектур. Почитать полностью можно тут -> arxiv.org/abs/2507.16003 (осторожно, много математики)

90 925

Meta* наконец-то нашли себе Chief Scientist в новое подразделение Superintelligence Lab Им станет Shengjia Zhao, который пришел из OpenAI. Там он работал над обучением GPT-4, o1, o3, GPT-4.1 и других моделей, а также возглавлял направление synthetic data. А еще он вместе с Яном Лейке, Джоном Шульманом и другими звездами OpenAI (в его лучшие годы) был соавтором оригинальной статьи “ChatGPT: Optimizing Language Models for Dialogue”. Кстати, в прошлом Shengjia Zhao также работал в МТС. Пруфы – на второй картинке

90 925

О, на всеми любимом YouTube канале 3blue1brown впервые за долгое время вышло новое видео Тема: диффузионные модели За 40 минут автор в фирменном мультипликационном стиле буквально раскладывает по полочкам, как работают современные генераторы картинок и видео. Сначала – основы. CLIP, эмбеддинги, скрытые пространства, архитектура ванильных диффузионных моделей. А потом уже рассказывается и про DDIM, и про устройство Dall E 2, и про conditioning, и про многое другое. В общем получился довольно подробный ролик. Тем, кто в генерации новичок, посмотреть точно стоит. Профессионалам тоже советуем – чисто насладиться эстетикой 😍 youtu.be/iv-5mZ_9CPY

90 925

В Авито появился управляющий директор по искусственному интеллекту — Андрей Рыбинцев, руководитель ИИ-направления с десятилетним стажем, теперь входит в правление. Также будет создан новый кластер AI Experience, развивающий ассистентов на основе Gen AI. Так компания подчеркивает, что ИИ теперь — ключевой драйвер развития. Фокус — масштабирование собственных моделей (A-Vibe, A-Vision), развитие генеративных ассистентов и построение агентских ИИ-систем. По прогнозам, GenAI принесет компании не менее 21 млрд ₽ допвыручки к 2028 году. «Задача моей команды — масштабировать уже работающие решения и внедрить новые технологии, которые будут ощутимы для миллионов пользователей и тысяч бизнесов по всей стране»», — отметил Рыбинцев.

90 925

POV: я и новый агент ChatGPT, которого я попросил заработать мне миллион к концу дня P.S. Кстати, агента сегодня раскатили на всех Plus пользователей: самое время попробовать

90 925

Есть две новости, хорошая и плохая Плохая: вчера официально прекратилась поддержка замечательного проекта Papers With Code, которым многие из нас, несомненно, часто пользовались. Хорошая: на HuggingFace только что появилась отличная замена. HF специально объединились с Meta* и командой PWC и сделали нам свежий раздел «Trending Papers». Там также, как и на привычном Papers With Code, будут статьи и код для них + работы будут дополнительно сортироваться по популярности и новизне. Есть настроение что-то прочитать -> зашел -> сразу увидел топ-5 или 10 самых трендовых статей -> выбрал по вкусу -> изучил -> тут же поэкспериментировал с готовым кодом. Приятно же, ну? huggingface.co/papers/trending

90 925

Qwen только что релизнули свою новую ризонинг-модель Буквально несколько дней назад они заявили, что теперь будут выпускать ризонеры и не-ризонеры отдельно (вместо гибридных моделей), показали свежий чекпоинт не рассуждающего Qwen3-235B-A22B, и пообещали скоро вернутся с ризонинг-моделью. Ждать пришлось недолго и скоро наступило спустя пять дней (учитесь, OpenAI и xAI). Только что стартап поделился моделью Qwen3-235B-A22B-Thinking-2507. Название – язык сломаешь, зато метрики стоящие. На многих тестах модель обгоняет Gemini 2.5 Pro, o4-mini и свежую версию R1. То есть мало того, что это новая опенсорс SOTA. Это вполне себе уровень frontier модели. Мед. Контекст – 256к токенов. Попробовать модель уже можно в чате или через API (стоит 0.7$ и 8.4$ соответсвенно за input и output, у провайдеров, скорее всего, будет дешевле). Веса лежат тут.

90 925

Просто ученый в X поделился своим реальным ревью на статью с NeurIPS Кто-нибудь знает Адама? 🤔

90 925

⚡️ GPT-5 выйдет до конца лета Сразу несколько изданий сообщают, что OpenAI (спустя кучу месяцев задержек) релизнут модель уже в августе. Она, как и ожидалось, должна заменить многие модели из разросшегося списка OpenAI: будет сочетать в себе и характеристики обычной модели, и ризонинг o3, и агентские способности. Причем выйдет модель в трех форматах: просто GPT-5, GPT-5 mini и GPT-5 nano. Первые две будут доступны в чате, последняя – только в API. Альтман говорит, что GPT-5 будет прорывом, и первые тестеры, вроде как, от модели в восторге. Но давайте не будем торопить события и дождемся, пока попробуем все сами. А, и кстати, по поводу открытой модели OpenAI: она тоже должна выйти в ближайшее время. Возможно даже до GPT-5, или же сразу следом.

90 925

Google выпустили ИИ-систему, которая помогает историкам интерпретировать древние шифры и надписи Разного рода письмена встречались в древних государствах повсеместно, и при раскопках их находят очень часто. Но это могут быть как надписи с памятников или важные исторические заметки, так и просто приглашения на день рождения или любовные письма. Интерпретировать подобное без контекста бывает просто невероятно сложно: в основном сделать это можно только за счет поиска уже расшифрованных текстов, похожих на данный синтаксисом, стилем, местом раскопки и пр. И как раз Aeneas, который показали Google, может справляться с этим лучше людей, потому что историки тратят месяцы, сопоставляя шифры, а ИИ это делает за минуты. Также система умеет понимать рисунки и восстанавливать пропавшие кусочки текста, при этом впервые в мире даже в условиях, когда длина потерянного куска неизвестна. Архитектура такая: decoder-only трансформер для обработки текста, ResNet для картинок, отдельные feed forward слои для определения даты, места и недостающих кусочков + обычное векторное сходство по эмбеддингам для поиска похожих текстов. Учили все на огромном кастомном датасете латинских текстов. По метрикам – SOTA (да, лучше людей), и самое крутое, что Google сразу дают исследователям свободный доступ к инструменту (predictingthepast.com), а код и данные выкладывают в опенсорс. Кстати, вот вам небольшая историческая справка: названа система в честь героя греческой мифологии Энея. Он был странником и героем Троянской войны, а еще предком основателей Рима Ромула и Рема.

90 925

Meta* выпустили ИИ-девайс для бесконтактного управления компьютером Выглядит это как браслет, который трекает ваши жесты (свайпы, тапы, письмо в воздухе, движения для управления курсором) и синхронизирует их с ПК. Из железа там, по сути, просто чувствительные сухие электроды, которые ловят MPF-активность руки. А вот с ML частью все гораздо интереснее. Во-первых, для каждой разновидности жестов работает отдельная модель. – Для контроля запястья (курсор) отрабатывает слой LSTM, который ловит временные зависимости. – Для дискретных жестов там сверточный 1D‑слой, затем три рекуррентных слоя LSTM и финальный классификатор – Для воздушного письма все ожидаемо сложнее, тут уже Conformer (конволюционно‑трансформерный блок с механизмом внимания) Накрученно, зато получается хорошая точность (> 90%) и отличная скорость. А если добавить примерно 20 минут собственных данных, то ошибка становится вообще минимальной. Кажется, у Neuralink образовался конкурент?

90 925

В странное время живем: крупнейшая ML-конференция ICML добавила следующий пункт в свой кодекс этики подачи статей ⬇️

«Подача статьи со «скрытым» промптом является нарушением научной этики, если этот промпт предназначен для получения положительного отзыва от LLM. Включение такого промпта является попыткой саботировать процесс рецензирования»

Фишка тут в том, что рецензентам ICML в то же время строго запрещено использовать LLM для написания рецензий. Но организаторы говорят, что это правило не оправдывает подобного рода саботаж и проводят аналогию с ситуацией, когда автор, пытающийся подкупить рецензента за положительный отзыв, также нарушает правила, хотя рецензент не имеет права брать взятки. При этом, что самое интересное, какие-то скрытые промпты все-таки оставлять можно. Например, если они предназначены для выявления использования рецензентами LLM – это ок. Правило, ясное дело, взято не из воздуха, а продиктовано реалиями рисерча: в последнее время статей с именно такими скрытыми ~~заговорами~~ промптами на положительные рецензии обнаружилось слишком много, чтобы игнорировать тренд.

90 925

Двое случайных ученых из университета Лос-Анжелеса повторили результат Google с золотой медалью IMO с помощью обычной Gemini 2.5 Pro Напоминаем, что и у OpenAI, и у Google в IMO участвовали невыпущенные экспериментальные ризонинг модели. Помимо гигантского бюджета ризонинга (представьте, как долго модель рассуждала, если решала 5 задач 9 часов), они были, скорее всего, специально дообучены и задизайнены под IMO. А тут выходит статья, в которой ученые заявляют, что добились той же золотой медали с обычной Gemini 2.5 Pro. Ловкость рук и никакого мошенничества: все получилось только благодаря промптингу и аккуратному построению пайплайна. А пайплайн был вот такой, трехступенчатый: 1. Генерация решения по жёсткому промпту, требующему строгости и TeX-оформления каждого шага (полный системный промпт авторы приложили к статье, так что пользуйтесь). 2. Дальше модель получает доп.токены ризонинга, на которые сама же анализирует свой вывод, дополняет недостающие части и углубляет доказательство. 3. Верификация: независимый верификатор (та же Gemini 2.5 Pro, но другой экземпляр) шаг за шагом проверяет доказательство, ищет ошибки, пробелы в обосновании и прочее. Если найденные ошибки валидные, они исправляются, и дальше все идет по кругу. Если после пяти таких итераций верификатор (кстати, для него системный промпт тоже зашерили) не находит ошибок, решение принимается. Иначе все заново, но с другой исходной гипотезой. Итог: из шести задач IMO 2025 модель полностью решила пять. Столько же решили те самые экспериментальные модели OpenAI и Google ⌨️ И что самое главное – результат воспроизводимый. Авторы указали все гиперпараметры, которые использовали, перечислили детали запуска пайплайна, дали все системные промпты. Бери и пользуйся.

90 925

Продолжаем нашу постоянную рубрику: Meta* переманила троих ученых из DeepMind Причем не просто каких-то специалистов, а именно тех, кто работал над той самой моделью, которая на днях выиграла золотую медаль на IMO. Из имена: Тяньхэ Юй, Космо Ду и Вэйюэ Ван. Гонорар за переход неизвестен, но, предположительно, немаленький. А теперь представьте, если после всего этого Llama-5 окажется такой же шляпой, как Llama-4 😐