Data Secrets

Ir al canal en Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Red:AI Insider Rusia6 141 Tecnologías y Aplicaciones1 388...

📈 Análisis del canal de Telegram Data Secrets

El canal Data Secrets (@data_secrets) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 90 966 suscriptores, ocupando la posición 1 388 en la categoría Tecnologías y Aplicaciones y el puesto 6 141 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 90 966 suscriptores.

Según los últimos datos del 04 julio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 731, y en las últimas 24 horas de 34, conservando un alto alcance.

Estado de verificación: Verificado (confirmado oficialmente por Telegram)
Tasa de interacción (ER): El promedio de interacción de la audiencia es 25.92%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 18.76% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 23 574 visualizaciones. En el primer día suele acumular 17 065 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 304.
Intereses temáticos: El contenido se centra en temas clave como claude, openai, контекст, стартап, llm.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 05 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

90 966

Suscriptores

+3424 horas

+2257 días

+73130 días

23 574

Visitas de la publicación

~ 17 06524 horas

~ 18 79748 horas

25.92%

Tasa de compromiso

~ 4

Mensajes por día

Ads index

beta

Archivo de publicaciones

90 954

Intellect-2 или как обучить ризонинг модель на 32В без кластера GPU Помните, примерно пол года назад мы рассказывали вам, как в стартапе Prime Intellect впервые децентрализованно обучили крупную LM? Так вот теперь исследователи пошли дальше и обучили уже не просто какую-то LM-ку, а достаточно крупный ризонер. И все еще – без собственных видеокарт. Все обучение проходило децентрализовано, то есть на серверах (часто домашних), разбросанных по всему миру и принадлежащих разным людям. Подключить свою машину, кстати, мог любой желающий. В области RL такое впервые. Проект, конечно, очень инженерно сложный. Например, вместо обычного RL исследователям пришлось мучиться с асинхронным, а обмен весами осуществлять по специальному протоколу Shardcast. Сами разработчики говорят, что они стремятся к чему-то типа модели Биткоина: чтобы ИИ был полностью децентрализован, и обучать модели мог каждый желающий. Ждем Airbnb для GPU

90 954

Яндекс проводит митап Welcome Time для дата аналитиков На встрече можно будет послушать про устройство процессов аналитики в компании и заочно пройти техническое собеседование. В программе: ➖ Рассказ о том, как под капотом устроена аналитика Поиска и YandexGPT ➖ Детали об аналитике срезов и специфике аналитики доли и дистрибуции ➖ Нетворкинг и диагностика навыков аналитики и математической статистики Если пройдете диагностику успешно – в течение двух лет тест можно будет засчитать как техническую секцию собеседования в Яндекс. Кстати, сейчас Поиск с Нейро – самый широко используемый сервис Яндекса. Это очень сложный и высоконагруженный сервис, который всегда обновляется и нуждается в идеях. Для его развития постоянно нужны новые идеи (возможно, именно ваши). Welcome Time пройдет оффлайн, 17 мая в 12:00. Место – штаб-квартира Яндекса «Красная Роза» (Льва Толстого, 16). И не забудьте зарегистрироваться!

90 954

Журналисты раскритиковали стиль управления Альтмана на основании того, как он… готовит Нет, это не шутка. На выходных вышел еженедельный выпуск кулинарного шоу от Financial Times, гостем стал Сэм Альтман. У себя на кухне он вместе с журналистом готовил обычную овощную пасту. Казалось бы, ничего не предвещало беды. Но вчера у того же FT внезапно вышла статья, в которой они в пух и прах раскритиковали CEO на основании его… кухни. Вот что пишут: ➖ Альтман неправильно использует оливковое масло. Оно у него якобы очень распиаренное и дорогое (21$), но он на нем жарит, а так делать «нельзя». Весь вкус, мол, теряется, и пользы от дорогого продукта становится не больше, чем он самого дешевого. ➖ На кухне стоит кофемашина за 2к долларов. Опять же очень распиаренная но, по словам журналистов, абсолютно бесполезная и глючная. Они называют эту вещь «деньгами на ветер» и «самой глупой покупкой». ➖ Ну и финалочка: журналистов не устроил нож. Он тоже выглядит дорогим и даже сделанным на заказ, но предприниматель «абсолютно не умеет им пользоваться». В общем, Альтмана обвинили в том, что он транжира, жертва маркетинга и вообще не умеет управлять ни кухней, ни компанией. «Его кухня – это мир неэффективности и непонимания. Сжигание денег это основа его жизни и его бизнеса» Вот так и зови к себе журналистов на обед 🤷‍♂️

90 954

LLM превзошли врачей на новом бенчмарке OpenAI по медицине HealthBench вышел вчера и состоит не просто из вопросов, а из синтетических диалогов между ассистентом и пользователем. Каждый такой диалог заканчивается сообщением пользователя, на который уже тестируемая модель должна ответить. Таких диалогов аж 5000 и они разрабатывались совместно с 262 врачами из 26 разных областей. Ответы оцениваются по пяти осям: точность, полнота, понимание контекста, качество коммуникации и следование инструкциям. Вот какие результаты получились: ➖ Самой эффективной моделью оказалась o3 с результатом 60%. Сразу за ней Grok-3 (54%) и Gemini 2.5 Pro (52%) ➖ У живых врачей результаты сильно ниже. Без опоры на ИИ-ответы люди набирают около 13%. ➖ При этом люди затрудняются даже улучшить ответы ИИ. Смотрите график 3: если дать медикам посмотреть на несколько ответов моделей из сентябрьского поколения и попросить написать на их основе идеальный ответ, люди улучшают средний скор на несколько процентных пунктов (0.31 против 0.28). Но с новыми апрельскими моделями так уже не работает: люди только ухудшают ответы ИИ (0.48 против 0.49). Кстати, еще менее года назад GPT-3.5 Turbo выбивал всего 16%. Интересно, что будет еще через год. cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

90 954

Китайский агент Manus с сегодняшнего дня открыт для всех без листа ожидания Про самого агента и его особенности мы писали вот тут. Напоминаем, что это реально автономный и универсальный ИИ-агент, который по сути представляет из себя Cursor, Operator и Deep Research а одном флаконе. Кроме того, агент частично бесплатный: каждый день они выдают по 300 кредитов на пользователя (это примерно одна задача средней сложности), а при регистрации единовременно начисляют 1000 кредитов. Пробуем первыми тут

90 954

Помните новость о том, что OpenAI планирует резко срезать долю выручки, которую делит с Microsoft? Так вот теперь вспыли новые подробности о том, что одновременно с этим OpenAI также ведет с теми же Microsoft переговоры о... новом раунде инвестиций 🤑 Да, хорошо устроились. Но это не все. Кажется, что Microsoft (на сегодняшний день, к слову, они инвестировали в OpenAI уже более 13 миллиардов долларов) стоит перед не очень приятным выбором. После реструктуризации OpenAI они могут потерять либо доступ к интеллектуальной собственности стартапа (то есть к моделям), либо долю с выручку. И, кажется, Microsoft собирается отказаться от второго в пользу первого. Новый контракт с OpenAI, скорее всего, будет похож на тот, который они с Microsoft заключали в 2019, когда гигант только вложил первый миллиард в стартап. Другими словами, Microsoft, вероятно, почти полностью откажется от доли в новом коммерческом OpenAI просто в обмен на доступ к новым технологиям, которые будут разрабатываться в OpenAI после 2030 года. Удачно вложились 🫡

90 954

Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP. За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!

90 954

Исследователи из лабы SakanaAI предложили новую архитектуру нейросетей, вдохновленную биологическими нейронными процессами – Continuous Thought Machine Кстати, SakanaAI – это та самая японская лаборатория, выпустившая ИИ-ученого, статья которого прошла рецензирование на ICLR воркшоп. Ну так вот ⬇️ Ключевая фишка CTM (Continuous Thought Machine) в наличии тиков мыслей. Аналогия с мозгом тут в том, что человек на самом деле не получает ответы за один "проход" по нейронам, как это делается, например, в трансформерах. Живые нейроны активны всё время, через миллисекунды после первого сигнала информация осмысливается глубже, подключаются новые области коры и тд. Это и называется "тик". В нейросетях один тик – это как бы один прямой проход. В трансформерах для получения ответа тик всегда один, а в CTM их может быть и 5, и 10, и 50. Модель сама решает, сколько ей нужно – в зависимости от сложности задачи. При этом проходы не независимые. Для каждого нейрона мы храним историю пред- и пост-активаций, чтобы он мог «смотреть» на свою динамику на предыдущих тиках. И, кстати, нейроны в CTM тоже необычные. Здесь это не просто сумма взвешенных входов, как в большинстве моделей, а самостоятельный мини-перцептрон (MLP). Все это тоже построено на аналогиях из биологии. Ну и еще одна ключевая особенность CTM – это синхронизация нейронов. В нейробиологии считается, что важны не столько независимые активации нейронов, сколько то, как и когда они активируются относительно друг друга. Нейроны, чьи осцилляции или пики потенциала происходят синхронно, чаще участвуют в совместной обработке информации. Поэтому здесь специально вычисляется так называемая матрица синхронизаций. Она показывает скалярные корреляции временных рядов активаций. Самые важные подмножества затем идут либо в слой внимания, либо напрямую проецируются в логиты. И да, все это вполне прилично (и иногда лучше классических архитектур) работает на классических задачах типа ImageNet-1K, CIFAR-10 и MNIST, а еще модель отлично решает лабиринты. В общем, работа большая и сложная, но в статье все расписано вполне доходчиво, так что советуем почитать полностью или полистать интерактивный репорт Код в опенсорсе, кстати

90 954

Пу-пу-пу, тот самый понедельник после майских. Чтобы немного поднять всем настроение, несем с утра приятную новость Пока все отдыхали на шашлыках, мы с командой торопились поскорее закончить для вас кое-что особенное. И это – большой конспект по большим языковым моделям. Внутри – все, что нужно, чтобы от А до Я понять, как работают современные LLM: – необходимая математика – механизм внимания и трансформеры со схемами и интуитивными примерами – все про предобучение – основы и алгоритмы RL + ризонинг – ... и даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель. По секрету: работа над конспектом заняла у нас больше месяца. 500 🔥 и завтра мы выложим сюда полную pdf-версию

90 954

Наткнулись тут на YouTube на речь Дженсена Хуанга в честь получения премии Эдисона Оказывается, предприниматель выиграл ее еще в апреле, но вручение произошло только на днях. Премия Эдисона – это очень престижная награда за самые важные и влиятельные коммерческие изобретения и проекты в мире. Ранее премию получали Стив Джобс, Илон Маск, Тед Тернер (основатель канала CNN) и другие. Кстати, в этом году Nvidia исполняется 32 года. Но Хуанг говорит, что ключевым моментом для компании стала «ставка на ИИ, сделанная 15 лет назад». youtu.be/j5jL5OM1hyk

90 954

Fun fact: ИИ сыграл немалую роль в выборе имени нового Папы Римского Как вы знаете, на днях в Ватикане выбрали нового Папу. Им стал 69-летний американец Роберт Фрэнсис Превост. В качестве папского псевдонима он выбрал имя Лео XIV, и неспроста. В обращении к Коллегии Кардиналов Папа объяснил, что имя Лео отсылает к Папе Льву XIII, который управлял церковью во время начала промышленной революции. Сейчас, по его мнению, нас ждет еще одна революция, и поэтому есть некоторая аналогия между ним и Львом XIII.

«В наши дни Церковь должна предлагать свое учение в ответ на еще одну промышленную революцию – появление искусственного интеллекта. Последние разработки в этой области ставят перед Церковью новые задачи по защите человеческого достоинства, справедливости и труда»

Кстати, новый Папа – математик. У него степень бакалавра по математике университета Вилланова и даже несколько опубликованных статей по статистике.

90 954

ByteDance выпустили Seed-Coder-8B – мини-модель для кодинга, по качеству превосходящую Sonnet 3.7 и o1-mini Модель вышла в трех версиях: Base, Instruct и Reasoning. Инстракт обходит почти все опенсорс аналоги в своем весе, а ризонинг бьет R1, o1-mini и Claude Sonnet 3.7 на IOI 2024. Контекст – 32к токенов. В реализации хочется отметить сбор данных. Пайплайн похож на подход DeepSeek на максималках. Для чистки сырых данных (репозитории, коммиты, код из общедоступного веба) почти все ручные фильтры заменили на единый LLM-фильтр. Для этого специально обучали небольшую модель оценивать читабельность, модульность, ясность, переиспользуемость и тд кода, а затем ее пропускали по датасету и она отбрасывала все самые "плохие" файлы. Так получилось выбросить примерно 10% датасета, то есть буквально кучу мусора. Датасет, к сожалению, не выложили. Зато все модели в опенсорсе. Тех.отчет | Репозиторий | Блогпост | Веса

90 954

«Сложно сказать, насколько мы еще опережаем Китай. Я думаю, ненамного» В сенате США вчера проводили слушание по вопросу укрепления позиций Америки в ИИ-гонке. В качестве свидетелей приглашали несколько представителей индустрии, в том числе Альтмана. Собрали интересные цитаты:

➖Мы убеждены, что OpenAI обладает лучшими моделями в мире. Тем не менее, очень сложно сказать, насколько мы опережаем Китай, но я бы сказал… ненамного. ➖ DeepSeek добился двух впечатляющих результатов: сильная опенсорс модель и приложение, которое а какой-то момент стало более скачиваемым, чем ChatGPT. Пока что DeepSeek не обогнал ChatGPT в качестве потребительского ИИ по умолчанию, но если бы это случилось, это было бы… плохо. ➖ В конечном итоге стоимость ИИ сравняется со стоимостью энергии. Роботы могут создавать чипы, оптимизировать сети, но электрон есть электрон. В конечном итоге интеллект будет масштабироваться настолько, насколько это позволит сеть. ➖ Скоро в истории человечества произойдут большие перемены. Эти системы способны на вещи, которые мы даже не можем себе представить. (Да, куда же без высказываний в стиле «да не маркетинг это»)

Если вдруг захотите посмотреть все 3 часа слушания, вот запись 😶

90 954

В Deep Research в ChatGPT добавили возможность интеграции GitHub То есть теперь можно присоединить к боту определенный репозиторий и задать по нему любой вопрос. Модель уйдет на несколько минут искать ответ, а после вернется с большим отчетом. Репорт, который будет отдавать модель, выглядит примерно так, то есть развернутое объяснение со ссылками на конкретные места в коде. Здорово, кстати, что ссылки – это значит именно переадрессация на определенные строки кода на гитхабе, а не просто скопированный в чат кусок файла. Так намного удобнее ориентироваться. Фичу раскатят на всех платных пользователей в ближайшие дни 🍯

90 954

Разбираем новую громкую статью «Absolute Zero Reasoner» про то, как дообучить модель вообще без данных Сейчас в рисерче наблюдается яркий тренд на максимальное сокращение количества данных для дообучения. Совсем недавно хайповала работа, в которой проводили RL для ризонинга всего на одном примере. А сейчас ученые вообще предложили способ полностью перейти на самогенерируемое обучение. То есть модель сама разрабатывает для себя учебную программу и задачи, решает их, проверяет и учится. Подробнее: ➖ У нас есть LLM, которую мы хотим дообучить. Но теперь она будет играть сразу две роли: Proposer и Solver. Proposer генерирует новые задачи, а Solver их решает. ➖ Так как роли две, обучается модель тоже "с двух сторон", то есть мы даем ревард как за решения, так и за сами задачи. r_solve – обычная бинарная награда за правильный ответ (решил - 1, не решил - 0). А вот r_propose – обучаемая награда, то есть она динамически зависит от того, насколько у солвера хорошо или плохо получается решать сгенерированные задачи. Цель тут – генерировать задачи средней сложности, не сильно простые, и не слишком хардовые. ➖ Обучается все с помощью Task-Relative REINFORCE++. Это авторская модификация PPO для учёта разных «задача + роль» конфигураций. Схемы обучения обеих ролей остаются полностью симметричными, но зато можно отдельно контролировать лернинг рейты или бейзлайны. В статье подход реализовывали только на задачах по программированию, чтобы ответы можно было проверять просто в интерпретаторе, без человеческой разметки. За основу брали Qwen2.5, и полученный AZR-Coder-7B показывает относительно базовой модели и других подходов очень неплохие приросты. От ванильного RL почти не остает, а участие человека сведено к минимуму. При этом и другие приятные плюшки RL сохраняются. Например, видны кросс-доменные приросты метрик по математике (хотя, повторимся, обучали все только на кодинге). Почитать полностью советуем здесь

90 954

Сэм Альтман и Грег Брокман поделились фото с масштабной стройки первого датацентра проекта Stargate (того самого, в который Америка вкладывает 500 миллиардов долларов) Альтман пишет, что это будет самый мощный вычислительный ИИ-кластер в мире 🔵

90 954

Вышла новая модель от Mistral – Mistral Medium 3. Что надо знать: ➖ Не опенсорс 😞 ➖ Зато отличное соотношение цена/качество. Цены: $0,4/M и $2/М. Это в разы дешевле многих передовых моделей. Например, в 8 раз дешевле Sonnet. ➖ По бенчмаркам соответствует Sonnet 3.7 и GPT-4o. На математике даже круче. ➖ Мультимодальность есть ➖ Контекст 128к токенов В целом, отличный уровень. Кстати, одновременно стартап показал новую версию своего чат-бота Le Chat для бизнеса. Туда добавили больше фичей с инструментами, веб-поиск, агента программиста и возможность интеграции любых источников данных компании.

90 954

Так-так: кажется, OpenAI больше не хочет делиться деньгами с Microsoft 💸 The Information пишет , что после реструктуризации OpenAI планирует сократить долю выручки, которую делит с Microsoft. Сейчас это 20%, и договор действителен до 2030 года. Но уже сейчас OpenAI говорит потенциальным инвесторам о том, что дальше они планируют делиться не более чем 10 процентами. Microsoft пока ситуацию не комментируют (ну еще бы)

90 954

Cognition Lab (разработчики Devin) выпустили модель для написания эффективных ядер CUDA Модель называется Kevin 32В, буквально K(ernel D)evin. Релиз, на самом деле, был бы не самый примечательный, если бы не техника: для дообучения инженеры завели RL с мультиступенчатым фидбэком от среды. Разбираемся: ⚪️ В качестве базовой LM взяли QwQ-32B, это ризонинг модель. Ее дообучали всего на 180 задачах из датасета KernelBench. Это задачи на PyTorch, в которых надо заменить базовые операции (например, матричные операции или свертки) оптимизированными CUDA-ядрами. ⚪️ Для дообучения использовали только RL с GRPO (наш разбор метода). Но GRPO не обычный, а многоэтапный. Модель получает фидбэк не один раз за всю генерацию, а генерирует ядро -> получает ревард -> исправляет -> получает ревард -> …. ⚪️ Чтобы не было проблем с перегрузкой контекста, вместо полного CoT на следующие итерации передают только резюме. Плюс для стабилизации всего этого каждый шаг получает не обычное вознаграждение, а дисконтирование, то есть равное дисконтированной сумме скорингов всех последующих ядер. По метрикам видно, что относительно привычного однопроходного RL такой подход сильно бустит обучение. Интересно было бы посмотреть, сработает ли такое с обычным кодингом. Блогпост | Модель на HF