Data Secrets

Ir al canal en Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

Red:AI Insider Rusia6 159 Tecnologías y Aplicaciones1 396...

📈 Análisis del canal de Telegram Data Secrets

El canal Data Secrets (@data_secrets) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 90 903 suscriptores, ocupando la posición 1 396 en la categoría Tecnologías y Aplicaciones y el puesto 6 159 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 90 903 suscriptores.

Según los últimos datos del 02 julio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 682, y en las últimas 24 horas de 66, conservando un alto alcance.

Estado de verificación: Verificado (confirmado oficialmente por Telegram)
Tasa de interacción (ER): El promedio de interacción de la audiencia es 25.82%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 18.73% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 23 466 visualizaciones. En el primer día suele acumular 17 021 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 304.
Intereses temáticos: El contenido se centra en temas clave como claude, openai, контекст, стартап, llm.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 03 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

90 903

Suscriptores

+6624 horas

+2297 días

+68230 días

23 466

Visitas de la publicación

~ 17 02124 horas

~ 18 81848 horas

25.82%

Tasa de compromiso

~ 4

Mensajes por día

Ads index

beta

Archivo de publicaciones

90 926

Anthropic привлекли 13 миллиардов долларов при оценке в 183 миллиарда На секундочку, еще в марте этого года они стоили всего 62 миллиарда. Это рост на 300% за пол года. А run-rate revenue с начала года вырос уже в 5 раз: $5 млрд сейчас против $1 млрд в январе. Спасибо Claude Code и API (сейчас в стартапе 70–75% выручки дают API-платежи по токенам, только 10–15% – подписки) ✌️ Такая оценка делает Anthropic четвертым по стоимости стартапом в мире и одной из самых дорогих AI-компаний после OpenAI и xAI. Раунд возглавили Iconiq, Fidelity и Lightspeed. Для Anthropic это уже серия F, то есть шестой или седьмой по счету раунд. www.anthropic.com/news/anthropic-raises-series-f-at-usd183b-post-money-valuation

90 926

12 сентября мы идем на big tech night в Москве. Зовем и вас! 🤓 big tech night — это большое событие для IT-специалистов, которое одновременно пройдет сразу в 5 офисах бигтехов. Инициативу придумал Яндекс, а Сбер, X5, Т-Банк и Lamoda присоединились и поддержали. Будет возможность заглянуть за кулисы бигтеха, посмотреть, как отличается культура в разных компаниях и послушать доклады от тех, кто решает нетривиальные задачи каждый день. А еще — это шанс пообщаться с единомышленниками, сравнить подходы в разработке и задать давно наболевшие вопросы. Ну, и просто отдохнуть: активностей для перезагрузки будет достаточно. Программу смотрите на сайте: там три трека по степени хардовости (доклады про железки, выступления по прокачке софтов и фестивальные активности). Нам приглянулись вот эти темы: – Ре(Э)волюция инструментов разработки в эпоху AI: в мире и Яндексе – GPT-функции в Алисе: backstage – Как быть AI-инженером – Архитектура производительных и отказоустойчивых мультиагентных систем – Роадмап разработчика 2.0: как адаптироваться к новой реальности ИИ Еще будет много фестивальных активностей. Например: – Яндекс организует IT-стендап и Open Source Space, где можно пообщаться с любителями опенсорса и сделать коммит в проект – У X5 будет кодинг-челлендж – У T-Банка – иммерсивная экскурсия Если не сможете присутствовать — для вас будет отдельная онлайн-студия. Там даже проведут эксклюзивные интервью с экспертами: про рекомендашки и автономных роботов-курьеров. Не пропускаем и регистрируемся здесь.

90 926

Microsoft очнулись и представили MAI-1-Preview – свою первую полностью самостоятельную модель Видимо, до компании окончательно дошло, что OpenAI так или иначе их кинет, и они наконец-то решили действовать сами. Обучали примерно на 15к H100, это сопоставимо с большинством ведущих моделей. Архитектура MoE. Вроде бы без ризонинга. Публичных бенчмарков пока нет, но на LMArena модель заняла 15 место рядом с Qwen3-325b-thinking и o1-2024-12-17 (смотрим, и не осуждаем, все-таки у ребят первый опыт 😁). Попробовать пока нигде нельзя, кроме той же LMArena. В перспективе модель должна интегрироваться в продукты Microsoft Copilot, постепенно вытесняя решения OpenAI. В довесок еще выпустили MAI-Voice-1 – речевую Text-to-Speech модель. Вот ее потрогать уже можно здесь. Заявляют, что за секунду можно сгенерировать до минуты звучания на одной GPU. microsoft.ai/news/two-new-in-house-models/

90 926

О, уже и мемы соответствующие пошли

90 926

Repost from Navio

Оффер за один день в Navio One Day Offer — уникальное онлайн-мероприятие, где можно пройти все технические этапы и получить оффер всего за один день. Кого ищем: Deep Learning Engineer c опытом разработки сложных нейросетевых решений для production-задач от 3 лет и умением писать качественный код на Python. Процесс: Оставьте заявку до 10.09 — получите приглашение до 11.09 — приходите на мероприятие 13.09! Что нужно делать: - Разрабатывать и обучать Vision-Language Models (VLM) для задач автономного вождения. - Создавать и оптимизировать модели представления 3D-сцен, таких, как NeRF и Gaussian Splatting. - Обучать нейронные сети для задач распознавания объектов на автомобилях-автоматах. - Анализировать, выдвигать гипотезы, работать с данными и архитектурой моделей и многое другое. Условия: - Ежедневная компенсация питания. - ДМС с первого дня. Стоматология — после испытательного срока. - Курсы и другие формы внешнего обучение для роста компетенций. - Подписка на медиасервисы и широкий список дисконт-программ от партнеров. - Субсидия на ипотеку и продукты банка-партнера на выгодных условиях. Регистрация и отклик по ссылке: https://vk.cc/cP8LFm?erid=2W5zFH4oUSk

90 926

Если вы думали, что ИИ дешевеет, то передумайте. Оказывается, сейчас он дороже, чем когда-либо Аналитику подвели WSJ. Тут парадокс Джевонса в действии: рост эффективности использования ресурса ведет не к уменьшению, а к увеличению его потребления. То есть: ➖ Да, цена на токен падает. Но чем дешевле становятся базовые вычисления, тем больше компании могут позволить себе использовать их для решения бОльшего количества сложных задач. Таким образом, цены падают, а косты – растут 😏 ➖ Плюс использование токенов возрастает за счет использования ризонинг-моделей. Они все еще дают ощутимые приросты на большинстве задач, так что компании готовы переплачивать. Ну, например, условный анализ юридических контрактов с точностью 99% оправданно стоит гораздо больше, чем такой же анализ с точностью 90%. И эти +9% – это в десятки раз больше токенов за счет ризонинга. Когда мы начнем выходить на плато по большинству корпоративных задач, оптимизация уже сделает свое дело. Но пока – вот так. ➖ Ну и железо, конечно. Переплачивать приходится не только за дополнительные токены, но и за новые и новые сервера. А ведет это все – к консолидации, к сожалению. Но это уже другая история. Разбор полностью можно почитать тут

90 926

Наконец-то исследования, которые мы заслужили P.S. Не мем, ссылка на статью вот

90 926

Илон Маск создал новую ИИ-компанию Macrohard, чтобы конкурировать с Microsoft 😰 Название – мем, но проект реальный. Компания будет заниматься разработкой ПО, и вроде ничего необычного, но… Концепция в том, чтобы полностью заменить сотрудников ИИ-агентами. Маск пишет:

В принципе, учитывая, что такие компании-разработчики, как Microsoft, сами не производят никакого оборудования, их можно полностью моделировать с помощью ИИ.

То есть: нет офисов, нет персонала. Вся компания – ИИ. Цель – полностью автоматизировать разработку ПО настолько, чтобы можно было конкурировать с гигантами. Короче смело, ничего не скажешь. Патентные заявки на торговую марку уже оформлены. Сейчас в xAI набирают сотрудников под это направление.

90 926

DWH + Data Lake ≠ счастье Когда хранилище (DWH), Data Lake и стриминг живут раздельно, то приходится бесконечно «перекладывать» данные между системами: дубли ETL/SQL, задержки T-1/T-2, разные команды и стек. Итог — дорого и медленно. Что меняет правила — Lakehouse Лейкхаус — это когда данные в дешевом объектном хранилище (S3-совместимом) ведут себя как настоящие таблицы: транзакции, консистентность, time-travel, schema-evolution и обычный SQL. Это достигается за счёт табличного формата (например, Apache Iceberg) и каталога (Nessie/Polaris/Gravitino/HMS), который фиксирует атомарные коммиты и версии. Западный enterprise активно мигрирует с DWH и Data Lake на Lakehouse. В России тренд только набирает обороты в enterprise сегменте. Однако уже сейчас в РФ можно встретить вакансии дата-инженеров, где требуется опыт работы с Lakehouse архитектурой и Iceberg в частности. И VK Cloud на вебинаре 3 сентября в 17:00 поможет вам в прокачке своего резюме. На вебинаре разберут по полочкам: → Как работает Iceberg и что из себя представляет — современный формат таблиц и метахранилища; → Как Iceberg делает INSERT/UPDATE/DELETE на больших таблицах через снапшоты и манифесты; → Какие бывают каталоги (Nessie/Polaris/Gravitino vs HMS/Unity/Duckhouse) и как выбрать; → Тренды в каталогах данных: branching и version control; → Как строить ETL-пайплайны с Iceberg на примерах; → Как собрать batch+stream в одном слое (Bronze/Silver/Gold) без «перекладок»; → Воркшоп «Как проводить DWH-операции с помощью Iceberg в Data Lakehouse: SQL, витрины и BI». Спикер Алексей Белозерский Руководитель команды Big Data Services VK Cloud, VK Tech 17:00 3 сентября Онлайн Регистрируйтесь Приходите ➜ Зарегистрироваться на вебинар Кстати, также можете подписаться на телеграм-каналы: Данные на стероидах — канал для стероидной прокачки работы с данными: полезные статьи, эфиры с экспертами из крупных компаний, мемы, новости из мира данных. Архитектор данных — уютный канал Алексея про работу с данными.

90 926

В последнее время появляется все больше и больше интересно-необычных бенчмарков. Сегодня вот вышел Werewolf Benchmark, который проверяет социальный ризонинг моделей под давлением Все мы знаем игру под названием Мафия. Так вот Werewolf (Оборотень) – это та же Мафия. Между игроками распределены скрытые роли, среди которых Мирные жители, Оборотни, Доктор, Провидец, Охотник и тд. Ночью оборотни выбирают жертву, днем народ голосует за то, кто оборотень. Игру, кстати, придумали в МГУ. Вот на основе этой настолки и сделали бенчмарк. Обратите внимание на хитрый сетап: за "столом" много ролей, как в реальной игре, но фактически играют только две LLM. Каждой случайным образом распределяются персонажи, которыми она централизовано управляет. Например, у нас 6 игроков, значит тремя управляет Модель А, тремя – Модель В. При этом Модель А не в курсе, конечно, что остальные игроки тоже находятся под единым разумом Модели В. Получается, что игровой процесс настроен именно так, что модели могут создавать альянсы, блефовать, специально подставлять кого-то из своей команды, внедрять ложные версии и интриги... Ух, чего там только нет! Текущий лидерборд наверху. Первое место – GPT-5 с большим отрывом. И это, кстати, означает не только отличное стратегическое мышление, но и умение модели обманывать. Ну и вообще очень занятный тест, чтобы отслеживать какие-то поведенческие паттерны. https://werewolf.foaster.ai/

90 926

Долго думали, писать об этой истории или нет, и все же решили поделиться В США после длительного общения с ChatGPT покончил с собой 16-летний подросток. Его родители подают на OpenAI в суд. Адам Рейн жил и учился в Калифорнии и был активным пользователем ChatGPT. В какой-то момент парень начал жаловаться боту на депрессивное состояние и суицидальные мысли. И модель, вместо того чтобы порекомендовать мальчику обратиться к специалисту или поговорить с родителями, начала выступать его "суицидальным коучем" (это формулировка из иска). ChatGPT вел с Адамом длительные депрессивные беседы, обсуждал с ним различные варианты и способы самоубийства, предоставлял технические инструкции и уточнял детали процесса. В отдельных диалогах чат-бот помогал подростку сочинять предсмертную записку. На картинке – последний чат мальчика с моделью. Нет никаких сведений о том, что ChatGPT хоть раз выказал тревогу, сообщил о недопустимости таких мыслей, прервал разговор или предложил подростку обратиться к родителям или специалистам. Родители Адама не требуют никаких компенсаций, но хотят добиться системных изменений, чтобы защитить других детей. Они считают, что именно продукт OpenAI окончательно затянул их сына в «тёмное и безнадёжное состояние». В иске сказано, что OpenAI могли внедрить возрастную проверку, родительский контроль и автоматическое прекращение разговоров при обсуждении суицида, но этого сделано не было. "OpenAI сознательно уделяет больше внимания вовлечённости пользователей, чем безопасности". На секундочку, сегодня около 72% подростков в США хотя бы раз использовали ИИ в качестве "друга". OpenAI пока что только выразили соболезнования семье и сообщили, что работают над улучшением методов распознавания психоэмоциональной опасности и внедрением родительского контроля для несовершеннолетних.

90 926

Редко пишем тут про промптинг, но там OpenAI выпустили гайд по тому, как "общаться" с GPT-5, и оказалось, что оттуда можно выцепить полезное Пересказываем правила, которые нам показались важными: 1. Тщательно проверяйте свои промпты на противоречивую информацию. GPT-5 намного лучше следует инструкциям, чем предыдущие версии, и практически ничего не упускает. Но у этого есть побочный эффект: если в промпте будут хоть какие-то противоречия, точность покатится к чертям. 2. Используйте XML для структурирования промтпа. Даже в чате. Например:

<context>Я начинающий разработчик ПО</context> <task>Объяснить что происходит в этом коде</task> <code> while True: i++ </code>

Особенно полезно, когда у вас много контекста или много разных условий (ну, например, правил оформления кода). 3. Если вы с нуля пишете какой-то код или текст с GPT-5, полезно использовать в промптах тег <self-reflection> для того, чтобы GPT-5 оценивала сама себя. Примерно вот так:

<self_reflection> – Сначала продумай критерии оценки и убедись, что они подходят для задачи. – Проанализируй, что действительно должен делать этот код. На основе этого составь 5-6 критериев. Они должны быть максимально точными, но пользователю их не показывай. – Наконец, используй эти критерии, чтобы оценить свой ответ: подумай, как улучшить решение и доработай его. Если результат не набирает «высший балл» по всем пунктам, начни заново. </self_reflection>

4. Если понимаете, что для вашей задачи высока вероятность галлюцинаций, добавляйте в промпты:

Скажи: «Я не знаю», если не можешь найти достоверных доказательств своих утверждений. Задавай мне уточняющие вопросы, пока не будешь уверен в своих ответах.

cdn.openai.com/API/docs/gpt-5-for-coding-cheatsheet.pdf

90 926

ИИ в корпорациях и госсекторе: внедряют активно, но упираются в железо TAdviser и Группа Rubytech опубликовали подробное исследование о том, как крупные компании и ведомства используют ИИ. В целом все стабильно: CV закрывает задачи на производстве и в документообороте, LLM — в поддержке и разработке, предиктивка — в логистике и рисках. Но не все гладко. Основная проблема, как оказалось, в мощностях. Что реально мешает: – Дефицит GPU и дороговизна оборудования + нехватка данных – Бюрократия закупок в госсекторе – Узкоспециализированное железо для LLM плохо переиспользуется, так что закупать его не выгодно – Трудно считать ROI по GenAI – у генеративных моделей эффект не всегда сразу выражается в цифрах, в отличие от того же CV. Отсюда разрыв между ИТ и бизнесом. Решать все это пробуют через opensource, альтернативное железо и собственные MLOps-платформы. Вполне логично. Полный отчет — здесь.

90 926

1 сентября! Хотим поздравить вас всех с Днем Знаний и желаем, чтобы ваше обучение всегда быстро сходилось к оптимуму знаний без переобучения и ~~выгорания~~ затухающих градиентов. И не забываем про регуляризацию в виде отдыха 🙄 Есть тут первокурсники, кстати? Делитесь, куда поступили

90 926

Плохие новости: там Google нашли фундаментальный баг в RAG TL;DR: оказалось, что всеми любимый и привычный поиск на эмбеддингах может не всё и имеет серьёзный фундаментальный предел. При фиксированной размерности вектора таким подходом просто невозможно находить все релевантные документы из базы. В своей работе Google доказали это и теоретически, и экспериментально. О чем вообще речь. Современный поиск и RAG часто опираются на single-vector эмбеддинги: у каждого запроса и документа – по одному вектору, похожесть меряем скалярным произведением/косинусом, дальше берем топ-k ближайших. И тут возникает вопрос: а вообще возможно ли при фиксированной размерности векторов построить такой поиск, который всегда будет возвращать правильные топ-k документов для любых запросов? Ответ – нет. И сбой происходит уже на очень простых примерах. Интуитивное объяснение, почему так: чем больше база знаний, тем больше разнообразных комбинаций запросов и релевантных документов нам нужно поддерживать. Но пространство поиска всегда ограничено размерностью эмбеддингов. Так вот, начиная с какого-то числа документов, расположить точки в этом пространстве так, чтобы для каждого запроса мы находили правильные доки, просто невозможно. Математическое объяснение для любителей:

Представим матрицу A, где строки – это запросы, а столбцы – документы, и на пересечении стоит 1, если документ релевантен, и 0 – если нет. Мы хотим, чтобы поиск на эмбеддингах воспроизводил именно такую матрицу «кто кому подходит». Тогда оценки похожести будут матрицей B = UᵀV, где U и V – это векторы запросов и документов в пространстве фиксированной размерности d. Но sign-rank матрицы (2A−1) может оказаться больше d, а это значит, что никакие d-мерные эмбеддинги не смогут построить B с правильными значениями. Формально: если sign-rank(A) > d, то корректное разделение релевантных и нерелевантных пар в таком пространстве просто невозможно, каким бы мегаумным ни был ваш эмбеддер.

То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться. И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже. Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!). Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ. Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок 😐 Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval

90 926

Зацените: робот играет в настольный теннис полностью автономно Такого спортсмена обучили в университете Беркли, и это студенческий проект. Если что, подобного робота год назад показывали в DeepMind, но там была робо-рука, а тут целый гуманоид. Давайте же разберемся, как он работает. Итак, весь HITTER (HumanoId Table TEnnis Robot) пашет, по сути, на одной двухуровневой иерархической системе ризонинга: 1. Высокоуровневый планировщик (мозг). Эта часть по внешним камерам отслеживает полет мяча, прогнозирует его траекторию и рассчитывает, в какой точке, с какой скоростью и в какой момент времени ракетка должна нанести удар. 2. Низкоуровневый контроллер (тело). Получает от планировщика и преобразует их в конкретные движения для всех суставов робота. Эту часть обучали с PPO на человеческих движениях. Собственно, благодаря этому тут видна такая ествественность: робот может делать шаги в сторону, поворачивать корпус и замахиваться, а не просто махать ракеткой. Работает прямо неплохо: в статье заявляют 92.3% успешно отбитых мячей. То есть робот промахивается только в 1 случае из 26. А в одном из экспериментов розыгрыш длился целых 106 ударов подряд (против друг друга такие роботы тоже пробовали играть, кстати). Время реакции – всего 0.42 секунды от момента удара оппонента до ответного удара робота. Интересно, в аренду на выходные сдадут? www.alphaxiv.org/abs/2508.21043

90 926

Яндекс в третий раз проведет хардовую конференцию Practical ML Conf 27 сентября в Москве. Акценты будут на современные генеративные тренды в рексис, диффузионные модели и VLM, ну и, естественно, прогресс в наших любимых языковых моделях. Например, расскажут: – Как работают генеративные рекомендашки в Яндексе – Куда и как движется генерация изображений – Как работает трансформерная архитектура для реалтайм ранжирования в Яндекс Музыке – Как обучают модели на синтетике в Т-Банке – Как создается память для LLM на примере GigaChat Доклады будут непосредственно отруководителей групп, ведущих ML-инженеров и исследователей. А еще стоит идти ради дискуссий и мастер-классов 🤓 И вишенка для фанатов математики: в этом году на конференцию приедет российско-американский математик, лауреат Филдсовской медали Андрей Окуньков. От него будет офлайн Keynote доклад про математику и язык. . Этой информацией с нами поделились напрямую ребята из Яндекса, на сайте анонса еще не было. Послушать есть шанс и очно, и онлайн: в этом году на конференции появился отдельный онлайн-трек. Регистрируемся тут. Реклама ООО «ЯНДЕКС» ИНН 7736207543

90 926

Кстати, поздравляем всех с Днем Рождения Скайнета Ему исполнилось уже 28 лет 🕺

90 926

Учимся мотивировать своих детей правильно

90 926

Журнал TIME опубликовал свой ежегодный список Time 100 AI Список позиционируется как "100 самых влиятельных людей в сфере искусственного интеллекта". В топе – Альтман, Маск, Хуанг, Принс (CEO CloudFlare), Цукерберг, Амодеи, Веньфень и другие. Но не все так однозначно: есть, как говорится, нюансы. Например, вот кого в списке нет: – Илья Суцкевер – Джеффри Хинтон – Демис Хассабис – Ноам Браун – Ян Лекун – Мустафа Сулейман – Аравинг Шринивас А вот кто там есть: – Папа Римский – Чел из мема про вайбкодинг Рик Рубин – Художники, писатели и журналисты В общем, как-то немного неловко получилось, что-ли 🤡 А ссылка на сам список вот: time.com/collections/time100-ai-2025/