Data Secrets

前往频道在 Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

显示更多

📈 Telegram 频道 Data Secrets 的分析概览

频道 Data Secrets (@data_secrets) 俄语语言赛道中的是活跃参与者。目前社区聚集了 90 837 名订阅者，在 技术与应用 类别中位列第 1 401，并在 俄罗斯 地区排名第 6 182 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 90 837 名订阅者。

根据 01 七月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 628，过去 24 小时变化为 36，整体触达仍然可观。

认证状态： 已认证（Telegram 官方确认）
互动率 (ER)： 平均受众互动率为 26.37%。内容发布后 24 小时内通常能获得 19.13% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 23 954 次浏览，首日通常累积 17 375 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 318。
主题关注点： 内容集中在 claude, openai, контекст, стартап, llm 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

凭借高频更新（最新数据采集于 02 七月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

90 837

订阅者

+3624 小时

+1667 天

+62830 天

23 954

帖子浏览量

~ 17 37524 小时

~ 19 14248 小时

26.37%

参与率

~ 4

每日帖子数

Ads index

beta

帖子存档

90 877

Cursor на 28% улучшили фичу Tab с помощью RL Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собирается сделать далее. Когда вы перемещаете курсор или начинаете писать какой-то код, Tab пытается понять, что вам нужно и, если она достаточно уверена в своем предсказании, то предлагает вам продолжение (чаще всего завершение кода). Отличная фича, но часто предлагала шум. В общем, Cursor решили что-то с этим делать. В других редакторах (например, в Copilot) подобную проблему пытались бороть обычными фильтрами: язык, были бы предыдущие предложения приняты или нет и тд. Звучит в целом норм, но Cursor выбрали путь сложнее и интереснее, потому что они использовали RL с двумя сильными составляющими: 1. Сложная reward модель. Политика на каждом шаге предсказывает вероятности разных исходов + вероятность того, что предложение будет принято. Reward, исходя из этих вероятностей, поощряет принятые предложения и штрафует отклонённые. Например, если вероятность принятия ≥ 25%, accepted даёт +0.75, rejected — −0.25, если ничего не показывается – 0. Вот модель и решает, как ей лучше себя вести. Также в награде учитывается длина оффера, общее количество офферов и др. 2. On-policy data. То есть данные, на которых училась политика, собраны в реальной работе модели уже после её обновления. Получили новый чекпоинт -> задеплоили -> собрали данные (это занимает пару часов) -> учим дальше. Это чтобы не было distribution shift и градиент обновлялся правильно. Итог: в новой версии на 21% меньше предложений, но на 28% выше доля принятия. Мало того, что это огромный скачок метрики, это еще и качественно другой результат: тут accept rate растет не за счет костыльной фильтрации шумных предсказаний, а за счет того, что сама модель стала более прагматичной и предлагает меньше ерунды. Good job cursor.com/blog/tab-rl

90 877

В Албании впервые в мире ИИ занял пост министра Цифровую систему по имени Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов. Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. То есть в Албании таким образом надеятся бороться с коррупцией и повышать прозрачность расходов из бюджета. Ждем, пока Diella невзначай закупит из госбюджета миллион GPU

90 877

Большая новость: OpenAI раскрывают детали новой структуры компании Как вы помните, они уже несколько месяцев назад отказались от полного перехода в статус коммерческой организации и объявили, что будут Public Benefit Corporation, как, например, Anthropic и xAI. Но детали перехода до сегодняшнего дня были неизвестны. Итак, кратко пересказываем главное: ➖ Некоммерческий статус OpenAI остается: некомм. совет директоров сохраняет руководящую роль, при этом теперь владеет долей в новом PBC. Сейчас доля оценивается примерно в 100 миллиардов долларов. ➖ При этом эта доля будет увеличиваться по мере роста PBC, так что некоммерческая «составляющая» теперт напрямую заинтересована в успехе коммерческого подразделения. Вот такая абракадабра. ➖ Еще из интересного – картирование прибыли. Доход инвесторов и сотрудников PBC имеет верхний предел, всё сверх лимита возвращается в некоммерческую часть и вкладывается в общественные нужды. Для инвесторов, конечно, кап хотят потенциально отменить, но пока он все еще существует. И по поводу Microsoft: OpenAI находятся на этапе подписания с ними нового соглашения. Правда «детали пока обсуждаются», и на данный момент подписан только MOU – меморандум о намерениях. А он юридически не является обязательным. Но это уже другая история. openai.com/index/statement-on-openai-nonprofit-and-pbc/

90 877

Забавно: В компании Safe Superintelligence, которую основал Илья Суцкевер, сотрудникам запретили указывать её название в профилях на LinkedIn Так компания хочет снизить риск того, что конкуренты будут переманивать ключевых специалистов. В целом, после всех новостей от Meta их можно понять. Тянет на ещё одну революцию от Ильи — теперь в жанре кадровой безопасности 😎

90 877

💎Приглашаем вас на курс «ML для финансового анализа»💎 📚На курсе вы: • Научитесь основам финансового анализа и принципам биржевой торговли. • Познакомитесь с методами и представлением финансового анализа от преподавателей-практиков. • Узнаете, как анализировать различные финансовые инструменты, оценивать риски и формировать оптимальный портфель. • Создадите торгового робота, который будет проводить операции автоматически, оценивая приемлемый уровень риска. • Разместите торгового робота на облачной платформе для взаимодействия с реальными биржевыми площадками. • Настроите торгового робота на мониторинг и регулярное переобучение по актуальным данным. 🎁 Записывайтесь на бесплатный вебинар 17 сентября в 20:00 мск и активируйте скидку 5% на курс «ML для финансового анализа» по промо-коду: FINML_5. Регистрация на сайте. ⏰ Успейте попасть в группу — старт курса 25 сентября. ⬇️ Оставьте заявку на сайте и наш менеджер свяжется с вами. Ссылка: https://clck.ru/3PAJKi

90 877

Стартап Миры Мурати Thinking Machines внезапно анонсировал свой рисерч блог Connectionism, и в нем уже есть первая статья Статья, кстати, на очень интересную и редкую тему. Но сначала два слова про название Connectionism. Оно выбрано не случайно: в 80-х так называлась отрасль искусственного интеллекта, которая изучала сходство нейронных сетей с биологическим мозгом. Вот такая занятная деталь. В блоге Thinking Machines обещают постить на довольно разнообразные темы, от промпт-инжинеринга до проектирования ядер. И первая статья как раз посвящена вот такой глубоко технической теме: воспроизводимость (детерминированность) ответов LLM. Ясно, что ответы LLM – вещь случайная, то есть на один и тот же промпт она может раз из раза отвечать по-разному. Объясняется это тем, что во всех моделях на инференсе на самом деле выбирается не просто самый вероятный токен. Здесь замешана доля случайности, за которую отвечает гиперпараметр "температура". Если температура ближе к 1, то из распределения вероятностей модель чаще будет выбирать токены с меньшими значениями, и ответы будут разнообразнее и креативнее. Если ближе к 0, то чаще будут выбираться просто самые вероятные токены, и ответы будут стабильнее. По всей логике, если температура = 0, то ответы на одни и те же запросы не должны отличаться совсем. Но, оказывается, что это не так. Почему? Принято было считать, что просто из-за параллельных вычислений: порядок сложения чисел на GPU может меняться, давая слегка разные результаты. Но TM разобрались глубже и показали, что это не совсем так, и причина еще менее очевидная: – Когда модель работает на проде, на сервер одновременно приходят запросы от многих пользователей. В зависимости от нагрузки, фреймворк объединяет их в батчи разного размера: сейчас это может быть 8 последовательностей, через секунду — 32, потом 4. Это нужно, чтобы эффективно загружать GPU. – Сам по себе матмуль, даже при распараллеливании, дает детерменированные результаты для одинаковых входов. Это называется run-to-run deterministic. Но если меняется размер батча, все тут же ломается. Математически это странно, тк элементы в батче должны обрабатываться независимо, но на практике оптимизации под GPU (другой порядок операций, разбиение на блоки и т.д.) приносят вот такие результаты. – В итоге из-за постоянных изменений размера батча числа внутри модели чуть-чуть плавают. И даже если температура 0, на каком-то шаге эти крошечные различия могут привести к тому, что модель выберет другой токен, и ответ пойдёт по иному пути. В статье показали, как такое исправить (по сути, как реализовать batch-invariant ядра). Мы оставим ссылку, там в тексте много выкладок, схем и кода: посмотрите, кому интересно. Для пользователей такое, конечно, реализовывать никому не нужно, но вот для всяких отладок, элаймент тестов и прочей безопасности – имба. В общем, Thinking Machines сегодня прямо порадовали. Надеемся, в новом блоге они будут почаще что-нибудь выклдывать. thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

90 877

Ларри Эллисон (CEO Oracle) обогнал Илона Маска и стал самым богатым человеком на Земле. Все благодаря OpenAI. Они заключили с Oracle контракт (внимание!) на 300 миллиардов долларов. Он вступает в силу в 2027 году, и OpenAI придется платить в среднем 60 миллиардов долларов в год в течение пяти лет, чтобы выплатить всю сумму (интересно, где они столько возьмут). Это крупнейшая сделка в истории облачных вычислений. На ее фоне акции Oracle подскочили уже на 37%. Понятно, что со всеми текущими новостями про инвестиции, расходы стартапов и тд эти огромные числа уже немного притерлись. Так что давайте просто вспомним, что на самом деле такое 300 миллиардов долларов: – Это примерно 1.5 миллиона квартир в Москве – 6 годовых бюджетов Казахстана – 2.6 миллиона биткоинов Сам OpenAI сейчас стоит 500 миллиардов, то есть это 60% цены стартапа. Ларри, конечно, поздравляем. Маску сочувствуем 😐

90 877

Ни одна презентация Apple не обходится без последующих мемов В этот раз соцсети заполонили шутки про синхронный перевод в новых AirPods. Ну в общем, мы поддержали тренд и тоже мемов придумали. Переводим с ML-ного на человеческий 🤫

90 877

Посмотрели интересное интервью Фей-Фей Ли для a16z. Захотелось пересказать здесь то, что она говорит про AGI и развитие LLM:

Язык – это на самом деле искусственный сигнал. В природе языка не существует. Если вы подаете на вход модели язык, то она действительно может его генерализировать и на выходе давать данные с достаточной силой обобщения, но это тоже будет только язык. То есть это language to language модели. Но мир на самом деле трехмерный и подчиняется законам физики, а не языка. Он имеет собственные структуры благодаря материалам и другим вещам. Извлечь из этого мира информацию, уметь её представлять и генерировать – это по существу совершенно другая задача. Конечно, можно использовать идеи LLM для ее решения, но просто масштабированием языковых моделей не добиться AGI. Будущее – в появлении моделей пространственного интеллекта (Genie – хороший пример).

Ее идеи, кстати, удивительно похожи на идеи Лекуна. Им бы объединиться и в одну лабу…

90 877

Claude теперь умеет генерировать и редактировать pdf-ки, табличные файлы и презентации Не слишком часто пишем про новые фичи ботов, но это приятная и интересная. Даете промпт – а вам на выход файл. Или вы файл – вам на выход отредактированный вариант. Работает это так: у Claude есть доступ к частному окружению, в котором он пишет и запускает код для создания файлов, которые затем отправляет пользователю в чат. Теоретически такая система открывает много возможностей: продвинутый анализ данных, обработка всяких фото/видо/аудио, да и вообще работа со всеми видами файлов. Так что ждем и других агентских фичей от Anthropic, а пока наслаждаемся генерацией таблиц и документов. www.anthropic.com/news/create-files

90 877

Итак, прошла презентация Apple (ну вы наверное уже видели оранжевый iPhone) Как и ожидалось, в сфере ИИ ничего сверх-интересного. Исключение: синхронный голосовой перевод в AirPods Pro 3 и в айфоне. Это, как говорят разработчики, будет мгновенный перевод, работающий и для звонков, и для чатов, и (в случае с наушниками) для живой речи. Обещают красиво, но на реальную точность перевода и задержку надо смотреть на практике. Если не будет сильно тормозить и ошибаться – Apple молодцы. Из остального: – Для звонков и чатов будет реализована быстрая подсветка истории контакта. То есть у каждого контакта в списке последних вызовов появится краткая автоматическая сводка ваших предыдущих диалогов с этим человеком. Прикольно, но по ощущениям не слишком полезно. – Для организации галереи и контента на устройстве теперь будут использоваться персонализированные ИИ-фильтры. Фото, например, будут сразу классифицироваться по кастомным коллекциям. – Мельком упомянули, что ИИ также будет использован для оптимизации батареи во всех аксессуарах (Apple Watch, AirPods), а также для улучшения адаптации звука и шумоподавления в наушниках. Ну и, по классике, обещают, что вся обработка происходит локально на устройстве без передачи данных на серверы. Верим ✨

90 877

Repost from Data Secrets | Карьера

Стартерпак любого ML-инженера:

90 877

https://t.me/data_secrets_career/1604

90 877

🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие. Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент. Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения. Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy 🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV. Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5xjK3gM

90 877

Qwen продолжают расширять линейку своих моделей и выложили Qwen-3-ASR: модель распознавания речи с отличными метриками на русском Особенно в релизе хвастаются универсальностью: – Модель хорошо работает как с обычной речью, так и с песнями/репом/шумами. Word Error Rate (WER) меньше 8% даже в сложных условиях. – Работает автораспознавание языка (то есть модель сама понимает, на каком языке говорит человек) – Интересно, что можно подгрузить кастомный словарь. Загружаете список особенных слов или фраз (имена, терминологию или даже искусственно придуманные слова), и модель будет правильно их распознавать без дообучения. Поддерживает английский, китайский, русский и ещё девять языков. Единственный нюанс: весов пока нет, непонятно почему тянут. Доступ сейчас через API. В общем, если выложат веса, то будет идеальный опенсорс для s2t. А том числе отличный вариант для пет проектов. Демо | Блогпост | API

90 877

У OpenAI снова проблемы с переходом в коммерческую организацию В Калифорнии, где находится компания, разгорается конфликт вокруг её реструктуризации. Законы штата обязывают власти защищать интересы благотворительных фондов и дают им право подавать в суд, если некоммерческая организация действует вразрез со своим уставом. Теперь под проверку попала и OpenAI. К делу уже подключилось множество игроков: крупнейшие фонды, профсоюзы, Meta и, конечно же, Илон Маск с xAI — они требуют от прокурора вмешаться и не допустить превращения OpenAI в прибыльную компанию. Для OpenAI это крайне опасный прецедент. Вся её финансовая модель завязана на переходе в for-profit. Инвесторы пообещали около $19 млрд, но только при условии получения акций новой структуры. Без этого будущее IPO и дальнейшее финансирование окажутся под угрозой. Если сделку заблокируют, OpenAI придётся искать обходные пути — например, перенести штаб-квартиру в штат с более мягкими законами. https://www.wsj.com/tech/ai/openai-for-profit-conversion-opposition-07ea7e25

90 877

Google завезли кучу полезных обновлений в NotebookLM. Знаем, как вы любите эту тулзу, так что вам должно быть интересно: 1. Добавился формат флэшкарт и квизов. Флэшкарты объяснят вам тему кратко в формате «вопрос-ответ» (+ есть кнопка «Объснить», если где-то захочется подробнее). Формат идеально подходит для самопроверки или повторения. Квизы – это уже полноценные тесты. Количество вопросов и сложность можно менять (+ также есть кнопка «Объяснить»). 2. Reports прокачались + теперь работают на всех языках. – Во-первых, добавились рекомендации. Вы загружаете свои источники -> NotebookLM смотрит на них и сразу предлагает форматы овервью. Например, если это статья, то может предложить сделать блогпост или white paper с графиками и сравнениями с другими подходами. Если обучающее видео, то стади-гайд, объяснялку и тд. – Во-вторых, теперь reports можно кастомизировать и добавлять к ним ваши собственные форматы и системные промпты. 3. Обновились знаменитые ИИ-подкасты (audio overview). Теперь в них можно выбрать, насколько глубоко и с какой стороны вы хотите погрузиться в тему через опции Deep Dive / Brief / Critique / Debate. Также работает на всех языках. И кстати: видеообзоры, когда по вашей теме модель генерирует целую презентацию с озвучкой, теперь также доступны на русском и еще 80 языках. Если бы у нас такое было во время учебы… Короче, пользуемся, друзья!

90 877

В Сан-Франциско был найден самый злободневный арт

90 877

Сентябрь == настроение поучиться. Собрали для всех желающих подборку из свежих бесплатных курсов по ML/DL от топовых мировых университетов Сразу скажем: в подборке нет старых курсов. Все перечисленное не старше весны 2025 года, так что и информация, и код – актуальны. Все курсы открытые и бесплатные, с большим количеством практики. Везде доступны записи лекций, слайды и доп.материалы, кое-где еще и домашки. 1️⃣ MIT 6.S191: Introduction to Deep Learning. Интенсивный вводный курс по глубокому обучению. Охватывает: основы нейронных сетей, обучение сверточных и рекуррентных сетей, генеративные модели (включая генерацию музыки), большие языковые модели, RL, файнтюнинг. Много практических примеров применения в компьютерном зрении, NLP, биомедицине, играх и тд. Сайт (записи лекций внутри) 2️⃣ Stanford CS231n: Deep Learning for Computer Vision. Отличный базовый курс по CV. В целом около 20 часов лекций с разбором архитектур (CNN, ResNet, трансформеры и др.), методов оптимизации, детекции объектов, сегментации, генеративных моделей, мульти-модального обучения и обучения с подкреплением для CV. Одна из преподавателей – легендарная Фей-Фей Ли. Сайт (тут лекции и материалы), плейлист с лекциями 3️⃣ Stanford CS336: Language Modeling from Scratch. Собственно, внутренность соответствует названию: это прекрасный практический курс по LLM, в котором вы по порядку пройдете все этапы разработки LLM с нуля. Сбор и очистка данных для предобучения, архитектура трансформеров, обучение моделей на GPU-кластерах и масштабирование, оптимизация производительности, файнтюнинг, методы безопасности и alignment. Ну, в общем, прямо от А до Я. Сайт, плейлист 4️⃣ Harvard CS 2881R: AI Safety. Курс запущен в сотрудничестве с OpenAI. Темы уже для продвинутых: технические аспекты элаймента, предотвращение нежелательного поведения, социальные и философские вопросы влияния ИИ, RLHF, Constitutional AI, ограничения и риски современных систем, и даже анализ возможных сценариев и экзистенциальных рисков. Сайт (записи лекций внутри) 5️⃣ CMU 11-785: Introduction to Deep Learning. Совсем свежий курс от университета Карнеги–Меллона, который еще даже не закончился в самом университете. Хороший охват тем: нейросети, прямое и обратное распространение, CNN, CV, рекуррентные и трансформерные архитектуры, оптимизационные алгоритмы (SGD, Adam и др.), регуляризация и тд. Вполне подробно. Затрагивается даже вопрос обобщающей способности. Доступны домашки и их разборы. Записи лекций (уже выложены 4 лекции и 2 семинара, остальное продолжает выходить), сайт Сохраняйте (а лучше не просто сохраняйте, но и находите время смотреть) 👉

90 877

На конференции South Hub объявили о начале третьей революции знаний — после письменности и интернета. Все благодаря ИИ. Интерфейсы программ уходят в прошлое. Вместо сложных меню — простой диалог. Опиши задачу и мгновенно получи решение. Один ИИ-агент потенциально способен заменить тысячи отдельных приложений. Андрей Рыбинцев, управляющий директор по ИИ Авито: “Мы смотрим на всю эпопею с генеративным ИИ, как на золотую лихорадку, и все пытаются найти золото, но не у всех получается. Появление open source моделей все изменило – теперь каждый энтузиаст, исследователь в университете, стартап может попробовать поэкспериментировать с большими языковыми моделями” Роль разработчика тоже меняется кардинально. Из кодера он превращается в «дирижера» оркестра ИИ-помощников, который руководит процессом. Прототип, на который раньше требовалась команда, теперь делается силами одного человека за пару дней. Эксперты, включая консерваторов, единогласно говорят о революции. Темп изменений настолько бешеный, что любые прогнозы даже на два года вперед уже сейчас кажутся наивными. Одно ясно — наше представление о будущем уже не будет прежним. Полный подкаст можно посмотреть тут: Youtube | VK-видео | Rutube | Аудиоверсия Подпишитесь на полезные каналы Авито