Data Secrets

前往频道在 Telegram

Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN

显示更多

📈 Telegram 频道 Data Secrets 的分析概览

频道 Data Secrets (@data_secrets) 俄语语言赛道中的是活跃参与者。目前社区聚集了 90 966 名订阅者，在 技术与应用 类别中位列第 1 388，并在 俄罗斯 地区排名第 6 141 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 90 966 名订阅者。

根据 04 七月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 731，过去 24 小时变化为 34，整体触达仍然可观。

认证状态： 已认证（Telegram 官方确认）
互动率 (ER)： 平均受众互动率为 25.92%。内容发布后 24 小时内通常能获得 18.76% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 23 574 次浏览，首日通常累积 17 065 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 304。
主题关注点： 内容集中在 claude, openai, контекст, стартап, llm 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Главный по машинному обучению Сотрудничество: @veron_28 РКН: clck.ru/3FY3GN”

凭借高频更新（最新数据采集于 05 七月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

90 966

订阅者

+3424 小时

+2257 天

+73130 天

23 574

帖子浏览量

~ 17 06524 小时

~ 18 79748 小时

25.92%

参与率

~ 4

每日帖子数

Ads index

beta

帖子存档

90 953

Посмотрели интересное интервью Фей-Фей Ли для a16z. Захотелось пересказать здесь то, что она говорит про AGI и развитие LLM:

Язык – это на самом деле искусственный сигнал. В природе языка не существует. Если вы подаете на вход модели язык, то она действительно может его генерализировать и на выходе давать данные с достаточной силой обобщения, но это тоже будет только язык. То есть это language to language модели. Но мир на самом деле трехмерный и подчиняется законам физики, а не языка. Он имеет собственные структуры благодаря материалам и другим вещам. Извлечь из этого мира информацию, уметь её представлять и генерировать – это по существу совершенно другая задача. Конечно, можно использовать идеи LLM для ее решения, но просто масштабированием языковых моделей не добиться AGI. Будущее – в появлении моделей пространственного интеллекта (Genie – хороший пример).

Ее идеи, кстати, удивительно похожи на идеи Лекуна. Им бы объединиться и в одну лабу…

90 953

Claude теперь умеет генерировать и редактировать pdf-ки, табличные файлы и презентации Не слишком часто пишем про новые фичи ботов, но это приятная и интересная. Даете промпт – а вам на выход файл. Или вы файл – вам на выход отредактированный вариант. Работает это так: у Claude есть доступ к частному окружению, в котором он пишет и запускает код для создания файлов, которые затем отправляет пользователю в чат. Теоретически такая система открывает много возможностей: продвинутый анализ данных, обработка всяких фото/видо/аудио, да и вообще работа со всеми видами файлов. Так что ждем и других агентских фичей от Anthropic, а пока наслаждаемся генерацией таблиц и документов. www.anthropic.com/news/create-files

90 953

Итак, прошла презентация Apple (ну вы наверное уже видели оранжевый iPhone) Как и ожидалось, в сфере ИИ ничего сверх-интересного. Исключение: синхронный голосовой перевод в AirPods Pro 3 и в айфоне. Это, как говорят разработчики, будет мгновенный перевод, работающий и для звонков, и для чатов, и (в случае с наушниками) для живой речи. Обещают красиво, но на реальную точность перевода и задержку надо смотреть на практике. Если не будет сильно тормозить и ошибаться – Apple молодцы. Из остального: – Для звонков и чатов будет реализована быстрая подсветка истории контакта. То есть у каждого контакта в списке последних вызовов появится краткая автоматическая сводка ваших предыдущих диалогов с этим человеком. Прикольно, но по ощущениям не слишком полезно. – Для организации галереи и контента на устройстве теперь будут использоваться персонализированные ИИ-фильтры. Фото, например, будут сразу классифицироваться по кастомным коллекциям. – Мельком упомянули, что ИИ также будет использован для оптимизации батареи во всех аксессуарах (Apple Watch, AirPods), а также для улучшения адаптации звука и шумоподавления в наушниках. Ну и, по классике, обещают, что вся обработка происходит локально на устройстве без передачи данных на серверы. Верим ✨

90 953

Repost from Data Secrets | Карьера

Стартерпак любого ML-инженера:

90 953

https://t.me/data_secrets_career/1604

90 953

🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие. Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент. Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения. Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy 🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV. Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5xjK3gM

90 953

Qwen продолжают расширять линейку своих моделей и выложили Qwen-3-ASR: модель распознавания речи с отличными метриками на русском Особенно в релизе хвастаются универсальностью: – Модель хорошо работает как с обычной речью, так и с песнями/репом/шумами. Word Error Rate (WER) меньше 8% даже в сложных условиях. – Работает автораспознавание языка (то есть модель сама понимает, на каком языке говорит человек) – Интересно, что можно подгрузить кастомный словарь. Загружаете список особенных слов или фраз (имена, терминологию или даже искусственно придуманные слова), и модель будет правильно их распознавать без дообучения. Поддерживает английский, китайский, русский и ещё девять языков. Единственный нюанс: весов пока нет, непонятно почему тянут. Доступ сейчас через API. В общем, если выложат веса, то будет идеальный опенсорс для s2t. А том числе отличный вариант для пет проектов. Демо | Блогпост | API

90 953

У OpenAI снова проблемы с переходом в коммерческую организацию В Калифорнии, где находится компания, разгорается конфликт вокруг её реструктуризации. Законы штата обязывают власти защищать интересы благотворительных фондов и дают им право подавать в суд, если некоммерческая организация действует вразрез со своим уставом. Теперь под проверку попала и OpenAI. К делу уже подключилось множество игроков: крупнейшие фонды, профсоюзы, Meta и, конечно же, Илон Маск с xAI — они требуют от прокурора вмешаться и не допустить превращения OpenAI в прибыльную компанию. Для OpenAI это крайне опасный прецедент. Вся её финансовая модель завязана на переходе в for-profit. Инвесторы пообещали около $19 млрд, но только при условии получения акций новой структуры. Без этого будущее IPO и дальнейшее финансирование окажутся под угрозой. Если сделку заблокируют, OpenAI придётся искать обходные пути — например, перенести штаб-квартиру в штат с более мягкими законами. https://www.wsj.com/tech/ai/openai-for-profit-conversion-opposition-07ea7e25

90 953

Google завезли кучу полезных обновлений в NotebookLM. Знаем, как вы любите эту тулзу, так что вам должно быть интересно: 1. Добавился формат флэшкарт и квизов. Флэшкарты объяснят вам тему кратко в формате «вопрос-ответ» (+ есть кнопка «Объснить», если где-то захочется подробнее). Формат идеально подходит для самопроверки или повторения. Квизы – это уже полноценные тесты. Количество вопросов и сложность можно менять (+ также есть кнопка «Объяснить»). 2. Reports прокачались + теперь работают на всех языках. – Во-первых, добавились рекомендации. Вы загружаете свои источники -> NotebookLM смотрит на них и сразу предлагает форматы овервью. Например, если это статья, то может предложить сделать блогпост или white paper с графиками и сравнениями с другими подходами. Если обучающее видео, то стади-гайд, объяснялку и тд. – Во-вторых, теперь reports можно кастомизировать и добавлять к ним ваши собственные форматы и системные промпты. 3. Обновились знаменитые ИИ-подкасты (audio overview). Теперь в них можно выбрать, насколько глубоко и с какой стороны вы хотите погрузиться в тему через опции Deep Dive / Brief / Critique / Debate. Также работает на всех языках. И кстати: видеообзоры, когда по вашей теме модель генерирует целую презентацию с озвучкой, теперь также доступны на русском и еще 80 языках. Если бы у нас такое было во время учебы… Короче, пользуемся, друзья!

90 953

В Сан-Франциско был найден самый злободневный арт

90 953

Сентябрь == настроение поучиться. Собрали для всех желающих подборку из свежих бесплатных курсов по ML/DL от топовых мировых университетов Сразу скажем: в подборке нет старых курсов. Все перечисленное не старше весны 2025 года, так что и информация, и код – актуальны. Все курсы открытые и бесплатные, с большим количеством практики. Везде доступны записи лекций, слайды и доп.материалы, кое-где еще и домашки. 1️⃣ MIT 6.S191: Introduction to Deep Learning. Интенсивный вводный курс по глубокому обучению. Охватывает: основы нейронных сетей, обучение сверточных и рекуррентных сетей, генеративные модели (включая генерацию музыки), большие языковые модели, RL, файнтюнинг. Много практических примеров применения в компьютерном зрении, NLP, биомедицине, играх и тд. Сайт (записи лекций внутри) 2️⃣ Stanford CS231n: Deep Learning for Computer Vision. Отличный базовый курс по CV. В целом около 20 часов лекций с разбором архитектур (CNN, ResNet, трансформеры и др.), методов оптимизации, детекции объектов, сегментации, генеративных моделей, мульти-модального обучения и обучения с подкреплением для CV. Одна из преподавателей – легендарная Фей-Фей Ли. Сайт (тут лекции и материалы), плейлист с лекциями 3️⃣ Stanford CS336: Language Modeling from Scratch. Собственно, внутренность соответствует названию: это прекрасный практический курс по LLM, в котором вы по порядку пройдете все этапы разработки LLM с нуля. Сбор и очистка данных для предобучения, архитектура трансформеров, обучение моделей на GPU-кластерах и масштабирование, оптимизация производительности, файнтюнинг, методы безопасности и alignment. Ну, в общем, прямо от А до Я. Сайт, плейлист 4️⃣ Harvard CS 2881R: AI Safety. Курс запущен в сотрудничестве с OpenAI. Темы уже для продвинутых: технические аспекты элаймента, предотвращение нежелательного поведения, социальные и философские вопросы влияния ИИ, RLHF, Constitutional AI, ограничения и риски современных систем, и даже анализ возможных сценариев и экзистенциальных рисков. Сайт (записи лекций внутри) 5️⃣ CMU 11-785: Introduction to Deep Learning. Совсем свежий курс от университета Карнеги–Меллона, который еще даже не закончился в самом университете. Хороший охват тем: нейросети, прямое и обратное распространение, CNN, CV, рекуррентные и трансформерные архитектуры, оптимизационные алгоритмы (SGD, Adam и др.), регуляризация и тд. Вполне подробно. Затрагивается даже вопрос обобщающей способности. Доступны домашки и их разборы. Записи лекций (уже выложены 4 лекции и 2 семинара, остальное продолжает выходить), сайт Сохраняйте (а лучше не просто сохраняйте, но и находите время смотреть) 👉

90 953

На конференции South Hub объявили о начале третьей революции знаний — после письменности и интернета. Все благодаря ИИ. Интерфейсы программ уходят в прошлое. Вместо сложных меню — простой диалог. Опиши задачу и мгновенно получи решение. Один ИИ-агент потенциально способен заменить тысячи отдельных приложений. Андрей Рыбинцев, управляющий директор по ИИ Авито: “Мы смотрим на всю эпопею с генеративным ИИ, как на золотую лихорадку, и все пытаются найти золото, но не у всех получается. Появление open source моделей все изменило – теперь каждый энтузиаст, исследователь в университете, стартап может попробовать поэкспериментировать с большими языковыми моделями” Роль разработчика тоже меняется кардинально. Из кодера он превращается в «дирижера» оркестра ИИ-помощников, который руководит процессом. Прототип, на который раньше требовалась команда, теперь делается силами одного человека за пару дней. Эксперты, включая консерваторов, единогласно говорят о революции. Темп изменений настолько бешеный, что любые прогнозы даже на два года вперед уже сейчас кажутся наивными. Одно ясно — наше представление о будущем уже не будет прежним. Полный подкаст можно посмотреть тут: Youtube | VK-видео | Rutube | Аудиоверсия Подпишитесь на полезные каналы Авито

90 953

Уже в 2026 году на Каннском фестивале будут показывать полностью сгенерированный мультик Его снимает никто иной, как OpenAI. Бюджет всей картины – менее 30 миллионов долларов. Это в разы меньше, чем обычно требуют мультипликационные съемки, причем основная часть суммы уйдет на художников (они будут отрисовывать образы персонажей) и актеров озвучки. После Каннов – а они уже в мае, осталось то всего ничего – мультфильм обещают выпустить в прокат. Кстати, название довольно милое: Critterz, то есть Зверята.

90 953

Действительно ли GPT-5 способен открывать новую математику 20 августа Себастьян Бубек заявил, что GPT-5 Pro за считанные минуты решил открытую задачу в области выпуклой оптимизации (наш пост об этом). Новость разлетелась мгновенно, но позже некоторые эксперты настаивали, что бот просто использовал известную теорему Нестерова, и результат не такой уж и удивительный. Плюс, Бубек – сотрудник OpenAI. Так что в глазах большинства его пост все равно выглядел как маркетинг. И все-таки внимание специалистов это привлекло. Сегодня вот вышла очень яркая статья, в которой три исследователя из Люксембурга решили проверить, на что GPT-5 способен в статистике. Это уже интереснее, чем посты инженеров OpenAI в твиттере, потому что тут исследование (а) независимо и (б) проводится непосредственно экспертами области. Они дали ему задачу из своей области – метод Мальявена–Стейна, который используется для доказательства центральных предельных теорем. До сих пор существовал только качественный результат: было известно, что некая последовательность случайных величин сходится к нормальному распределению, но никто не знал скорость этой сходимости. Задача GPT-5 была вывести эту скорость, то есть получить количественный результат. GPT-5 справился: он предложил и доказал новую теорему, которую никогда ранее не публиковали.

Если кому интересно: для суммы двух случайных величин из разных «хаосов» модель вывела, что расстояние до нормального распределения можно оценить через четвёртый кумулянт. А именно, чем меньше четвёртый кумулянт, тем ближе распределение Z к нормальному.

Но есть нюансы: – На первых шагах GPT-5 допустил грубую ошибку в вычислениях и исправил ее только после наводки людей. – В пуассоновском случае он не заметил ключевого свойства, пока авторы прямо не указали, где его найти. Так что итоговый результат это результат серии уточняющих вопросов и проверок, а не one-shot. Мораль: да, прогресс по сравнению с GPT-3.5/4 и даже серией o впечатляющий. Но GPT-5 все еще как начинавший аспирант. Он может генерировать правильные доказательства и идеи, если его направлять. Но без человека легко допускает опасные ошибки и не находит ключевых идей самостоятельно. Плюс, на данном этапе его идеи – все-таки лишь комбинации уже существующих. Так что по поводу «новой» математики пока все-таки мимо. Но вот по поводу помощи ученым – уже да. arxiv.org/abs/2509.03065v1

90 953

Кажется, производство собственных чипов резко входит в моду: xAI тоже обзаведутся личным железом к 2027 году Оно разрабатывается также совместно с Broadcom и также только для инференса. Ожидается значительное преимущество по энергоэффективности и стоимости интеграции. Маск неоднократно заявлял, что намерен в течение пяти лет развернуть мощность, эквивалентную 50 миллионам H100. Теперь понятно, причем тут слово «эквивалентную»: речь шла не о самих GPU, а о кастомных ASIC. Где-то нервничает один Дженсен Хуанг

90 953

Anthropic тем временем все-таки заплатит крупный штраф по делу о нарушении авторских прав Напоминаем, что разбирательство идет несколько месяцев, и дело уже окутано целой кучей интересных деталей. Для тех, кто не слишком следил за процессом, пересказываем: – Примерно год назад на трое авторов подали на Anthropic в суд за нарушение авторских прав (затем истцов стало больше, но началось все только с троих). – После долгого разбирательства выяснилось, что стартап обучал свои модели на книжках из пиратских библиотек LibGen и PiLiMi. Помимо этого, они скупали бумажные копии книг, отцифровывали их, и также скармливали Клоду (потратив на это, кстати, несколько миллионов долларов). – Тут уже к делу приобщились десятки других авторов, чьи книги оказались в библиотеках, и начались полномасштабные суды. – Интересно, что за обучение ИИ на купленных бумажных экземплярах Anthropic оправдали. Об этой истории мы подробно писали вот тут. Там попался очень прогрессивный судья, который постановил, что это «добросовестное использование» бумажных копий. Тем самым он, кстати, создал первый подобный прецедент, так что это довольно важная деталь для всех будущих подобных разбирательств. – Но вот за использование пиратских копий стартапу уже не удалось выйти сухими из воды. Теперь за каждое неправомерно использованное произведение они должны выплатить по 3000 долларов. Учитывая, что скачивали они их миллионами, получается кругленькая сумма. В СМИ, по крайней мере, фигурирует число 1.5 миллиарда долларов. Это самое крупное разбирательство и самое большое публично объявленное взыскание в истории дел об авторских правах. Плюс, естественно, Anthropic обязаны удалить все копии упомянутых книг из всех своих баз. Только представьте: полтора миллиарда на компенсации, учитывая, что недавно они привлекли 13 миллиардов в целом (и это их крупнейший раунд финансирования!). Жалко этих добряков. А вот авторы, наверное, остались довольны.

90 953

SGR Deep Research: как из чёрного ящика агентов сделать прозрачную и надёжную систему Сегодня у нас на повестке дня крайне интересный инженерный проект от наших соседей по тг. Но начнем с конца. Все мы примерно представляем, как работает вызов инструментов у агентов. LLM сам решает, какие Tools вызывать, в какой последовательности и зачем. Модель адаптируется к результатам, может прерывать выполнение – в общем, полноценная автономия. Звучит красиво и работает, но в прикладном продакшене у такого подхода есть обратная сторона: – мониторинг и логирование практически невозможны – цепочка вызовов превращается в чёрный ящик, – сложно отлаживать и объяснять решения модели, – A/B-тестирование и контроль качества превращаются в боль. Именно здесь появляется альтернатива – Schema-Guided Reasoning (SGR). О самой подобной идее много кто уже где-то так или иначе упоминал даже в крупных стартапах, но, что примечательно, впервые end-to-end ее описал и формализовал автор канала "LLM под капотом" (@llm_under_hood) Ринат Абдулин. Вот дока. Основная концепция: вместо того, чтобы давать модели полную свободу, мы описываем чёткую схему рассуждений в виде структурированного вывода. Один запрос – один прозрачный reasoning-пайплайн: Анализ → Поиск → Обработка → Вывод. От агентов тут остается гибкость, но в то же время такой подход даёт контроль и предсказуемость: можно логировать каждый шаг, тестировать их по отдельности и быстро находить слабые места. Звучит интересно, правда? Да. Выглядит, как подход, который теоретически может подвинуть классические agent-фреймворки, если речь идёт о продакшене и задачах бизнеса. Прозрачность и контролируемость тут не просто nice-to-have, а буквально вопрос выживания продукта. А еще это настоящий качественный скачок для маленьких моделей, которые плохи в вызове инструментов сами по себе. Например, Qwen3-4B показывает на Function Calling низкие 2%, а с SGR выдает стабильные 85-90%! Таким образом, целый огромный класс моделей, которые до этого для не подходили для агентных задач, теперь становятся для них открытыми. Это ключевое открытие. Ну так вот. На основе описанной Ринатом техники другой наш друг, Валера с канала @neuraldeep, уже собрал полноценный опенсорсный production-ready проект SGR Deep Research. О Валере и его предыдущих проектах мы писали вот тут – почитайте. Его SGR Deep Research – это система для многошагового поиска и анализа информации в интернете. Реализовано: ➖ Вызов инструментов по схеме Schema-Guided Reasoning. Причем подход гибридный, с двухфазной архитектурой: принудительное структурированное рассуждение (JSON Schema) + детерминированное выполнение. Это позволяет даже 4B моделям проявлять агентные свойства, недоступные через классический Function Calling. ➖ Прозрачное логирование на каждом шаге: от уточнения запроса и генерации плана до веб-поиска, анализа и финального отчёта, все трекается. ➖ Работа на легких моделях вроде gpt-4o-mini и qwen instruct от 4b до 32b (+можно подключать свои). ➖ OpenAI-совместимый API с персистентными агентами: каждый агент получает уникальный ID для продолжения исследования. Где это лучше, чем полноценный агентный Tools? Там, где важна прозрачность + работа с малыми моделями. Например: работа с документами, корпоративные исследования, факт-чекинг, call-центры. Плюс – возможность запускать агентов на потребительском железе вместо дорогих API. Сейчас ребята активно развивают проект, экспериментируют с гибридными схемами и приглашают сообщество подключаться. – Если есть идеи – обязательно идите с ними к Валере. – Если хотите попробовать – на гитхабе найдете подробнейший гайд по использованию. – И, конечно, давайте ставить ребятам звездочки на проект. Он в своем роде уникальный, так что надо продвигать силами комьюнити. Еще раз: Ссылка на проект Ссылка на канал Рината – автора идеи Ссылка на канал Валеры – автора кода (здесь можно следить на развитием проекта)

90 953

Альтман заявил инвесторам, что к 2029 расходы компании вырастут до 115 миллиардов долларов Это на 80 миллиардов больше, чем он обещал ранее. Внезапно оказалось, что стоимость разработки более совершенных моделей выше, чем ожидалось, и OpenAI нужно ГОРАЗДО больше денег на вычисления. В этом году, кстати, расходы тоже больше прогнозируемых. Примерно на 1.5 миллиарда (аналитики – молодцы!).

Сэм Альтман: «OAI, возможно, самый капиталоёмкий некоммерческий стартап в истории»

Выучиваем новую лексику для созвонов. Не «убыточный», а «капиталоемкий» 👆

90 953

Почему LLM галлюцинируют: новая статья от OpenAI Да-да, вы не ослышались. Раз в год ~~и палка стреляет~~ и OpenAI выпускают интересные рисерчи. Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели: – На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку. – Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст. – Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же. Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций. Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно. OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки. Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0. Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала". В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев. В общем, интересно, продвинется ли идея дальше статьи. cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

90 953

Основы эффективно работающих ML-систем и тренды рынка ⌚️📱💻⌨️🖥🖨🕹🎙 📡🔋💡⚙️🎁🎊 ✉️📨🗒📈📕 24 сентября в Москве пройдёт Yandex Neuro Scale 2025 — одним из треков представят практическое применение машинного обучения. Участников ждёт целый трек по работе с данными. Дополнительно можно погрузиться в другие треки о технологиях: Infrastructure, DevOps, AI Studio, AI in action, Security и Cases. У каждого трека — своё наполнение и доклады с общим фокусом на применении искусственного интеллекта. Ознакомиться с докладами и другими активностями конференции можно на сайте: Короче, надо бы зарегистрироваться 👆