Machine learning Interview

Ir al canal en Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Red:Machinelearning Rusia21 939 Tecnologías y Aplicaciones4 569...

📈 Análisis del canal de Telegram Machine learning Interview

El canal Machine learning Interview (@machinelearning_interview) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 30 037 suscriptores, ocupando la posición 4 569 en la categoría Tecnologías y Aplicaciones y el puesto 21 939 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 30 037 suscriptores.

Según los últimos datos del 11 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 39, y en las últimas 24 horas de 8, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 18.49%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 8.84% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 5 554 visualizaciones. En el primer día suele acumular 2 656 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 39.
Intereses temáticos: El contenido se centra en temas clave como claude, llm, контекст, hermes, nvidia.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 12 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

30 037

Suscriptores

+824 horas

-117 días

+3930 días

5 554

Visitas de la publicación

~ 2 65624 horas

~ 3 84048 horas

18.49%

Tasa de compromiso

~ 1

Mensajes por día

Ads index

beta

Archivo de publicaciones

30 034

Не все баги чинятся Ctrl+Z! 😅 Но если рядом — правильная команда, а на экране — продуманный до мелочей код, который решит любые таски, то всё реально. Сбер поможет и с классными коллегами, и с интересными задачами — здесь все открытые вакансии. А здесь поздравление от Сбера: team.congratulate("С Днём программиста! 💚”)

30 034

🚀 Unsloth показал, как динамическая квантизация (Dynamic GGUFs) может радикально ускорить и облегчить работу LLM, не теряя качество. В чём суть Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв. Unsloth пошёл дальше: каждому слою подбирается своё число бит. - Ключевые слои → 6–8 бит (чтобы сохранить точность). - Второстепенные → 1–3 бита (для максимального сжатия). Результаты, которых удалось добиться: - 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%). - 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах. - 3-бит версия превосходит Claude-4-Opus в «thinking» задачах. - 5-бит версия догоняет и стабильно держит уровень SOTA. 🟢Почему это интересно: - Сжатие → модели становятся доступнее для запуска на меньших GPU. - Качество не падает, а иногда даже растёт за счёт умного распределения битности. - Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей. 🟢Итог Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными. ⭐Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot #Unsloth #LLM #Quantization #AI #AiderPolyglot

30 034

🔥 Нашёл классный ресурс по истории ИИ Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд. Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте. Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ. aislowdown.replit.app

30 034

Создавая будущее: магистратура по прикладному ИИ Нейросети пишут код, создают контент и даже помогают в разработке лекарств. Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами. Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Яндекса, МТС Банка и Dodo Brands. Где вместо скучных лекций — проекты и хакатоны, а преподаватели — практики из ведущих компаний. За 2 года вы научитесь: Использовать Python и его библиотеки. Генерировать гипотезы и подбирать алгоритмы для разных моделей. Строить конвейеры обработки данных. Автоматизировать ML-пайплайн. А ещё узнаете, как ИИ применяют в медицине, e-commerce и банковском секторе. Потому что будущее AI — не только в IT. Эта программа — одна из немногих, куда можно поступить в сентябре. Если после летнего отдыха вы полны сил и готовы к новому, сделайте уверенный шаг в ИИ-сферу. Подать документы можно до 18 сентября. Узнайте подробности по ссылке: https://netolo.gy/emSN Реклама. ООО "Нетология". ИНН 7726464125. Erid:2VSb5yViJx1

30 034

🚀 Ring-mini-2.0 — мощная, но лёгкая модель на 16B-A1B! 💡 Обучена с использованием новой стратегии stable RLVR + RLHF, что дало сбалансированное и надёжное качество на разных задачах. 🧠 По логическому рассуждению обгоняет денс-модели такого же размера. ⚡ Скорость — более 300 токенов/сек (в 7 раз быстрее, чем dense-модели). 🔥 Ещё одно доказательство, что маленькие "thinking models" становятся всё умнее и быстрее! https://huggingface.co/inclusionAI/Ring-mini-2.0

30 034

⚛️🔬🚀 PsiQuantum привлекла рекордные $1 млрд для строительства квантового компьютера с 1 млн кубитов к 2028 году — это крупнейший раунд финансирования в истории квантовых технологий. 📈 Теперь компания оценена в $7 млрд и напрямую конкурирует с Google и IBM в гонке за создание полнофункциональной машины. 💰 Среди инвесторов: BlackRock, Temasek, Baillie Gifford и венчурное подразделение Nvidia. Квантовые компьютеры рассматриваются как ключ к созданию новых материалов и разработке лекарств, с чем классические методы справиться не могут. Но реальная польза от них появится только тогда, когда кубиты будут достаточно стабильны, а коррекция ошибок станет рабочим стандартом. PsiQuantum делает ставку на фотонные кубиты — частицы света, которые можно производить на обычных полупроводниковых фабриках и использовать с меньшим количеством криогенного оборудования. Именно эта ставка может позволить компании обойти конкурентов. ⚠️ Вызовы - Полной коррекции ошибок пока нет - Ранее цель на 2024 год по готовой системе была сорвана - 1 млн физических кубитов нужен, чтобы получить лишь несколько надёжных логических кубитов для долгих программ 🌍 Контекст - Конкуренты активно растут: Quantinuum собрал $600M (оценка $10B), IQM — $300M - IonQ, Rigetti и D-Wave взлетели в капитализации до $22B (с <$5B в ноябре) - Nvidia участвует в проекте, несмотря на осторожные прогнозы (20 лет до работающих систем), делая ставку на гибридный путь: квантовые + GPU суперкомпьютеры 🏗️ Первую полную квантовую установку PsiQuantum планирует построить в Австралии при поддержке правительства (A$940M), а вторую — в Чикаго. 🔗 Подробнее: https://ft.com/content/0a16281f-6bb4-4e60-a6f0-3a9d6f8d764a #quantum #ai #nvidia #google #ibm #hardware #future

30 034

🚀 Новый набор в Яндекс Лицей на курс по большим данных. Только для школьников и студентов техникумов и колледжей. Три месяца бесплатного обучения основном обработки и визуализации больших данных. Будете работать с кластерами YTsaurus, SQL. Изучать архитектуру ETL, вычислительные графы. Анализировать данные и визуализировать их в Data Lens. После обучения получите именной сертификат, который поможет получить дополнительные баллы при поступлении в вузах-партнёрах. Онлайн-курс в Яндекс Лицее бесплатный, но есть отбор до 23 сентября. Переходите по ссылке и регистрируйтесь

30 034

🧠 SpikingBrain-7B: Модели, вдохновленные нейробиологией SpikingBrain-7B представляет собой архитектуру, основанную на механизмах мозга, которая использует гибридное внимание и модули MoE для эффективного обучения. Она обеспечивает высокую производительность при минимальных затратах данных и адаптирована для кластеров без NVIDIA, что позволяет значительно ускорить обучение и вывод. 🚀Основные моменты: - Интеграция гибридного внимания и MoE. - Поддержка низкопрофильного обучения с использованием менее 2% данных. - Оптимизирована для кластеров MetaX. - Достигает более чем 100-кратного ускорения в обработке длинных последовательностей. - Включает версии для HuggingFace и квантованную версию. 📌 GitHub: https://github.com/BICLab/SpikingBrain-7B #python

30 034

⚙️ Задача по машинному обучению: Классификация текстовых отзывов с использованием современных LLM. Условие: Дана выборка текстовых отзывов о продуктах с метками настроения (позитивный/негативный). Необходимо: 1️⃣ Разделить данные на обучающую и тестовую выборки (80/20) 2️⃣ Обучить классификатор на основе Claude 3 3️⃣ Сравнить качество с GPT-4 и Gemini 1.5 4️⃣ Оценить точность и время обработки Решение:


import anthropic
import openai
import google.generativeai as genai
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import time

# Пример данных (в реальной задаче - загрузка датасета)
reviews = ["Отличный товар, всем рекомендую!", 
           "Ужасное качество, не покупайте..."]
labels = [1, 0]  # 1=позитивный, 0=негативный

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(reviews, labels, test_size=0.2)

def classify_with_claude(text):
    client = anthropic.Anthropic(api_key="your_api_key")
    response = client.messages.create(
        model="claude-3-opus-20240229",
        max_tokens=100,
        messages=[{"role": "user", "content": f"Классифицируй отзыв: '{text}'. Ответь только '1' (позитивный) или '0' (негативный)"}]
    )
    return int(response.content[0].text)

# Аналогичные функции для GPT-4 и Gemini...

# Тестирование
models = {"Claude 3": classify_with_claude, 
          "GPT-4": classify_with_gpt4,
          "Gemini 1.5": classify_with_gemini}

for name, model in models.items():
    start = time.time()
    preds = [model(text) for text in X_test]
    elapsed = time.time() - start
    acc = accuracy_score(y_test, preds)
    print(f"{name}: Accuracy = {acc:.2f}, Time = {elapsed:.1f} сек")

Пишите свои варианты решения в комментариях👇 @machinelearning_interview #junior

30 034

😄 12 сентября смотрите онлайн-студию первой «Ночи музеев» в мире IT В Яндексе придумали «Ночь музеев» в мире IT, а Сбер, Т-банк, Х5 и Lamoda поддержали идею и присоединились. Если вы не успели зарегистрироваться как офлайн-участник – подключайтесь онлайн. 🙌 Студия big tech night online будет работать 12 сентября с 18:00 до 21:00 по московскому времени. Можно переключаться между двумя треками. 😛😝В софт-треке вас ждут: – шоу для разработчиков со стендап-комиком Севой Ловкачёвым; – обсуждение pet-проектов и изобретательства среди инженеров; – юмор в борьбе со стрессами: мемы как способ выжить в бигтехе. 😋😛 В хард-треке: – разберём, чем отличается бигтех в России и за рубежом: каких специалистов ищут компании, есть ли культурные отличия? – поговорим с Маратом Мавлютовым – руководителем подразделения из Яндекса, разрабатывающего роботов-доставщиков; – обсудим, как AI помогает разработчикам сейчас и как будет помогать в будущем. 😌 Регистрируйтесь и подключайтесь. Реклама. ООО "Яндекс". ИНН 7736207543

30 034

📢 NVIDIA представила Rubin CPX — GPU с 128 ГБ GDDR7, созданный специально для работы с длинными контекстами в AI-моделях. Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз. 🧩 Суть новинки Обычный инференс состоит из двух фаз: - Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs). - Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти. Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее. ⚡ Возможности Rubin CPX - 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса). - 128 ГБ GDDR7 памяти. - 3× ускоренное внимание (attention) по сравнению с GB300 NVL72. - Встроенные блоки для кодирования/декодирования видео. - Оптимизация под длинные последовательности и быструю подготовку токенов. 🖥️ Система Vera Rubin NVL144 CPX - 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU. - До 8 экзаFLOPs NVFP4. - 100 ТБ памяти и 1,7 ПБ/с пропускной способности. - В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72. - Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша. 🔑 Главное Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах. Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле. 🚀 Вывод Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM. Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.

30 034

⚡️ Новый HunyuanImage-2.1 — мощный генератор 2K изображений от Tencent В Hugging Face появился свежий Space — tencent/HunyuanImage-2.1, где можно тестировать новейшую текст-в-изображение модель от Tencent. Что это за модель? HunyuanImage-2.1 — это эффективная текст-в-изображение модель, способная генерировать изображения в разрешении 2K (2048×2048) с отличной семантической связью и качеством. Основана на двухступенчатом пайплайне: 1. Базовая модель с двумя энкодерами текста (мультимодальный LLM и ByT5) и 17 млрд параметров, усиленная RLHF. 2. Refiner-модель улучшает детализацию и устраняет артефакты. Также имеются: - PromptEnhancer — автоматически улучшает ввод для более точных и выразительных изображений. - Meanflow-дистилляция — ускоряет инференс с минимальным числом шагов. Почему это интересно? - Обеспечивает качественную генерацию семантически точных и визуально выразительных изображений. Модель демонстрирует сравнимый или лучший результат по сравнению с открытыми и закрытыми аналогами в оценках SSAE и GSB :contentReference[oaicite:0]{index=0}. - Работает с мультиязычным вводом (английский и китайский) и поддерживает различные соотношения сторон (1:1, 16:9, 4:3 и др.). - Бесплатно доступна: вес модели, код и демонстрация прямо в браузере через Hugging Face. Как попробовать? Перейдите на Space, введите свой текстовый запрос, и за секунды получите 2K визуализацию. HunyuanImage-2.1 демонстрирует, как современные модели могут генерировать крупные и точные изображения, оставаясь при этом доступными и удобными в использовании. Github: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1 #HunyuanImage21 #TextToImage #AI #OpenSource

30 034

📰 Microsoft закупает GPU-мощности у Nebius за $17.4 млрд Microsoft заключила 5-летний контракт с Nebius на поставку GPU-инфраструктуры. ✅ Сумма сделки: $17.4 млрд ✅ Поставки стартуют во второй половине 2025 года ✅ Мощность площадки Vineland - около 300MW, со «своей» энергией для стабильности кластеров ✅ Microsoft получает выделенные GPU-блоки, а не общий пул 🔎 Что это значит: - Microsoft гарантирует себе долгосрочные мощности без огромных капзатрат «с первого дня» - Nebius финансирует строительство за счёт контракта + долгов, что ускорит рост с 2026 года - Контракт снижает риски перебоев в GPU-поставках для экосистемы Microsoft 📍 Nebius — AI-инфраструктурная компания из Амстердама (выделилась из Yandex), с R&D-хабами в Европе, Северной Америке и Израиле. 💹 Акции Nebius взлетели после анонса. #Microsoft #Nebius #AI #GPU #Infrastructure

30 034

Repost from Machinelearning

🎙️ Qwen3-ASR — универсальная модель распознавания речи! 🟢Поддержка EN/CN + ещё 9 языков: ar, de, en, es, fr, it, ja, ko, pt, ru, zh 🟢 Авто-определение языка 🟢 Модель умеет распознавать речь даже в сложных условиях — когда человек поёт, читает рэп или говорит под фоновую музыку. — WER <8% (ошибки меньше 8 слов на каждые 100) 🟢 Работает даже в шуме, низком качестве и на расстоянии 🟢 В модель можно добавить свои слова/термины/имена и фразы, и она будет их правильно распознавать ▪API：https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031 ▪ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo ▪Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo ▪Blog：https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list @ai_machinelearning_big_data #ASR #SpeechRecognition #Qwen3 #AI #MachineLearning #DeepLearning #VoiceAI

30 034

🚀 Инференс-движок для QWEN3-0.6B на CUDA qwen600 — это минималистичный движок для инференса модели QWEN3-0.6B, разработанный с акцентом на производительность и простоту. Он использует статическую оптимизацию и работает без зависимостей от Python, что делает его идеальным для изучения LLM и CUDA. 🚀 Основные моменты: - Высокая скорость: быстрее llama.cpp на 8.5% - Оптимизированный для работы на RTX 3050 - Минимальные зависимости и простота конфигурации - Эффективное управление памятью на GPU - Поддержка режима размышлений для улучшенного вывода 📌 GitHub: https://github.com/yassa9/qwen600 #cuda @machinelearning_interview

30 034

🔥Прими участие в Хакатоне от ИТ-холдинга Т1 в Екатеринбурге и поборись за призовой фонд 600 000 рублей! 📅 Когда: 30 сентября–3 октября 🌐Формат: онлайн + финал на площадке Участвуй, если ты: 🔹обучаешься на технической или ИТ-специальности; 🔹развиваешься в направлении разработки, аналитики, информационной безопасности или DevOp; 🔹сможешь быть в Екатеринбурге 3 октября. Выбери свой кейс: 🔸 Terraform LogViewer: от хаоса к порядку. Разработай инструмент, который автоматизирует визуализацию и поиск проблем при развертывании и использовании инфраструктуры. 🔸 Обход защиты Web Application Firewall. Найди уязвимости, замаскируй атаки и попытайся «обойти» инструменты защиты ИБ. Почему стоит участвовать: 🔻Кейс в портфолио и полезная обратная связь от менторов Т1; 🔻Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний; 🔻Реальный опыт командной работы; 🔻Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси. Регистрация открыта! ➡️ Успей до 28 сентября по ссылке. Ты не из Екатеринбурга, но хочешь принять участие? Смотри расписание хакатонов в других городах. #реклама О рекламодателе

30 034

🤖 «Пионер AI» рассказал о расставании, устроенном через ChatGPT Джеффри Хинтон, известный как «крёстный отец ИИ», поделился, что его бывшая девушка воспользовалась ChatGPT, чтобы разорвать с ним отношения. > “She got the chatbot to explain how awful my behaviour was and gave it to me,” — говорит Хинтон про момент расставания. По его словам, ему это не показалось таким уж тяжёлым переживанием: > “I didn’t think I had been a rat, so it didn’t make me feel too bad. I met somebody I liked more, you know how it goes.” Ещё один слой к теме: исследования говорят о том, что ChatGPT может усиливать чувство одиночества у активных пользователей. 📌 Подробности

30 034

⚡️ REFRAG: новое поколение RAG REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов. 📌 Результаты: - До 30.85× быстрее первый токен - До 16× длиннее эффективный контекст без потери точности 🔍 В чём идея: Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую. REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом. Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш. 🎯 Как работает: - Большинство чанков остаются сжатыми. - Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка. - Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков). - Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал. 📄 Paper: arxiv.org/abs/2509.01092

30 034

📌Почему языковые модели галлюцинируют. OpenAI опубликовали исследование о причинах галлюцинации LLM. Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения. Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать. 🟡Все начинается еще на претрейне. Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке. В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев. 🟡Эксперименты это подтверждают. Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался. 🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF? Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль. Эту гипотезу подтвердили анализом популярных оценочных наборов. В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь. 🟡Что делать инженерам. OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности. Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически. 🔜 Читать статью полностью 🔜 Смотреть видео разбор #AI #ML #LLM #Research #OpenAI