Machine learning Interview

Kanalga Telegram’da o‘tish

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya21 939 Texnologiyalar & Aralashmalar4 569...

📈 Telegram kanali Machine learning Interview analitikasi

Machine learning Interview (@machinelearning_interview) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 30 037 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 4 569-o'rinni va Rossiya mintaqasida 21 939-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 30 037 obunachiga ega bo‘ldi.

11 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 39 ga, so‘nggi 24 soatda esa 8 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 18.49% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 8.84% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 5 554 marta ko‘riladi; birinchi sutkada odatda 2 656 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 39 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent claude, llm, контекст, hermes, nvidia kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 12 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

30 037

Obunachilar

+824 soatlar

-117 kunlar

+3930 kunlar

5 554

Post ko'rishlar

~ 2 65624 soatlar

~ 3 84048 soatlar

18.49%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

30 034

Не все баги чинятся Ctrl+Z! 😅 Но если рядом — правильная команда, а на экране — продуманный до мелочей код, который решит любые таски, то всё реально. Сбер поможет и с классными коллегами, и с интересными задачами — здесь все открытые вакансии. А здесь поздравление от Сбера: team.congratulate("С Днём программиста! 💚”)

30 034

🚀 Unsloth показал, как динамическая квантизация (Dynamic GGUFs) может радикально ускорить и облегчить работу LLM, не теряя качество. В чём суть Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв. Unsloth пошёл дальше: каждому слою подбирается своё число бит. - Ключевые слои → 6–8 бит (чтобы сохранить точность). - Второстепенные → 1–3 бита (для максимального сжатия). Результаты, которых удалось добиться: - 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%). - 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах. - 3-бит версия превосходит Claude-4-Opus в «thinking» задачах. - 5-бит версия догоняет и стабильно держит уровень SOTA. 🟢Почему это интересно: - Сжатие → модели становятся доступнее для запуска на меньших GPU. - Качество не падает, а иногда даже растёт за счёт умного распределения битности. - Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей. 🟢Итог Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными. ⭐Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot #Unsloth #LLM #Quantization #AI #AiderPolyglot

30 034

🔥 Нашёл классный ресурс по истории ИИ Оказывается, статьи в духе *«AI замедляется»* выходят уже много лет подряд. Теперь появился сайт, где собрали все эти «думерские» публикации в одном месте. Интересно пролистать и посмотреть, как регулярно предсказывали «конец прогресса» в ИИ. aislowdown.replit.app

30 034

Создавая будущее: магистратура по прикладному ИИ Нейросети пишут код, создают контент и даже помогают в разработке лекарств. Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами. Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Яндекса, МТС Банка и Dodo Brands. Где вместо скучных лекций — проекты и хакатоны, а преподаватели — практики из ведущих компаний. За 2 года вы научитесь: Использовать Python и его библиотеки. Генерировать гипотезы и подбирать алгоритмы для разных моделей. Строить конвейеры обработки данных. Автоматизировать ML-пайплайн. А ещё узнаете, как ИИ применяют в медицине, e-commerce и банковском секторе. Потому что будущее AI — не только в IT. Эта программа — одна из немногих, куда можно поступить в сентябре. Если после летнего отдыха вы полны сил и готовы к новому, сделайте уверенный шаг в ИИ-сферу. Подать документы можно до 18 сентября. Узнайте подробности по ссылке: https://netolo.gy/emSN Реклама. ООО "Нетология". ИНН 7726464125. Erid:2VSb5yViJx1

30 034

🚀 Ring-mini-2.0 — мощная, но лёгкая модель на 16B-A1B! 💡 Обучена с использованием новой стратегии stable RLVR + RLHF, что дало сбалансированное и надёжное качество на разных задачах. 🧠 По логическому рассуждению обгоняет денс-модели такого же размера. ⚡ Скорость — более 300 токенов/сек (в 7 раз быстрее, чем dense-модели). 🔥 Ещё одно доказательство, что маленькие "thinking models" становятся всё умнее и быстрее! https://huggingface.co/inclusionAI/Ring-mini-2.0

30 034

⚛️🔬🚀 PsiQuantum привлекла рекордные $1 млрд для строительства квантового компьютера с 1 млн кубитов к 2028 году — это крупнейший раунд финансирования в истории квантовых технологий. 📈 Теперь компания оценена в $7 млрд и напрямую конкурирует с Google и IBM в гонке за создание полнофункциональной машины. 💰 Среди инвесторов: BlackRock, Temasek, Baillie Gifford и венчурное подразделение Nvidia. Квантовые компьютеры рассматриваются как ключ к созданию новых материалов и разработке лекарств, с чем классические методы справиться не могут. Но реальная польза от них появится только тогда, когда кубиты будут достаточно стабильны, а коррекция ошибок станет рабочим стандартом. PsiQuantum делает ставку на фотонные кубиты — частицы света, которые можно производить на обычных полупроводниковых фабриках и использовать с меньшим количеством криогенного оборудования. Именно эта ставка может позволить компании обойти конкурентов. ⚠️ Вызовы - Полной коррекции ошибок пока нет - Ранее цель на 2024 год по готовой системе была сорвана - 1 млн физических кубитов нужен, чтобы получить лишь несколько надёжных логических кубитов для долгих программ 🌍 Контекст - Конкуренты активно растут: Quantinuum собрал $600M (оценка $10B), IQM — $300M - IonQ, Rigetti и D-Wave взлетели в капитализации до $22B (с <$5B в ноябре) - Nvidia участвует в проекте, несмотря на осторожные прогнозы (20 лет до работающих систем), делая ставку на гибридный путь: квантовые + GPU суперкомпьютеры 🏗️ Первую полную квантовую установку PsiQuantum планирует построить в Австралии при поддержке правительства (A$940M), а вторую — в Чикаго. 🔗 Подробнее: https://ft.com/content/0a16281f-6bb4-4e60-a6f0-3a9d6f8d764a #quantum #ai #nvidia #google #ibm #hardware #future

30 034

🚀 Новый набор в Яндекс Лицей на курс по большим данных. Только для школьников и студентов техникумов и колледжей. Три месяца бесплатного обучения основном обработки и визуализации больших данных. Будете работать с кластерами YTsaurus, SQL. Изучать архитектуру ETL, вычислительные графы. Анализировать данные и визуализировать их в Data Lens. После обучения получите именной сертификат, который поможет получить дополнительные баллы при поступлении в вузах-партнёрах. Онлайн-курс в Яндекс Лицее бесплатный, но есть отбор до 23 сентября. Переходите по ссылке и регистрируйтесь

30 034

🧠 SpikingBrain-7B: Модели, вдохновленные нейробиологией SpikingBrain-7B представляет собой архитектуру, основанную на механизмах мозга, которая использует гибридное внимание и модули MoE для эффективного обучения. Она обеспечивает высокую производительность при минимальных затратах данных и адаптирована для кластеров без NVIDIA, что позволяет значительно ускорить обучение и вывод. 🚀Основные моменты: - Интеграция гибридного внимания и MoE. - Поддержка низкопрофильного обучения с использованием менее 2% данных. - Оптимизирована для кластеров MetaX. - Достигает более чем 100-кратного ускорения в обработке длинных последовательностей. - Включает версии для HuggingFace и квантованную версию. 📌 GitHub: https://github.com/BICLab/SpikingBrain-7B #python

30 034

⚙️ Задача по машинному обучению: Классификация текстовых отзывов с использованием современных LLM. Условие: Дана выборка текстовых отзывов о продуктах с метками настроения (позитивный/негативный). Необходимо: 1️⃣ Разделить данные на обучающую и тестовую выборки (80/20) 2️⃣ Обучить классификатор на основе Claude 3 3️⃣ Сравнить качество с GPT-4 и Gemini 1.5 4️⃣ Оценить точность и время обработки Решение:


import anthropic
import openai
import google.generativeai as genai
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import time

# Пример данных (в реальной задаче - загрузка датасета)
reviews = ["Отличный товар, всем рекомендую!", 
           "Ужасное качество, не покупайте..."]
labels = [1, 0]  # 1=позитивный, 0=негативный

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(reviews, labels, test_size=0.2)

def classify_with_claude(text):
    client = anthropic.Anthropic(api_key="your_api_key")
    response = client.messages.create(
        model="claude-3-opus-20240229",
        max_tokens=100,
        messages=[{"role": "user", "content": f"Классифицируй отзыв: '{text}'. Ответь только '1' (позитивный) или '0' (негативный)"}]
    )
    return int(response.content[0].text)

# Аналогичные функции для GPT-4 и Gemini...

# Тестирование
models = {"Claude 3": classify_with_claude, 
          "GPT-4": classify_with_gpt4,
          "Gemini 1.5": classify_with_gemini}

for name, model in models.items():
    start = time.time()
    preds = [model(text) for text in X_test]
    elapsed = time.time() - start
    acc = accuracy_score(y_test, preds)
    print(f"{name}: Accuracy = {acc:.2f}, Time = {elapsed:.1f} сек")

Пишите свои варианты решения в комментариях👇 @machinelearning_interview #junior

30 034

😄 12 сентября смотрите онлайн-студию первой «Ночи музеев» в мире IT В Яндексе придумали «Ночь музеев» в мире IT, а Сбер, Т-банк, Х5 и Lamoda поддержали идею и присоединились. Если вы не успели зарегистрироваться как офлайн-участник – подключайтесь онлайн. 🙌 Студия big tech night online будет работать 12 сентября с 18:00 до 21:00 по московскому времени. Можно переключаться между двумя треками. 😛😝В софт-треке вас ждут: – шоу для разработчиков со стендап-комиком Севой Ловкачёвым; – обсуждение pet-проектов и изобретательства среди инженеров; – юмор в борьбе со стрессами: мемы как способ выжить в бигтехе. 😋😛 В хард-треке: – разберём, чем отличается бигтех в России и за рубежом: каких специалистов ищут компании, есть ли культурные отличия? – поговорим с Маратом Мавлютовым – руководителем подразделения из Яндекса, разрабатывающего роботов-доставщиков; – обсудим, как AI помогает разработчикам сейчас и как будет помогать в будущем. 😌 Регистрируйтесь и подключайтесь. Реклама. ООО "Яндекс". ИНН 7736207543

30 034

📢 NVIDIA представила Rubin CPX — GPU с 128 ГБ GDDR7, созданный специально для работы с длинными контекстами в AI-моделях. Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз. 🧩 Суть новинки Обычный инференс состоит из двух фаз: - Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs). - Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти. Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее. ⚡ Возможности Rubin CPX - 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса). - 128 ГБ GDDR7 памяти. - 3× ускоренное внимание (attention) по сравнению с GB300 NVL72. - Встроенные блоки для кодирования/декодирования видео. - Оптимизация под длинные последовательности и быструю подготовку токенов. 🖥️ Система Vera Rubin NVL144 CPX - 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU. - До 8 экзаFLOPs NVFP4. - 100 ТБ памяти и 1,7 ПБ/с пропускной способности. - В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72. - Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша. 🔑 Главное Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах. Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле. 🚀 Вывод Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM. Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.

30 034

⚡️ Новый HunyuanImage-2.1 — мощный генератор 2K изображений от Tencent В Hugging Face появился свежий Space — tencent/HunyuanImage-2.1, где можно тестировать новейшую текст-в-изображение модель от Tencent. Что это за модель? HunyuanImage-2.1 — это эффективная текст-в-изображение модель, способная генерировать изображения в разрешении 2K (2048×2048) с отличной семантической связью и качеством. Основана на двухступенчатом пайплайне: 1. Базовая модель с двумя энкодерами текста (мультимодальный LLM и ByT5) и 17 млрд параметров, усиленная RLHF. 2. Refiner-модель улучшает детализацию и устраняет артефакты. Также имеются: - PromptEnhancer — автоматически улучшает ввод для более точных и выразительных изображений. - Meanflow-дистилляция — ускоряет инференс с минимальным числом шагов. Почему это интересно? - Обеспечивает качественную генерацию семантически точных и визуально выразительных изображений. Модель демонстрирует сравнимый или лучший результат по сравнению с открытыми и закрытыми аналогами в оценках SSAE и GSB :contentReference[oaicite:0]{index=0}. - Работает с мультиязычным вводом (английский и китайский) и поддерживает различные соотношения сторон (1:1, 16:9, 4:3 и др.). - Бесплатно доступна: вес модели, код и демонстрация прямо в браузере через Hugging Face. Как попробовать? Перейдите на Space, введите свой текстовый запрос, и за секунды получите 2K визуализацию. HunyuanImage-2.1 демонстрирует, как современные модели могут генерировать крупные и точные изображения, оставаясь при этом доступными и удобными в использовании. Github: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1 #HunyuanImage21 #TextToImage #AI #OpenSource

30 034

📰 Microsoft закупает GPU-мощности у Nebius за $17.4 млрд Microsoft заключила 5-летний контракт с Nebius на поставку GPU-инфраструктуры. ✅ Сумма сделки: $17.4 млрд ✅ Поставки стартуют во второй половине 2025 года ✅ Мощность площадки Vineland - около 300MW, со «своей» энергией для стабильности кластеров ✅ Microsoft получает выделенные GPU-блоки, а не общий пул 🔎 Что это значит: - Microsoft гарантирует себе долгосрочные мощности без огромных капзатрат «с первого дня» - Nebius финансирует строительство за счёт контракта + долгов, что ускорит рост с 2026 года - Контракт снижает риски перебоев в GPU-поставках для экосистемы Microsoft 📍 Nebius — AI-инфраструктурная компания из Амстердама (выделилась из Yandex), с R&D-хабами в Европе, Северной Америке и Израиле. 💹 Акции Nebius взлетели после анонса. #Microsoft #Nebius #AI #GPU #Infrastructure

30 034

Repost from Machinelearning

🎙️ Qwen3-ASR — универсальная модель распознавания речи! 🟢Поддержка EN/CN + ещё 9 языков: ar, de, en, es, fr, it, ja, ko, pt, ru, zh 🟢 Авто-определение языка 🟢 Модель умеет распознавать речь даже в сложных условиях — когда человек поёт, читает рэп или говорит под фоновую музыку. — WER <8% (ошибки меньше 8 слов на каждые 100) 🟢 Работает даже в шуме, низком качестве и на расстоянии 🟢 В модель можно добавить свои слова/термины/имена и фразы, и она будет их правильно распознавать ▪API：https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031 ▪ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo ▪Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo ▪Blog：https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list @ai_machinelearning_big_data #ASR #SpeechRecognition #Qwen3 #AI #MachineLearning #DeepLearning #VoiceAI

30 034

🚀 Инференс-движок для QWEN3-0.6B на CUDA qwen600 — это минималистичный движок для инференса модели QWEN3-0.6B, разработанный с акцентом на производительность и простоту. Он использует статическую оптимизацию и работает без зависимостей от Python, что делает его идеальным для изучения LLM и CUDA. 🚀 Основные моменты: - Высокая скорость: быстрее llama.cpp на 8.5% - Оптимизированный для работы на RTX 3050 - Минимальные зависимости и простота конфигурации - Эффективное управление памятью на GPU - Поддержка режима размышлений для улучшенного вывода 📌 GitHub: https://github.com/yassa9/qwen600 #cuda @machinelearning_interview

30 034

🔥Прими участие в Хакатоне от ИТ-холдинга Т1 в Екатеринбурге и поборись за призовой фонд 600 000 рублей! 📅 Когда: 30 сентября–3 октября 🌐Формат: онлайн + финал на площадке Участвуй, если ты: 🔹обучаешься на технической или ИТ-специальности; 🔹развиваешься в направлении разработки, аналитики, информационной безопасности или DevOp; 🔹сможешь быть в Екатеринбурге 3 октября. Выбери свой кейс: 🔸 Terraform LogViewer: от хаоса к порядку. Разработай инструмент, который автоматизирует визуализацию и поиск проблем при развертывании и использовании инфраструктуры. 🔸 Обход защиты Web Application Firewall. Найди уязвимости, замаскируй атаки и попытайся «обойти» инструменты защиты ИБ. Почему стоит участвовать: 🔻Кейс в портфолио и полезная обратная связь от менторов Т1; 🔻Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний; 🔻Реальный опыт командной работы; 🔻Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси. Регистрация открыта! ➡️ Успей до 28 сентября по ссылке. Ты не из Екатеринбурга, но хочешь принять участие? Смотри расписание хакатонов в других городах. #реклама О рекламодателе

30 034

🤖 «Пионер AI» рассказал о расставании, устроенном через ChatGPT Джеффри Хинтон, известный как «крёстный отец ИИ», поделился, что его бывшая девушка воспользовалась ChatGPT, чтобы разорвать с ним отношения. > “She got the chatbot to explain how awful my behaviour was and gave it to me,” — говорит Хинтон про момент расставания. По его словам, ему это не показалось таким уж тяжёлым переживанием: > “I didn’t think I had been a rat, so it didn’t make me feel too bad. I met somebody I liked more, you know how it goes.” Ещё один слой к теме: исследования говорят о том, что ChatGPT может усиливать чувство одиночества у активных пользователей. 📌 Подробности

30 034

⚡️ REFRAG: новое поколение RAG REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов. 📌 Результаты: - До 30.85× быстрее первый токен - До 16× длиннее эффективный контекст без потери точности 🔍 В чём идея: Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую. REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом. Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш. 🎯 Как работает: - Большинство чанков остаются сжатыми. - Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка. - Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков). - Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал. 📄 Paper: arxiv.org/abs/2509.01092

30 034

📌Почему языковые модели галлюцинируют. OpenAI опубликовали исследование о причинах галлюцинации LLM. Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения. Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать. 🟡Все начинается еще на претрейне. Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке. В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев. 🟡Эксперименты это подтверждают. Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался. 🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF? Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль. Эту гипотезу подтвердили анализом популярных оценочных наборов. В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь. 🟡Что делать инженерам. OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности. Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически. 🔜 Читать статью полностью 🔜 Смотреть видео разбор #AI #ML #LLM #Research #OpenAI