ar
Feedback
Machine learning Interview

Machine learning Interview

الذهاب إلى القناة على Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

إظهار المزيد

📈 نظرة تحليلية على قناة تيليجرام Machine learning Interview

تُعد قناة Machine learning Interview (@machinelearning_interview) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 30 037 مشتركاً، محتلاً المرتبة 4 569 في فئة التكنولوجيات والتطبيقات والمرتبة 21 939 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 30 037 مشتركاً.

بحسب آخر البيانات بتاريخ 11 يونيو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار 39، وفي آخر 24 ساعة بمقدار 8، مع بقاء الوصول العام مرتفعاً.

  • حالة التحقق: غير موثّقة
  • معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 18.49‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 8.84‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
  • وصول المنشورات: يحصل كل منشور على متوسط 5 554 مشاهدة. وخلال اليوم الأول يجمع عادةً 2 656 مشاهدة.
  • التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 39.
  • الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل claude, llm, контекст, hermes, nvidia.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 12 يونيو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

30 037
المشتركون
+824 ساعات
-117 أيام
+3930 أيام
أرشيف المشاركات
📌Почему языковые модели галлюцинируют. OpenAI опубликовали исследование о причинах галлюцинации LLM. Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения. Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать. 🟡Все начинается еще на претрейне. Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке. В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев. 🟡Эксперименты это подтверждают. Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался. 🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF? Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль. Эту гипотезу подтвердили анализом популярных оценочных наборов. В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь. 🟡Что делать инженерам. OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности. Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически. 🔜 Читать статью полностью 🔜 Смотреть видео разбор #AI #ML #LLM #Research #OpenAI

Лучшее для вайб-кодинга: на GitHub собрали самые полезные курсы и инструменты для ИИ-разработки. Здесь есть все — ссылки на б
Лучшее для вайб-кодинга: на GitHub собрали самые полезные курсы и инструменты для ИИ-разработки. Здесь есть все — ссылки на бесплатные лекции от Стэнфорда, готовых агентов и чат-ботов, а также библиотеки для обучения собственных нейронок под любые задачи. Сохраняем по ссылке (https://github.com/balavenkatesh3322/awesome-AI-toolkit).

🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO) 💡 Идея прост
🚀 Новая работа по обучению моделей с ограниченным бюджетом разметки: Group Relative Policy Optimization (GRPO) 💡 Идея проста: самые большие улучшения достигаются, если обучать модель именно на самых сложных задачах. Что показали эксперименты: - 📈 +30–40 баллов на reasoning-задачах - 🔥 +20% lift на out-of-distribution тестах - ✅ Только hardest 10% данных даёт лучший результат, чем easy, middle или случайный выбор Как это работает: - Трудность задачи оценивается по *pass rate* — сколько ответов base-модели проходят из нескольких сэмплов - Промпты ранжируются на easy / middle / hard - GRPO обучается только на hard-срезе - Обучение идёт за счёт нескольких rollout’ов: награда выдаётся только тем, кто превысил средний уровень группы - На лёгких задачах сигнал быстро исчезает, на сложных остаётся вариативность и полезные градиенты 📊 Результаты: - GSM8K, Tracking Shuffled Objects → hardest 10% всегда лучше остальных - AIME-2025 → только hard-обученная модель превзошла base, с ~20% приростом 🔑 Практическое правило: покупайте задачи, которые базовая модель *редко* решает, но *иногда* угадывает правильно. Именно они приносят максимальную отдачу. 🟢Paper: https://arxiv.org/abs/2508.14094 🟢Github: https://github.com/Pikus16/grpo_difficulty

🧡 MATLAB + Google Colab Теперь можно связать MATLAB и Python через Colab: - Поднять бесплатный GPU в Google Colab - Запустит
🧡 MATLAB + Google Colab Теперь можно связать MATLAB и Python через Colab: - Поднять бесплатный GPU в Google Colab - Запустить полноценный MATLAB через MATLAB Package Manager - Обучить deep learning модель с использованием GPU - Экспортировать её в TensorFlow - Протестировать в Python ⚡ Всё это занимает всего несколько минут. 🔗 Блог @machinelearning_interview

🦾 На Hugging Face опубликовали обзор открытых ML-датасетов, в котором выделили Yambda-5B от Яндекса — крупнейший в мире музы
🦾 На Hugging Face опубликовали обзор открытых ML-датасетов, в котором выделили Yambda-5B от Яндекса — крупнейший в мире музыкальный рекомендательный датасет. 🎵 Yambda-5B содержит 4,79 млрд взаимодействий: прослушивания, лайки и дизлайки. Датасет идеально подходит для обучения и тестирования рекомендательных систем. 🗣 ML-эксперты Аман Чадха (AWS GenAI, ранее Stanford AI и Apple) и Айксин Сан (NTU Singapore) отметили значимость датасета для исследований и индустрии. 🌍 Разработки Яндекса в области машинного обучения востребованы на глобальном уровне и применяются наряду с решениями мировых компаний. https://huggingface.co/blog/avi81/open-datasets-and-tools-an-overview-for-hugging-fa

💰 Цукерберг: $600B на ИИ к 2028 году - К 2028 году Zuck вложит компания около $600 млрд в инфраструктуру для ИИ - Уже известны планы компании: $70 млрд вложений в 2025 и примерно $100 млрд в 2026 году. То есть траты будут расти взрывными темпами, и к концу десятилетия его компания станет одной из крупнейших инвестирующих компаний в мире.

Repost from Machinelearning
🌟 POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки. Tencent опубликовали довольно интересный проект -
+2
🌟 POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки. Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench. POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст. Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию. Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности. Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему. Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами. Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.
На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.
Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре. 🟡Как в любом проекте - есть нюансы. Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки. ▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI #ML #VLM #POINTSReader #Tencent

Repost from AI VK Hub
🔹 Показываем, как прошла первая встреча AI VK & Pro Собрали всю RecSys-тусовку: говорили о будущем рекомендаций, технологиях глубокого понимания контента и не только. Ну и, конечно, было много нетворкинга. Музыка, диджей-сеты, игры, в том числе не обошли стороной турнир по су-е-фа. 🔹 Полное видео с отчётом можно посмотреть здесь. #aivk #aivkpro

⚡ Что такое vLLM и зачем он нужен? Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича ра
⚡ Что такое vLLM и зачем он нужен? Это движок для сверхбыстрого инференса больших языковых моделей. В блоге Алески Гордича разобрали, как он устроен под капотом. Главные фишки: • KV-cache с paged attention — умно хранит память, чтобы модель не тормозила на длинных запросах. • Continuous batching — новые запросы можно подмешивать прямо во время работы, без ожидания. • Оптимизации: • chunked prefill — длинные промпты режутся на куски, чтобы не блокировать других • prefix caching — общий префикс считается один раз, а не заново для всех • guided decoding — модель пишет строго по правилам (например, JSON) • speculative decoding — маленькая модель «накидывает» текст, большая подтверждает. • Масштабирование: работает и на одной видеокарте, и на кластере из десятков. • Автотюнинг и бенчмарки: встроенные тесты подбирают оптимальные настройки под SLA. Итог: vLLM — это уже не просто библиотека, а полноценная архитектура для работы LLM в проде: быстрая, гибкая и экономная. 🟠Подробный разбор: https://www.aleksagordic.com/blog/vllm

🚀 Fantastic Pretraining Optimizers and Where to Find Them Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до
🚀 Fantastic Pretraining Optimizers and Where to Find Them Исследователи проектировали 10 оптимизаторов на моделях от 0.1B до 1.2B параметров и разных объёмах данных (1–8× Chinchilla). Что выяснили: - ⚡ Muon и Soap — самые быстрые, они используют матрицы вместо скаляров. - ➕ Прирост скорости есть, но он падает с масштабом: от 1.4× быстрее AdamW на маленьких моделях до всего 1.1× на больших. - 🔧 Настройки гиперпараметров не переносятся между оптимизаторами. - 📉 По ранним кривым лосса нельзя судить о финальном качестве. - ⚖ Оптимальный выбор зависит от того, сколько данных на модель. 👉 Итог: новые оптимизаторы реально полезны на малых моделях, но на больших их преимущество почти исчезает. Подробнее: wandb.ai/marin-community/optimizer-scaling

🎙 Microsoft представила VibeVoice-Large — open-source TTS модель для выразительных, продолжительных диалогов (и подкастов).
🎙 Microsoft представила VibeVoice-Large — open-source TTS модель для выразительных, продолжительных диалогов (и подкастов). Что делает её особенной: - Синтезирует до 45 минут речи с четырьмя разными голосами — намного больше, чем у большинства моделей. - Использует continuous acoustic & semantic tokenizers с низкой частотой (7.5 Hz) для высокого качества и эффективности на длинных аудио. - Основа — LLM (Qwen 2.5) + diffusion head для генерации деталей речи (около 600M параметров). - Генерация до ~45 минут при контексте до 32K токенов. Технические детали: - 9.34B параметров - Тип тензоров — BF16 - MIT-лицензия Ограничения и меры безопасности: - Только для исследований, не для коммерции - Запрещено использовать для голосового клонирования без разрешения или создания фейков - Встроенный дисклеймер *“This segment was generated by AI”* - Водяной знак для подтверждения происхождения Полезные ссылки: - Репозиторий: https://huggingface.co/microsoft/VibeVoice-Large - Код: https://github.com/microsoft/VibeVoice ⚡️ VibeVoice-Large — шаг вперёд в генерации естественных, длительных диалогов с несколькими голосами. @machinelearning_interview

🆕 Исследование: LLM могут находить правильный ответ ещё до конца генерации. На GSM8K — до 97% задач, на MMLU — до 99% ответо
+3
🆕 Исследование: LLM могут находить правильный ответ ещё до конца генерации. На GSM8K — до 97% задач, на MMLU — до 99% ответов верны уже на середине шагов. Метод Prophet позволяет остановить генерацию раньше и ускорить модель в 3.4 раза без потери качества. 💡 Как работает Prophet: 1. На каждом шаге смотрит на разрыв уверенности между топ-1 и топ-2 токенами 2. Если разрыв большой → модель уже «уверена» 3. Декодирование останавливается досрочно, оставшиеся токены фиксируются сразу 🔗 Подробности: arxiv.org/pdf/2508.19982

📊 Bayesian Machine Learning Notebooks — практическое погружение в байесовские методы Для тех, кто хочет разобраться в байесо
📊 Bayesian Machine Learning Notebooks — практическое погружение в байесовские методы Для тех, кто хочет разобраться в байесовском подходе к машинному обучению, этот репозиторий — настоящая находка. Здесь собраны Jupyter-ноутбуки, которые на примерах объясняют ключевые концепции: от линейной регрессии до вариационных автоэнкодеров. Авторы сочетают теоретические основы с практикой — все алгоритмы реализованы и на чистом NumPy/SciPy, и с использованием популярных библиотек. Например, можно сравнить реализацию гауссовских процессов вручную и через GPy, или увидеть, как работает байесовская оптимизация для подбора гиперпараметров. 🤖 GitHub @machinelearning_interview

Новый подкаст о будущем AI-агентов Генеративные модели были первым шагом. Дальше — ИИ-агенты: системы, которые умеют не просто писать код или тексты, а сами принимают решения и выполняют действия — от покупки билетов до развёртывания инфраструктуры. Также в подкасте поговорили о том, как подготовиться к внедрению агентов, об MCP и инструментах для работы с ними.

Новое исследование Google DeepMind показало жёсткий предел эмбеддингов Даже самые мощные модели не могут учесть все комбинаци
+7
Новое исследование Google DeepMind показало жёсткий предел эмбеддингов Даже самые мощные модели не могут учесть все комбинации запросов и документов. Есть математический потолок: часть ответов невозможно достать, как бы мы ни увеличивали размер модели или количество данных. 📌 В чём суть - Эмбеддинги имеют ограниченную ёмкость, зависящую от размерности вектора. - При больших объёмах данных точность поиска начинает резко падать. - Например: эмбеддинги размером 4096 «ломаются» уже на ~250 млн документов (для top-2). 🛠 Практика - Для поиска, рекомендаций и RAG эмбеддинги нельзя использовать как единственный инструмент. - Нужны гибридные системы: - Dense + sparse (BM25, гибридный поиск) - Multi-vector retrieval - Реранкеры на длинных контекстах 📉 Эксперименты - На тестовом датасете LIMIT даже сильные модели показали <20% точности (recall@100). - BM25 дал ~93.6%, ColBERT (multi-vector) — ~54.8%. - Single-vector эмбеддинги быстро упираются в лимит. 💡 Вывод Эмбеддинги — важный инструмент, но не универсальный. Будущее поиска и RAG — за гибридными пайплайнами. 🟠Статья: https://arxiv.org/abs/2508.21038

🧩 Неожиданное поведение Seed-OSS-36B Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и
🧩 Неожиданное поведение Seed-OSS-36B Оказалось, что модель умеет сама отслеживать, сколько токенов она уже сгенерировала — и делает это очень необычно. 🔎 Что видно при анализе: - На шаге reflection (когда модель «останавливается» и подсчитывает токены) внимание почти полностью сосредоточено только на текущем и последнем токене. - До этого внимание распределялось как обычно — по разным токенам. - Получается, что именно последний токен запускает мощную активацию во всех attention-головах. - При этом сам по себе токен ничем не особенный — значит, дело не в его содержимом. 💡 Возможное объяснение: Модель может использовать позиционное кодирование. У самого последнего токена уникальная позиция, которая как будто «сигналит» attention-механизму: *вот тут конец последовательности*. 🧪 Что планирую проверить: Если испортить позиционное кодирование последнего токена, то, возможно, модель перестанет «понимать», сколько токенов она сгенерировала, и пропустит подсчёт. https://github.com/RiddleHe/llm-interp

💥 SmolVLA: компактная VLA-модель для роботов, которая обогнала крупных конкурентов — и она полностью open source! 🚀 Что это такое: SmolVLA — новая vision-language-action модель для робототехники, обученная только на открытых датасетах LeRobot (Hugging Face). Несмотря на размер всего 450M параметров, она показывает результаты лучше более крупных моделей вроде ACT. 📌 Почему интересно: ✅ +26% точности благодаря предобучению на open-source данных ✅ Запускается даже на обычном MacBook ✅ Ответы на 30% быстрее за счёт async-инференса и оптимизаций ✅ Сильные результаты на Meta-World, LIBERO, SO100, SO101 ✅ Полностью открыта: веса, код, пайплайн и стек для оценки 🧠 Трюки для эффективности: - меньше визуальных токенов - выходы берутся с промежуточных слоёв - разделение perception и action для ускорения 📍 SmolVLA — отличный пример того, что может дать сообщество, когда делится данными и строит открытые решения в робототехнике. https://huggingface.co/blog/smolvla

🚀 Microsoft представила rStar2-Agent — новый отчёт по Agentic Reasoning 🧠 rStar2-Agent выводит предобученную 14B-модель на
🚀 Microsoft представила rStar2-Agent — новый отчёт по Agentic Reasoning 🧠 rStar2-Agent выводит предобученную 14B-модель на уровень state-of-the-art всего за 510 шагов RL за одну неделю. 📊 Результаты: - 80.6% pass@1 на AIME24 - 69.8% pass@1 на AIME25 - Превзошёл DeepSeek-R1 (671B), при этом выдавая ответы значительно короче ⚡️ Впечатляющий пример того, как компактные модели с умным обучением могут догонять и даже обгонять гигантов. https://huggingface.co/papers/2508.20722

📊 В открытом доступе появился VK-LSVD — масштабный датасет коротких видео для рекомендательных систем, созданный командой AI VK. 🤝 В отличие от  существующих наборов данных, VK-LSVD собрали 40 млрд обезличенных взаимодействий 10 млн пользователей с 20 млн коротких видео за период январь–июнь 2025. В него входят лайки, дизлайки, шеры, длительность просмотра и контекст воспроизведения — всё в формате числовых идентификаторов для гарантии конфиденциальности пользователей. ⚡️ Датасет позволяет гибко настраивать выборки: определять их объём, формировать случайным образом или с учётом популярности контента, адаптируя данные под доступные вычислительные мощности. Это делает VK-LSVD ценным инструментом для проверки гипотез и построения более точных моделей рекомендаций на реальных актуальных данных. 🔍 Такой ресурс открывает новые возможности для исследователей и инженеров, закладывая основу для следующего уровня развития рекомендательных технологий.

❌ Классический поиск по ключевым словам даёт ограниченные результаты. В примере выше, такой селективный нашел только одно сов
❌ Классический поиск по ключевым словам даёт ограниченные результаты. В примере выше, такой селективный нашел только одно совпадение: "Machine Learning Overview". ✅ А вот pgvector ищет по смыслу и находит связанные концепции. Пример запроса возвращает 5 релевантных документов: – Machine Learning Overview – Data Mining Basics – Introduction to AI – Deep Learning Guide Семантический поиск > ключевого 🔥