Machine learning Interview

Открыть в Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Больше

Сеть:Machinelearning Россия21 935 Технологии и приложения4 573...

📈 Аналитический обзор Telegram-канала Machine learning Interview

Канал Machine learning Interview (@machinelearning_interview) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 30 037 подписчиков, занимая 4 573 место в категории Технологии и приложения и 21 935 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 30 037 подписчиков.

Согласно последним данным от 12 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 33, а за последние 24 часа — -3, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 20.97%. В первые 24 часа после публикации контент обычно набирает 8.31% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 6 297 просмотров. В течение первых суток публикация набирает 2 497 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 40.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как claude, llm, контекст, hermes, nvidia.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Благодаря высокой частоте обновлений (последние данные получены 13 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

30 037

Подписчики

-324 часа

-167 дней

+3330 день

6 297

Просмотры поста

~ 2 49724 часа

~ 3 57848 часов

20.97%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

30 040

🧪 DeepEval — open-source фреймворк для оценки работы языковых моделей, вдохновленный принципами Pytest. Проект решает ключевую проблему LLM-разработки: как объективно измерить качество ответов ChatGPT, RAG-пайплайнов или AI-агентов без ручных проверок. В отличие от разрозненных метрик вроде RAGAS или G-Eval, DeepEval объединяет 20+ критериев оценки от релевантности контекста до токсичности и SQL-инъекций в промптах. Инструмент также имеет встроенную облачную платформу для сравнения разных версий LLM — она визуализирует, как изменения влияют на accuracy и безопасность. 🤖 GitHub @machinelearning_interview

30 040

Что сложнее: пройти собеседование в MANGA или поступить в ШАД? В новом выпуске MLinside — Алексей Толстиков, кандидат физико-математических наук, руководитель Школы анализа данных Яндекса (ШАДа) и эксперт в олимпиадах по программированию рассказывает: ▪️Как устроен отбор в Школу и зачем нужен сложный экзамен ▪️Как готовиться к интервью и почему важна честность ▪️ Насколько важен нетворк и коммьюнити Переходите к выпуску По сути, это готовый мануал к поступлению и если вы сейчас выбираете трек развития в машинном обучении — обязательно к прослушиванию.

30 040

🔥 ArXiv MCP Server arxiv‑mcp‑server — это самостоятельный MCP‑сервер¹, который «оборачивает» arXiv.org в набор инструментов, доступных ИИ‑ассистентам (Claude Desktop, ChatGPT‑плагины, собственные агентовые фреймворки). Благодаря этому ассистент может искать, скачивать и читать научные статьи, а также запускать готовые промпты для глубокого анализа работы, не покидая чата. ¹ MCP (Message Control Protocol) — открытый протокол Anthropic для обмена сообщениями и инструментами между LLM‑клиентом и сервером. Ключевые возможности - Поиск статей search_papers — фильтры по запросу, диапазону дат, категориям. - Загрузка статьи download_paper — хранит PDF/метаданные локально, чтобы не дергать arXiv повторно. - Список локальных статей list_papers. - Чтение содержимого read_paper — отдаёт текст постранично. - Готовые исследовательские промпты — например, deep-paper-analysis, который строит полное ревью (summary, методология, импликации, дальнейшая работа и т.д.). ▪ Github

30 040

⚡️Хотите стать востребованным экспертом в области рекомендательных систем? Курс OTUS «Рекомендательные системы» — это практические занятия, живые лекции от ведущих DS/ML-специалистов и актуальные инструменты, которые используют крупнейшие компании. Вы научитесь создавать персонализированные рекомендации, внедрять системы под задачи e-commerce и стриминговых сервисов, эффективно сегментировать пользователей и проводить A/B-тесты. После курса вы сможете реализовывать решения, которые принесут пользу бизнесу. 👉Оставьте заявку и получите скидку на обучение: https://otus.pw/BAE8/?erid=2W5zFHU8PEp Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

30 040

Repost from Machinelearning

🔥 ReZero — маленькая модель, которая никогда не сдаётся 🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший. 🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ. Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом. Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы. Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться". 🔜Github 🔜 Модель @ai_machinelearning_big_data #LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3

30 040

Repost from Hi, AI • Новости технологий

У разработчиков и аналитиков свои игрушки 👾 Конечно, с ИИ-уклоном и те, которые им помогают в работе. Когда дело доходит до вайб-кодинга, многие обращаются к инструментам вроде Copilot. На бумаге — это волшебная палочка, которая должна разгружать спецов. А как на деле? 🪄 Коллеги из Т1 отвечают на этот вопрос — упаковали ответы в карточки. И их самих тоже — конечно же, с помощью искусственного интеллекта. Больше про ИИ узнаем 16 и 17 апреля в Москве на конференции Data Fusion. Здесь спикеры от Т1 примут участие в сессиях, где обсудят:

🔘 выход российских компаний на зарубежные рынки; 🔘 человекоцентричный транспорт; 🔘 нейросети; 🔘 AI-native банки; 🔘 тренды в бизнесе; 🔘 инженеров нового поколения. Генеральный директор ИТ-холдинга Т1 Алексей Фетисов также наградит победителей соревнования Data Fusion Contest.

30 040

❓ Что выведет следующий код на Python (модуль statistics)?


import statistics as stats
import math

data = [1, 2, 2, float('nan'), 3, 4]

print("Mean:", stats.mean(data))
print("Median:", stats.median(data))
print("Mode:", stats.mode(data))

🔢 Варианты ответа: A)


Median: 2.5
Mode: 2


Median: 2.5
Mode: 2

C)ValueError: nan is not a valid number D)


Median: nan
Mode: 2

✅ Правильный ответ: C 💡 Почему? - Модуль statistics не умеет работать с NaN. - stats.mean() и stats.median() вызовут StatisticsError или ValueError. - В отличие от numpy.nanmean, здесь всё падает. 📌 Подвох — в float('nan') в списке.

30 040

❓ Алгоритмическая торговля и количественный анализ: успех зависит от точного тестирования. Как избежать убытков и ошибок в логике торговых стратегий? На открытом уроке 28 апреля в 20:00 мск научим вас, как правильно тестировать торговые стратегии с помощью самых популярных инструментов. Применение таких инструментов, как pandas, backtrader и backtesting, поможет вам избежать переобучения и непредсказуемых рыночных условий. Используя полученные знания, вы сможете точно оценивать эффективность своих стратегий, настраивать метрики, такие как доходность и Sharpe ratio, и улучшать результаты с минимальными рисками. ➡️ Присоединяйтесь к открытому уроку и получите скидку на большое обучение «ML для финансового анализа»: https://otus.pw/R9kR/?erid=2W5zFHw5cK2 Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

30 040

🖥 OpenAI опубликовала новое руководство по промптингу для GPT-4.1. Это полезный ресурс для улучшения работы с моделью. В руководство включен подробный "агентный промпт" (Agentic Prompt). Именно этот промпт OpenAI использовала для достижения рекордно высокого балла в сложном бенчмарке по разработке ПО SWE-bench Verified. Что представляет собой этот агентный промпт? Это, по сути, детальная инструкция для GPT-4, нацеленная на автономное решение задач по исправлению кода в репозиториях. Ключевые принципы, заложенные в нем: - Глубокое понимание: Сначала тщательно изучить проблему. - Исследование: Проанализировать кодовую базу. - Планирование: Разработать четкий пошаговый план. - Тестирование: Часто запускать тесты после каждого шага. - Итерация: Повторять процесс до полного решения проблемы. - Строгая верификация: Убедиться в корректности и надежности решения - Автономность: Работать с предоставленными проектами без доступа к интернету и не завершать работу до полного решения. Этот подход демонстрирует, как структурированные, пошаговые инструкции с акцентом на тестирование и итерацию могут значительно повысить эффективность ИИ в сложных задачах программирования. 📚 Руководство

30 040

🎲 Задача со стажировки ШАД по вероятности: сколько участников добежит до вершины? Представим забег 100 человек по узкому скользкому эскалатору. У каждого есть шанс поскользнуться и упасть — тогда он и все, кто бежал за ним, соскальзывают вниз. Добираются до вершины только те, кто был впереди последнего упавшего. Мы можем настраивать вероятность падения p. Вопрос: какое значение `p` нужно выбрать, чтобы в среднем до вершины добегало ровно 20 человек из 100? Обозначения: N = 100: общее количество участников. K = 20: желаемое среднее количество участников, достигших вершины. p: вероятность того, что один участник поскользнется и упадет (эту величину нужно найти). q = 1 - p: вероятность того, что один участник не упадет. X: случайная величина, равная количеству участников, достигших вершины. Мы хотим, чтобы E[X] = 20. Логика процесса: Участник i (где i от 1 до 100) доберется до вершины тогда и только тогда, когда ни один из участников перед ним (включая его самого) не упадет. То есть, участники 1, 2, ..., i должны успешно пройти свой путь. Вероятность того, что участник 1 достигнет вершины = P(участник 1 не упал) = q. Вероятность того, что участник 2 достигнет вершины = P(участник 1 не упал И участник 2 не упал) = q * q = q^2. Вероятность того, что участник i достигнет вершины = P(участники 1, ..., i не упали) = q^i. Математическое ожидание E[X]: Математическое ожидание количества добравшихся до вершины можно вычислить как сумму вероятностей того, что каждый конкретный участник доберется до вершины. Это связано со свойством линейности математического ожидания и использованием индикаторных переменных (I_i = 1, если i-й участник добрался, 0 иначе; E[X] = E[sum(I_i)] = sum(E[I_i]) = sum(P(I_i=1))). E[X] = P(участник 1 добрался) + P(участник 2 добрался) + ... + P(участник N добрался) E[X] = q^1 + q^2 + q^3 + ... + q^N Это сумма первых N членов геометрической прогрессии с первым членом a = q и знаменателем r = q. Формула суммы: S_N = a * (1 - r^N) / (1 - r) Подставляем наши значения: E[X] = q * (1 - q^N) / (1 - q) Решение уравнения: Мы хотим, чтобы E[X] = K = 20, при N = 100. 20 = q * (1 - q^100) / (1 - q) Вспомним, что q = 1 - p. Значит, 1 - q = p. 20 = (1 - p) * (1 - (1 - p)^100) / p 20p = (1 - p) * (1 - (1 - p)^100) Это уравнение довольно сложно решить аналитически из-за члена (1 - p)^100. Однако мы можем сделать разумное предположение. Приближение: Поскольку мы ожидаем, что только 20 из 100 человек доберутся до вершины, это означает, что падения должны происходить относительно часто, и вероятность того, что все 100 человек не упадут (q^100), должна быть очень мала. То есть, q^100 ≈ 0. Если q^100 пренебрежимо мало по сравнению с 1, то формула для E[X] упрощается: E[X] ≈ q * (1 - 0) / (1 - q) E[X] ≈ q / (1 - q) Теперь подставим желаемое значение E[X] = 20: 20 ≈ q / (1 - q) 20 * (1 - q) ≈ q 20 - 20q ≈ q 20 ≈ 21q q ≈ 20 / 21 Теперь найдем p: p = 1 - q p ≈ 1 - (20 / 21) p ≈ 1 / 21 Проверка приближения: Давайте проверим, насколько мало значение q^100 при q = 20/21: q^100 = (20/21)^100 ≈ (0.95238)^100 Используя калькулятор, (20/21)^100 ≈ 0.0076. Это действительно мало по сравнению с 1. Посчитаем E[X] с этим приближением: E[X] = (20/21) * (1 - (20/21)^100) / (1 - 20/21) E[X] = (20/21) * (1 - 0.0076) / (1/21) E[X] = 20 * (1 - 0.0076) E[X] = 20 * 0.9924 E[X] ≈ 19.848 Это очень близко к целевому значению 20. Ответ: Чтобы в среднем вершины достигали 20 ребят из 100, вероятность падения p для каждого участника нужно подобрать примерно равной 1/21 (или около 0.0476). 👇 Пишите свое решение в комментариях @machinelearning_interview

30 040

MLечный путь: митап, коммьюнити, знания В программе: - подбор инфраструктуры для ML под запрос бизнеса, - деплой инференса в рентген-вагоне, - развертывание Edge-AI в буквально (!) полевых условиях. А ещё — активное участие вместо пассивного слушания: питчи, нетворкинг и мерч за лучшие идеи. 23 апреля в 18:00 приходите в офис Selectel в Санкт-Петербурге и подключайтесь онлайн. Регистрация и детали по ссылке: https://slc.tl/tgb6o Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqwdfLKT

30 040

Repost from Machinelearning

🌟 NVIDIA добавила нативную поддержку Python в CUDA. Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек. Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики». Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти. Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом. 🟢Во-первых, появилась библиотека cuPyNumeric — аналог NumPy, который переносит вычисления с CPU на GPU буквально заменой импорта. 🟢Во-вторых, CUDA Core переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей. 🟢В-третьих, добавлены инструменты для профилирования и анализа кода, а ускоренные C++-библиотеки теперь доступны из Python без потерь в производительности. Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость. Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе. Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего. 🔜 Посмотреть полную презентацию на GTC 2025 @ai_machinelearning_big_data #AI #ML #Python #CUDA #NVIDIA

30 040

📄 Scaling Laws for Native Multimodal Models 📌 Исследователи из Sorbonne и Apple проанализировали 457 мультимодальных моделей, чтобы понять, как масштабируются нативные мультимодальные архитектуры (NMM) — обученные с нуля, а не через “приклейку” vision-энкодеров к LLM. 🔍 Главное: ▪ Late-fusion (классика с vision encoder + LLM) ≠ обязательно лучше. ▪ Early-fusion модели, в которых всё учится совместно с нуля — обгоняют по качеству при меньшем количестве параметров, обучаются быстрее и проще в продакшене. ▪ Добавление Mixture of Experts (MoE) даёт прирост — модели учат модальность-специфичные веса, сохраняя ту же цену инференса. ▪ Scaling laws (законы масштабирования) у NMM — почти те же, что у LLM. Можно планировать бюджеты и рост моделей аналогично. ⚠️ Ограничения: — Пока неясно, как точно это поведение переносится на downstream-задачи. — Нужно больше экспериментов с разными пропорциями мультимодальных данных. — Для early-fusion на высоких разрешениях нужны новые подходы к работе с токенами (контекст, пуллинг и т.д.). 📎 Вывод: Early-fusion — не просто рабочий вариант, а оптимальный выбор для мультимодальных моделей при ограниченных ресурсах. Отказ от “склеек” делает обучение проще, быстрее и дешевле. Читать #ai #multimodal #scalinglaws #moe #llm #mlresearch #arxiv

30 040

⚡️ Flashbax - удобный ускоритель для reinforcement learning в JAX-экосистеме. Проект предлагает свежий взгляд на проблему с буферами воспроизведения, переосмысливая работу с данными. Библиотека выделяется тем, что превращает буферы из пассивных хранилищ в интеллектуальные компоненты, которые можно встраивать в полностью скомпилированные JIT-функции. Удобно, что разработчики прописали оптимизированные версии для разных сценариев: от простых переходов (как в DQN) до сложных траекторий для R2D2, причём с поддержкой приоритетного семплирования. 🤖 GitHub @machinelearning_interview

30 040

🔥 Открыта регистрация на Летнюю школу машинного обучения Сколтеха. SMILES-2025 — это 12-дневный интенсивный курс, посвященный генеративным методам в ИИ. Школа организована Сколтехом в сотрудничестве с Харбинским технологическим институтом в Китае. SMILES-2025 пройдет с 14 по 27 июля 2025 года. Соорганизатор летней школы — HIT, генеральный партнер — Альфа-Банк, научный партнер — Институт AIRI. 👉 Участие бесплатное на основе конкурсного отбора. Подробности и подача заявки. Реклама. СКОЛКОВСКИЙ ИНСТИТУТ НАУКИ И ТЕХНОЛОГИЙ, СКОЛТЕХ. ИНН 5032998454.

30 040

⚡️ Вышел мощный ИИ-ресерчер от AlphaXiv С ним можно сделать всё: от контрольной до научной статьи в журнал.🔥 Нововведения: 🔎 ИСКАТЬ любые научные источники по любой теме 🧠 ПОНЯТНО объяснять даже самые сложные статьи — просто загрузи PDF и задавай вопросы 📚 СОВЕТОВАТЬ, что почитать дальше, выделять тренды и разбирать каждый источник по полочкам 💻 РАБОТАТЬ с кодом из статьи прямо в окне — правь, оптимизируй, получай объяснения 📝 ДЕЛАТЬ автоконспекты — чёткие и подробные 🚀 ПОСТОЯННО обновляется — фичи прилетают регулярно А теперь самое главное: 🧬 Deep Research — встроенный ИИ-агент, который за 1 минуту создаёт системный обзор по любой научной теме. Статьи, выводы, тренды — всё на месте. Гениального ассистента забираем отсюда 👉 https://www.alphaxiv.org/assistant

30 040

Что не так с кодом в Капибаровске? Узнайте на T-CTF — соревновании от Т-Банка для опытных ИТ-специалистов. Решайте задания по спортивному хакингу с шансом выиграть приз до 420 000 ₽. Вот как все устроено: — Выберите Лигу Разработки или Лигу Безопасности по своим навыкам. Если участвуете впервые, можно потренироваться на демозаданиях. — Соревнуйтесь один или в команде до 3 человек. Вам помогут найти команду, если нет своей. — Участвуйте онлайн или приходите в ИТ-хаб Т-Банка в одном из 6 городов России. — Используйте время на решение заданий и общение с участниками — у вас будет 36 часов. Задания будут интересны разработчикам, QA- и SRE-инженерам, аналитикам и другим ИТ-специалистам уровня middle и senior. Успейте зарегистрироваться до 18 апреля. Реклама. АО «ТБанк», лицензия ЦБ РФ № 2673, erid: 2Ranykc4ety

30 040

🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B! Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning . 📦 Что внутри: - LLaMA 405B, радикально преобразованная с помощью NAS pruning - Пост-тренинг с фокусом на reasoning: SFT + RL - Вычисления в FP8 для производительности без потери качества - Open weights + открытые данные 🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI. 🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1 #LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace

30 040

Repost from Machinelearning

📕 Андрей Карпаты опубликовал новый пост- необычный путь распространения LLM, их влияние на людей и организации, причины разрыва и взгляд в будущее. В нем он анализирует необычное распространение больших языковых моделей (LLM). Вот его содержание: В отличие от традиционных технологий, которые обычно проходят путь от государственных и военных структур через корпорации к индивидуальным пользователям, LLM сразу стали широко доступны обычным людям. Это позволило моделям значительно расширить свои возможности в таких областях, как программирование, анализ данных и создание контента, без необходимости привлекать узких специалистов. ChatGPT — самое быстрорастущее приложение в истории, у него 400 миллионов активных пользователей в неделю. Люди используют его для написания текстов, программирования, перевода, обучения, анализа, исследований и генерации идей Это не просто улучшение жизни— это мощный бустер возможностей человека. И барьер для входа использования LLM невероятно низкий: модели бесплатны или дешевы, быстры, доступны всем через API или локально, и говорят на любом языке, включая сленг и эмодзи. Никогда еще человек не получал такого технологического скачка так быстро. Почему же эффект для корпораций и государственных институтов не такой весомый? Во-первых, LLM дают "квази-экспертные" знания: широкие, но неглубокие и ненадежные. Для организаций, где уже есть эксперты (инженеры, юристы, аналитики), это лишь слегка повышает эффективность. А вот для человека, который обычно эксперт лишь в одном, LLM открывают новые горизонты: программировать, разбираться в юриспруденции, анализировать данные или создавать контент — все это теперь возможно без посторонней помощи. Во-вторых, организации решают более сложные задачи: интеграции, устаревшие системы, безопасность, регуляции, координация. Ошибки LLM тут куда опаснее — "вайб кодить" не выйдет. В-третьих, есть инерция: бюрократия, культура компаний, переобучение — все это тормозит внедрение. Пока LLM радикально меняют жизнь людей, а не организаций. Мэри, Джим и Джо получают больше, чем Google или правительство США. Но что дальше? Если топовые модели станут сильно дороже и лучше, крупные игроки смогут "купить интеллект", и элита снова уйдет в отрыв. Сегодня Билл Гейтс использует тот же GPT-4o, что и вы, но завтра его ребенок может учиться у GPT-8-pro-max, а ваш — у GPT-6-mini. Сейчас мы находимся в уникальном моменте: будущее уже здесь, и технологии удивительно равномерно распределены. Будущее тут, и оно доступно для всех. Власть людям! 🔗 Оригинал @ai_machinelearning_big_data #AndrejKarpathy #influencer

30 040

Российская языковая модель A-Vibe от Авито возглавила рейтинг легких ИИ-решений (до 10 млрд параметров) в независимом бенчмарке MERA. Разработка команды классифайда обошла признанных зарубежных конкурентов — GPT-4o mini от OpenAI, Gemma 3 27B от Google, Claude 3.5 Haiku от Anthropic и Mistral Large. Модель демонстрирует впечатляющие результаты работы с русским языком. В тестах генерации кода A-Vibe показала результат на 25% лучше, чем Gemini 1.5. При ведении диалогов она оказалась на 32% точнее Llama 3.1. А в анализе смысла текста превзошла Claude 3.5 Haiku на 23%. Технические возможности A-Vibe позволяют ей одновременно обрабатывать до 32 тысяч токенов контекста. Это дает модели серьезное преимущество при работе с объемными документами и поддержании длительных осмысленных диалогов. Уже сегодня технология активно используется в сервисах Авито, помогая продавцам создавать качественные описания товаров и ускоряя коммуникацию в мессенджере платформы. «Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы», — отметил Андрей Рыбинцев, старший директор по данным и аналитике Авито. До конца года Авито внедрит в свою нейросеть еще 20 сценариев, а в будущем может сделать ее общедоступной. Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.