Machine learning Interview
前往频道在 Telegram
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz
显示更多📈 Telegram 频道 Machine learning Interview 的分析概览
频道 Machine learning Interview (@machinelearning_interview) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 30 037 名订阅者,在 技术与应用 类别中位列第 4 573,并在 俄罗斯 地区排名第 21 935 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 30 037 名订阅者。
根据 12 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 33,过去 24 小时变化为 -3,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 20.97%。内容发布后 24 小时内通常能获得 8.31% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 6 297 次浏览,首日通常累积 2 497 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 40。
- 主题关注点: 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно!
Вопросы - @workakkk
РКН: clck.ru/3FmwRz”
凭借高频更新(最新数据采集于 13 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
30 037
订阅者
-324 小时
-167 天
+3330 天
帖子存档
🧪 DeepEval — open-source фреймворк для оценки работы языковых моделей, вдохновленный принципами Pytest.
Проект решает ключевую проблему LLM-разработки: как объективно измерить качество ответов ChatGPT, RAG-пайплайнов или AI-агентов без ручных проверок.
В отличие от разрозненных метрик вроде RAGAS или G-Eval, DeepEval объединяет 20+ критериев оценки от релевантности контекста до токсичности и SQL-инъекций в промптах. Инструмент также имеет встроенную облачную платформу для сравнения разных версий LLM — она визуализирует, как изменения влияют на accuracy и безопасность.
🤖 GitHub
@machinelearning_interview
Что сложнее: пройти собеседование в MANGA или поступить в ШАД?
В новом выпуске MLinside — Алексей Толстиков, кандидат физико-математических наук, руководитель Школы анализа данных Яндекса (ШАДа) и эксперт в олимпиадах по программированию рассказывает:
▪️Как устроен отбор в Школу и зачем нужен сложный экзамен
▪️Как готовиться к интервью и почему важна честность
▪️ Насколько важен нетворк и коммьюнити
Переходите к выпуску
По сути, это готовый мануал к поступлению и если вы сейчас выбираете трек развития в машинном обучении — обязательно к прослушиванию.
🔥 ArXiv MCP Server
arxiv‑mcp‑server — это самостоятельный MCP‑сервер¹, который «оборачивает» arXiv.org в набор инструментов, доступных ИИ‑ассистентам (Claude Desktop, ChatGPT‑плагины, собственные агентовые фреймворки).
Благодаря этому ассистент может искать, скачивать и читать научные статьи, а также запускать готовые промпты для глубокого анализа работы, не покидая чата.
¹ MCP (Message Control Protocol) — открытый протокол Anthropic для обмена сообщениями и инструментами между LLM‑клиентом и сервером.
Ключевые возможности
- Поиск статей search_papers — фильтры по запросу, диапазону дат, категориям.
- Загрузка статьи download_paper — хранит PDF/метаданные локально, чтобы не дергать arXiv повторно.
- Список локальных статей list_papers.
- Чтение содержимого read_paper — отдаёт текст постранично.
- Готовые исследовательские промпты — например, deep-paper-analysis, который строит полное ревью (summary, методология, импликации, дальнейшая работа и т.д.).
▪ Github
⚡️Хотите стать востребованным экспертом в области рекомендательных систем?
Курс OTUS «Рекомендательные системы» — это практические занятия, живые лекции от ведущих DS/ML-специалистов и актуальные инструменты, которые используют крупнейшие компании. Вы научитесь создавать персонализированные рекомендации, внедрять системы под задачи e-commerce и стриминговых сервисов, эффективно сегментировать пользователей и проводить A/B-тесты.
После курса вы сможете реализовывать решения, которые принесут пользу бизнесу.
👉Оставьте заявку и получите скидку на обучение: https://otus.pw/BAE8/?erid=2W5zFHU8PEp
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Repost from Machinelearning
🔥 ReZero — маленькая модель, которая никогда не сдаётся
🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший.
🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ.
Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.
Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.
Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться".
🔜Github
🔜 Модель
@ai_machinelearning_big_data
#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
Repost from Hi, AI • Новости технологий
+6
У разработчиков и аналитиков свои игрушки 👾
Конечно, с ИИ-уклоном и те, которые им помогают в работе. Когда дело доходит до вайб-кодинга, многие обращаются к инструментам вроде Copilot. На бумаге — это волшебная палочка, которая должна разгружать спецов. А как на деле? 🪄
Коллеги из Т1 отвечают на этот вопрос — упаковали ответы в карточки. И их самих тоже — конечно же, с помощью искусственного интеллекта.
Больше про ИИ узнаем 16 и 17 апреля в Москве на конференции Data Fusion. Здесь спикеры от Т1 примут участие в сессиях, где обсудят:
🔘 выход российских компаний на зарубежные рынки; 🔘 человекоцентричный транспорт; 🔘 нейросети; 🔘 AI-native банки; 🔘 тренды в бизнесе; 🔘 инженеров нового поколения. Генеральный директор ИТ-холдинга Т1 Алексей Фетисов также наградит победителей соревнования Data Fusion Contest.
❓ Что выведет следующий код на Python (модуль statistics)?
import statistics as stats
import math
data = [1, 2, 2, float('nan'), 3, 4]
print("Mean:", stats.mean(data))
print("Median:", stats.median(data))
print("Mode:", stats.mode(data))
🔢 Варианты ответа:
A)
Median: 2.5
Mode: 2
B)
Median: 2.5
Mode: 2
C)ValueError: nan is not a valid number
D)
Median: nan
Mode: 2
✅ Правильный ответ: C
💡 Почему?
- Модуль statistics не умеет работать с NaN.
- stats.mean() и stats.median() вызовут StatisticsError или ValueError.
- В отличие от numpy.nanmean, здесь всё падает.
📌 Подвох — в float('nan') в списке.❓ Алгоритмическая торговля и количественный анализ: успех зависит от точного тестирования. Как избежать убытков и ошибок в логике торговых стратегий?
На открытом уроке 28 апреля в 20:00 мск научим вас, как правильно тестировать торговые стратегии с помощью самых популярных инструментов. Применение таких инструментов, как pandas, backtrader и backtesting, поможет вам избежать переобучения и непредсказуемых рыночных условий.
Используя полученные знания, вы сможете точно оценивать эффективность своих стратегий, настраивать метрики, такие как доходность и Sharpe ratio, и улучшать результаты с минимальными рисками.
➡️ Присоединяйтесь к открытому уроку и получите скидку на большое обучение «ML для финансового анализа»: https://otus.pw/R9kR/?erid=2W5zFHw5cK2
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🖥 OpenAI опубликовала новое руководство по промптингу для GPT-4.1.
Это полезный ресурс для улучшения работы с моделью.
В руководство включен подробный "агентный промпт" (Agentic Prompt).
Именно этот промпт OpenAI использовала для достижения рекордно высокого балла в сложном бенчмарке по разработке ПО SWE-bench Verified.
Что представляет собой этот агентный промпт?
Это, по сути, детальная инструкция для GPT-4, нацеленная на автономное решение задач по исправлению кода в репозиториях. Ключевые принципы, заложенные в нем:
- Глубокое понимание: Сначала тщательно изучить проблему.
- Исследование: Проанализировать кодовую базу.
- Планирование: Разработать четкий пошаговый план.
- Тестирование: Часто запускать тесты после каждого шага.
- Итерация: Повторять процесс до полного решения проблемы.
- Строгая верификация: Убедиться в корректности и надежности решения
- Автономность: Работать с предоставленными проектами без доступа к интернету и не завершать работу до полного решения.
Этот подход демонстрирует, как структурированные, пошаговые инструкции с акцентом на тестирование и итерацию могут значительно повысить эффективность ИИ в сложных задачах программирования.
📚 Руководство
🎲 Задача со стажировки ШАД по вероятности: сколько участников добежит до вершины?
Представим забег 100 человек по узкому скользкому эскалатору. У каждого есть шанс поскользнуться и упасть — тогда он и все, кто бежал за ним, соскальзывают вниз. Добираются до вершины только те, кто был впереди последнего упавшего.
Мы можем настраивать вероятность падения p. Вопрос: какое значение `p` нужно выбрать, чтобы в среднем до вершины добегало ровно 20 человек из 100?
Обозначения:
N = 100: общее количество участников.
K = 20: желаемое среднее количество участников, достигших вершины.
p: вероятность того, что один участник поскользнется и упадет (эту величину нужно найти).
q = 1 - p: вероятность того, что один участник не упадет.
X: случайная величина, равная количеству участников, достигших вершины. Мы хотим, чтобы E[X] = 20.
Логика процесса:
Участник i (где i от 1 до 100) доберется до вершины тогда и только тогда, когда ни один из участников перед ним (включая его самого) не упадет.
То есть, участники 1, 2, ..., i должны успешно пройти свой путь.
Вероятность того, что участник 1 достигнет вершины = P(участник 1 не упал) = q.
Вероятность того, что участник 2 достигнет вершины = P(участник 1 не упал И участник 2 не упал) = q * q = q^2.
Вероятность того, что участник i достигнет вершины = P(участники 1, ..., i не упали) = q^i.
Математическое ожидание E[X]:
Математическое ожидание количества добравшихся до вершины можно вычислить как сумму вероятностей того, что каждый конкретный участник доберется до вершины. Это связано со свойством линейности математического ожидания и использованием индикаторных переменных (I_i = 1, если i-й участник добрался, 0 иначе; E[X] = E[sum(I_i)] = sum(E[I_i]) = sum(P(I_i=1))).
E[X] = P(участник 1 добрался) + P(участник 2 добрался) + ... + P(участник N добрался)
E[X] = q^1 + q^2 + q^3 + ... + q^N
Это сумма первых N членов геометрической прогрессии с первым членом a = q и знаменателем r = q. Формула суммы:
S_N = a * (1 - r^N) / (1 - r)
Подставляем наши значения:
E[X] = q * (1 - q^N) / (1 - q)
Решение уравнения:
Мы хотим, чтобы E[X] = K = 20, при N = 100.
20 = q * (1 - q^100) / (1 - q)
Вспомним, что q = 1 - p. Значит, 1 - q = p.
20 = (1 - p) * (1 - (1 - p)^100) / p
20p = (1 - p) * (1 - (1 - p)^100)
Это уравнение довольно сложно решить аналитически из-за члена (1 - p)^100. Однако мы можем сделать разумное предположение.
Приближение:
Поскольку мы ожидаем, что только 20 из 100 человек доберутся до вершины, это означает, что падения должны происходить относительно часто, и вероятность того, что все 100 человек не упадут (q^100), должна быть очень мала. То есть, q^100 ≈ 0.
Если q^100 пренебрежимо мало по сравнению с 1, то формула для E[X] упрощается:
E[X] ≈ q * (1 - 0) / (1 - q)
E[X] ≈ q / (1 - q)
Теперь подставим желаемое значение E[X] = 20:
20 ≈ q / (1 - q)
20 * (1 - q) ≈ q
20 - 20q ≈ q
20 ≈ 21q
q ≈ 20 / 21
Теперь найдем p:
p = 1 - q
p ≈ 1 - (20 / 21)
p ≈ 1 / 21
Проверка приближения:
Давайте проверим, насколько мало значение q^100 при q = 20/21:
q^100 = (20/21)^100 ≈ (0.95238)^100
Используя калькулятор, (20/21)^100 ≈ 0.0076. Это действительно мало по сравнению с 1.
Посчитаем E[X] с этим приближением:
E[X] = (20/21) * (1 - (20/21)^100) / (1 - 20/21)
E[X] = (20/21) * (1 - 0.0076) / (1/21)
E[X] = 20 * (1 - 0.0076)
E[X] = 20 * 0.9924
E[X] ≈ 19.848
Это очень близко к целевому значению 20.
Ответ:
Чтобы в среднем вершины достигали 20 ребят из 100, вероятность падения p для каждого участника нужно подобрать примерно равной 1/21 (или около 0.0476).
👇 Пишите свое решение в комментариях
@machinelearning_interview
MLечный путь: митап, коммьюнити, знания
В программе:
- подбор инфраструктуры для ML под запрос бизнеса,
- деплой инференса в рентген-вагоне,
- развертывание Edge-AI в буквально (!) полевых условиях.
А ещё — активное участие вместо пассивного слушания: питчи, нетворкинг и мерч за лучшие идеи.
23 апреля в 18:00 приходите в офис Selectel в Санкт-Петербурге и подключайтесь онлайн.
Регистрация и детали по ссылке: https://slc.tl/tgb6o
Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqwdfLKT
Repost from Machinelearning
+4
🌟 NVIDIA добавила нативную поддержку Python в CUDA.
Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.
Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».
Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.
Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.
🟢Во-первых, появилась библиотека
cuPyNumeric — аналог NumPy, который переносит вычисления с CPU на GPU буквально заменой импорта.
🟢Во-вторых, CUDA Core переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей.
🟢В-третьих, добавлены инструменты для профилирования и анализа кода, а ускоренные C++-библиотеки теперь доступны из Python без потерь в производительности.
Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.
Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.
Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.
🔜 Посмотреть полную презентацию на GTC 2025
@ai_machinelearning_big_data
#AI #ML #Python #CUDA #NVIDIA+9
📄 Scaling Laws for Native Multimodal Models
📌 Исследователи из Sorbonne и Apple проанализировали 457 мультимодальных моделей, чтобы понять, как масштабируются нативные мультимодальные архитектуры (NMM) — обученные с нуля, а не через “приклейку” vision-энкодеров к LLM.
🔍 Главное:
▪ Late-fusion (классика с vision encoder + LLM) ≠ обязательно лучше.
▪ Early-fusion модели, в которых всё учится совместно с нуля — обгоняют по качеству при меньшем количестве параметров, обучаются быстрее и проще в продакшене.
▪ Добавление Mixture of Experts (MoE) даёт прирост — модели учат модальность-специфичные веса, сохраняя ту же цену инференса.
▪ Scaling laws (законы масштабирования) у NMM — почти те же, что у LLM. Можно планировать бюджеты и рост моделей аналогично.
⚠️ Ограничения:
— Пока неясно, как точно это поведение переносится на downstream-задачи.
— Нужно больше экспериментов с разными пропорциями мультимодальных данных.
— Для early-fusion на высоких разрешениях нужны новые подходы к работе с токенами (контекст, пуллинг и т.д.).
📎 Вывод:
Early-fusion — не просто рабочий вариант, а оптимальный выбор для мультимодальных моделей при ограниченных ресурсах. Отказ от “склеек” делает обучение проще, быстрее и дешевле.
Читать
#ai #multimodal #scalinglaws #moe #llm #mlresearch #arxiv
⚡️ Flashbax - удобный ускоритель для reinforcement learning в JAX-экосистеме. Проект предлагает свежий взгляд на проблему с буферами воспроизведения, переосмысливая работу с данными.
Библиотека выделяется тем, что превращает буферы из пассивных хранилищ в интеллектуальные компоненты, которые можно встраивать в полностью скомпилированные JIT-функции. Удобно, что разработчики прописали оптимизированные версии для разных сценариев: от простых переходов (как в DQN) до сложных траекторий для R2D2, причём с поддержкой приоритетного семплирования.
🤖 GitHub
@machinelearning_interview
🔥 Открыта регистрация на Летнюю школу машинного обучения Сколтеха.
SMILES-2025 — это 12-дневный интенсивный курс, посвященный генеративным методам в ИИ. Школа организована Сколтехом в сотрудничестве с Харбинским технологическим институтом в Китае. SMILES-2025 пройдет с 14 по 27 июля 2025 года.
Соорганизатор летней школы — HIT, генеральный партнер — Альфа-Банк, научный партнер — Институт AIRI.
👉 Участие бесплатное на основе конкурсного отбора. Подробности и подача заявки.
Реклама. СКОЛКОВСКИЙ ИНСТИТУТ НАУКИ И ТЕХНОЛОГИЙ, СКОЛТЕХ. ИНН 5032998454.
⚡️ Вышел мощный ИИ-ресерчер от AlphaXiv
С ним можно сделать всё: от контрольной до научной статьи в журнал.🔥
Нововведения:
🔎 ИСКАТЬ любые научные источники по любой теме
🧠 ПОНЯТНО объяснять даже самые сложные статьи — просто загрузи PDF и задавай вопросы
📚 СОВЕТОВАТЬ, что почитать дальше, выделять тренды и разбирать каждый источник по полочкам
💻 РАБОТАТЬ с кодом из статьи прямо в окне — правь, оптимизируй, получай объяснения
📝 ДЕЛАТЬ автоконспекты — чёткие и подробные
🚀 ПОСТОЯННО обновляется — фичи прилетают регулярно
А теперь самое главное:
🧬 Deep Research — встроенный ИИ-агент, который за 1 минуту создаёт системный обзор по любой научной теме. Статьи, выводы, тренды — всё на месте.
Гениального ассистента забираем отсюда 👉 https://www.alphaxiv.org/assistant
Что не так с кодом в Капибаровске?
Узнайте на T-CTF — соревновании от Т-Банка для опытных ИТ-специалистов. Решайте задания по спортивному хакингу с шансом выиграть приз до 420 000 ₽.
Вот как все устроено:
— Выберите Лигу Разработки или Лигу Безопасности по своим навыкам. Если участвуете впервые, можно потренироваться на демозаданиях.
— Соревнуйтесь один или в команде до 3 человек. Вам помогут найти команду, если нет своей.
— Участвуйте онлайн или приходите в ИТ-хаб Т-Банка в одном из 6 городов России.
— Используйте время на решение заданий и общение с участниками — у вас будет 36 часов.
Задания будут интересны разработчикам, QA- и SRE-инженерам, аналитикам и другим ИТ-специалистам уровня middle и senior.
Успейте зарегистрироваться до 18 апреля.
Реклама. АО «ТБанк», лицензия ЦБ РФ № 2673, erid: 2Ranykc4ety
+1
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
Repost from Machinelearning
📕 Андрей Карпаты опубликовал новый пост- необычный путь распространения LLM, их влияние на людей и организации, причины разрыва и взгляд в будущее.
В нем он анализирует необычное распространение больших языковых моделей (LLM).
Вот его содержание:
В отличие от традиционных технологий, которые обычно проходят путь от государственных и военных структур через корпорации к индивидуальным пользователям, LLM сразу стали широко доступны обычным людям.
Это позволило моделям значительно расширить свои возможности в таких областях, как программирование, анализ данных и создание контента, без необходимости привлекать узких специалистов.
ChatGPT — самое быстрорастущее приложение в истории, у него 400 миллионов активных пользователей в неделю.
Люди используют его для написания текстов, программирования, перевода, обучения, анализа, исследований и генерации идей
Это не просто улучшение жизни— это мощный бустер возможностей человека.
И барьер для входа использования LLM невероятно низкий: модели бесплатны или дешевы, быстры, доступны всем через API или локально, и говорят на любом языке, включая сленг и эмодзи.
Никогда еще человек не получал такого технологического скачка так быстро.
Почему же эффект для корпораций и государственных институтов не такой весомый?
Во-первых, LLM дают "
квази-экспертные" знания: широкие, но неглубокие и ненадежные. Для организаций, где уже есть эксперты (инженеры, юристы, аналитики), это лишь слегка повышает эффективность.
А вот для человека, который обычно эксперт лишь в одном, LLM открывают новые горизонты: программировать, разбираться в юриспруденции, анализировать данные или создавать контент — все это теперь возможно без посторонней помощи.
Во-вторых, организации решают более сложные задачи: интеграции, устаревшие системы, безопасность, регуляции, координация.
Ошибки LLM тут куда опаснее — "вайб кодить" не выйдет.
В-третьих, есть инерция: бюрократия, культура компаний, переобучение — все это тормозит внедрение.
Пока LLM радикально меняют жизнь людей, а не организаций.
Мэри, Джим и Джо получают больше, чем Google или правительство США. Но что дальше? Если топовые модели станут сильно дороже и лучше, крупные игроки смогут "купить интеллект", и элита снова уйдет в отрыв.
Сегодня Билл Гейтс использует тот же GPT-4o, что и вы, но завтра его ребенок может учиться у GPT-8-pro-max, а ваш — у GPT-6-mini.
Сейчас мы находимся в уникальном моменте: будущее уже здесь, и технологии удивительно равномерно распределены. Будущее тут, и оно доступно для всех. Власть людям!
🔗 Оригинал
@ai_machinelearning_big_data
#AndrejKarpathy #influencer+1
Российская языковая модель A-Vibe от Авито возглавила рейтинг легких ИИ-решений (до 10 млрд параметров) в независимом бенчмарке MERA.
Разработка команды классифайда обошла признанных зарубежных конкурентов — GPT-4o mini от OpenAI, Gemma 3 27B от Google, Claude 3.5 Haiku от Anthropic и Mistral Large.
Модель демонстрирует впечатляющие результаты работы с русским языком. В тестах генерации кода A-Vibe показала результат на 25% лучше, чем Gemini 1.5. При ведении диалогов она оказалась на 32% точнее Llama 3.1. А в анализе смысла текста превзошла Claude 3.5 Haiku на 23%.
Технические возможности A-Vibe позволяют ей одновременно обрабатывать до 32 тысяч токенов контекста. Это дает модели серьезное преимущество при работе с объемными документами и поддержании длительных осмысленных диалогов. Уже сегодня технология активно используется в сервисах Авито, помогая продавцам создавать качественные описания товаров и ускоряя коммуникацию в мессенджере платформы.
«Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы», — отметил Андрей Рыбинцев, старший директор по данным и аналитике Авито.
До конца года Авито внедрит в свою нейросеть еще 20 сценариев, а в будущем может сделать ее общедоступной.
Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
