es
Feedback
Роман с данными

Роман с данными

Ir al canal en Telegram

Все о данных, ML, AI Founder LLM Arena. Ex-Founder TrainingData.Pro Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных Контакты: @roman_kucev

Mostrar más
2 706
Suscriptores
-124 horas
-47 días
+230 días
Archivo de publicaciones
photo content
+9

photo content
+9

photo content
+9

+9

photo content
+9

Лечу на Southub отмечать свой 31-й день рождения 🥳 Рейс задержали на 2 часа, нашел время зайти в галерею. Год был крайне интересный и насыщенный: - 2 поездки в США - 2 купленных мотоцикла (да, кризис 30-ти такой) - 2 месяца в Гоголь Скул на программе, которая сильно поменяла отношение к миру - 2 поездки POLUBVI - 2-е место у llmarena.ru на Gen AI Awards - 20+ конференций - х2 каждый месяц растет vsellm.ru последние пол года Вместо умных мыслей и выводов - запечатленные моменты

Через 5 минут начинаем! Ссылка для подключения: https://dion.vc/event/datafest-b Инструкция по подключению

Всем привет! Я уже много лет подряд организую на DataFest секцию Data Collection & Labeling — про данные, разметку, контроль качества и всё то, без чего AI на самом деле не работает. Все говорят, что “LLM заменят разметку”, но по факту разметка не умирает — она превращается в новую инженерную дисциплину вокруг данных, качества и автоматизации. В этом году я постарался собрать максимально прикладную программу: без воды, с реальными кейсами от сильных команд. Пятница — офлайн в Лемана Тех 12:10 — Контроль качества CV-разметки (Яндекс) 12:40 — LegalEval: бенчмарк + Kaggle (Физтех) 13:10 — Как LLM снижает шум в разметке изображений (Яндекс) 13:40 — RL-инструмент для анализа контекстов (Яндекс) Воскресенье — онлайн 12:00 — Как угодить заказчикам и почему этого мало (Тбанк) 12:30 — Аналитика платформы разметки (Тбанк) 13:00 — AI-разметчик и контроль качества авторазметки (Тбанк) Если вы работаете с ML, LLM, CV, датасетами или AI-продуктами — заглядывайте. Мне кажется, получилась живая и полезная секция про то, как сегодня реально устроено производство данных для AI.

🚜 Разметка данных — это новый трактор для экономики знаний Есть ощущение, что мы сейчас смотрим на очень большой сдвиг, но пока не до конца его осознаём. Раньше, чтобы человечество стало продуктивнее, нужно было, чтобы миллионы людей сами учились лучше пахать землю, лучше работать руками, лучше делать одно и то же действие. Потом кто-то умный придумал трактор. И внезапно стало не нужно, чтобы каждый фермер умел проектировать двигатель, собирать коробку передач и разбираться в металлургии. Достаточно было, чтобы небольшая группа инженеров где-то в одном месте придумала и произвела трактор. А дальше миллионы людей по всему миру просто научились им управлять — и их продуктивность выросла в десятки раз. Мне кажется, с ИИ сейчас происходит примерно то же самое. Раньше, чтобы человек научился программировать, анализировать данные, писать юридические документы, делать научные исследования или решать сложные инженерные задачи, ему нужно было самому пройти долгий путь: • Годы обучения. • Универ. • Практика. • Ошибки. • Книги. • Менторы. • Опыт. То есть знание распространялось через обучение каждого отдельного человека. А теперь появляется новая схема. Не нужно 5 миллионов PhD, чтобы 5 миллионов людей могли решать сложные задачи. Достаточно найти 15–20 очень сильных экспертов, профессоров, олимпиадников, инженеров, врачей, юристов, аналитиков — и посадить их размечать самые сложные frontier-задачи для OpenAI, Anthropic, Google или других лабораторий. Они показывают модели: • как думать; • как рассуждать; • где ошибка; • какой ответ лучше; • как выглядит хорошее решение; • как выглядит плохое решение; • как эксперт принимает решение в сложной ситуации. И дальше происходит магия. Их знания не остаются внутри этих 15–20 людей. Они дистиллируются в модель. А потом эта модель попадает к миллионам пользователей по всему миру. То есть разметка данных становится не просто “ручной работой для датасетов”. Она становится трубой, через которую знания лучших людей планеты перетекают в массовый продукт. Раньше знание масштабировалось через образование. Теперь знание масштабируется через разметку данных и обучение моделей. Это очень сильный сдвиг, а вы как считаете? VseLLM | LLM Arena | AI Roman

Вижу дичайший спрос у РФ компаний на Cloud Code. Уже помогли нескольким оплатить корпоративные подписки в рамках нашей услуги по оплате зарубежных сервисов. Подскажите, пользуетесь ли вы у себя на работе Cloud Code? Как работодатель оплачивает? Хочу понять на сколько большая боль сейчас по оплате и как ее решает бизнес.

Anthropic выкатили любопытный разбор “Detecting and preventing distillation attacks” Они утверждают, что DeepSeek, Moonshot (Kimi) и MiniMax в промышленных масштабах «дистиллировали» Claude — то есть генерили ответы сильной модели и использовали их как обучающие данные для своих. По их оценке, было сгенерировано больше 16 млн диалогов через ~24 тыс. фрод-аккаунтов и прокси. Ключевая цель — самые дорогие навыки: reasoning, tool-use, coding, агентность. Почему это вообще имеет смысл? Потому что это про экономику. Если вы хотите получить сопоставимое качество данных «вручную», то вам нужны тысячи человеко-часов: разметка, сравнение ответов, рубрики, проверки, консистентность, контроль качества. Даже если очень грубо и дешево считать $1 за “качественную единицу разметки” (а для сложных задач это часто сильно выше), 16 млн единиц — это $16 млн. Если считать ближе к реальности пост-трейнинга (где люди реально думают, оценивают, спорят, прогоняют рубрики) — легко получается сотни миллионов долларов! А синтетика от сильной модели превращает это в «копейки». Условно: не $1–$20, а $0.01 и ниже (в зависимости от длины ответов, модели и прайса/доступа). Тогда 16 млн — это $160k–$1.6 млн. То есть разница не “в два раза”, а на порядки: x50–x500+ по стоимости (и это без учета того, что синтетика ещё и масштабируется мгновенно). Вот почему тема дистилляции такая токсичная: вы не просто «ускоряете обучение», вы переносите самый дорогой актив — “качество” — практически напрямую. И дальше уже вопрос не только бизнеса, но и контроля: сохранятся ли safeguards, как это влияет на экспортные ограничения и т.д. Мой вывод простой: у фронтира главный дефицит — не только GPU, а качественный пост-трейнинг. И именно поэтому все будут либо защищаться от дистилляции, либо пытаться её делать. Кстати, мы во VseLLM натренировались и научились генерировать синтетику не хуже китайцев. Так что если интересно - пишите в ЛС 😉

Напоминаю, что сегодня в 18:00 у нас эфир! Большой фокус хочу уделить ROI и целесообразности внедрения ИИ в бизнес. Приходите
Напоминаю, что сегодня в 18:00 у нас эфир! Большой фокус хочу уделить ROI и целесообразности внедрения ИИ в бизнес. Приходите, будет интересно. Ссылка на трансляцию: тут!

В марте лечу на Snow BASE - кэмп в Красной Поляне для C-level в области AI и Data Science! В преддверии кэмпа ребята предложи
В марте лечу на Snow BASE - кэмп в Красной Поляне для C-level в области AI и Data Science! В преддверии кэмпа ребята предложили провести эфир и по самым насущным и актуальными темам в AI. И я, как любитель такой движухи, с радостью согласился. В следующий вторник в 18:00 буду снимать покровы с тематики GenAI. Позвал: — Валерий Ковальский, Head of AI в Red.Mad.Robot — Александр Абрамов, Head of AI CoE во ВкусВилл — Артур Самигуллин, руководитель Yandex AI Studio — Александр Толмачев, CDO Обсудим: — Как считать реальную ценность AI-агентов и выбирать направления, которые дадут эффект — Техники повышения надёжности: снижение галлюцинаций, scaffolding, caching, debate-подходы — Честные кейсы и факапы внедрения GenAI — что сработало, что провалилось, сколько стоило — Agent swarm и другие тренды: перспектива или хайп? — Как вайбкодинг изменил процессы разработки, найма и структуру команд Ссылка на трансляцию: тут!

Мне безумно зашел раздел “Analysis of LLM User Retention”. Делюсь инсайдами, которые почерпнул: Почти у всех LLM быстрый chur
+1
Мне безумно зашел раздел “Analysis of LLM User Retention”. Делюсь инсайдами, которые почерпнул: Почти у всех LLM быстрый churn, но иногда появляются foundational cohorts — ранние группы, которые удерживаются заметно лучше. Это значит, что для них случился устойчивый workload–model fit: модель впервые реально закрыла важную задачу, и её встраивают в пайплайны/процессы, из-за чего переключаться становится дорого. Это описывается как эффект “Cinderella / Glass Slipper”: есть набор ценных нерешённых задач, и каждая новая frontier-модель «примеряется» к ним. Когда совпали требования по качеству/стоимости/стабильности — происходит “идеальная посадка” и возникает lock-in. Поэтому когортный retention — индикатор скачка возможностей и преимущества “first-to-solve”, но окно короткое: после догоняющих релизов такие когорты почти не формируются. Еще занимательный факте: если модель провалилась, как, например, Llama 4 Maverick - у такой модели не будет сильных когорт вообще (не было “frontier-fit”). Поэтому и происходит LLM гонка - попытки выпустить frontier-модель, и за счет более долгого оттока ее окупить. Какой все же интересный рынок развития LLM! По промкоду ROMAN дарю вам 200 руб на счет в моем сервисе VseLLM - русском аналоге OpenRouter.

Repost from LLM Arena
⚡️ Анализируем исследование OpenRouter, вышедшее в декабре 2025 года. В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года). 1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью. • Reasoning-модели уже >50% всего трафика. • xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pro и Flash. Хотя есть некий скепсис и впечатление, что цифры у Grok искусственно завышенные на OR. 2. Open Source: Китай + “средний класс” моделей • DeepSeek + Qwen выросли с микродолей до примерно ~30% мирового объема токенов. • И главное: OS перестал быть «одна семья правит всеми». Раньше тянул DeepSeek, теперь трафик размазан между DeepSeek / Qwen / Moonshot (Kimi) / GPT-OSS. • Маленькие модели <15B в API теряют смысл и популярность. Побеждает “средний класс” 15B–70B — новый стандарт эффективности. 3. Кодинг — наконец-то серьезный рост • Доля запросов по программированию выросла с 11% до ~50% всего объема токенов к концу 2025. • Anthropic всё ещё король кодинга: Claude держит ~60% рынка платных код-запросов. Но OpenAI и MiniMax уже начали подъедать доли. (Хотя сами мы тут ставим и на Гемини, который на том же OR уже не первую неделю лидирует в «Программировании»). • Кодинг — главная причина роста длины промптов. Контексты в коде в среднем в 3–4 раза длиннее, чем «обычные» задачи. 4. Roleplay — скрытый потенциал. В мире Open Source 52% всех токенов тратится на... Ролплей. • Люди используют открытые модели для создания персонажей и интерактивных историй, так как там меньше цензуры. • Даже в китайских моделях ролплей занимает треть трафика, хотя там растет доля кодинга. 5. Эффект «Стеклянной туфельки» (The Glass Slipper Effect) Авторы ввели крутой термин для удержания пользователей. • Если модель первой «идеально решает» специфическую задачу юзера (надевается как туфелька Золушки), этот юзер остается с ней навсегда, даже если выходят модели новее. • У DeepSeek обнаружен уникальный «Эффект бумеранга»: пользователи уходят пробовать новинки, но возвращаются обратно, поняв, что соотношение цена/качество у DeepSeek лучше. 6. Цена vs Качество Рынок разделился на два лагеря: • Efficient Giants: Дешево и много (Gemini Flash, DeepSeek). Здесь царствует закон Джевонса — снижение цены ведет к взрывному росту потребления. • Premium Leaders: Дорого и качественно (Claude 3.7/4 Sonnet, GPT-5 Pro). Спрос здесь неэластичен: профи готовы платить любые деньги за топовое качество рассуждений.

Жесть, зарубежная LMArena привлекла второй раунд в $150M под оценку $1.7B. Как думаете, под какую оценку мы в России можем в свою llmarena.ru привлечь инвестиции? Перевод поста LMArena в Х:
Сегодня мы с радостью объявляем о привлечении 150 миллионов долларов в рамках раунда финансирования серии А при оценке компании в 1,7 миллиарда долларов — почти в 3 раза больше, чем в майском посевном раунде. С момента начала оценки в сентябре наш годовой объем потребления превысил 30 миллионов долларов. Наша миссия ясна: измерять и продвигать границы применения ИИ в реальном мире, обеспечивая разработчикам, исследователям, предприятиям и обычным пользователям возможность понимать, как ИИ ведет себя там, где это наиболее важно. Раунд возглавили @Felicis и UC Investments (@UofCalifornia), при участии @a16z, @TheHouseFund, LDVP, @kleinerperkins, @lightspeedvp и @LaudeVentures. Это достижение отражает растущий консенсус в отрасли: ИИ не может масштабироваться ответственно без независимой, прозрачной и непрерывной оценки. За последний год LMArena стала самой надежной в мире платформой для сообщества, позволяющей понять, как модели ИИ работают в реальных условиях. Поскольку ИИ охватывает миллиарды людей по всему миру, потребность в измерениях, основанных на реальном опыте, а не только на эталонных показателях, никогда не была столь актуальной. Сегодня мы обслуживаем более 5 миллионов пользователей в месяц в 150 странах. Вместе наше сообщество ежемесячно генерирует более 60 миллионов диалогов, оценивая возможности и надежность моделей в текстовом, программном, графическом, видеоформате и поиске. Мы будем двигаться еще быстрее, чтобы создавать новые функции и улучшать пользовательский опыт, позволяя сообществу оценивать передовые достижения в области искусственного интеллекта. Этот беспрецедентный уровень вовлеченности свидетельствует о фундаментальном сдвиге в ожиданиях: сегодня мир требует от ИИ измеримых, сопоставимых и подотчетных результатов. Новое финансирование позволит нам значительно расширить масштабы наших инженерных разработок, исследований, работы платформы и инициатив, направленных на развитие сообщества, чтобы удовлетворить растущий глобальный спрос. При поддержке нашей команды, партнеров и глобального сообщества мы продолжим переосмысливать методы оценки и развития искусственного интеллекта — на пути к созданию самой надежной в мире платформы для оценки.

Ключевые выводы McKinsey из отчета The State of AI in 2025 о применении AI агентов 1. Большинство организаций всё ещё находятся на стадии экспериментов или пилотных проектов: две трети респондентов говорят, что их организации пока не начали масштабировать ИИ на уровне всей компании. 2. Высокий интерес к ИИ-агентам: 62% участников опроса отмечают, что их организации как минимум экспериментируют с ИИ-агентами. 3. Позитивные ранние сигналы влияния ИИ: Респонденты сообщают о выгодах по отдельным сценариям применения — снижении затрат и росте выручки — и 64% говорят, что ИИ помогает инновациям. 4. Лидеры используют ИИ для роста, инноваций и снижения затрат: 80% респондентов говорят, что их компании ставят повышение эффективности целью ИИ-инициатив. 5. Перепроектирование рабочих процессов — ключевой фактор успеха: половина наиболее успешных компаний в ИИ намерена использовать ИИ для трансформации бизнеса, и большинство из них пересматривают рабочие процессы. Цифры крутые! Но потом читаю юмористические посты Вити Тарнавского https://t.me/singularityfm/375 Леши Хахунова https://t.me/aihappens/392 И складывается картинка как их внедряют😀😀😀

Один график из отчёта The State of AI in 2025 — и сразу понятно, где AI-агенты реально прижились. McKinsey разложили по полоч
Один график из отчёта The State of AI in 2025 — и сразу понятно, где AI-агенты реально прижились. McKinsey разложили по полочкам: кто именно (по профессиям) и в каких индустриях их использует.

Repost from LLM Arena
🔫 GenCode Mini Gallery Bench LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады пре
🔫 GenCode Mini Gallery Bench LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк. 📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки. GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей. Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое. Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей. ❗️ Модели, используемые для генераций доступны по API на VSELLM ♾ Вкладка с бенчмарком доступна на https://llmarena.ru/ или напрямую по ссылке https://clocks.llmarena.ru/. 📸 Ждем вашего мнения и обратной связи.

Лучшее, что я видел на этой неделе. Как перестать напевать эту песенку?😂😂😂