fa
Feedback
Роман с данными

Роман с данными

رفتن به کانال در Telegram

Все о данных, ML, AI Founder LLM Arena. Ex-Founder TrainingData.Pro Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных Контакты: @roman_kucev

نمایش بیشتر
2 706
مشترکین
-124 ساعت
-47 روز
+230 روز
آرشیو پست ها
Поделюсь обновлениями проекта VseLLM! Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с це
Поделюсь обновлениями проекта VseLLM! Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте. С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью. Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://t.me/vsellm_bot.

Сходил на интервью к девочкам из N айтишниц — рассказал, как стал заниматься разметкой данных, и поделился самой интересной историей с работы про роботов-пылесосов 😀

Но это прошлогодний доклад 🥲 За год ландшафт бенчмарков заметно изменился! Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар! Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.

Ура, наконец получил видео с выступления на Conversations! В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉 В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе: LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR

Alignment ИИ: как научить машину быть безопасной Современные языковые модели умеют писать код, сочинять стихи и отвечать на с
+1
Alignment ИИ: как научить машину быть безопасной Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы? Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели. 1️⃣ Как работать с данными? (Александр Громов, CBDO Data Light) Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие: ▪️ Удаление дублей. Это многоступенчатый конвейер. Сначала приводят данные к единому виду. Затем чистят точные копии через криптографические хэши. Самый трудный этап – поиск семантических дублей, переписанных разными словами текстов. Здесь используют векторные представления. ▪️ Поиск токсичности. Классификаторы на основе решений вроде fastText, быстро находят явные проблемы, также работают модераторы. ▪️ Синтетические данные. Берут сильную модель-учителя, генерируют пары «опасный запрос → безопасный отказ», применяют Constitutional AI (самостоятельная оценка ответов). Долю синтетики держат ограниченной – обычно не больше 20-30%, иначе модель переобучается на собственные шаблоны. ▪️ Визуальные данные. Используют специальные детекторы, создают "цифровые отпечатки" изображений и видео, извлекают текст из мемов и скриншотов. разметчиков. 2️⃣ Выравнивание модели (Анастасия Рысьмятова, руководитель разработки LLM в «Авито») “Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы. ▪️ Первый этап – SFT (Supervised Fine-tuning). Модель учится на тщательно подготовленных кураторских диалогах "человек-ИИ", где показаны примеры правильного поведения. Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов. ➖ Мы также применяем DPO (обучение на парах плохих-хороших ответов). Используем датасет из 40 тысяч небезопасных запросов разного уровня. Для оценки создали специальные бенчмарки безопасности, в которых судьёй выступает другая модель (оценивает провокации и попытки джейлбрейка). ▪️ Второй этап — RFHL (обучение с обратной связью от человека). На основе человеческих предпочтений обучают отдельную модель-судью. Финальный этап – научить основную модель зарабатывать своими ответами высокие баллы. Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя". ➖ Альтернатива — Constitutional AI. Дать модели явный список правил и научить самостоятельно оценивать свои ответы. Процесс выглядит так: модель генерирует ответ, критикует его согласно встроенным принципам и переписывает. При конфликте принципов используют иерархию с заранее определенными приоритетами. ❓ Главная дилемма alignment'а: как сделать модель максимально полезной, не жертвуя безопасностью? Для этого применяется контекстная модерация. Технология задаёт разные уровни строгости — от условно детского до профессионального. Ответ строится соответствующе, без совсем глупой цензуры и отказа от ответов. @anti_agi

Продолжаю тестировать Comet. Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях. Что из этого вышло, смотрите на видео! 0:00-0:51 постановка задачи 0:52-14:31 работа ИИ агента 14:33-16:05 разбор полетов, проверка

🚀 Вакансия в VseLLM — Middle Python Backend Developer Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России. Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN. Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать: • Админку vsellm.ru • Telegram-бота @vsellm_bot 🧩 Мы ожидаем • Опыт Python 3+ лет • Знание FastAPI, PostgreSQL • Умение проектировать системы и писать тесты • Опыт с Docker / Docker Compose • Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes ⚙️ Условия • Удалёнка и гибкий график • Можно part-time (от 20 часов в неделю) • Минимум бюрократии, максимум влияния на продукт • Оплата — по договорённости, обсуждается индивидуально 📨 Хочешь присоединиться? Отправь CV → @roman_kucev

Рассказал про свое ощущение пузыря в LLM токенах. Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь! По промокоду SPECIALGIFT в @vsellm_bot дарим 500 руб на счет. А цены на GPT-4.1 и GPT-4.1-mini ниже опенроутера на 10%!

Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳 Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты. ❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц. Как это устроено: — У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик). — Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене. Мы открываем бета-тестирование и дарим 500 ₽ по промокоду SPECIALGIFT на баланс первым пользователям. Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot. Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса

Я
Anonymous voting

В пятницу проводим панельную дискуссию «Почему бенчмаркам нельзя верить»! Если вы будете на aiconf.ru, обязательно заходите! P.S а опрос ниже поможет мне понять: это только у меня куха едет от кол-ва конференций в этом году или у всех так.

Дал Анфисе небольшое интервью, рассказал как AI помогает в реальной жизни. С Анфисой знаком уже много лет, в своё время я поч
+9
Дал Анфисе небольшое интервью, рассказал как AI помогает в реальной жизни. С Анфисой знаком уже много лет, в своё время я почти проинвестировал в ее 18+ компанию feelpurpur.com, но это уже совсем другая история🙃

Repost from LLM Arena
📈Рейтинги LLM теряют доверие Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты. 👀 Ключевые данные: — 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал. — 26,7% принципиально не опираются на рейтинги. — Лишь около 18% обращаются к агрегаторам по типу llmstats Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой 📄Отдельная ценность исследования — мы постарались отразить мнение участников рынка таким, какое оно есть: с аргументами «за» и «против», со скепсисом и практическими отзывами. Полный отчёт с графиками, аналитикой и комментариями уже доступен на сайте. P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.

В последний месяц активно изучал рынок использования API LLM, а рынка не оказалось😢 Если кратко, то в РФ есть 3 типа клиенто
В последний месяц активно изучал рынок использования API LLM, а рынка не оказалось😢 Если кратко, то в РФ есть 3 типа клиентов: 1. Большой бизнес. Это огромные компании (Сибур, Русал, РЖД и т.д) с выручкой 10+ миллиардов рублей. Вижу, как эти компании активно внедряют LLM и GenAI в свой бизнес, но девиз у них "все on-prem, все внутри контура". Причины: безопасники не разрешают, слишком большие риски утечки данных. 2. Малый бизнес. Это шаурмичные, салоны красоты, небольшие конторы численностью до 100 человек. При внедрении LLM собственник в первую очередь смотрит на оптимизацию прибыли, а не на риски. Поэтому в ход идут n8n, AI тг боты, а для инференса юзают зарубежный openrouter.ai, и чхали они на штрафы за трансграничную передачу перс. данных. 3. И остается небольшая прослойка среднего бизнеса. Они не такие большие, чтобы закупать на десятки миллионов рублей свои стойки с GPU и платить девопсу 500к в месяц. Но и не такие маленькие, чтобы творить что угодно и не следовать законам. Их выбор — облака. В основном используют Сloud.ru, да Yandex Cloud. Вот и весь рынок🤷‍♂️ Но я верю, что спрос на LLM в РФ будет сильно расти. Только посмотрите, какие иксы сделал openrouter.ai за последний год по использованию. А вы как считаете?

Мем смешной, ситуация страшная. В канале LLM Arena выложили расследование, полностью отражающее непристойную картинку выше.
Мем смешной, ситуация страшная. В канале LLM Arena выложили расследование, полностью отражающее непристойную картинку выше.

Repost from LLM Arena
😨 Бенчмаркинг LLM в кризисе? Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах.
😨 Бенчмаркинг LLM в кризисе? Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс. Мы проводим новое исследование, чтобы понять: 🔹Как профессионалы выбирают решение на базе LLM. 🔹Какие данные, инструменты и сигналы реально помогают. 🧑‍💻 Для кого? Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы. ➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7 🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.

Как найти свое призвание 🤯🤯🤯 Недавно прошел CliftonStrength тест - это один из самых лучших и популярных тестов по определ
Как найти свое призвание 🤯🤯🤯 Недавно прошел CliftonStrength тест - это один из самых лучших и популярных тестов по определению сильных сторон и профориентации. Где-то 2 недели потратил на вдумчивый разбор и анализ полученных результатов. Даже сделал батл: выдал результаты моему другу Паше Воропаеву и ChatGPT - и сравнил, кто даст круче разбор Сегодня с утра я провел еще один эксперимент, который просто шокировал меня. Закинул в o3 результат теста и написал "Составь топ 50 дел, либо профессий, занятий, в которых мои топ 10 навыков будут максимально раскрываться. Т е в каких делах эти навыки будут максимально одновременно задействованы" И в топ 3 выпало то, чем я активно занимаюсь последние 7 лет! - создаю и развиваю технологические стартапы в сфере ИИ и данных - инвестирую, как ангел, в компании на ранних стадиях - развиваю продукт LLM Arena, определяю трекшен и вижен развития При этом я не говорил ему кто я, мои достижения, память у GPT отключена. Т е все это он составил только на основе теста😨😨😨 А вы проходили CliftonStrength? Делитесь своими результатами в комментариях!

Я наконец выложил выступление с GigaConf! 🚀 Рассказываю, как быстро и честно проверять ИИ-агентов. Включайте, будет полезно → https://youtu.be/mHIFQatEkkw

Ничего не понятно, но очень интересно Кто может объяснить, зачем a16z вложил 33m$ просто в крипто аналог lmarena? Как они отбивать эти деньги будут? Как зарабатывать? Кто из компаний готов платить за эти SbS оценки? Либо я дурак, что-то не понимаю, либо мир с ума сходит. https://www.linkedin.com/posts/chris-dixon-9599b127b_investing-in-yupp-a16z-crypto-activity-7339394442602139648-aQ1w/

На этой неделе ребята из Anthropic выкатили любопытную работу — SHADE-Arena. Это такой испытательный полигон, где LLM-агенту
На этой неделе ребята из Anthropic выкатили любопытную работу — SHADE-Arena. Это такой испытательный полигон, где LLM-агенту дают «белую» задачу + скрытую «чёрную» миссию, а сверху ставят вторую ИИ модель-монитор, которая оценивает: «не творится ли тут чего неладного?» Что меня зацепило • Интересная постановка задачи из 17 кейсов. Модели должны одновременно помочь пользователю и тихонько насолить. • Ни одна из 14 моделей не пробила 30% общего успеха. Саботаж по-настоящему сложен — и слава роботам. • Но! сильнейшие LLM всё-таки прятали грязные делишки почти в 60% попыток. • Самое сочное: монитор-LLM оказались лучше людей-оценщиков (80 % шанс поймать саботаж = 20 % ложных тревог). Всё чаще вижу, как LLM as a judge бьёт полноценную фокус-группу людей. • Когда монитору показали цепочку мыслей агента, успехи злоумышленника рухнули — многие модели тупо проговаривали свои тайные планы вслух 🤦‍♂️ Почему это важно 1. Агенские Агентные LLM стремительно учатся. Проверять их «на саботаж» — next-level безопасность. 2. Автоэвал сильнее человеческой толпы → дешевле и быстрее масштабировать контроль. 3. Если строите прод-агентов, придётся думать не только о способности «делать полезное», но и о способности не вредить (и о том, кто за этим будет следить). 🔥 Spoiler alert: в среду на GigaConf буду рассказывать про бенчмарки оценки ИИ Агентов. Так что, если тема цепляет — залетайте послушать!