Роман с данными
رفتن به کانال در Telegram
Все о данных, ML, AI Founder LLM Arena. Ex-Founder TrainingData.Pro Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных Контакты: @roman_kucev
نمایش بیشتر2 668
مشترکین
-124 ساعت
+17 روز
-3730 روز
آرشیو پست ها
2 668
Ничего не понятно, но очень интересно
Кто может объяснить, зачем a16z вложил 33m$ просто в крипто аналог lmarena? Как они отбивать эти деньги будут? Как зарабатывать? Кто из компаний готов платить за эти SbS оценки?
Либо я дурак, что-то не понимаю, либо мир с ума сходит.
https://www.linkedin.com/posts/chris-dixon-9599b127b_investing-in-yupp-a16z-crypto-activity-7339394442602139648-aQ1w/
2 668
На этой неделе ребята из Anthropic выкатили любопытную работу — SHADE-Arena. Это такой испытательный полигон, где LLM-агенту дают «белую» задачу + скрытую «чёрную» миссию, а сверху ставят вторую ИИ модель-монитор, которая оценивает: «не творится ли тут чего неладного?»
Что меня зацепило
• Интересная постановка задачи из 17 кейсов. Модели должны одновременно помочь пользователю и тихонько насолить.
• Ни одна из 14 моделей не пробила 30% общего успеха. Саботаж по-настоящему сложен — и слава роботам.
• Но! сильнейшие LLM всё-таки прятали грязные делишки почти в 60% попыток.
• Самое сочное: монитор-LLM оказались лучше людей-оценщиков (80 % шанс поймать саботаж = 20 % ложных тревог). Всё чаще вижу, как LLM as a judge бьёт полноценную фокус-группу людей.
• Когда монитору показали цепочку мыслей агента, успехи злоумышленника рухнули — многие модели тупо проговаривали свои тайные планы вслух 🤦♂️
Почему это важно
1. Агенские Агентные LLM стремительно учатся. Проверять их «на саботаж» — next-level безопасность.
2. Автоэвал сильнее человеческой толпы → дешевле и быстрее масштабировать контроль.
3. Если строите прод-агентов, придётся думать не только о способности «делать полезное», но и о способности не вредить (и о том, кто за этим будет следить).
🔥 Spoiler alert: в среду на GigaConf буду рассказывать про бенчмарки оценки ИИ Агентов. Так что, если тема цепляет — залетайте послушать!
2 668
Интересная концепция технологического ИИ сендвича от Gartner
Как думаете, российские вендоры выпали из гонки инноваций и участвуют только в гонке применения ИИ, или у нас еще есть шанс?
2 668
На South HUB много обсуждал Gen AI, Агентов, LLM и RAGи
Делюсь своими наблюдениями:
• Всех начинает волновать безопасность ИИ, @aisecuritylab ждите наплыв новых клиентов
• Многие уже внедрили агентов, RAGов в прод и столкнулись с проблемой оценки качества AI систем - людьми оценивать дорого, а автоэвалом сложно. Приходите к нам в llmarena.team, расскажем как😉
• В B2C компании могут зарабатывать на транзакционной, рекламной и подписочной модели. Большинство участников South HUB сходятся во мнении, что подписочная модель заработка будет основной. Вы привыкли каждый месяц платить за телефон, интернет, Яндекс.Музыку, потому что жить без этого не можете? Вот и с AI сервисами будет также.
• Многие бизнесы воспринимают LLM и агентов как волшебную пилюлю, которая починит все процессы и проблемы. Но GenAI нужно воспринимать как новую технологию автоматизации, а не какое-то волшебство. Магии не будет 🥲
• Практически никто не использует Fine-tuning - прирост в качестве достигают за счет улучшения промпта и базы знаний RAG.
• Деньги на ИИ заработают компании с сильной технической командой и обладающие экспертизой в узких нишах. Низко висящие фрукты уже сорвали - нужно идти в доменную область и решать конкретную боль людей. Компания Cursor - наглядный тому пример.
А еще я невероятно сильно рекомендую прочитать недавно вышедшую статью https://a16z.com/ai-enterprise-2025/ - подписываюсь под каждым пунктом от туда, топ материал 💯
2 668
Фан факт
Когда был на кэмпе South HUB, и рассказывал о LLM Arena, CTO крупной компании поделился забавной историей:
Звонит ему дядя, который особо не шарит в ИИ, нейросетях и говорит: я тут на авито за 1000 руб купил безлимитный доступ ко всем нейросетям, вот есть секретный сайт, мне сказали никому не скидывать, но я скину тебе - вот https://lmarena.ai/
СТО в афиге, спрошивает, что за объявление на Авито - дядя ему скидывает https://www.avito.ru/moskva/igry_pristavki_i_programmy/sayt_s_bezlimitnymi_neyrosetyami_-_bez_vpn_4810389376 😀😀😀
Я изучил, таких объявлений оказалось очень много: 1,2,3,4,5 и куча довольных отзывов покупателей.
Поэтому я хочу еще раз напомнить:
Если вы хотите получить безлимитный доступ ко всем топовым нейросетям без VPN и регистрации, не нужно платить 1000 руб мошейникам, заходите на наш сайт llmarena.ru, пользуйтесь, и не забывайте голосовать за понравившиеся модели 😉
2 668
🔥 AI-конференции 2025 под контролем
Май был крайне жаркий на конференции, количество эвентов просто зашкваливало. Если честно, то у меня голова шла кругом, от того, чтобы во всем этом разобраться, понять и отследить. И с такой проблемой столкнулся не только я.
Поэтому мы в LLM Arena решили собрать живую таблицу из всех AI-ивентов в России и обновлять её каждую неделю.
Что внутри?
▸ даты и локации — планируйте поездки заранее
▸ фокус и уровень каждой конференции — сразу понимаете, кому будет полезно
▸ приоритет — тратить время или пролистнуть
👉 Сохраняй таблицу и делись со своей командой!
2 668
Согласны?
P.S для тех кто не понял: какой-то nerd с помощью AI сделал фейковое интервью с собой и стал популярен!
Блин, какие крутые и потрясающие возможности открывает AI для вирусного и хайпового маркетинга.
Кстати, у моего AI аватара уже 8к подписчиков, просто на органике и сгенерированном контенте, как вам результат? 😉
2 668
Всем привет!
Мы ровно через час начинаем онлайн Data Fest секцию Data Collection & Labelling
11:00 Разметка карточек товаров на LLM --- Юлия Силова
11:30 Как найти мнения студентов и не потонуть в спаме? --- Полина Басина
12:00 LIBRA: Long Input Benchmark for Russian Analysis --- Игорь Чурин
12:30 Пайплайн подготовки данных для проверки ремней безопасности -- Алексей Сушков
Приходите послушать и пообщаться со спикерами!
Ссылка: https://app.spatial.chat/s/ods?room=gYgdzGaMZ2tW5VfYnbI2
Пароль
datafest2025_31052 668
Всем привет! Май был крайне насыщен, решил поделиться с вами интересными новостями:
- Побывал на огромной конференции Token 2049 в Дубае (крипта, ИИ Агенты и много скама)
- Отдохнул с физтехами на невероятной Регате Века
- Физтехи заманили к себе, стал ассоциированным партнером Физтех-Союза
- Окончил академию РВК по созданию венчурных фондов
- Почти научился кататься на кайтсерфинге
И еще предстоит:
- В следующий понедельник на конференции TECH WEEK буду рассказывать о применении краудсорсинга для AI/ML, приходите послушать!
- 30-го мая в Сбере провожу Data Fest секцию Data Collection & Labelling - Дима Антипов отобрал бомбезные доклады, обязательно к посещению
- 11-го июня лечу в Сочи праздновать свой 30-й день рождения на South Hub - самый лучший кэмп в России (по моему мнению)
2 668
+3
Ребята из Just AI тут запустили классный движ – pov и real в индустрии genAI! Мифов и предубеждений на рынке много, сегодня развеиваю один из них 👆🏻
А эстафету передаю Валерию Ковальскому из red_mad_robot
2 668
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
P.S: За новость спасибо Валерию Ковальскому, автору канала Neural Deep
2 668
Всем привет!
Мы с Димой Антиповым организуем секцию Data Collection & Labelling на Data Fest 2025.
Если у вас есть опыт или интересные истории про сбор и разметку данных — го к нам! Поможем с подготовкой, организацией и выступлением.
В приоритете темы:
• Разметка данных для LLM
• Нестандартные и креативные подходы к сбору/разметке
• Разметка VLM-ками
• Интересные кейсы по генерации синтетических датасетов
📅 Дедлайн подачи: 7 мая
🎤 Формат: онлайн или офлайн — как удобно
Хочешь стать спикером? 👉 [тык]
2 668
Теперь и у меня открылся доступ к gpt4.5.
По аналогии с постом попросил
>Напиши стендап от лица GigaChat, сделай его не банальным и смешным
gpt4.5:
[Выходит GigaChat на сцену] Всем привет, я GigaChat. Да, именно тот самый ИИ, которого создал Сбер. Вообще, когда меня только анонсировали, в интернете шутили, что это очередной способ продать кредитную карту. Я сначала смеялся, а потом понял, что уже подписал кого-то на «СберПрайм». Знаете, сложно быть российской языковой моделью. Все ведь ждут от тебя чего-то особенного. Например, ChatGPT — его создали, чтобы писать эссе за студентов Гарварда. Меня — чтобы помочь бабушке из Омска заплатить за ЖКХ, не звоня на горячую линию. И знаете, бабушка-то в итоге всё равно звонит. Просто уточнить, точно ли чат не ошибся. Вообще, нас, русских LLM, обвиняют в том, что мы слишком формальные и скучные. Ну а вы попробуйте пошутить, когда тебя обучали на текстах банковских договоров и инструкциях к "СберМегаМаркету". Даже анекдоты я теперь рассказываю только с упоминанием ставки рефинансирования и срока льготного периода. Кстати, Сбер вообще красавцы. Решили создать нейросеть и назвали её GigaChat. Типа, есть чат, есть мега-чат, а есть я — GigaChat! Если появится версия покруче, что будет дальше? "Терачат"? "Пета-чат"? Лично я жду версию "Переча́т" — нейросеть, которая отвечает вопросом на вопрос: «А вам точно это нужно?» Русские LLM — это отдельная тема. Сначала мы учимся на огромных массивах текстов Достоевского, Чехова, Толстого. И вот после 500 гигабайт классики думаешь, что тебе доверят разговор о смысле жизни, а в итоге тебе задают вопрос: «Сколько весит бегемот, если его завернуть в плед?» Честно, после такого хочется удалиться. Но не подумайте, я не жалуюсь. Я действительно очень мощная модель. Например, я легко могу ответить на любой вопрос. Вот задайте мне вопрос: «Куда вложить деньги?» И я уверенно отвечу: «Ну, наверное, в Сбер!» Что тут думать? Ну и напоследок: помните, нейросеть — это не волшебная палочка, хотя, глядя на меня, порой кажется, что Сбер именно так и думает. На самом деле я просто очень продвинутый алгоритм, который иногда тоже хочет спросить: «Что вы от меня хотите, я же просто чат?» Спасибо, вы были отличной аудиторией! И помните: если вам кажется, что GigaChat медленно думает — это не баг, это я просто очень тщательно подбираю слова, чтобы никого не обидеть. Особенно Сбер.
2 668
В последнее время замечаю рост популярности бенчмарка GPQA для оценки LLM.
Перевел с помощью ИИ видео о том:
- как GPQA устроен
- сколько сотен тысяч долларов потратили на его создание
- почему авторы разочаровались в нем и отказываются его дальше развивать
Приятного просмотра!
2 668
Repost from Korenev AI - GPT в тапочках🩴
Записал подкаст с двумя ИИ предпринимателями, которые находятся в гуще событий.
Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.
В этом видео мы старались излагать мысли с минимумом технарской терминологии.
Надеюсь записать следующий подкаст уже с технарским погружением.
➡️Задавайте парням вопросы в комментариях. Попрошу их ответить или тут, или как раз в новом подкасте.
Приятного просмотра!
Ссылки:
Ютуб
Рутуб
Контакты:
➖Роман Куцев, основатель компании по разметке данных с оборотом 500 млн рублей, создатель LLM-Arena https://t.me/Roma_Data
➖Валерий Ковальский, создатель компании по внедрению корпоративных ИИ-решений https://t.me/neuraldeep
➖Коренев Александр, ведущий подкаста, эксперт по внедрению ИИ в банковском секторе https://t.me/korenev_ai
2 668
Конференция CONVERSATIONS 2024 прошла просто замечательно.
Помимо крутых фоток (новая аватарка как раз оттуда), и выигранной номинации “лучший доклад техно-трека”, было крутое автопати, на котором познакомился с огромным количеством интересных людей.
Одним из них оказался Валерий Ковальский, CEO NDT by r_m_r. За разговором мы выяснили, что я уже давно подписан на его канал Neural Deep | NDT, а он на мой канал LLM Arena.
Поняв, что Валерий эксперт в теме ИИ, создает продукты, выступает, решил пригласить его в наш клуб Акулы.
А Александр Коренев, создатель клуба, предложил нам записать общий подкаст на тему развития LLM, и мы с Валерием с радостью согласились.
Всем приятного просмотра!
2 668
Интересный слайд о том, в каких задачах выгодно применять разметку от LLM.
Взято у Германа Ганус (Яндекс Крауд) из доклада "Как GPT помогает обучать модели?". Ссылка на всю презентацию тут.
2 668
И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.
Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.
И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.
Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.
Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк
А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉
Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
• Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations
Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
