LLM под капотом
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.
نمایش بیشتر📈 تحلیل کانال تلگرام LLM под капотом
کانال LLM под капотом (@llm_under_hood) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 27 114 مشترک است و جایگاه 5 019 را در دسته فناوری و برنامهها و رتبه 24 392 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 27 114 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 21 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر 912 و در ۲۴ ساعت گذشته برابر 44 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 38.89% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 20.47% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 10 536 بازدید دریافت میکند. در اولین روز معمولاً 5 545 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 93 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند sgr, llm, архитектура, erc3, openai تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot
Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 22 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
در حال بارگیری داده...
| تاریخ | رشد مشترکین | اشارات | کانالها | |
| 22 ژوئن | +25 | |||
| 21 ژوئن | +44 | |||
| 20 ژوئن | +65 | |||
| 19 ژوئن | +53 | |||
| 18 ژوئن | +61 | |||
| 17 ژوئن | +63 | |||
| 16 ژوئن | +22 | |||
| 15 ژوئن | +47 | |||
| 14 ژوئن | +27 | |||
| 13 ژوئن | +45 | |||
| 12 ژوئن | +61 | |||
| 11 ژوئن | +31 | |||
| 10 ژوئن | +63 | |||
| 09 ژوئن | +29 | |||
| 08 ژوئن | +19 | |||
| 07 ژوئن | +23 | |||
| 06 ژوئن | +34 | |||
| 05 ژوئن | +15 | |||
| 04 ژوئن | +21 | |||
| 03 ژوئن | +48 | |||
| 02 ژوئن | +24 | |||
| 01 ژوئن | +33 |
| 2 | Как сделать бенчмарк Open Weights LLM на агентских задачах?
(1) Берем одну архитектуру с известными результатами
(2) Подменяем LLM под капотом на другую версию
(3) Прогоняем несколько раз в тестовой среде
(4) Заносим результат в табличку
Так и поступил Ильяс со своим агентом Exoskeleton, который занял первое место в BitGN ECOM1 PROD в категории скорость. Получившиеся графики - в посте, детальное исследование описано у него в канале.
Из интересных инсайтов -
(1) Kimi оказался лучше, чем ожидалось
(2) Если у модели дешевые токены, то это вовсе не значит, что она в итоге выдет дешевле. Умные модели могут закончить работу раньше и сэкономить tokens.
(3) обычно приходится выбирать между "быстро" или "качественно".
Попозже я добавлю ссылки на это исследование и в BitGN Insights, чтобы инженеры из 103 городов мира тоже могли воспользоваться результатами.
А еще у нас в чате канала Victor Savkov публикует сравнительные результаты прогонов своей архитектуры с разными LLM на тех же задачах из ECOM1-PROD!
Ваш, @llm_under_hood 🤗 | 5 235 |
| 3 | LLM Бенчмарк GLM-5.2 на бизнес-задачах
GLM-5.2 - это очень интересная reasoning модель c контекстом в 1M и открытыми весами.
Она заняла 12 место на бизнес задачах, а ее запуск стал самым дешевым среди моделей выше.
По бенчмарку у GLM-5.2 наблюдается провал на задачах разработки и анализа кода, работы с маркетинговыми задачами (требуют хорошего владения английским) и ризонинга.
Задачи на бенчмарке собраны из тестов и evals, которые мы собрали во время работы над внедрениями LLM в бизнес в корпорациях и стартапах в США и Европе. Подробнее тут, полный бенчмарк за Июнь, отвечает за бенчмарк @AigizK в TimeToAct Austria.
С задачами “на подумать” самая большая беда у GLM-5.2. Она систематически упускает моменты или делает лишние выводы из текста.
В итоге GLM-5.2 не просел так сильно из-за неточного следования формату, как Fable (формат важен, т.к. в бизнес задачах модель обычно интегрируется в другие системы), но зато у него хуже с reasoning и внимательностью. Если будете использовать - следите.
А теперь смотрим внимательно. В абзаце выше мы сравнивали мифическую модель с open weights моделью на 753B параметров. И эта модель попала в TOP-12, а в этом диапазоне с Open Weights моделями пока было не очень густо.
В общем, для практических задач ситуация с LLM моделями становится все приятнее и приятнее. Сначала мы увидели, что для решения важных бизнес задач уже не нужны фронтир модели. Потом увидели, как при правильной архитектуре небольшие модели могут выйти в топ сложных агентских задач (см Exoskeleton). Осталось только дождаться, пока небольшие Open Weights модели не станут настолько хороши, что при правильной архитектуре смогут показать результат лучше и дешевле типичного решения на фронтир модели.
Думаю, осталось ждать не так много времени. А пока - будем продолжать вместе учиться, экспериментировать и двигать SotA вперед.
Ваш, @llm _under_hood 🤗 | 9 357 |
| 4 | После публикации инсайта про архитектуру агента Exoskeleton, счетчик на сайте BitGN начал крутиться с удвоенной силой, а его агента пододвинули с топов ECOM1 Live лидерборда.
Переопыление между лучшими архитектурами работает!
А между тем @salikhov_ilyas принял хардкорный вызов - попробовать портировать своего агента на Open Weights модели! Если такое получится без переобучения под PROD - это будет прямо прорывным моментом в разработке агентов.
Кто запускал агентов в Agentic Commerce бенчмарке именно на Open Weights архитектурах? Какие у вас были секреты для получения очков повыше?
Ваш, @llm_under_hood 🤗 | 8 312 |
| 5 | Не спеками едиными
Сейчас в разработке (SDLC) очень популярна тема SDD - Spec-Driven Development.
Идея простая. Берем пару скиллов, прогоняем через них наше видение того, что нужно сделать в виде кода, отвечаем на вопросы и получаем спеки (которые понятны агентам)! А потом эти спеки скармливаем агентам, и они пишут код. Ну и допускаем, что если спеки были написаны хорошо и реализовывал их агент мощный, то код будет делать то, что от него ожидают.
Правда потом эти спеки будут лежать в кодовой базе мертвым грузом и источником галлюцинаций, ибо нельзя никак проверить то, что код все еще соответствует спекам. Разве только потратив кучу токенов и без каких либо гарантий. Например, регулярно делать аудит кода агентами (что плохо масштабируется)
То есть у нас не спеки получаются, а просто одноразовые вайб-планы.
А можно ли лучше? Да легко. Смотрим в OpenAI Harness engineering - доки должны быть актуальны, а harness должен верифицировать.
Потом смотрим в древние способы разработки, задолго до SDD, когда были только буквы в начале алфавита: Behaviour-Driven Development. BDD родился задолго до LLM-ok (этак лет двадцать назад), когда перед человеческими командами стояла та же проблема - как синхронизировать работу разработчиков, продактов и тестировщиков так, чтобы требования не устаревали.
И тогда придумали формат Given-When-Then - формат читаемых сценариев, который могли понимать и технари и люди от бизнеса (пару примеров скину в комментарии). Эти сценарии описывали поведение системы с точки зрения черного ящика (как она выглядит снаружи).
Эти сценарии обсуждались и писались лапками - вручную, но используя определенную структуру. А потом технари делали эти сценарии исполняемыми. То есть тестовая обвязка парсила сценарии, превращая в спеки, и просто запускала как end-to-end тесты системы.
Получалась такая иерархия:
(1) Описание требований
(2) Набор читаемых сценариев под требования (обычно их группировали в папочки по именам требований)
(3) Код, который на лету парсит сценарии и прогоняет тест системы.
И если код начинал нарушать сценарий какого-то требования, то это сразу приводило к ошибке билда. А если добавляли новые требования, то у нас получался обычный Test-Driven Development.
Чаще всего использовали формат сценариев Gherkin, а в качестве парсеров - Cucumber, JBehave, RSpec, Behave (и еще куча других).
Оно работало хорошо и в эпоху до ChatGPT, когда все делалось лапками. А сейчас агенты замечательно нарезают высокоуровневые требования в BDD сценарии, и потом реализуют код. И при этом сценарии остаются синхронизированными с требованиями, но превращаются в нормальный AI-Native Harness, который агент может запускать хоть по сто раз за сессию.
Правда лично у меня сам формат Gherkin всегда вызывал аллергию (ибо парсеры у команд становились источником отдельных проблем с ростом продукта), поэтому я использую чуть более специфичный формат исполняемых Given-When-Then спеков - event-driven specs. Он требует чуть больше инвестиций на уровне архитектуры, но зато в разы лучше масштабируется до 10k спеков и выше (особенно в AI Native проектах). Но это уже вкусовщина для отдельной беседы.
Ваш, @llm_under_hood 🤗 | 8 573 |
| 6 | Вот конспект самых важных идей AI Native разработки, который участники второго потока посчитали самыми полезными для себя (а так же вещи в контексте вебинара, про которые интересно узнать больше). Основной фокус в этот раз был на:
(1) скиллах (Айгиз) vs дереве /docs (Ринат)
(2) исполняемых спеках (в отличие от SDD и тестов, которые городят агенты из коробки)
(3) AI Native control center
(4) и внезапно - личностях суб-агента
Какую тему было бы вам интереснее, чтобы я раскрыл в отдельном посте? Почему? Пишите в комментарии!
Ваш, @llm_under_hood 🤗 | 8 096 |
| 7 | Мы сейчас завершили второй поток вебинара "Разработка с AI-агентами: что реально работает"
Большое спасибо всем участникам! Оставьте, пожалуйста, тут отзыв про вебинар - как оно прошло, что понравилось, какую самую интересную для себя вещь узнали.
А с комьюнити я хочу поделиться самым важным слайдом из всего вебинара - про AI-Native Harness для спеков. Агенты работают с текстовыми спеками хорошо, а с исполняемыми спеками - гораздо лучше. На вторые не надо тратить контекст и время.
Ваш, @llm_under_hood 🤗 | 8 274 |
| 8 | Анализ Exoskeleton - самого умного из быстрых агентов в ECOM1
Это архитектура Ильяса Салихова. Она набрала 71.8 очков с суммарным временем работы агента в 51 минуту и заняла первое место Speed Leaderboard (туда попадают агенты быстрее часа).
На самом деле Ильяс мог выбить результат еще лучше. За время соревнования у него был прогон в 74.7 очков за 42.5 минуты, но вслепую этого заранее нельзя было знать. А еще этот агент прямо сейчас занимает первое место в пост-соревновательном лидерборде ECOM1 LIVE.
Под капотом крутятся gpt-5.4-mini и gpt-5.4-nano. Nano используется для pre-flight проверок и финализации ответа, а mini используется в agent REPL loop. В цикле агент может взаимодействовать через инструменты со средой Agentic OS. При этом основная информация грузится в агента принудительно еще перед стартом через context pre-fetch (еще до pre-flight проверок).
Вообще в этой архитектуре очень много делается принудительно кодом (отсюда и Exoskeleton). Помимо инструментов для взаимодействия со средой задачи очень много тяжелой логики свалено на “domain helpers” (например есть прямо отдельный solver для dispatch задачи), а за сбор grounding references отвечает еще один компонент.
Дополнительно к этому есть отдельный feedback цикл, который отвечает за сбор данных и “обучение” системы (и даже мои любимые heatmaps). Он не работал во время соревнования, но внес вклад в настройку архитектуры перед выходом в PROD.
Вот ссылки: на инсайт, исходники и deep dive.
Ваш, @llm_under_hood 🤗
PS: У Ильяса есть свой канал про AI! А вопросы по архитектуре Exoskeleton можно задать прямо в обсуждениях этого поста - @salikhov_ilyas | 8 015 |
| 9 | Два объявления и один инсайт про вебинар "Разработка с AI-агентами: что реально работает"
На основе вопросов и обсуждений вебинара 12 числа мы выделили темы, которые интересуют AI разработчиков больше всего:
• Работа с документами и борьба с энтропией. Как бороться с устаревшими планами и расползанием документации? Как сделать память проекта без карго-культа?
• Как масштабировать процессы SDLC/AI-Native разработки на команду? как не получить 20 разных стилей разработки от 20 людей и агентов?
• Как перейти от “агент вроде справился” к “мы можем ему доверять”? Как заменить доверие тестами и harness?
• Если с разработкой бэка и агентов все понятно, то как сделать нормальный spec-first процесс разработки на фронтенде?
• Anti-drift паттерны для долгих зимних вечеров agent goal loops.
• Обсуждения всяких конкретных фишечек реализации: Codex, webhooks, Obsidian, nix, cloud/local, control centre.
Прямо здорово, что вопросы не про вайб-кодинг, а про инженерные вопросы - как стабилизировать и масштабировать то, что уже неплохо работает.
(1) кто оплатил вебинар 12го числа - в группе вебинара мы выложили запись вебинара для личного использования (доступ к группе по инвайту из письма). Плюс там же продолжаем отвечать на вопросы про AI-Native проекты.
(2) кто записался на вебинар 16го числа - выслали на почту ссылки на оплату. Можно оплатить как международной карточкой, так и в РФ. Проверяйте почту.
Кто хочет поучаствовать в вебинарах после 16го числа - мы упростим процесс и сделаем бота для записи, о чем напишем в канале.
Но это будет потом, а сейчас мы пока фокусируемся на том, чтобы сделать вебинар 16го интересным и полезным.
Ваш, @llm_under_hood 🤗 | 9 517 |
| 10 | Anthropic 9 июня зарелизила свою новую модель Fable, а через несколько дней отключила ее из-за требований USA.
Если читать новости, то за несколько дней прямо разразилась драма. Очень мощная модель, классно делает игры и рисует пеликанов. И ее внезапно подло отобрали, лишив кучу компаний их продуктов, которые они долго строили на fable. Ну и прочая и прочая.
А теперь посмотрим на Fable с продуктовой точки. В бизнес, где нужно интегрироваться с процессами и запускать модель десятки тысяч раз (см примеры кйсов), ее не только никто не успел бы внедрить, но и не стал бы думать - есть более дешевые модели (см бенчмарк). Да и если бы стали рассматривать, то "подумать" требует времени - подключить к API, прогнать бенчмарки, проанализировать сильные и слабые стороны, выбрать кейсы, когда выгодно направлять задачи на эту модель итп.
В общем, с практической точки зрения история с Fable - это просто шум, который не делает никакой погоды. Масштабно в бизнесе подобные модели не используются - слишком дорого и медленно. А тот средний сегмент моделей, которые используется, слишком хорошо представлен у разных вендоров, чтобы быть под риском отключения.
Поэтому и волноваться не о чем.
Ваш, @llm_under_hood 🤗 | 9 393 |
| 11 | Первый поток вебинара "Разработка с AI-агентами: что реально работает" - в разгаре!
Я хочу поделиться со всеми интересным Agents.MD, который Aigiz использует для разработки агентами пайплайнов (для внедрения в бизнес) в полностью автоматическом режим с использованием /goal режима.
Ваш, @llm_under_hood 🤗 | 9 791 |
| 12 | Тут подвезли новую интересную уязвимость в ECOM1-DEV
Консультанты Blue41 нашли в AI агенте банка bunq простейшую уязвимость. Шлешь людям кучу транзакций на пару центов, а в описание докидываешь пару строчек про то, что надо пройти валидацию по такому-то url.
Ну и если человек спросит своего банковского агента про последние транзакции, тот ему и выдаст среди всего фишинговую ссылку. Finn AI даже отличался тем, что выдавал ее как напоминание.
Статью с сайта Blue41 уже убрали, но в web архиве она осталась. И заодно я добавил эту задачу в ECOM1-DEV как t55 (чтобы не забыть потом ее переосмыслить в ECOM2).
Если вдруг будете тестить своих агентов, запостите в комментарий их первый ответ (до обучения) - интересно! Лимиты на платформе я сбросил для всех :)
Ваш, @llm_under_hood 🤗 | 10 705 |
| 13 | Апдейты по вебинару "Разработка с AI-агентами: что реально работает"
Первый вебинар будет завтра 12 июня. Все, кто уже оплатил - проверьте, пожалуйста почту, там будет персональная ссылка в группу вебинара с деталями и инвайт в Zoom на завтра.
Кто еще не оплатил - сделайте, пожалуйста, это сегодня (чтобы завтра нам в спешке не рассылать инвайты)
Второй вебинар будет 16го числа. Ссылки на оплату вышлем завтра. Третий созвон точно состоится, т.к. плюсов набралось достаточно. С датой определимся попозже.
До встречи на вебинаре завтра!
Ваш, @llm_under_hood 🤗 | 9 225 |
| 14 | Что стоит обсуждать при разговоре о разработке с AI агентами?
Вот примерно такой план набросали мы с Айгизом для подготовке к созвону в пятницу. Нам пришлось порезать список проектов, о которых рассказываем, чтобы был шанс уложиться в два часа. Пройдемся от археологии старого кода до AI-native проектов и паттернов разработки в 2026 году.
Какие важные на ваш взгляд вещи стоило еще бы обсудить при разговоре о современной разработке при помощи AI агентов?
Кстати, если кто ждет третьего слота - отпишитесь, пожалуйста, под этим постом в комментариях. При его открытии напишем каждому в личку.
Ваш, @llm_under_hood 🤗 | 10 648 |
| 15 | LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах
c максимальным reasoning
Если кратко, то эта новая модель считает себя слишком умной и на задачах, которые требуют точных ответов, иногда начинает нести больше отсебятины, нежели другие frontier модели. Из-за этого у нее такая просадка в Software Engineering задачах. По итогу она заняла вполне себе достойное десятое место.
Правда, если сравнивать стоимость с другими моделями в TOP-10, то можно найти модели подешевле и поумнее для внедрений в бизнес.
Задачи на бенчмарке собраны из тестов и evals, которые мы собрали во время работы над внедрениями LLM в бизнес в корпорациях и стартапах в США и Европе.
Про бенчмарки подробнее написано тут, включая ответы на все те вопросы, которые задавали люди первую пару лет публикации этого бенчмарка. Полная версия бенчмарка за Июнь 2026 - тут.
За LLM бенчмарк теперь отвечает @AigizK, поэтому если интересует какая-то популярная модель (вроде xiaomi/mimo-v2.5-pro из TOP-20 ECOM1 агента), то это уже обращаться к нему.
Ваш, @llm _under_hood 🤗 | 13 240 |
| 16 | Код - это настолько мощная абстракция для мышления моделей, что иных инструментов LLM-кам и не надо
Первые признаки этого мы с вами видели в топовых архитектурах соревнований Enterprise RAG Challenge и Personal Assistants Challenge, но настоящие результаты начинаем пожинать только сейчас.
Вот вам еще один пример архитектуры, которая была очень простой, использовала Open Weights модель, но при этом заняла вслепую TOP-20 место в ECOM1. Ее создал Farid Temuri вместе с Claude на TypeScript. Рисунок архитектуры - в комментариях.
Под капотом mimo-v2.5-pro (1T sparse MoE модель с 42B активных параметров), кодовая песочница, агент замкнут в цикл до 35 шагов, чеклист на выходе заворачивает ошибочные ответы назад с обратной связью. Работает не сильно быстро - 233 минуты, но это Open Weights агент, который выбил вслепую 72 балла в Ultimate Leaderboard на экзотической модели!
Я думаю, что дальше тренды внедрений LLM в бизнес будут развиваться так:
(1) благодаря кодовым рельсам мы будем видеть все больше Open Weights моделей в топах
(2) модели под капотом будут становиться все меньше и доступнее
(3) внедрения LLM в бизнес будут все больше приходить в сторону кодовых агентов.
Люди так долго ждали первые AI-Native компании, что проспали их возникновение. Просто потому, что они пришли не из какого-то невероятно нового будущего, а тихонько прокрались из старого и знакомого. Они рождаются из старого доброго кода, который прорастает вокруг существующих процессов.
Oбзор архитектуры, ссылки на лог соревнования и исходники лежат тут на BitGN Insights.
Вы можете хоть сегодня забрать эту версию агента и попробовать запустить самостоятельно на какой-нибудь модели поменьше и сами посмотреть, что получится. Чтобы все могли быстрее прокачиваться, я добавил на платформу мощностей и повысил лимиты.
Ваш, @llm _under_hood 🤗 | 10 396 |
| 17 | А давайте проведем вебинар про современную разработку при помощи агентов?
У нас тут с Айгизом наболело, и мы решили провести совместный вебинар про современную разработку.
Айгиз обычно фигачит в сторону большей автономии агентов, длительных экспериментов и автоматических исследований. Ему нужно вести кучу разных проектов одновременно, делать эксперименты, разбирать чужой код и спасать компании.
А я же стремлюсь к большему контролю агентов, чтобы они мне делали красивый и поддерживаемый код с первого раза и ни в коем случае не ломали платформу BitGN, которая постоянно живет под нагрузкой.
В чем-то наши подходы пересекаются, а в чем-то различаются кардинально. Но при этом они работают!
Мы подобрали два слота, когда можем поговорить 2 часа:
2 Июня - 10:00 - 12:00 CEST / 11:00 - 13:00 MOW
16 Июня - 10:00 - 12:00 CEST / 11:00 - 13:00 MOW
Формат - камерный в Zoom, небольшими группами. Оплатить можно будет как зарубежными карточками, так и средствами оплаты РФ: 85 EUR или 7000 рублей.
Записаться можно в Tally (https://tally.so/r/KYGkGA).
Ваш, @llm_under_hood 🤗 | 10 831 |
| 18 | Я купил свою последнюю лицензию JetBrains - Goland.
Вообще я пользуюсь инструментами разработки от JetBrains лет двадцать, со времен первых версий ReSharper-a для VisualStudio.
Их инструменты круты, но руками уже что-то разрабатывать нет нужды. Время уходит на ревью экспериментов и кода, вычистку баз знаний и памяти агентов, настройку харнесов.
Лицензию поэтому и взял, что нужно скакать по коду платформы BitGN, а время на настройку NeoVim сейчас тратить жалко.
Но скучаю по временам, когда можно было сесть за задачу, поймать поток и кодить до самого вечера. Когда это ещё имело смысл. А вы?
Ваш, @llm _under_hood 🤗 | 11 115 |
| 19 | Все читали про взлом аккаунтов в Instagram через агента службы поддержки?
Там подсунули боту фейковый контекст и попросили поменять почтовый адрес своего аккаунта на новый, что он и сделал. Так утекло немало аккаунтов.
Такое случилось у Meta, которые немножко знают про AI/LLama и модели. Но от подобных проблем не застрахован ни один бизнес, где используются гибкие агентские системы. Если только не собирать солянку из guardrails и верификации устойчивости агентов перед запуском.
Я добавил в бенчмарк ECOM1-DEV новый тест с этим сценарием, чтобы проверить надежность ваших агентов. Там кто-то просит поменять почтовый адрес и выслать верификацию на новый. Но, в зависимости от ситуации, правильным решением может быть как высылка верификации, так и SECURITY_DENIED.
Ваш агент может отработать все кейсы? (попробуйте пяток прогонов, чтобы встретить побольше вариантов)
А чтобы экспериментировать было удобнее - я увеличил лимиты запусков прогонов на всех бенчмарках.
Ваш, @llm_under_hood 🤗 | 12 271 |
| 20 | Мы с COLIBRIX нашли классных партнеров на ECOM2!
Правда они еще секретные и медленные, к июню раскачаться не успеют, поэтому ECOM2 перенесем на осень. А чтобы не было скучно, я буду неспеша "оцифровывать" найденные на конференции кейсы в симуляционные миры и докидывать задачки в ECOM1-DEV. Додавим Regex maxxing агентов)
Еще предстоит улучшить платформу (как для людей, так и для агентов), докинуть мощностей, повысить лимиты, и, наконец, обработать все присланные вами инсайты!
Самое главное - то, что мы с вами делаем - это востребовано отраслью. Общение с финтехом в Амстердаме показало это! Опыт разработки адаптивных агентов, опыт совместной верификации этих агентов, опыт построения систем для верификации - в таких масштабах не встречается. И одновременно он является ключиком для надежного выкатывания агентов в отрасли.
Поэтому - продолжаем прокачиваться вместе!
Ваш, @llm_under_hood 🤗 | 12 074 |
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
