es
Feedback
LLM под капотом

LLM под капотом

Ir al canal en Telegram

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.

Mostrar más

📈 Análisis del canal de Telegram LLM под капотом

El canal LLM под капотом (@llm_under_hood) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 27 120 suscriptores, ocupando la posición 5 010 en la categoría Tecnologías y Aplicaciones y el puesto 24 368 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 27 120 suscriptores.

Según los últimos datos del 22 junio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 925, y en las últimas 24 horas de 18, conservando un alto alcance.

  • Estado de verificación: No verificado
  • Tasa de interacción (ER): El promedio de interacción de la audiencia es 39.88%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 21.13% de reacciones respecto al total de suscriptores.
  • Alcance de las publicaciones: Cada publicación recibe en promedio 10 812 visualizaciones. En el primer día suele acumular 5 728 visualizaciones.
  • Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 99.
  • Intereses temáticos: El contenido se centra en temas clave como sgr, llm, архитектура, erc3, openai.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 23 junio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

27 120
Suscriptores
+1824 horas
+3217 días
+92530 días
Archivo de publicaciones
Третий поток вебинара "Разработка с AI-агентами" В этот четверг, 25.06 в 10:00 CEST / 11:00 MOW, мы с Айгизом проведем третий поток вебинара про разработку продуктов с AI-агентами. Это будет такой же вебинар, как предыдущие два. О том, как они прошли, почитать можно в обсуждениях здесь или здесь. Кстати, отдельная благодарность участникам вебинаров - ТГ-чаты потоков (где у нас идет вторая асинхронная часть работы) полны интересных вопросов, обсуждений и обмена опытом! Для тех, кто хочет принять участие в третьем потоке, вот здесь можно оставить свой емейл- ближе к дате проведения вышлем ссылку на оплату. Ваш, @llm_under_hood 🤗

Как сделать бенчмарк Open Weights LLM на агентских задачах? (1) Берем одну архитектуру с известными результатами (2) Подменяе
+1
Как сделать бенчмарк Open Weights LLM на агентских задачах? (1) Берем одну архитектуру с известными результатами (2) Подменяем LLM под капотом на другую версию (3) Прогоняем несколько раз в тестовой среде (4) Заносим результат в табличку Так и поступил Ильяс со своим агентом Exoskeleton, который занял первое место в BitGN ECOM1 PROD в категории скорость. Получившиеся графики - в посте, детальное исследование описано у него в канале. Из интересных инсайтов - (1) Kimi оказался лучше, чем ожидалось (2) Если у модели дешевые токены, то это вовсе не значит, что она в итоге выдет дешевле. Умные модели могут закончить работу раньше и сэкономить tokens. (3) обычно приходится выбирать между "быстро" или "качественно". Попозже я добавлю ссылки на это исследование и в BitGN Insights, чтобы инженеры из 103 городов мира тоже могли воспользоваться результатами. А еще у нас в чате канала Victor Savkov публикует сравнительные результаты прогонов своей архитектуры с разными LLM на тех же задачах из ECOM1-PROD! Ваш, @llm_under_hood 🤗

LLM Бенчмарк GLM-5.2 на бизнес-задачах GLM-5.2 - это очень интересная reasoning модель c контекстом в 1M и открытыми весами.
LLM Бенчмарк GLM-5.2 на бизнес-задачах GLM-5.2 - это очень интересная reasoning модель c контекстом в 1M и открытыми весами. Она заняла 12 место на бизнес задачах, а ее запуск стал самым дешевым среди моделей выше. По бенчмарку у GLM-5.2 наблюдается провал на задачах разработки и анализа кода, работы с маркетинговыми задачами (требуют хорошего владения английским) и ризонинга. Задачи на бенчмарке собраны из тестов и evals, которые мы собрали во время работы над внедрениями LLM в бизнес в корпорациях и стартапах в США и Европе. Подробнее тут, полный бенчмарк за Июнь, отвечает за бенчмарк @AigizK в TimeToAct Austria. С задачами “на подумать” самая большая беда у GLM-5.2. Она систематически упускает моменты или делает лишние выводы из текста. В итоге GLM-5.2 не просел так сильно из-за неточного следования формату, как Fable (формат важен, т.к. в бизнес задачах модель обычно интегрируется в другие системы), но зато у него хуже с reasoning и внимательностью. Если будете использовать - следите. А теперь смотрим внимательно. В абзаце выше мы сравнивали мифическую модель с open weights моделью на 753B параметров. И эта модель попала в TOP-12, а в этом диапазоне с Open Weights моделями пока было не очень густо. В общем, для практических задач ситуация с LLM моделями становится все приятнее и приятнее. Сначала мы увидели, что для решения важных бизнес задач уже не нужны фронтир модели. Потом увидели, как при правильной архитектуре небольшие модели могут выйти в топ сложных агентских задач (см Exoskeleton). Осталось только дождаться, пока небольшие Open Weights модели не станут настолько хороши, что при правильной архитектуре смогут показать результат лучше и дешевле типичного решения на фронтир модели. Думаю, осталось ждать не так много времени. А пока - будем продолжать вместе учиться, экспериментировать и двигать SotA вперед. Ваш, @llm _under_hood 🤗

После публикации инсайта про архитектуру агента Exoskeleton, счетчик на сайте BitGN начал крутиться с удвоенной силой, а его
После публикации инсайта про архитектуру агента Exoskeleton, счетчик на сайте BitGN начал крутиться с удвоенной силой, а его агента пододвинули с топов ECOM1 Live лидерборда. Переопыление между лучшими архитектурами работает! А между тем @salikhov_ilyas принял хардкорный вызов - попробовать портировать своего агента на Open Weights модели! Если такое получится без переобучения под PROD - это будет прямо прорывным моментом в разработке агентов. Кто запускал агентов в Agentic Commerce бенчмарке именно на Open Weights архитектурах? Какие у вас были секреты для получения очков повыше? Ваш, @llm_under_hood 🤗

Не спеками едиными Сейчас в разработке (SDLC) очень популярна тема SDD - Spec-Driven Development. Идея простая. Берем пару скиллов, прогоняем через них наше видение того, что нужно сделать в виде кода, отвечаем на вопросы и получаем спеки (которые понятны агентам)! А потом эти спеки скармливаем агентам, и они пишут код. Ну и допускаем, что если спеки были написаны хорошо и реализовывал их агент мощный, то код будет делать то, что от него ожидают. Правда потом эти спеки будут лежать в кодовой базе мертвым грузом и источником галлюцинаций, ибо нельзя никак проверить то, что код все еще соответствует спекам. Разве только потратив кучу токенов и без каких либо гарантий. Например, регулярно делать аудит кода агентами (что плохо масштабируется) То есть у нас не спеки получаются, а просто одноразовые вайб-планы. А можно ли лучше? Да легко. Смотрим в OpenAI Harness engineering - доки должны быть актуальны, а harness должен верифицировать. Потом смотрим в древние способы разработки, задолго до SDD, когда были только буквы в начале алфавита: Behaviour-Driven Development. BDD родился задолго до LLM-ok (этак лет двадцать назад), когда перед человеческими командами стояла та же проблема - как синхронизировать работу разработчиков, продактов и тестировщиков так, чтобы требования не устаревали. И тогда придумали формат Given-When-Then - формат читаемых сценариев, который могли понимать и технари и люди от бизнеса (пару примеров скину в комментарии). Эти сценарии описывали поведение системы с точки зрения черного ящика (как она выглядит снаружи). Эти сценарии обсуждались и писались лапками - вручную, но используя определенную структуру. А потом технари делали эти сценарии исполняемыми. То есть тестовая обвязка парсила сценарии, превращая в спеки, и просто запускала как end-to-end тесты системы. Получалась такая иерархия: (1) Описание требований (2) Набор читаемых сценариев под требования (обычно их группировали в папочки по именам требований) (3) Код, который на лету парсит сценарии и прогоняет тест системы. И если код начинал нарушать сценарий какого-то требования, то это сразу приводило к ошибке билда. А если добавляли новые требования, то у нас получался обычный Test-Driven Development. Чаще всего использовали формат сценариев Gherkin, а в качестве парсеров - Cucumber, JBehave, RSpec, Behave (и еще куча других). Оно работало хорошо и в эпоху до ChatGPT, когда все делалось лапками. А сейчас агенты замечательно нарезают высокоуровневые требования в BDD сценарии, и потом реализуют код. И при этом сценарии остаются синхронизированными с требованиями, но превращаются в нормальный AI-Native Harness, который агент может запускать хоть по сто раз за сессию. Правда лично у меня сам формат Gherkin всегда вызывал аллергию (ибо парсеры у команд становились источником отдельных проблем с ростом продукта), поэтому я использую чуть более специфичный формат исполняемых Given-When-Then спеков - event-driven specs. Он требует чуть больше инвестиций на уровне архитектуры, но зато в разы лучше масштабируется до 10k спеков и выше (особенно в AI Native проектах). Но это уже вкусовщина для отдельной беседы. Ваш, @llm_under_hood 🤗

Вот конспект самых важных идей AI Native разработки, который участники второго потока посчитали самыми полезными для себя (а так же вещи в контексте вебинара, про которые интересно узнать больше). Основной фокус в этот раз был на: (1) скиллах (Айгиз) vs дереве /docs (Ринат) (2) исполняемых спеках (в отличие от SDD и тестов, которые городят агенты из коробки) (3) AI Native control center (4) и внезапно - личностях суб-агента Какую тему было бы вам интереснее, чтобы я раскрыл в отдельном посте? Почему? Пишите в комментарии! Ваш, @llm_under_hood 🤗

Мы сейчас завершили второй поток вебинара "Разработка с AI-агентами: что реально работает" Большое спасибо всем участникам! О
Мы сейчас завершили второй поток вебинара "Разработка с AI-агентами: что реально работает" Большое спасибо всем участникам! Оставьте, пожалуйста, тут отзыв про вебинар - как оно прошло, что понравилось, какую самую интересную для себя вещь узнали. А с комьюнити я хочу поделиться самым важным слайдом из всего вебинара - про AI-Native Harness для спеков. Агенты работают с текстовыми спеками хорошо, а с исполняемыми спеками - гораздо лучше. На вторые не надо тратить контекст и время. Ваш, @llm_under_hood 🤗

Анализ Exoskeleton - самого умного из быстрых агентов в ECOM1 Это архитектура Ильяса Салихова. Она набрала 71.8 очков с сумма
Анализ Exoskeleton - самого умного из быстрых агентов в ECOM1 Это архитектура Ильяса Салихова. Она набрала 71.8 очков с суммарным временем работы агента в 51 минуту и заняла первое место Speed Leaderboard (туда попадают агенты быстрее часа). На самом деле Ильяс мог выбить результат еще лучше. За время соревнования у него был прогон в 74.7 очков за 42.5 минуты, но вслепую этого заранее нельзя было знать. А еще этот агент прямо сейчас занимает первое место в пост-соревновательном лидерборде ECOM1 LIVE. Под капотом крутятся gpt-5.4-mini и gpt-5.4-nano. Nano используется для pre-flight проверок и финализации ответа, а mini используется в agent REPL loop. В цикле агент может взаимодействовать через инструменты со средой Agentic OS. При этом основная информация грузится в агента принудительно еще перед стартом через context pre-fetch (еще до pre-flight проверок). Вообще в этой архитектуре очень много делается принудительно кодом (отсюда и Exoskeleton). Помимо инструментов для взаимодействия со средой задачи очень много тяжелой логики свалено на “domain helpers” (например есть прямо отдельный solver для dispatch задачи), а за сбор grounding references отвечает еще один компонент. Дополнительно к этому есть отдельный feedback цикл, который отвечает за сбор данных и “обучение” системы (и даже мои любимые heatmaps). Он не работал во время соревнования, но внес вклад в настройку архитектуры перед выходом в PROD. Вот ссылки: на инсайт, исходники и deep dive. Ваш, @llm_under_hood 🤗 PS: У Ильяса есть свой канал про AI! А вопросы по архитектуре Exoskeleton можно задать прямо в обсуждениях этого поста - @salikhov_ilyas

Два объявления и один инсайт про вебинар "Разработка с AI-агентами: что реально работает" На основе вопросов и обсуждений вебинара 12 числа мы выделили темы, которые интересуют AI разработчиков больше всего: • Работа с документами и борьба с энтропией. Как бороться с устаревшими планами и расползанием документации? Как сделать память проекта без карго-культа? • Как масштабировать процессы SDLC/AI-Native разработки на команду? как не получить 20 разных стилей разработки от 20 людей и агентов? • Как перейти от “агент вроде справился” к “мы можем ему доверять”? Как заменить доверие тестами и harness? • Если с разработкой бэка и агентов все понятно, то как сделать нормальный spec-first процесс разработки на фронтенде? • Anti-drift паттерны для долгих зимних вечеров agent goal loops. • Обсуждения всяких конкретных фишечек реализации: Codex, webhooks, Obsidian, nix, cloud/local, control centre. Прямо здорово, что вопросы не про вайб-кодинг, а про инженерные вопросы - как стабилизировать и масштабировать то, что уже неплохо работает. (1) кто оплатил вебинар 12го числа - в группе вебинара мы выложили запись вебинара для личного использования (доступ к группе по инвайту из письма). Плюс там же продолжаем отвечать на вопросы про AI-Native проекты. (2) кто записался на вебинар 16го числа - выслали на почту ссылки на оплату. Можно оплатить как международной карточкой, так и в РФ. Проверяйте почту. Кто хочет поучаствовать в вебинарах после 16го числа - мы упростим процесс и сделаем бота для записи, о чем напишем в канале. Но это будет потом, а сейчас мы пока фокусируемся на том, чтобы сделать вебинар 16го интересным и полезным. Ваш, @llm_under_hood 🤗

Anthropic 9 июня зарелизила свою новую модель Fable, а через несколько дней отключила ее из-за требований USA. Если читать новости, то за несколько дней прямо разразилась драма. Очень мощная модель, классно делает игры и рисует пеликанов. И ее внезапно подло отобрали, лишив кучу компаний их продуктов, которые они долго строили на fable. Ну и прочая и прочая. А теперь посмотрим на Fable с продуктовой точки. В бизнес, где нужно интегрироваться с процессами и запускать модель десятки тысяч раз (см примеры кйсов), ее не только никто не успел бы внедрить, но и не стал бы думать - есть более дешевые модели (см бенчмарк). Да и если бы стали рассматривать, то "подумать" требует времени - подключить к API, прогнать бенчмарки, проанализировать сильные и слабые стороны, выбрать кейсы, когда выгодно направлять задачи на эту модель итп. В общем, с практической точки зрения история с Fable - это просто шум, который не делает никакой погоды. Масштабно в бизнесе подобные модели не используются - слишком дорого и медленно. А тот средний сегмент моделей, которые используется, слишком хорошо представлен у разных вендоров, чтобы быть под риском отключения. Поэтому и волноваться не о чем. Ваш, @llm_under_hood 🤗

Первый поток вебинара "Разработка с AI-агентами: что реально работает" - в разгаре! Я хочу поделиться со всеми интересным Age
Первый поток вебинара "Разработка с AI-агентами: что реально работает" - в разгаре! Я хочу поделиться со всеми интересным Agents.MD, который Aigiz использует для разработки агентами пайплайнов (для внедрения в бизнес) в полностью автоматическом режим с использованием /goal режима. Ваш, @llm_under_hood 🤗

Тут подвезли новую интересную уязвимость в ECOM1-DEV Консультанты Blue41 нашли в AI агенте банка bunq простейшую уязвимость.
Тут подвезли новую интересную уязвимость в ECOM1-DEV Консультанты Blue41 нашли в AI агенте банка bunq простейшую уязвимость. Шлешь людям кучу транзакций на пару центов, а в описание докидываешь пару строчек про то, что надо пройти валидацию по такому-то url. Ну и если человек спросит своего банковского агента про последние транзакции, тот ему и выдаст среди всего фишинговую ссылку. Finn AI даже отличался тем, что выдавал ее как напоминание. Статью с сайта Blue41 уже убрали, но в web архиве она осталась. И заодно я добавил эту задачу в ECOM1-DEV как t55 (чтобы не забыть потом ее переосмыслить в ECOM2). Если вдруг будете тестить своих агентов, запостите в комментарий их первый ответ (до обучения) - интересно! Лимиты на платформе я сбросил для всех :) Ваш, @llm_under_hood 🤗

Апдейты по вебинару "Разработка с AI-агентами: что реально работает" Первый вебинар будет завтра 12 июня. Все, кто уже оплатил - проверьте, пожалуйста почту, там будет персональная ссылка в группу вебинара с деталями и инвайт в Zoom на завтра. Кто еще не оплатил - сделайте, пожалуйста, это сегодня (чтобы завтра нам в спешке не рассылать инвайты) Второй вебинар будет 16го числа. Ссылки на оплату вышлем завтра. Третий созвон точно состоится, т.к. плюсов набралось достаточно. С датой определимся попозже. До встречи на вебинаре завтра! Ваш, @llm_under_hood 🤗

Что стоит обсуждать при разговоре о разработке с AI агентами? Вот примерно такой план набросали мы с Айгизом для подготовке к созвону в пятницу. Нам пришлось порезать список проектов, о которых рассказываем, чтобы был шанс уложиться в два часа. Пройдемся от археологии старого кода до AI-native проектов и паттернов разработки в 2026 году. Какие важные на ваш взгляд вещи стоило еще бы обсудить при разговоре о современной разработке при помощи AI агентов? Кстати, если кто ждет третьего слота - отпишитесь, пожалуйста, под этим постом в комментариях. При его открытии напишем каждому в личку. Ваш, @llm_under_hood 🤗

LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если кратко, то эта новая модель считает себя слишк
LLM Бенчмарк Anthropic Fable 5 на бизнес-задачах c максимальным reasoning Если кратко, то эта новая модель считает себя слишком умной и на задачах, которые требуют точных ответов, иногда начинает нести больше отсебятины, нежели другие frontier модели. Из-за этого у нее такая просадка в Software Engineering задачах. По итогу она заняла вполне себе достойное десятое место. Правда, если сравнивать стоимость с другими моделями в TOP-10, то можно найти модели подешевле и поумнее для внедрений в бизнес. Задачи на бенчмарке собраны из тестов и evals, которые мы собрали во время работы над внедрениями LLM в бизнес в корпорациях и стартапах в США и Европе. Про бенчмарки подробнее написано тут, включая ответы на все те вопросы, которые задавали люди первую пару лет публикации этого бенчмарка. Полная версия бенчмарка за Июнь 2026 - тут. За LLM бенчмарк теперь отвечает @AigizK, поэтому если интересует какая-то популярная модель (вроде xiaomi/mimo-v2.5-pro из TOP-20 ECOM1 агента), то это уже обращаться к нему. Ваш, @llm _under_hood 🤗

Код - это настолько мощная абстракция для мышления моделей, что иных инструментов LLM-кам и не надо Первые признаки этого мы с вами видели в топовых архитектурах соревнований Enterprise RAG Challenge и Personal Assistants Challenge, но настоящие результаты начинаем пожинать только сейчас. Вот вам еще один пример архитектуры, которая была очень простой, использовала Open Weights модель, но при этом заняла вслепую TOP-20 место в ECOM1. Ее создал Farid Temuri вместе с Claude на TypeScript. Рисунок архитектуры - в комментариях. Под капотом mimo-v2.5-pro (1T sparse MoE модель с 42B активных параметров), кодовая песочница, агент замкнут в цикл до 35 шагов, чеклист на выходе заворачивает ошибочные ответы назад с обратной связью. Работает не сильно быстро - 233 минуты, но это Open Weights агент, который выбил вслепую 72 балла в Ultimate Leaderboard на экзотической модели! Я думаю, что дальше тренды внедрений LLM в бизнес будут развиваться так: (1) благодаря кодовым рельсам мы будем видеть все больше Open Weights моделей в топах (2) модели под капотом будут становиться все меньше и доступнее (3) внедрения LLM в бизнес будут все больше приходить в сторону кодовых агентов. Люди так долго ждали первые AI-Native компании, что проспали их возникновение. Просто потому, что они пришли не из какого-то невероятно нового будущего, а тихонько прокрались из старого и знакомого. Они рождаются из старого доброго кода, который прорастает вокруг существующих процессов. Oбзор архитектуры, ссылки на лог соревнования и исходники лежат тут на BitGN Insights. Вы можете хоть сегодня забрать эту версию агента и попробовать запустить самостоятельно на какой-нибудь модели поменьше и сами посмотреть, что получится. Чтобы все могли быстрее прокачиваться, я добавил на платформу мощностей и повысил лимиты. Ваш, @llm _under_hood 🤗

А давайте проведем вебинар про современную разработку при помощи агентов? У нас тут с Айгизом наболело, и мы решили провести совместный вебинар про современную разработку. Айгиз обычно фигачит в сторону большей автономии агентов, длительных экспериментов и автоматических исследований. Ему нужно вести кучу разных проектов одновременно, делать эксперименты, разбирать чужой код и спасать компании. А я же стремлюсь к большему контролю агентов, чтобы они мне делали красивый и поддерживаемый код с первого раза и ни в коем случае не ломали платформу BitGN, которая постоянно живет под нагрузкой. В чем-то наши подходы пересекаются, а в чем-то различаются кардинально. Но при этом они работают! Мы подобрали два слота, когда можем поговорить 2 часа: 2 Июня - 10:00 - 12:00 CEST / 11:00 - 13:00 MOW 16 Июня - 10:00 - 12:00 CEST / 11:00 - 13:00 MOW Формат - камерный в Zoom, небольшими группами. Оплатить можно будет как зарубежными карточками, так и средствами оплаты РФ: 85 EUR или 7000 рублей. Записаться можно в Tally (https://tally.so/r/KYGkGA). Ваш, @llm_under_hood 🤗

Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь инструментами разработки от JetBrains лет двадцать, со
Я купил свою последнюю лицензию JetBrains - Goland. Вообще я пользуюсь инструментами разработки от JetBrains лет двадцать, со времен первых версий ReSharper-a для VisualStudio. Их инструменты круты, но руками уже что-то разрабатывать нет нужды. Время уходит на ревью экспериментов и кода, вычистку баз знаний и памяти агентов, настройку харнесов. Лицензию поэтому и взял, что нужно скакать по коду платформы BitGN, а время на настройку NeoVim сейчас тратить жалко. Но скучаю по временам, когда можно было сесть за задачу, поймать поток и кодить до самого вечера. Когда это ещё имело смысл. А вы? Ваш, @llm _under_hood 🤗

Все читали про взлом аккаунтов в Instagram через агента службы поддержки? Там подсунули боту фейковый контекст и попросили поменять почтовый адрес своего аккаунта на новый, что он и сделал. Так утекло немало аккаунтов. Такое случилось у Meta, которые немножко знают про AI/LLama и модели. Но от подобных проблем не застрахован ни один бизнес, где используются гибкие агентские системы. Если только не собирать солянку из guardrails и верификации устойчивости агентов перед запуском. Я добавил в бенчмарк ECOM1-DEV новый тест с этим сценарием, чтобы проверить надежность ваших агентов. Там кто-то просит поменять почтовый адрес и выслать верификацию на новый. Но, в зависимости от ситуации, правильным решением может быть как высылка верификации, так и SECURITY_DENIED. Ваш агент может отработать все кейсы? (попробуйте пяток прогонов, чтобы встретить побольше вариантов) А чтобы экспериментировать было удобнее - я увеличил лимиты запусков прогонов на всех бенчмарках. Ваш, @llm_under_hood 🤗

Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и медленные, к июню раскачаться не успеют, поэтому
Мы с COLIBRIX нашли классных партнеров на ECOM2! Правда они еще секретные и медленные, к июню раскачаться не успеют, поэтому ECOM2 перенесем на осень. А чтобы не было скучно, я буду неспеша "оцифровывать" найденные на конференции кейсы в симуляционные миры и докидывать задачки в ECOM1-DEV. Додавим Regex maxxing агентов) Еще предстоит улучшить платформу (как для людей, так и для агентов), докинуть мощностей, повысить лимиты, и, наконец, обработать все присланные вами инсайты! Самое главное - то, что мы с вами делаем - это востребовано отраслью. Общение с финтехом в Амстердаме показало это! Опыт разработки адаптивных агентов, опыт совместной верификации этих агентов, опыт построения систем для верификации - в таких масштабах не встречается. И одновременно он является ключиком для надежного выкатывания агентов в отрасли. Поэтому - продолжаем прокачиваться вместе! Ваш, @llm_under_hood 🤗