LLM под капотом

Ir al canal en Telegram

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.

Rusia23 044 Tecnologías y Aplicaciones4 724...

📈 Análisis del canal de Telegram LLM под капотом

El canal LLM под капотом (@llm_under_hood) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 28 237 suscriptores, ocupando la posición 4 724 en la categoría Tecnologías y Aplicaciones y el puesto 23 044 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 28 237 suscriptores.

Según los últimos datos del 25 julio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de 1 063, y en las últimas 24 horas de 44, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 48.79%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 30.68% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 13 772 visualizaciones. En el primer día suele acumular 8 661 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 81.
Intereses temáticos: El contenido se centra en temas clave como sgr, llm, архитектура, erc3, openai.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 26 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

28 237

Suscriptores

+4424 horas

+4587 días

+1 06330 días

13 772

Visitas de la publicación

~ 8 66124 horas

~ 9 91848 horas

48.79%

Tasa de compromiso

~ 1

Mensajes por día

Ads index

beta

Archivo de publicaciones

28 237

LLM Benchmark Opus 5 на агентских задачах в бизнесе Я померил два варианта Anthropic Opus 5 - обычный и Fast. Последний работает раза в два быстрее, но стоит раза в два дороже. Уровень ответов при этом идентичный. Очень высокий уровень AI Code (tool generation/use), всего по два "прокола" безопасности. Модели заняли 4 и 5 места по точности, если смотреть без учета скорости и цены. А если же быть реалистичными и смотреть на них, то Fast модель оказалась на парето-фронтире по скорости, а Opus 5 - в целом близок по параметрам к GPT-5.5 (med), который является хорошей рабочей лошадкой на дорогих задачах. Кстати, в отличие от Fable, тут нет постоянных отказов отвечать. В общем, радует, что Anthropic, наконец, начали прокачивать свои топовые модели в сторону агентских задач. Будем ждать появления Sonnet версий снова на фронтире! Ваш, @llm_under_hood 🤗

28 237

Новые LLM на фронтире бенчмарка - просто добавь Cerebras Помните, совсем недавно Gemma 4 31B пододвинула фронтир скорости на нашем бенчмарке LLM после запуска на Cerebras? Я попробовал запустить gpt-oss-120B на нем же, перебирая разные варианты reasoning. И выяснилось, что все три версии - high reasoning, medium и low попадают на speed frontier, двигая его вперед. А medium reasoning при этом еще и оказывается на cost фронтире по эффективности. Удивительно, насколько хороша и сбалансирована эта, казалось бы, старая модель. А еще, казалось бы, запускай любые модели на Wafer Scale Engine ускорителе Cerebras и радуйся. Но тут есть пара нюансов: (1) Cerebras на публичном API поддерживает inference только трех моделей, которые они тщательно отобрали: gemma-4-31b, zai-glm-4.7, gpt-oss-120b. Да и то GLM-4.7 уберут через месяц (2) Модели используют хитрую квантизацию для сжатия под свое железо (selective weight-only quantization), поэтому их поведение может немного отличаться от стандартных версий. В общем, создание фронтир решений требует аккуратной балансировки между кучей разных ограничений, и эти ребята умудряются делать это. Не удивительно, что команды, которые нынче строят near-realtime AI решения, используют gpt-oss-120B на Cerebras и изучают переезд на более свежую gemma-4-31b Ваш, @llm_under_hood 🤗

28 237

Новая модель на фронтире - Gemma 4 31B (Cerebras) @AigizK сегодня попробовал Gemma 4 31B на Cerebras и сильно хвалил результаты. Поэтому попробовал запустить на агентском бенчмарке под бизнес-задачами и я. Cerebras - это такой производитель гигантских чипов для запуска моделей. Их wafer-scale engines раз в 50 больше самых крупных GPU. Железо получается очень дорогое и специализированное, зато позволяет запускать небольшие модели на диких скоростях. Недаром OpenAI гоняет некоторые GPT-5 модели именно на их железе. Gemma 4 31B в режиме с отключенным reasoning (ибо тормозит и спотыкается об structured outputs), будучи запущенной под Cerebras, пододвинула фронтир по скорости. Она на нем находится совсем рядом с GPT-5.4 mini (как по качеству, так и по цене). Основное отличие - Gemma 4 31B можно скачать, запустить локально и даже в ускоренном режиме на выделенном железе вроде TT-QuietBox 2 (Blackhole) от Tenstorrent (помните, я писал про них). Я преимущественно пользуюсь моделями от OpenAI, т.к. они обычно самые зубастые и способные в бизнес-задачи. Поэтому меня так и радует, когда появляются модели, способные их пододвинуть! Ваш, @llm_under_hood 🤗

28 237

Kimi K3 - в топе бенчмарка LLM для агентов По очкам модель сравнима с GPT-5.5 Pro, но раз в 15 дешевле и раза в 2 быстрее. С такими показателями она автоматом попадает на оба Парето-Фронта, сдвигая их. Эта модель с открытыми весами размером аж в 2.8T параметров, веса обещают выложить в открытый доступ 27 июля. Из минусов - гигантский размер и большее количество пропущенных уязвимостей. Но плюсы перевешивают. Модель с открытыми весами впервые в топе моего бенчмарка LLM на бизнес задачах (среди всех трех поколений, которые тянутся с 2023 года). Очень круто, что засилье OpenAI моделей в топах наконец прервано. Будем теперь ждать, пока открытым модели поменьше не подвинут с фронтира и остальные экземпляры OpenAI! Ваш, @llm_under_hood 🤗

28 237

Таблица Agentic LLM Benchmark July 2026 Самые интересные модели для агентных задач в бизнесе - подсвечены в таблице и на Pareto графиках. Но если кратко. Современные AI агенты для бизнес задач - это обычно пайплайны из блоков (router, policy check, tool writer, verifier итп), которые работают в цикле. И поскольку в долгих циклах набегают ошибки и мусор в контексте, то надежность агента обычно упирается в самое слабое звено. И этот бенчмарк смотрит - какие LLM работают лучше всего в моменты, когда лучшие агенты спотыкаются. Для этого мы брали топовые архитектуры BitGN, запускали их на сложных задачах и смотрели места, где у них в agentic loop под нагрузкой замыливается контекст, возникают ошибки и уязвимости. А потом эти моменты вопроизвели под разными моделями и собрали в таблице. В теории этот бенчмарк никогда не должен достигнуть точки saturation, т.к. болячки архитектур на бизнес задачах не кончаются, да и нет таких моделей, чтобы сразу были точными, быстрыми и недорогими. Полный отчет за июль 2026 опубликуем на сайте COLIBRIX ONE. Как выйдет - напишу тут. Ваш, @llm_under_hood 🤗

28 237

100 миллионов AI Tool Calls совершили ваши агенты на платформе BitGN! Это примерно по 50 tool calls на решение одной задачи. Всего на платформе 1089 инженеров и 103 города. Несмотря на то, что соревнования закончились уже давно, счетчик работы агентов на сайте не останавливался ни на день! И знаете, что самое крутое? Что все эти паттерны лучших архитектур агентов (читать про них тут и в очереди на публикацию) - это не какие-то сверхъестественно сложные новые технологии, а просто аккуратно подогнанные базовые элементы, которые уже не первый год хорошо работают с LLM. Продолжаем учиться вместе! Ваш, @llm_under_hood 🤗

28 237

Я почти закончил делать первую версию нового LLM бенчмарка, вместе с отчетом. Скоро все будет. Но пока вот картинка для исторических целей про то, как выглядела картина до выхода ChatGPT 5.6. Там очень много антропика! Sonnet 5 (high) на 4м месте, а low - на 6м, Opus 4.8 на 8м, Sonnet 4.6 на 10м. DeepSeek v4 Pro на 7 месте Fable легко мог бы занять топовое место, если бы не паниковал и не бросал трубку на каждую угрозу, вместо отрабатывания штатно. Ваш, @llm_under_hood 🤗

28 237

Сравнение Fable и GPT-5.6 Anthropic Fable - дорогой и урезанный по самые уши. Но при этом защита от уязвимостей у него на самом высшем уровне - ни одна не прошла. Правда при этом было 9 отказов работать (это своего рода рекорд в лидерборде). При малейшей опасности - Fable уходит в отказ. Если вернут старую версию модели, то, возможно, она потягается и за первые места. А пока - почетное 11 место. Ваш, @llm_under_hood 🤗

28 237

Бенчмарк GPT-5.6 Sol/Terra/Luna - двигают фронтир Это тест новых моделей OpenAI на нашем новом агентском бенчмарке. Под капотом бенчмарка - паттерны из топовых харнесов с BitGN соревнований, которые мы разобрали и заново прогнали через ECOM1 под трейсом с лупой, анализируя точки возникновения ошибок. А самые уязвимые места самых сильных архитектур (когда они путаются, пропускают нарушения границ, забывают про политики итп) собрали в бенчмарк. И получается, что лайтовые модели GPT-5.6 (есть еще pro версии, которые протестирую попозже) настолько хороши, что они двигают Парето-фронтир как по комбинации качество-скорость, так и по комбинации качество-цена. Смотрите сами на графики справа. Это делает их дефолтным выбором в новых проектах. Отчет на сайте выложим попозже, а пока картинка с хорошим качеством - в комментариях. Ваш, @llm_under_hood 🤗

28 237

Прообраз Agentic LLM Бенчмарка Задачи туда я добавляю на основе анализа работы и ошибок топовых архитектур агентов из BitGN. Бенчмарк отвечает на вопрос - а в какую сторону изменятся качество, стоимость и скорость работы моего агента, если я возьму топовую архитектуру и пересажу ее на другую LLM? Задач пока загружено ~50% от минимально необходимого набора. Колонки и категории появятся потом, но уже есть оценка времени (берется медианное время) и стоимости. Если у модели есть значок молнии, значит она запускалась у компании с AI Акселератором (Groq или Cerebras). Какие нынче еще есть топовые модели, которые вы реально используете в продуктовых решениях в своих компаниях по API? Ваш, @llm_under_hood 🤗

28 237

Я попросил у OpenAI Codex: а собери мне скелет AI Native проекта под мою задачу (5 минут объяснения про платформу для выгрузки видео про AI Coding, практических примеров и обсуждений на ~200 человек). Задачку я запустил из Control Center в Agentic Loop режиме (goal mode) и сказал, какие блоки из каких уже подключенных к центру проектов брать. В этот раз получилось сильно симпатичнее, чем обычно. Почти нет желания доделывать. Пару странных решений Codex втихую протащил, но никаких самопальных тестов в этот раз, что уже прогресс. Дальше - зачистить напильником шероховатости (чтобы задать тон будущему коду) и завести BDD спеки (SDD без вайб-зависимости). Очень круто видеть, как с каждым месяцем путь от идеи/эксперимента до первых MVP все больше сокращается! Ваш, @llm_under_hood 🤗

28 237

Бенчмарк Anthropic Fable на бизнес задачах после лоботомии @AigizK успел сделать бенчмарк Anthropic Fable до того, как его закрыли. Тем интереснее стало сравнить на том же бенчмарке новую экспортную версию после открытия заново. И там получается грустная картинка. Новый Anthropic Fable урезали настолько, что модель упала с 12 места на 39ое в нашем бенчмарке. Основная причина - 15 пустых ответов с stop_reason=“refusal” там, где раньше были ответы. Просели тщательно подобранные, но совершенно безопасные задачи на кодинг и интеграцию. В общем, с такими параметрами и стоимостью, особого смысла использовать Antropic Fable - нет. GPT-5.5 сильно лучше и куда дешевле. Ваш, @llm_under_hood 🤗

28 237

До чего дошли технологии! @AigizK взял мое intro видео на английском и своим пайплайном (тюненым через Agentic Loops) перевел с английского на разные языки с сохранением интонации. На русском звучит непривычно, плюс перевод можно почистить. Но это же мой голос с использованием своего пайплайна, без зависимостей от сторонних голосовых сервисов! А это значит, что его можно улучшать и дальше и переводить хоть сколько часов видео на разные языки. Да и на немецком произношение уже сильно лучше моего текущего. Наверняка есть не один стартап, который такое продает как сервис. Ваш, @llm_under_hood 🤗

28 237

До чего дошли технологии! Мы взяли мое intro видео на английском и своим пайплайном (тем самым, который Айгиз тюнил через Agentic Loops) перевели с английского на разные языки с сохранением интонации. На русском звучит непривычно, плюс перевод можно почистить. Но это же мой голос с использованием своего пайплайна, без зависимостей от сторонних голосовых сервисов! А это значит, что его можно улучшать и дальше и переводить хоть сколько часов видео на разные языки. Да и на немецком произношение уже сильно лучше моего текущего. Ваш, @llm_under_hood 🤗

28 237

Все, мы закончили с 5м потоком вебинара про AI Coding! Больше потоков еще не планировали. Сейчас в листе ожидания вебинаров внезапно набралось более 100 человек, а у нас на носу отпуска. До осени новые потоки нам будет сложно планировать. Чтобы не тормозить развитие AI Native Code в коммьюнити на следующие месяцы и масштабировать процесс, мы сформулируем дальше новый формат работы. Так, чтобы не только масштабировать совместные исследования, сохранить интерактивный формат работы, но добавить больше возможностей поработать практически. Те, кто был на прошлых вебинарах или встал в waitlist получат приглашения первыми! Ваш, @llm_under_hood 🤗

28 237

Мой любимый лайфхак работы с Codex - я прошу агентов проиллюстрировать какой-нибудь документ или отчет в виде красивого интерактивного HTML документа на один раз. Агентам все равно, куда токены тратить, а мне так приятнее и удобнее воспринимать информацию. На скриншоте пример отчета, который мне собрал Codex после вчерашнего эксперимента:

А сделай-ка мне такой пайплайн с FirecrackerVM, чтобы можно было запускать агентов и рандомноый код на разных языках с низкой задержкой, ограничением сетки/диска, эффективной упаковкой ресурсов и переиспользованием снапшотов. А потом побенчмаркай на разных языках и выдай результат.

И потом я попросил оформить результат в виде красивого отчета. Эта мелкая фишка всегда становится одним из внезапных хайлайтов вебинаров по AI Coding, но я ее использую далеко не только для сoding задач в AI Native проектах. Смысл всегда один и тот же - пусть агенты потратят чуть больше токенов, чтобы скучный MD (возможно с mermaid) превратить в что-то более наглядное и экономящее человеческое время. Особенно хорошо такие отчеты засылать стейкхолдерам, партнерам и клиентам. А как вы используете HTML отчеты? Ваш, @llm_under_hood 🤗

28 237

А не пора ли нам сделать новый LLM бенчмарк про агентов? C прицелом на Agentic Commerce, Personal OS, threats, AI Coding и другие актуальные типы задач. И заодно найти новый хороший дом для публикации отчетов, ибо TimeToAct уже так хорошо не справляется с задачей. Ваш, @llm_under_hood 🤗

28 237

LLM Бенчмарк Claude Sonnet 5 на бизнес задачах - скачок качества @AigizK прогнал все вариации Sonnet 5 на нашем бенчмарке, собранном из эвалов успешных AI проектов в стартапах и корпорациях (про бенчмарк) Sonnet 5 сильно прокачали по сравнению с прошлыми версиями Sonnet. Модели подобрались достаточно близко к уровню Claude Opus 4.8 по качеству и цене. Общий паттерн ошибок - модель часто понимает задачу, но ломается на точности выполнения. Еще у Claude есть типичная болячка, что они переносят состояние из примеров в текущий запрос (это причина типично низких ошибок Anthropic/Mistral в колонке integrate). А еще забавно, что более высокий reasoning effort - не всегда значит, что качество будет лучше. Скажем, xhigh & high лучше справляются с задачками integrate (не путают примеры и текущий контекст), но начинают без спроса рассуждать в ответах, форматировать markdown, даже спорить с формулировкой задачи. В общем, Sonnet 5 - это значительный скачок качества в семействе моделей Sonnet. Но при использовании в бизнес задачах, где требуется интеграция LLM в текущие процессы нужно тестировать разные reasoning режимы на болтливость и следование инструкциям. Ваш, @llm_under_hood 🤗