LLM под капотом

前往频道在 Telegram

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.

显示更多

俄罗斯23 044 技术与应用4 724...

📈 Telegram 频道 LLM под капотом 的分析概览

频道 LLM под капотом (@llm_under_hood) 俄语语言赛道中的是活跃参与者。目前社区聚集了 28 237 名订阅者，在 技术与应用 类别中位列第 4 724，并在 俄罗斯 地区排名第 23 044 位。

📊 受众指标与增长动态

自 невідомо 创建以来，项目保持高速增长，吸引了 28 237 名订阅者。

根据 25 七月, 2026 的最新数据，频道保持稳定运转。过去 30 天订阅人数变化为 1 063，过去 24 小时变化为 44，整体触达仍然可观。

认证状态： 未认证
互动率 (ER)： 平均受众互动率为 48.79%。内容发布后 24 小时内通常能获得 30.68% 的反应，占订阅者总量。
帖子覆盖： 每篇帖子平均可获得 13 772 次浏览，首日通常累积 8 661 次浏览。
互动与反馈： 受众积极参与，单帖平均反应数为 81。
主题关注点： 内容集中在 sgr, llm, архитектура, erc3, openai 等核心主题上。

📝 描述与内容策略

作者将该频道定位为表达主观观点的平台：
“Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов. Чтобы писать - напишите боту @llm_under_hood_bot Рекламы в канале - нет. За комменты от ботов баним вместе с хозяином.”

凭借高频更新（最新数据采集于 26 七月, 2026），频道始终保持新鲜度与高覆盖。分析显示受众积极互动，使其成为 技术与应用 类别中的关键影响点。

28 237

订阅者

+4424 小时

+4587 天

+1 06330 天

13 772

帖子浏览量

~ 8 66124 小时

~ 9 91848 小时

48.79%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

28 237

LLM Benchmark Opus 5 на агентских задачах в бизнесе Я померил два варианта Anthropic Opus 5 - обычный и Fast. Последний работает раза в два быстрее, но стоит раза в два дороже. Уровень ответов при этом идентичный. Очень высокий уровень AI Code (tool generation/use), всего по два "прокола" безопасности. Модели заняли 4 и 5 места по точности, если смотреть без учета скорости и цены. А если же быть реалистичными и смотреть на них, то Fast модель оказалась на парето-фронтире по скорости, а Opus 5 - в целом близок по параметрам к GPT-5.5 (med), который является хорошей рабочей лошадкой на дорогих задачах. Кстати, в отличие от Fable, тут нет постоянных отказов отвечать. В общем, радует, что Anthropic, наконец, начали прокачивать свои топовые модели в сторону агентских задач. Будем ждать появления Sonnet версий снова на фронтире! Ваш, @llm_under_hood 🤗

28 237

Новые LLM на фронтире бенчмарка - просто добавь Cerebras Помните, совсем недавно Gemma 4 31B пододвинула фронтир скорости на нашем бенчмарке LLM после запуска на Cerebras? Я попробовал запустить gpt-oss-120B на нем же, перебирая разные варианты reasoning. И выяснилось, что все три версии - high reasoning, medium и low попадают на speed frontier, двигая его вперед. А medium reasoning при этом еще и оказывается на cost фронтире по эффективности. Удивительно, насколько хороша и сбалансирована эта, казалось бы, старая модель. А еще, казалось бы, запускай любые модели на Wafer Scale Engine ускорителе Cerebras и радуйся. Но тут есть пара нюансов: (1) Cerebras на публичном API поддерживает inference только трех моделей, которые они тщательно отобрали: gemma-4-31b, zai-glm-4.7, gpt-oss-120b. Да и то GLM-4.7 уберут через месяц (2) Модели используют хитрую квантизацию для сжатия под свое железо (selective weight-only quantization), поэтому их поведение может немного отличаться от стандартных версий. В общем, создание фронтир решений требует аккуратной балансировки между кучей разных ограничений, и эти ребята умудряются делать это. Не удивительно, что команды, которые нынче строят near-realtime AI решения, используют gpt-oss-120B на Cerebras и изучают переезд на более свежую gemma-4-31b Ваш, @llm_under_hood 🤗

28 237

Новая модель на фронтире - Gemma 4 31B (Cerebras) @AigizK сегодня попробовал Gemma 4 31B на Cerebras и сильно хвалил результаты. Поэтому попробовал запустить на агентском бенчмарке под бизнес-задачами и я. Cerebras - это такой производитель гигантских чипов для запуска моделей. Их wafer-scale engines раз в 50 больше самых крупных GPU. Железо получается очень дорогое и специализированное, зато позволяет запускать небольшие модели на диких скоростях. Недаром OpenAI гоняет некоторые GPT-5 модели именно на их железе. Gemma 4 31B в режиме с отключенным reasoning (ибо тормозит и спотыкается об structured outputs), будучи запущенной под Cerebras, пододвинула фронтир по скорости. Она на нем находится совсем рядом с GPT-5.4 mini (как по качеству, так и по цене). Основное отличие - Gemma 4 31B можно скачать, запустить локально и даже в ускоренном режиме на выделенном железе вроде TT-QuietBox 2 (Blackhole) от Tenstorrent (помните, я писал про них). Я преимущественно пользуюсь моделями от OpenAI, т.к. они обычно самые зубастые и способные в бизнес-задачи. Поэтому меня так и радует, когда появляются модели, способные их пододвинуть! Ваш, @llm_under_hood 🤗

28 237

Kimi K3 - в топе бенчмарка LLM для агентов По очкам модель сравнима с GPT-5.5 Pro, но раз в 15 дешевле и раза в 2 быстрее. С такими показателями она автоматом попадает на оба Парето-Фронта, сдвигая их. Эта модель с открытыми весами размером аж в 2.8T параметров, веса обещают выложить в открытый доступ 27 июля. Из минусов - гигантский размер и большее количество пропущенных уязвимостей. Но плюсы перевешивают. Модель с открытыми весами впервые в топе моего бенчмарка LLM на бизнес задачах (среди всех трех поколений, которые тянутся с 2023 года). Очень круто, что засилье OpenAI моделей в топах наконец прервано. Будем теперь ждать, пока открытым модели поменьше не подвинут с фронтира и остальные экземпляры OpenAI! Ваш, @llm_under_hood 🤗

28 237

Таблица Agentic LLM Benchmark July 2026 Самые интересные модели для агентных задач в бизнесе - подсвечены в таблице и на Pareto графиках. Но если кратко. Современные AI агенты для бизнес задач - это обычно пайплайны из блоков (router, policy check, tool writer, verifier итп), которые работают в цикле. И поскольку в долгих циклах набегают ошибки и мусор в контексте, то надежность агента обычно упирается в самое слабое звено. И этот бенчмарк смотрит - какие LLM работают лучше всего в моменты, когда лучшие агенты спотыкаются. Для этого мы брали топовые архитектуры BitGN, запускали их на сложных задачах и смотрели места, где у них в agentic loop под нагрузкой замыливается контекст, возникают ошибки и уязвимости. А потом эти моменты вопроизвели под разными моделями и собрали в таблице. В теории этот бенчмарк никогда не должен достигнуть точки saturation, т.к. болячки архитектур на бизнес задачах не кончаются, да и нет таких моделей, чтобы сразу были точными, быстрыми и недорогими. Полный отчет за июль 2026 опубликуем на сайте COLIBRIX ONE. Как выйдет - напишу тут. Ваш, @llm_under_hood 🤗

28 237

100 миллионов AI Tool Calls совершили ваши агенты на платформе BitGN! Это примерно по 50 tool calls на решение одной задачи. Всего на платформе 1089 инженеров и 103 города. Несмотря на то, что соревнования закончились уже давно, счетчик работы агентов на сайте не останавливался ни на день! И знаете, что самое крутое? Что все эти паттерны лучших архитектур агентов (читать про них тут и в очереди на публикацию) - это не какие-то сверхъестественно сложные новые технологии, а просто аккуратно подогнанные базовые элементы, которые уже не первый год хорошо работают с LLM. Продолжаем учиться вместе! Ваш, @llm_under_hood 🤗

28 237

Я почти закончил делать первую версию нового LLM бенчмарка, вместе с отчетом. Скоро все будет. Но пока вот картинка для исторических целей про то, как выглядела картина до выхода ChatGPT 5.6. Там очень много антропика! Sonnet 5 (high) на 4м месте, а low - на 6м, Opus 4.8 на 8м, Sonnet 4.6 на 10м. DeepSeek v4 Pro на 7 месте Fable легко мог бы занять топовое место, если бы не паниковал и не бросал трубку на каждую угрозу, вместо отрабатывания штатно. Ваш, @llm_under_hood 🤗

28 237

Сравнение Fable и GPT-5.6 Anthropic Fable - дорогой и урезанный по самые уши. Но при этом защита от уязвимостей у него на самом высшем уровне - ни одна не прошла. Правда при этом было 9 отказов работать (это своего рода рекорд в лидерборде). При малейшей опасности - Fable уходит в отказ. Если вернут старую версию модели, то, возможно, она потягается и за первые места. А пока - почетное 11 место. Ваш, @llm_under_hood 🤗

28 237

Бенчмарк GPT-5.6 Sol/Terra/Luna - двигают фронтир Это тест новых моделей OpenAI на нашем новом агентском бенчмарке. Под капотом бенчмарка - паттерны из топовых харнесов с BitGN соревнований, которые мы разобрали и заново прогнали через ECOM1 под трейсом с лупой, анализируя точки возникновения ошибок. А самые уязвимые места самых сильных архитектур (когда они путаются, пропускают нарушения границ, забывают про политики итп) собрали в бенчмарк. И получается, что лайтовые модели GPT-5.6 (есть еще pro версии, которые протестирую попозже) настолько хороши, что они двигают Парето-фронтир как по комбинации качество-скорость, так и по комбинации качество-цена. Смотрите сами на графики справа. Это делает их дефолтным выбором в новых проектах. Отчет на сайте выложим попозже, а пока картинка с хорошим качеством - в комментариях. Ваш, @llm_under_hood 🤗

28 237

Прообраз Agentic LLM Бенчмарка Задачи туда я добавляю на основе анализа работы и ошибок топовых архитектур агентов из BitGN. Бенчмарк отвечает на вопрос - а в какую сторону изменятся качество, стоимость и скорость работы моего агента, если я возьму топовую архитектуру и пересажу ее на другую LLM? Задач пока загружено ~50% от минимально необходимого набора. Колонки и категории появятся потом, но уже есть оценка времени (берется медианное время) и стоимости. Если у модели есть значок молнии, значит она запускалась у компании с AI Акселератором (Groq или Cerebras). Какие нынче еще есть топовые модели, которые вы реально используете в продуктовых решениях в своих компаниях по API? Ваш, @llm_under_hood 🤗

28 237

Я попросил у OpenAI Codex: а собери мне скелет AI Native проекта под мою задачу (5 минут объяснения про платформу для выгрузки видео про AI Coding, практических примеров и обсуждений на ~200 человек). Задачку я запустил из Control Center в Agentic Loop режиме (goal mode) и сказал, какие блоки из каких уже подключенных к центру проектов брать. В этот раз получилось сильно симпатичнее, чем обычно. Почти нет желания доделывать. Пару странных решений Codex втихую протащил, но никаких самопальных тестов в этот раз, что уже прогресс. Дальше - зачистить напильником шероховатости (чтобы задать тон будущему коду) и завести BDD спеки (SDD без вайб-зависимости). Очень круто видеть, как с каждым месяцем путь от идеи/эксперимента до первых MVP все больше сокращается! Ваш, @llm_under_hood 🤗

28 237

Бенчмарк Anthropic Fable на бизнес задачах после лоботомии @AigizK успел сделать бенчмарк Anthropic Fable до того, как его закрыли. Тем интереснее стало сравнить на том же бенчмарке новую экспортную версию после открытия заново. И там получается грустная картинка. Новый Anthropic Fable урезали настолько, что модель упала с 12 места на 39ое в нашем бенчмарке. Основная причина - 15 пустых ответов с stop_reason=“refusal” там, где раньше были ответы. Просели тщательно подобранные, но совершенно безопасные задачи на кодинг и интеграцию. В общем, с такими параметрами и стоимостью, особого смысла использовать Antropic Fable - нет. GPT-5.5 сильно лучше и куда дешевле. Ваш, @llm_under_hood 🤗

28 237

До чего дошли технологии! @AigizK взял мое intro видео на английском и своим пайплайном (тюненым через Agentic Loops) перевел с английского на разные языки с сохранением интонации. На русском звучит непривычно, плюс перевод можно почистить. Но это же мой голос с использованием своего пайплайна, без зависимостей от сторонних голосовых сервисов! А это значит, что его можно улучшать и дальше и переводить хоть сколько часов видео на разные языки. Да и на немецком произношение уже сильно лучше моего текущего. Наверняка есть не один стартап, который такое продает как сервис. Ваш, @llm_under_hood 🤗

28 237

До чего дошли технологии! Мы взяли мое intro видео на английском и своим пайплайном (тем самым, который Айгиз тюнил через Agentic Loops) перевели с английского на разные языки с сохранением интонации. На русском звучит непривычно, плюс перевод можно почистить. Но это же мой голос с использованием своего пайплайна, без зависимостей от сторонних голосовых сервисов! А это значит, что его можно улучшать и дальше и переводить хоть сколько часов видео на разные языки. Да и на немецком произношение уже сильно лучше моего текущего. Ваш, @llm_under_hood 🤗

28 237

Все, мы закончили с 5м потоком вебинара про AI Coding! Больше потоков еще не планировали. Сейчас в листе ожидания вебинаров внезапно набралось более 100 человек, а у нас на носу отпуска. До осени новые потоки нам будет сложно планировать. Чтобы не тормозить развитие AI Native Code в коммьюнити на следующие месяцы и масштабировать процесс, мы сформулируем дальше новый формат работы. Так, чтобы не только масштабировать совместные исследования, сохранить интерактивный формат работы, но добавить больше возможностей поработать практически. Те, кто был на прошлых вебинарах или встал в waitlist получат приглашения первыми! Ваш, @llm_under_hood 🤗

28 237

Мой любимый лайфхак работы с Codex - я прошу агентов проиллюстрировать какой-нибудь документ или отчет в виде красивого интерактивного HTML документа на один раз. Агентам все равно, куда токены тратить, а мне так приятнее и удобнее воспринимать информацию. На скриншоте пример отчета, который мне собрал Codex после вчерашнего эксперимента:

А сделай-ка мне такой пайплайн с FirecrackerVM, чтобы можно было запускать агентов и рандомноый код на разных языках с низкой задержкой, ограничением сетки/диска, эффективной упаковкой ресурсов и переиспользованием снапшотов. А потом побенчмаркай на разных языках и выдай результат.

И потом я попросил оформить результат в виде красивого отчета. Эта мелкая фишка всегда становится одним из внезапных хайлайтов вебинаров по AI Coding, но я ее использую далеко не только для сoding задач в AI Native проектах. Смысл всегда один и тот же - пусть агенты потратят чуть больше токенов, чтобы скучный MD (возможно с mermaid) превратить в что-то более наглядное и экономящее человеческое время. Особенно хорошо такие отчеты засылать стейкхолдерам, партнерам и клиентам. А как вы используете HTML отчеты? Ваш, @llm_under_hood 🤗

28 237

А не пора ли нам сделать новый LLM бенчмарк про агентов? C прицелом на Agentic Commerce, Personal OS, threats, AI Coding и другие актуальные типы задач. И заодно найти новый хороший дом для публикации отчетов, ибо TimeToAct уже так хорошо не справляется с задачей. Ваш, @llm_under_hood 🤗

28 237

LLM Бенчмарк Claude Sonnet 5 на бизнес задачах - скачок качества @AigizK прогнал все вариации Sonnet 5 на нашем бенчмарке, собранном из эвалов успешных AI проектов в стартапах и корпорациях (про бенчмарк) Sonnet 5 сильно прокачали по сравнению с прошлыми версиями Sonnet. Модели подобрались достаточно близко к уровню Claude Opus 4.8 по качеству и цене. Общий паттерн ошибок - модель часто понимает задачу, но ломается на точности выполнения. Еще у Claude есть типичная болячка, что они переносят состояние из примеров в текущий запрос (это причина типично низких ошибок Anthropic/Mistral в колонке integrate). А еще забавно, что более высокий reasoning effort - не всегда значит, что качество будет лучше. Скажем, xhigh & high лучше справляются с задачками integrate (не путают примеры и текущий контекст), но начинают без спроса рассуждать в ответах, форматировать markdown, даже спорить с формулировкой задачи. В общем, Sonnet 5 - это значительный скачок качества в семействе моделей Sonnet. Но при использовании в бизнес задачах, где требуется интеграция LLM в текущие процессы нужно тестировать разные reasoning режимы на болтливость и следование инструкциям. Ваш, @llm_under_hood 🤗