Квест Теория Каст и Ролей
📈 Аналитический обзор Telegram-канала Квест Теория Каст и Ролей
Канал Квест Теория Каст и Ролей (@alexkrol) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 19 165 подписчиков, занимая 6 936 место в категории Технологии и приложения и 34 966 место в регионе Россия.
📊 Показатели аудитории и динамика
С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 19 165 подписчиков.
Согласно последним данным от 03 июля, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило -163, а за последние 24 часа — -13, при этом общий охват остаётся высоким.
- Статус верификации: Не верифицирован
- Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 11.33%. В первые 24 часа после публикации контент обычно набирает 5.73% реакций от общего числа подписчиков.
- Охват публикаций: В среднем каждый пост получает 2 172 просмотров. В течение первых суток публикация набирает 1 098 просмотров.
- Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 26.
- Тематические интересы: Контент сосредоточен на ключевых темах, таких как claude, openai, программист, figma, крол.
📝 Описание и контентная политика
Автор описывает ресурс как площадку для выражения субъективного мнения:
“Канал Алексея Крола, автора Теории Каст и Ролей.”
Благодаря высокой частоте обновлений (последние данные получены 04 июля, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.
stdout/stderr, причём часть тестов скрыта от модели, чтобы исключить захардкоженные lookup-таблицы.
Что важно, дают щедрый вычислительный бюджет. Моделям разрешают шикануть вплоть до 10 миллиардов токенов на крупный таск.
На самом дорогом прогоне агент работал 19 дней и сжёг $2 600, полностью без участия кожаного вообще.🟡Результаты 🟢Claude Opus 4.7 - 56% идеальных решений и единственный, кто закрыл задачи категории Large.
В частности, он переписал gotree (биоинформатический тулкит на 16 000 строк Go) за 14 часов и $251, пройдя 2000 из 2001 тестов. Авторы говорят, что инженеру без ИИ на это потребовалось бы от 2 до 17 недель.🟢GPT-5.5 - 44%. На задачах, где он всё-таки добирался до близкого к идеалу решения, выходил в среднем в 2 раза дешевле Opus. 🟠Gemini 3.1 Pro Preview - 32%. Простые утилиты (
uuidparse, qsv_select или hexyl) модели разбирают уверенно, там почти всегда 100%. Даже когда финальный результат не идеален, агенты обычно проходят больше 90% тестов.
🟡Где спотыкаются
Самая массовая категория ошибок - пограничные случаи: около 40% запусков Opus 4.7 проваливают хотя бы один скрытый тест из-за пропущенной мелочи.
Дальше идут решения, заточенные под видимые тесты, преждевременная сдача и пропуск целых фич, которые есть в документации, но не в тестах.
Попытки читерить хардкодом. У GPT-5.5 это случилось в 24% запусков, у Gemini - в 31%. Opus 4.7 в финальных сабмитах не схитрил ни разу.
Самый крепкий орешек - питоновский линтер ruff. Лучший запуск на скрытых тестах вытянул только 67%. Похожая история с математическим пакетом giac_subset и библиотекой mailauth для email-аутентификации.
🟡Странности экономики
GPT-5.5 решает задачи примерно в 3 раза дороже, чем GPT-5, а Opus 4.7, наоборот, в 3 раза дешевле, чем Opus 4.1.
🟡Меморизация
Все таргеты опенсорсные и модели вполне могли видеть их во время обучения, поэтому прогнали отдельный тест, где модели восстанавливали функции по имени и потом сравнили с реальным кодом.
Следы меморизации нашлись у 17 из 25 программ. Но при этом модели успешно решали незнакомые по обучению программы (nonogrid и tssql) и проваливали известыне (sed, ruff), так что меморизация явно не повод для скепсиса.
🟡Вывод
Агенты умеют автономно работать сутками и пилить проекты, которые у человека заняли бы недели, но для этого нужна жёсткая спецификация в виде эталона и тестов. Без чёткого фидбек-сигнала и на действительно крупных кодовых базах всё пока сыпется.
По меркам бенчмарков прогресс внушительный, по меркам полной автономии - ещё рано.
Авторы выложили в опенсорс обвязку агента и 22 таргета, оставив 3 в приватном тестовом наборе.
🟡Техотчёт
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark #MirrorCode #EpochAI
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
