Квест Теория Каст и Ролей
Канал Алексея Крола, автора Теории Каст и Ролей.
Показати більше📈 Аналітичний огляд Telegram-каналу Квест Теория Каст и Ролей
Канал Квест Теория Каст и Ролей (@alexkrol) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 19 165 підписників, посідаючи 6 936 місце в категорії Технології та додатки та 34 966 місце у регіоні Росія.
📊 Показники аудиторії та динаміка
З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 19 165 підписників.
За останніми даними від 03 липня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -163, а за останні 24 години на -13, загальне охоплення залишається високим.
- Статус верифікації: Не верифікований
- Рівень залученості (ER): Середній показник залученості аудиторії становить 11.33%. Протягом перших 24 годин після публікації контент зазвичай збирає 5.73% реакцій від загальної кількості підписників.
- Охоплення публікацій: В середньому кожен допис отримує 2 172 переглядів. Протягом першої доби публікація в середньому набирає 1 098 переглядів.
- Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 26.
- Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як claude, openai, программист, figma, крол.
📝 Опис та контентна політика
Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Канал Алексея Крола, автора Теории Каст и Ролей.”
Завдяки високій частоті оновлень (останні дані отримано 04 липня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.
stdout/stderr, причём часть тестов скрыта от модели, чтобы исключить захардкоженные lookup-таблицы.
Что важно, дают щедрый вычислительный бюджет. Моделям разрешают шикануть вплоть до 10 миллиардов токенов на крупный таск.
На самом дорогом прогоне агент работал 19 дней и сжёг $2 600, полностью без участия кожаного вообще.🟡Результаты 🟢Claude Opus 4.7 - 56% идеальных решений и единственный, кто закрыл задачи категории Large.
В частности, он переписал gotree (биоинформатический тулкит на 16 000 строк Go) за 14 часов и $251, пройдя 2000 из 2001 тестов. Авторы говорят, что инженеру без ИИ на это потребовалось бы от 2 до 17 недель.🟢GPT-5.5 - 44%. На задачах, где он всё-таки добирался до близкого к идеалу решения, выходил в среднем в 2 раза дешевле Opus. 🟠Gemini 3.1 Pro Preview - 32%. Простые утилиты (
uuidparse, qsv_select или hexyl) модели разбирают уверенно, там почти всегда 100%. Даже когда финальный результат не идеален, агенты обычно проходят больше 90% тестов.
🟡Где спотыкаются
Самая массовая категория ошибок - пограничные случаи: около 40% запусков Opus 4.7 проваливают хотя бы один скрытый тест из-за пропущенной мелочи.
Дальше идут решения, заточенные под видимые тесты, преждевременная сдача и пропуск целых фич, которые есть в документации, но не в тестах.
Попытки читерить хардкодом. У GPT-5.5 это случилось в 24% запусков, у Gemini - в 31%. Opus 4.7 в финальных сабмитах не схитрил ни разу.
Самый крепкий орешек - питоновский линтер ruff. Лучший запуск на скрытых тестах вытянул только 67%. Похожая история с математическим пакетом giac_subset и библиотекой mailauth для email-аутентификации.
🟡Странности экономики
GPT-5.5 решает задачи примерно в 3 раза дороже, чем GPT-5, а Opus 4.7, наоборот, в 3 раза дешевле, чем Opus 4.1.
🟡Меморизация
Все таргеты опенсорсные и модели вполне могли видеть их во время обучения, поэтому прогнали отдельный тест, где модели восстанавливали функции по имени и потом сравнили с реальным кодом.
Следы меморизации нашлись у 17 из 25 программ. Но при этом модели успешно решали незнакомые по обучению программы (nonogrid и tssql) и проваливали известыне (sed, ruff), так что меморизация явно не повод для скепсиса.
🟡Вывод
Агенты умеют автономно работать сутками и пилить проекты, которые у человека заняли бы недели, но для этого нужна жёсткая спецификация в виде эталона и тестов. Без чёткого фидбек-сигнала и на действительно крупных кодовых базах всё пока сыпется.
По меркам бенчмарков прогресс внушительный, по меркам полной автономии - ещё рано.
Авторы выложили в опенсорс обвязку агента и 22 таргета, оставив 3 в приватном тестовом наборе.
🟡Техотчёт
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark #MirrorCode #EpochAI
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
