Квест Теория Каст и Ролей
Канал Алексея Крола, автора Теории Каст и Ролей.
Show more📈 Analytical overview of Telegram channel Квест Теория Каст и Ролей
Channel Квест Теория Каст и Ролей (@alexkrol) in the Russian language segment is an active participant. Currently, the community unites 19 165 subscribers, ranking 6 936 in the Technologies & Applications category and 34 966 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 19 165 subscribers.
According to the latest data from 03 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -163 over the last 30 days and by -13 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 11.33%. Within the first 24 hours after publication, content typically collects 5.73% reactions from the total number of subscribers.
- Post reach: On average, each post receives 2 172 views. Within the first day, a publication typically gains 1 098 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 26.
- Thematic interests: Content is focused on key topics such as claude, openai, программист, figma, крол.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Канал Алексея Крола, автора Теории Каст и Ролей.”
Thanks to the high frequency of updates (latest data received on 04 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
stdout/stderr, причём часть тестов скрыта от модели, чтобы исключить захардкоженные lookup-таблицы.
Что важно, дают щедрый вычислительный бюджет. Моделям разрешают шикануть вплоть до 10 миллиардов токенов на крупный таск.
На самом дорогом прогоне агент работал 19 дней и сжёг $2 600, полностью без участия кожаного вообще.🟡Результаты 🟢Claude Opus 4.7 - 56% идеальных решений и единственный, кто закрыл задачи категории Large.
В частности, он переписал gotree (биоинформатический тулкит на 16 000 строк Go) за 14 часов и $251, пройдя 2000 из 2001 тестов. Авторы говорят, что инженеру без ИИ на это потребовалось бы от 2 до 17 недель.🟢GPT-5.5 - 44%. На задачах, где он всё-таки добирался до близкого к идеалу решения, выходил в среднем в 2 раза дешевле Opus. 🟠Gemini 3.1 Pro Preview - 32%. Простые утилиты (
uuidparse, qsv_select или hexyl) модели разбирают уверенно, там почти всегда 100%. Даже когда финальный результат не идеален, агенты обычно проходят больше 90% тестов.
🟡Где спотыкаются
Самая массовая категория ошибок - пограничные случаи: около 40% запусков Opus 4.7 проваливают хотя бы один скрытый тест из-за пропущенной мелочи.
Дальше идут решения, заточенные под видимые тесты, преждевременная сдача и пропуск целых фич, которые есть в документации, но не в тестах.
Попытки читерить хардкодом. У GPT-5.5 это случилось в 24% запусков, у Gemini - в 31%. Opus 4.7 в финальных сабмитах не схитрил ни разу.
Самый крепкий орешек - питоновский линтер ruff. Лучший запуск на скрытых тестах вытянул только 67%. Похожая история с математическим пакетом giac_subset и библиотекой mailauth для email-аутентификации.
🟡Странности экономики
GPT-5.5 решает задачи примерно в 3 раза дороже, чем GPT-5, а Opus 4.7, наоборот, в 3 раза дешевле, чем Opus 4.1.
🟡Меморизация
Все таргеты опенсорсные и модели вполне могли видеть их во время обучения, поэтому прогнали отдельный тест, где модели восстанавливали функции по имени и потом сравнили с реальным кодом.
Следы меморизации нашлись у 17 из 25 программ. Но при этом модели успешно решали незнакомые по обучению программы (nonogrid и tssql) и проваливали известыне (sed, ruff), так что меморизация явно не повод для скепсиса.
🟡Вывод
Агенты умеют автономно работать сутками и пилить проекты, которые у человека заняли бы недели, но для этого нужна жёсткая спецификация в виде эталона и тестов. Без чёткого фидбек-сигнала и на действительно крупных кодовых базах всё пока сыпется.
По меркам бенчмарков прогресс внушительный, по меркам полной автономии - ещё рано.
Авторы выложили в опенсорс обвязку агента и 22 таргета, оставив 3 в приватном тестовом наборе.
🟡Техотчёт
🖥Github
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark #MirrorCode #EpochAI
Available now! Telegram Research 2025 — the year's key insights 
