notes of v
Open in Telegram
370
Subscribers
+124 hours
+37 days
+2930 days
Posts Archive
370
🧑💻 OpenAI тут раскатили новую имбовую фичу для Codex: "банк" сброса лимитов
Как работает:
🔍Plus и Pro подписчики получают 1 бесплатный сброс
🔍Вы можете "поделиться" своей реферальной ссылкой с 11 по 24 июня с 3-мя людьми, получив +3 бесплатных сброса
🔍Сбросы можно использовать в течении 30 дней
370
Вышел Claude Fable 5 🎉
🔍Самая сильная модель Anthropic из доступных
🔍В 2 раза (!) дороже Опуса
🔍На Pro/Max/Team/Enterprise включена до 22 июня
🔍С 23 июня будет доступна через usage credits (не в подписке!) 😂
Главный нюанс: на чувствительных темах вроде cybersecurity, biology/chemistry или при дистилляции модель будет автоматически переключаться на Opus 4.8 👦
https://www.anthropic.com/news/claude-fable-5-mythos-5
370
Вышел Opus 4.8 🎉
🔍Новый effort по умолчанию = high (а не xhigh, как было с Opus 4.7)
🔍Fast режим в 3 раза дешевле чем в прошлых моделях
🔍Цена за токены не изменилась
По обещаниям, должна "в 4 раза реже пропускать собственные ошибки", чтобы это ни значило 👀
https://www.anthropic.com/news/claude-opus-4-8
370
Сделал небольшой плагин, чтобы следить за просадками качества моделей прямо из терминала 🦄
🔍Поддерживает Codex CLI и Claude Code 🧑💻🦀
🔍Полностью локально
🔍Не тратит токены
https://github.com/Verce11o/model-degradation-tracker
370
Нашёл полезный сервис: Margin Evals Degradation Trackers.
Там ежедневно прогоняют 🎉 Claude Code и 🧑💻 Codex на выборке из SWE-Bench-Pro и, помимо pass rate, отслеживают input/output tokens, runtime и количество tool calls.
🔍Важная деталь: запуски идут напрямую через актуальные Claude Code CLI / Codex CLI, без кастомного harness, поэтому метрика ближе к тому, что реально получает пользователь. Если просадка случится из-за изменения модели, CLI, tool-use или чего-то ещё, трекер потенциально это поймает.
🔍Дневной прогон маленький, N=50, поэтому лучше смотреть на недельную и месячную статистику. Сервис отдельно помечает, есть ли статистически значимая деградация (есть свой безопасный трешхолд)
Полезно, если устали гадать, отупел ли снова Opus или Codex, или это вам кажется 😂
🦀 Claude Code: https://marginlab.ai/trackers/claude-code/
🧑💻 Codex: https://marginlab.ai/trackers/codex/
370
+1
День новостей сегодня 🍒
🔍Anthropic увеличивают недельные лимиты до 13 июля
🔍В ответ Альтман дарит 2 месяца использования codex для компаний
🔍Anthropic реализнули свою команду /goal, про которую я писал ранее как одну из фич codex
Ждём agent view в codex 😂
370
Anthropic начнут выдавать ежемесячные кредиты, равной плану самой подписки.
Если сидите на плане за $100, то каждый месяц будете получать по $100 которые можно потратить на SDK usage (claude -p) или другие ништяки 🎉
370
🔸 Slopus 4.7 или почему я убежал в Codex 🧑💻
В последнее время, думаю, как и абсолютно все, я заметил сильное ухудшение как и качества моделей Anthropic, так и их политику лимитов. (а с недавнего времени - ещё и баны аккаунтов).
Однако даже с такой очень сильной просадкой в dev-experience, я продолжал сидеть на игле под названием Opus 4.7. Утешал я себя тем, что думал что пользуюсь самым лучшим из того, что предлагал рынок и аналогов ему нет. Как же я ошибался!
Критической точкой стало то, что я снова начал промпт-инжинирить агента вместо того, чтобы управлять контекстом (имхо: узкое горлышко современных моделей). Всё чаще диалог выглядел примерно так:
🧑💻: Реализуй вот эту задачу: ... 🦀: Сделано! 🧑💻: Вообще-то, вот этого и этого у меня не существует, изучи код более внимательно. 🦀: Да, ты абсолютно прав, я это выдумал, основываясь на неймингах в коде. Сейчас посмотрю более подробно...Ощущалось это, как шаг назад, если честно. 😢 На какое-то время я переехал обратно на Opus 4.6 (до 4.7, когда 4.6 занёрфили, я и вовсе откатывался на 4.5). Что-то стало лучше, но общую картину это не изменило, и я начал искать альтернативы. Моей первой попыткой стала подписка OpenCode Go 🖥 за 5$, которая предлагала доступ к большому количеству китайцев: GLM, Kimi, Qwen и прочее. Лимиты там скромные, но потыкать и посмотреть - самое то. Больше всего я работал с Qwen 3.6-plus в связке с SDD через openspec и был удивлён, что по такой скромной цене я получал качество сопоставимое с опусом. Тут-то меня и осенило, что не одним 🍎 един рынок. И тут выходит GPT-5.5. Поначалу, я не придавал ему внимания: последний раз, когда я основательно использовал модели OpenAI для кодинга, было года полтора назад. Но я всё-таки решился и попробовал. Запустив 🧑💻 Codex в первый раз я был удивлен скорее негативно: cli показался мне слишком простым и скромным. Потребительская привычка велела мне засунуть кодекс в 🦀ClaudeCode через тонну существующих инструментов: omnirouter, ccr, cc-switch и так далее. У меня это получилось, однако я лично не советую так делать 🙅♂️ (об этом как-нибудь позже). По работе я как раз занимался тем, что писал документацию (ранбуки) для очень большого монолита. Модели нужно было сделать очень глубокий и серьезный анализ кода, сходить в соседние репы, юзать скиллы и mcp всяких Jira/Slack/Grafana чтобы обогатится контекстом. В общем, устроил эдакий бенчмарк трём моделькам: - Опус 4.7 - Опус 4.6 - GPT 5.5 Как вы и догадались, кодекс выдал наилучший результат: он чаще использовал скиллы (это боль, с которой я часто сталкивался с клодом), сразу понял, что он может ошибаться в своих promQL которые получил по анализу кода и перепроверял их через MCP, и самое главное - он лучше всех понял идею и то, что ранбук должен быть точкой входа и пошаговым гайдом при разборе инцидента, а не просто документацией по алерту.
Ради интереса я заставил все 3 модельки сделать ревью ранбуков друг-друга: единогласно все решили, что решение кодекса оказалось лучшим 😂Ну и парочку киллер-фич, которые я обнаружил: 🔍Если у вас осталось 1-2% лимита, и вы попросили его сделать задачу, он всегда ее закончит, а не бросит посередине и попросит подождать как клод. Поэтому есть смысл давать жирную задачу в конце 🔍OpenAI выпустили плагин, который позволяет вам прямо внутри Claude-Code просить сделать ревью того, что вам написал опус, или делегировать задачу кодексу. Очень полезно, т.к кодекс часто видит то что опус упускает (ну или у вас заканчивается лимиты в клоде) 🔍Команда /goal, которая будет выполнять задачу пока не достигнет поставленной цели. Если в процессе она упрётся в лимит, то сама продолжит после его истечения 🔍Адекватный менеджмент permissions. У ClaudeCode auto-mode для разрешений появился недавно и доступен только в Opus 4.7 🔍Лимиты в несколько раз больше, чем у 🍎 (по моему опыту) Главным преимуществом Codex 🧑💻 для меня оказалось то, что он намного лучше понимает идею и смысл задачи. Возможно, он не пишет такой же "идеальный" код, как Claude. Но причесать код и сделать его красивее - намного дешевле и быстрее, чем менять его логику. 🤔
Available now! Telegram Research 2025 — the year's key insights 
