notes of v

Open in Telegram

author: @taymik

The country is not specifiedThe category is not specified

370

Subscribers

+124 hours

+37 days

+2930 days

418

Post views

No data24 hours

No data48 hours

112.97%

Engagement rate

No data

Posts per day

Ads index

beta

Posts Archive

370

🧑‍💻 OpenAI тут раскатили новую имбовую фичу для Codex: "банк" сброса лимитов Как работает: 🔍Plus и Pro подписчики получают 1 бесплатный сброс 🔍Вы можете "поделиться" своей реферальной ссылкой с 11 по 24 июня с 3-мя людьми, получив +3 бесплатных сброса 🔍Сбросы можно использовать в течении 30 дней

370

Вышел Claude Fable 5 🎉 🔍Самая сильная модель Anthropic из доступных 🔍В 2 раза (!) дороже Опуса 🔍На Pro/Max/Team/Enterprise включена до 22 июня 🔍С 23 июня будет доступна через usage credits (не в подписке!) 😂 Главный нюанс: на чувствительных темах вроде cybersecurity, biology/chemistry или при дистилляции модель будет автоматически переключаться на Opus 4.8 👦 https://www.anthropic.com/news/claude-fable-5-mythos-5

370

Вышел Opus 4.8 🎉 🔍Новый effort по умолчанию = high (а не xhigh, как было с Opus 4.7) 🔍Fast режим в 3 раза дешевле чем в прошлых моделях 🔍Цена за токены не изменилась По обещаниям, должна "в 4 раза реже пропускать собственные ошибки", чтобы это ни значило 👀 https://www.anthropic.com/news/claude-opus-4-8

370

Сделал небольшой плагин, чтобы следить за просадками качества моделей прямо из терминала 🦄 🔍Поддерживает Codex CLI и Claude Code 🧑‍💻🦀 🔍Полностью локально 🔍Не тратит токены https://github.com/Verce11o/model-degradation-tracker

370

Нашёл полезный сервис: Margin Evals Degradation Trackers. Там ежедневно прогоняют 🎉 Claude Code и 🧑‍💻 Codex на выборке из SWE-Bench-Pro и, помимо pass rate, отслеживают input/output tokens, runtime и количество tool calls. 🔍Важная деталь: запуски идут напрямую через актуальные Claude Code CLI / Codex CLI, без кастомного harness, поэтому метрика ближе к тому, что реально получает пользователь. Если просадка случится из-за изменения модели, CLI, tool-use или чего-то ещё, трекер потенциально это поймает. 🔍Дневной прогон маленький, N=50, поэтому лучше смотреть на недельную и месячную статистику. Сервис отдельно помечает, есть ли статистически значимая деградация (есть свой безопасный трешхолд) Полезно, если устали гадать, отупел ли снова Opus или Codex, или это вам кажется 😂 🦀 Claude Code: https://marginlab.ai/trackers/claude-code/ 🧑‍💻 Codex: https://marginlab.ai/trackers/codex/

370

Андрей Карпатый присоединился к Anthropic 💼

370

День новостей сегодня 🍒 🔍Anthropic увеличивают недельные лимиты до 13 июля 🔍В ответ Альтман дарит 2 месяца использования codex для компаний 🔍Anthropic реализнули свою команду /goal, про которую я писал ранее как одну из фич codex Ждём agent view в codex 😂

370

Anthropic начнут выдавать ежемесячные кредиты, равной плану самой подписки. Если сидите на плане за $100, то каждый месяц будете получать по $100 которые можно потратить на SDK usage (claude -p) или другие ништяки 🎉

370

🔸 Slopus 4.7 или почему я убежал в Codex 🧑‍💻 В последнее время, думаю, как и абсолютно все, я заметил сильное ухудшение как и качества моделей Anthropic, так и их политику лимитов. (а с недавнего времени - ещё и баны аккаунтов). Однако даже с такой очень сильной просадкой в dev-experience, я продолжал сидеть на игле под названием Opus 4.7. Утешал я себя тем, что думал что пользуюсь самым лучшим из того, что предлагал рынок и аналогов ему нет. Как же я ошибался! Критической точкой стало то, что я снова начал промпт-инжинирить агента вместо того, чтобы управлять контекстом (имхо: узкое горлышко современных моделей). Всё чаще диалог выглядел примерно так:

🧑‍💻: Реализуй вот эту задачу: ... 🦀: Сделано! 🧑‍💻: Вообще-то, вот этого и этого у меня не существует, изучи код более внимательно. 🦀: Да, ты абсолютно прав, я это выдумал, основываясь на неймингах в коде. Сейчас посмотрю более подробно...

Ощущалось это, как шаг назад, если честно. 😢 На какое-то время я переехал обратно на Opus 4.6 (до 4.7, когда 4.6 занёрфили, я и вовсе откатывался на 4.5). Что-то стало лучше, но общую картину это не изменило, и я начал искать альтернативы. Моей первой попыткой стала подписка OpenCode Go 🖥 за 5$, которая предлагала доступ к большому количеству китайцев: GLM, Kimi, Qwen и прочее. Лимиты там скромные, но потыкать и посмотреть - самое то. Больше всего я работал с Qwen 3.6-plus в связке с SDD через openspec и был удивлён, что по такой скромной цене я получал качество сопоставимое с опусом. Тут-то меня и осенило, что не одним 🍎 един рынок. И тут выходит GPT-5.5. Поначалу, я не придавал ему внимания: последний раз, когда я основательно использовал модели OpenAI для кодинга, было года полтора назад. Но я всё-таки решился и попробовал. Запустив 🧑‍💻 Codex в первый раз я был удивлен скорее негативно: cli показался мне слишком простым и скромным. Потребительская привычка велела мне засунуть кодекс в 🦀ClaudeCode через тонну существующих инструментов: omnirouter, ccr, cc-switch и так далее. У меня это получилось, однако я лично не советую так делать 🙅‍♂️ (об этом как-нибудь позже). По работе я как раз занимался тем, что писал документацию (ранбуки) для очень большого монолита. Модели нужно было сделать очень глубокий и серьезный анализ кода, сходить в соседние репы, юзать скиллы и mcp всяких Jira/Slack/Grafana чтобы обогатится контекстом. В общем, устроил эдакий бенчмарк трём моделькам: - Опус 4.7 - Опус 4.6 - GPT 5.5 Как вы и догадались, кодекс выдал наилучший результат: он чаще использовал скиллы (это боль, с которой я часто сталкивался с клодом), сразу понял, что он может ошибаться в своих promQL которые получил по анализу кода и перепроверял их через MCP, и самое главное - он лучше всех понял идею и то, что ранбук должен быть точкой входа и пошаговым гайдом при разборе инцидента, а не просто документацией по алерту.

Ради интереса я заставил все 3 модельки сделать ревью ранбуков друг-друга: единогласно все решили, что решение кодекса оказалось лучшим 😂

Ну и парочку киллер-фич, которые я обнаружил: 🔍Если у вас осталось 1-2% лимита, и вы попросили его сделать задачу, он всегда ее закончит, а не бросит посередине и попросит подождать как клод. Поэтому есть смысл давать жирную задачу в конце 🔍OpenAI выпустили плагин, который позволяет вам прямо внутри Claude-Code просить сделать ревью того, что вам написал опус, или делегировать задачу кодексу. Очень полезно, т.к кодекс часто видит то что опус упускает (ну или у вас заканчивается лимиты в клоде) 🔍Команда /goal, которая будет выполнять задачу пока не достигнет поставленной цели. Если в процессе она упрётся в лимит, то сама продолжит после его истечения 🔍Адекватный менеджмент permissions. У ClaudeCode auto-mode для разрешений появился недавно и доступен только в Opus 4.7 🔍Лимиты в несколько раз больше, чем у 🍎 (по моему опыту) Главным преимуществом Codex 🧑‍💻 для меня оказалось то, что он намного лучше понимает идею и смысл задачи. Возможно, он не пишет такой же "идеальный" код, как Claude. Но причесать код и сделать его красивее - намного дешевле и быстрее, чем менять его логику. 🤔