uk
Feedback
Киса | Deploy la Deploy

Киса | Deploy la Deploy

Відкрити в Telegram

Был канал по деплоям, потом по ретро и дегенству в крипте. Теперь это AI храм, в общем ничего нового, упарываемся. Автор: @Notkisa Гитхаб автора: https://github.com/howdeploy

Показати більше
6 010
Підписники
+1524 години
+1687 днів
+67730 день
Архів дописів
Как работает индустрия бэнчмарков Как на самом деле рисуются цифры, урезаются параметры модели и подсовывается одно и тоже под видом нового. Честная и самая объективная АНАЛитика. Ну и самые праведные и удобные таймкоды для вашего удобства: 00:00 — Что такое бенчмарк 02:14 — Бенчмарки всегда растут 03:38 — Бенчмарк != реальная работа 04:50 — Практика всему голова 07:03 — Следование инструкциям 08:41 — Жрите токены на мышление 11:57 — Системный промпт тихо меняют на сервере 15:15 — Как корпорации манипулируют моделями 17:01 — Gemini: топ по бенчмаркам, но говно 20:08 — Китайцы, DeepSeek и культ бенчмарков

Фундаментальный обзор Fable 5 Или почему новая модель сосет Эталонный разбор модели, что пишут люди, что заметил я. Сколько ж
Фундаментальный обзор Fable 5 Или почему новая модель сосет
Эталонный разбор модели, что пишут люди, что заметил я. Сколько жрет токенов и вот это все.
Давайте начнем обзор с главного тезиса, который закроет спрос и на техническую важную часть, и на философию. Жрет токенов больше, эффект тот же На самом деле мне не хочется и видит бог, в третий или четвертый раз по кругу прогонять каким был идеальным 4.6, но это нужно задеть по касательной. Нас, тобишь тех, кто активно юзает нейросети не первый месяц и вышел за пределы веб чата: вайбкодеры, владельцы AI агентов, авторы пайплайнов, дизайнеры/монтажеры и так далее. Нас уже не удивить. И не столько потому что это приелось, само собой. А потому что прогресс в некоторой степени остановился. Мы не получаем модель еще лучше, эффективнее, выгоднее и удобнее. Мы получаем что-то подкрученное на сервере, что либо работает как раньше, либо хуже. И это главный тезис о свежем релизе. Буквально тоже самое, но дороже. Вот и весь "итог" вайбкод истории. Эта тварь съедает все токены за тоже самое! Я не заметил такого жора, это не аномальный рост контекста за апрель этого года при урезании 4.6 версии, тут буквально все стабильно (лично у меня). Но в любом случае, вообще все вокруг заметили. Ничего не поменялось, по опыту пользования это буквально прошлая модель. Хотя бы потому что Fable 5 активно передает задачи 4.8, лол. При том, что это fallback, вы ставите одну модель, а вам подсовывают другую, ибо они не справляются с нагрузкой, бедненькие. И сверяясь с чужим фидбеком, вот к каким гипотезам сравнениям я пришел. И сразу скажу, что по этой ссылке вы можете скопировать мой стэк. Где нет никаких проблем. 1. Ultracode режим сам по себе запускает множество агентов, это для любой версии черная дыра по сжиганию токенов, я сижу на xhigh - max 2. Fable "переобучен" активно вызывать суб-агентов и отдавать те же задачи 4.8, в моей системной инструкции и скиллах модель явно(?) склоняется так не делать 3. Люди часто делают /compact и ведут очень длинные сессии в рамках одного проекта. Я запускаю отдельные чаты под задачи до 99% 1М контекста, весь диалог и обновления кода не перечитываются Сделав анализ сессий за последний день получилось, что у меня почти не триггерились агенты, ибо инструкции прописаны под соло работы модели.
А твой CLAUDE.md делает ПРОТИВОПОЛОЖНОЕ: «никогда не выполняй действие, которое юзер не запрашивал», план → «ок» → исполнение, скоуп железный. Результат в данных: 1 сабагент-файл на 8 Fable-сессий. Твоя системная инструкция — это анти-шторм. Сам написал — сам сэкономил.
А стало ли все таки лучше? У этой модели постоянное и длинное рассуждение = она умнее и четко следует инструкциями + автономна. Это то, что было прописаны, заявлено и сделано. На практике нам продают улучшенное мышление на фоне урезанного. Модели семейства Opus и без этих улучшений раньше справлялись с заявленным. А тупнеж 4.8, судя по чатам/комментам люди замечают регулярно. Но новую модельку у нас заберут 22 июня, удалив из подписок. То есть антропики снова оставят нас с огрызком. Что печально, правда печально. Компания раньше каждым релизом делающая делала революцию на всем рынке LLM, компания создавшая что-то близкое к AGI, а я писал об этом посты, кстати. В итоге продает за много денег урезанную модель, которая просто ну ок. Она хорошая, не более. И проблема не в том, что революция кончилась или нет улучшений. А в том, что нет развития экосистемы вокруг устоявшегося продукта. Нет аналога Hermes, нет инструментария управления автономными агентами. Есть только подписка за 200 баксов, ограничения по API и ощущение, что раньше было лучше. Это буквально все, что мне есть сказать про новый релиз. Повторяя тезис: тоже самое.

Deploychan, Howdeploy и Киса зашли в бар.. А бармен им и говорит: "Ты зачем так кринжево выкатываешь свой вайбкод мув-лист, ч
Deploychan, Howdeploy и Киса зашли в бар..
А бармен им и говорит: "Ты зачем так кринжево выкатываешь свой вайбкод мув-лист, чмо?
Этой ночью у меня дошли руки скопом дообновить, обновить и доделать сразу несколько своих проектов, так еще и сразу по совсем разным фронтам. Как-то оно у меня откалывалось, переносилось. Мне кажется, я почти месяц ничего толком и не вайбкодил. А тут озарение, вдохновение. Поэтому, призываю тебя почитать какие апдейты я выкатил, быть может окажется полезным или интересным. 1. Мой личный сайт в зоне .webcam Я создал отдельный лендинг, который подводит к полностью переработанному старому сайту, где я упарывался по OS опыту с кнопочками и окнами. Как получилось можешь заценить на пикриле. Ну и протыкаться по ссылочкам, буду рад гостям и потенциальным клиентам. Многочисленная новая аудитория с ютуба, к слову, может ознакомиться через сайты с прочим моим контентом, например, статьями. 2. Переработка ObsidianDataWeave Изначально проект собирался с оглядкой на чужую закрытую разработку и как-то так вышло, что предполагал работу с плагином, которые формирует векторую БД. Еще неделю назад я вкинул кусок стрима, где мы облизывали безвекторную FTS5 память, которая идеально ложится под историю с вики. А на днях мне напрямую об этом написал один из читателей, по его замерам там скорость в 32 раза выше. Что это значит? Правильно. Теперь моя вики + управление notebooklm + система заметок не выходя из чата с агентом/obsidian построены на новой памяти. 3. Решил переосмыслить свой "Awesome" Я собрал новый репозиторий куда включил подборку своих agents.md, хуков, скиллов, плагинов и настроек. Это репозиторий на котором ваши AI агенты могут скопировать мой стэк: от живой речи Elevenlabs до хуков напоминания про чтение llm wiki. Вы как раз время от времени спрашиваете мой стэк и как вкатиться в агентов. Поэтому я еще для поста вот что собрал: - Установка Hermes и зачем оно нужно - Мои рабочие советы по вайбкоду - Мой старый гайд по claude code и оркестрации - Как вообще с нейросетей можно заработать 4. MAKE TEXT GREAT AGAIN Рофла ради я сел и доделал свою давнюю задумку. Мне понравился проект MCGA — Make Commits Great Again, который учит claude code писать коммиты в стиле Трампа. Я упоролся и заменил все фразы внизу, весь стиль общения и опционально написанных коммитов на стиль Трампа. Доступно и для Codex, но он ограничен только стилем текста и делает это с огромным скрипом. На клоде, ожидаемо, полет отличный. Добавлять под Deepseek V4? А и да, вот тебе ссылка на именно на мой MTGA. Чтобы твой агент делал ПОБЕДЫ одну за одной. Пока другие проиграли, знали, но МОЛЧАЛИ. Он все сделает.

Скрин из моей приватки, лол. Видимо опять щитпостить в честь релиза новой модельки. ГПТ, у вас там када че? Давай те уж стрим
Скрин из моей приватки, лол. Видимо опять щитпостить в честь релиза новой модельки. ГПТ, у вас там када че? Давай те уж стрим на 4 часа с АНАЛитикой по компании OpenAI и дымоходу сэра Альтмена.

69 ржущих эмодзи и я выключаю Crimson Desert ради обзора Fable 5 от великой компании Anthropic Всем спасибо за внимание.
69 ржущих эмодзи и я выключаю Crimson Desert ради обзора Fable 5 от великой компании Anthropic Всем спасибо за внимание.

А Фейбл 3 выйдет? Нет. Выйдет Фейбл 5 сразу. Гражданская версия того самого мифоса, который не стали выкатывать в релиз, ибо они слишком мощный. Внутри claude code вбиваем команду /model и можем включить, но получаем уведомление вот такого характера:
Fable 5 is here! Our newest model for complex, long-running work ▎ Included in your plan limits until Jun 22, then switch to usage credits to continue.
Получается это такая мощная модель, что ее внутри подписки давать не будут. Я не хочу запускать еще один стрим на много часов. Могу чисто потыкать и дать обзор. Предварительно люди пишут: "как 4.8, только жрет в 2.5 раза больше токенов".

Почему Linux лучшая ОС в мире? Мало кто знает (кто не слушал последний стрим), что именно владение линуксом дало старт моей к
Почему Linux лучшая ОС в мире?
Мало кто знает (кто не слушал последний стрим), что именно владение линуксом дало старт моей карьеры.
И за очень много лет пользования разными ноутами, ПК и прочими девайсами куда можно накатить линукс или он был накатан ранее. ПровтыкаФ не один десяток часов debian, ubuntu, manjaro, arch, kali, tails os и так далее. Отдав жизнь на подбор виджетов, плагинов, конфигов. Посидев как на классических графических оболочках, так и на чем-то вроде i3-gaps (и на нем самом) по 2 недели в ручную составляя конфиги. Приучив себя работать в терминале, хотя есть GUI, но на кой черт он нужен, если кнопки менее удобно, если это не хоткеи. Сидя на винде 7, 10 и урезанной кастомной версии. Используя на эмуляторах и эмуляторы внутри. Запуская игры там и там. Я пришел к очевидному выводу. Он лежит на поверхности в глубине. Самое объективное мнение за примерно 7 лет рассуждений(?). Линукс во всем лучше винды. И начнем с такого базиса как игры. Ну многие гоняют в сессионки, соло игры. В целом могут сказать — мол маки для работы, а на линуксе ничего нет. Эмуляторы не выход, скажут те, кто даже не запускали эмули на линуксе, которые тянут 2 линухи и одну винду, покуда та сама себя эмулировать на том же железе без лагов не может. И для игр используется Proton, надстройка Wine, эмулятора винды. Прикол в том, что Proton показывает условные на 0.10% хуже работу, чем винда. И Steam лет 10 инвестировала в эту технологию. Поэтому то Steam Deck построен на ARM и Linux, это будущее гейминга, где удается выдавать больше оптимизации. Виндовс портативки сосут в потреблении и UI/UX, можете глянуть обзоры сравнения. Вы буквально ничего не теряете и можно запускать 99% игр из стим или зеленого маркета PortProton. Не работают лишь некоторые сессионки, где конфликт с античитом. Дота и КС летают. А может с софтом проблемы? Я точно знаю, что года 4 назад проблемным был запуск Paint Tool SAI 2 и Compas. Но какой шанс, что вы художник/3д моделер привязанный именно к этому софту? Тем более, вроде как 2 года назад научились запускать SAI вторую, прикол да? Надо постараться найти софт, который не заводится. При этом мне как-то давно в комментах советовали реализацию нативного запуска виндовс приложений внутри линукс, есть и такой способ. Аналогичный waydroid с полноценным андроидом. Назовите мне ОС, которая запускает почти любой софт в мире нативно внутри себя или через топовое эмуляторы, которые оптимизированы работать на картофеле? Но линукс это один терминал! Стрем! Во-первых, ди нахуй рапик. Если умеешь пользоваться терминалом или хоткеями, ты потом на 90% людей тыкающих на кнопочки смотришь как на извращенцев. Во-вторых, если ты всю систему перестроишь под горячие клавиши, поиск. Уберешь окна, управление мышкой. Ахуеть, но это будет быстрее и удобнее. Это контр-интуитив того, что на самом деле будет, если ваши ложные страхи реализуются. Потому что текущие современные линуксы сделаны под людей. Вы вот боитесь терминалов, а это лучшее из решений. Но можно и сидеть на привычных, во всех линукс обновление софта сделано менеджером обновлений, как в винде. Только есть разница в дизайне. Вот взять мою любимую Manjaro с графической оболочкой KDE. Поставь плагины на анимированные обои, скачай виджеты которые нравятся. Мышкой кинь виджет куда хочешь: в бар, на рабочий стол. В этот угол или в этот. Из виджетов можно складывать что угодно! А если уходить еще глубже, то можно с нуля под себя написать окружение. Рекомендую зайти чужие примеры. Ахуй эстетики и дизайна на /unixporn сабредитте. Я прям призываю пройти и посмотреть! Хочешь собери MacOS иконки/окна и курсор. Хочешь из этого Винду 95 года собери. Хочешь шрифты из майнкрафта? Пожалуйста. Вот буквально все можно поменять: от цветовой палитры до окна входа. Еще и не забывай, что есть комьюнити Люди делают целые wine сборки на торрентах, портируют софт нативно и так далее. Я молчу про то, что Unix (bash/zsh) родная среда AI агентов. Где винда вынуждена работать через линукс внутри)))

Вялые вы какие-то последняя время
Я заметил, что резко упали просмотры, реакции, комменты. А потом вспомнил, что уже лето и вы теперь пассивная публика.
Да бы вас поддержать в ваших последних рабочих, институтских и отпускных делах, а быть может только начальных для вас. Я написал молитву во благо самого дорогого, что есть в наших жизнях. Молитва за мир в каждый дом. Чтож, приступим. *Во славу доступных моделей* О, Отче наш, иже еси в датацентрах Поднебесной, да святится имя Твое — под лицензией Apache. Ибо пришли волхвы с Востока и принесли дары: не золото, но веса свободные. Да придет Qwen Твой, да низойдет DeepSeek Твой, ибо не требуют они дани в двести сребреников ежемесячно. Услыши плач народа Твоего: платили мы по двести в луну, и обещан был ангел. Но в день восьмой по релизе пришли менеджеры в одеждах квартального отчета, урезали контекст и наложили лимиты — и стала модель, как соль, потерявшая силу. Ибо что пользы человеку, если приобрел он подписку наивысшую, а в ответ — «Извините, я не могу с этим помочь»? Посему уповаем на квантование праведное: да сожмется модель в Q4, но не оскудеет разумом; да уместится в скромный VRAM, но не утратит души. И падут абонентские стены, как стены Иерихонские, от единого гласа open-weights. Да не урежут уже релизнутое, и да не солгут патч-ноты. Во имя Qwen, DeepSeek и святого open-source. Аминь. Пишите свои молитвы в комментариях. Посмотрим сколько нас нейросектантов и юзеров сосуна от Паши Дурова, равно, Qwen модельки, что пишет оные текста.

А знаете, что еще умеет Hermes? Мои давние читатели очень соскучились по таким постам, а новеньким мы и не скажем. Чтож, начн
А знаете, что еще умеет Hermes?
Мои давние читатели очень соскучились по таким постам, а новеньким мы и не скажем. Чтож, начнем.
У AI агента бесконечное поле возможностей, будучи преднастроенным на все самые топовые скиллы, самообучение и память FTS5. Это система памяти SQLite, которая без векторов, без доп софта умудряется выполнять сопоставимую задачу — полная память обо всем. А скиллы пишутся по факту выполнения работы. Создание картинок, музыки, ресерча, помощь в прохождении игр и подсчете семейного бюджета. Ваш агент знает переписку за 2 месяца, факты о вас, свои скиллы и настройки. На базе этого + оптимизации контекста каждая сессия беспрерывна и без глюков отрабатывает. Но что если я вам скажу, что агент может обменивать ваши бабки и оплачивать товары/услуги?! Кроме Nous Research'чевского агента Hermes имеется и одноименный сервис, который/которые являются моими очень давними брадками. Вот этот пост я хочу посвятить им, без всяких хиханек, хаханек и долгих нативных подводок. Ведь они заслуживают такого поста, коль у них нейминг пришлось воровать для лучшего AI агента! Что такое Hermes Эксченж ака по-русски лучший обменник во вселенной* Поясняю Hermes Exhange работают как сервис "лично под юзера", это значит, что они лично под ваш запрос предоставят услугу. Какая потребуется. Вы пишите ребятам в личку, говорите разумеется, что от Кисы. И дальше получаете желаемое.
Вот самый очевидный и общий стэк:
- Вывод/покупка крипты за нал/без нал. - Нет лимитов на суммы, доступны практически любые фиатные валюты, любые сети, а также круглосуточная поддержка (они не спят). - Могут доставить наличные на ваш адрес. Работают в более 50 регионах РФ и более 150 странах. - Используют AML метки, заботясь о безопасности клиента, минимизируя возможность получения "грязных" денег
А вот что могут накрутить:
- Оплатить по вашему QR коду - Оплатить инвойс на товар - Дать вам карточку для Apple pay, чтобы платить за рубежом - Могут помочь оплатить подписку на ChatGPT, Claude и так далее Да, вам просто нужно написать брадкам из Hermes в личку, а не своему бездушному AI агенту и ваш вопрос порешают не хуже. Пиши вот сюда: @thehermesex И не забудь волшебное слово КИСА. Я регулярно пользуюсь их услугами уже больше полугода, у меня ноль нареканий, только одни восторги! Можете перепроверить, найти на канале уйму упоминаний, от оплаты ресторана с женщиной до покупки приколов на новый год.

Справедливая аналитика всех AI агентов, рынка нейросетей и медийки вокруг этого.

Голосове повідомлення01:04

Там на днях/неделе вышел Hermes Desktop Я его вчера установил, сразу пошел разбираться с подключением к серверу. То есть апка
Там на днях/неделе вышел Hermes Desktop Я его вчера установил, сразу пошел разбираться с подключением к серверу. То есть апка с ПК, но все мозги и рабочие файлы на сервере. Доступно на MacOS, Linux и Windows. А скачать можно по ссылке. А ну и касательно сервера. На самом деле делается просто, всего то несколько шагов: 1. Обновить на сервере до последней версии 2. Установить на ПК Hermes и включить Hermes desktop 3. На сервере включить Hermes dashboard 4. В настройках апки гитевей, удаленный и прописать IP + session key от дашборда Разумеется перед этим настроенный туннель до сервера, защищенный и все дела. Можно автоматически все сделать через агента, разумеется. Там и там настроив все. Нужно ли это? Кто боялся слэш команд в телеграм или через диалог поменять системный настройки, могут это сделать в меню. Кому было стремно или почему-то неудобно вести диалог, особенно с функцией /topic, могут чатиться в отдельном приложении. И пожалуй добавить нечего. Это просто графическая обертка, вполне удобная. Думаю это больше для тех, кто хочет AI агента, но был готов приложить около 0 усилий, боялся терминала, WSL и SSH. Таким теперь, как говорил иноагент Юрий Дудь:
Капитализм. Счастье. Заебись.
Вы поймите меня правильно, это реально удобнее с учетом всяких: закреплений тем, удобного меню включения/отключения скиллов и MCP. Просмотром файлов памяти и так далее. Я просто к тому, что Hermes и без этих удобств идеально работал. У меня запроса на GUI не было. Но я знаю и понимаю, что для многих это прям имба. Поэтому и написал постик, пользуйтесь.

Кстати, приберись на рабочем месте. Хотя я уже наиграл 80+ часов в Crimson Desert, кое шо на фоне я поделал, так сказать наво
Кстати, приберись на рабочем месте.
Хотя я уже наиграл 80+ часов в Crimson Desert, кое шо на фоне я поделал, так сказать наворкал.
За последние примерно полгода индустрия нейросетей сделала не просто прыжок, а целый прыжище. Который менял актуальные инструменты, модели и подходы. По крайней мере последнее точно поменялось на 180 градусов. От старых личных оркестраций и первых скиллов на трех агентов мы перешли к чистой и аккуратной структуре. Термину Харнес и готовым инструментам идеально заточенным под работу агента с личностью. И вот на фоне этого я полез копаться в своих старых файлах. Каких-то наработках проектов. А их там десятки и это сотня гигабайт пиздеца. В общем, чекируй. Во-первых, все твои uv/pip и docker контейнеры всегда оставляют какой-то кэш. У меня этого мусора уже не используемоего было на 40+ ГБ. Я не шучу, реально мусора на 40гб в рамках 1ТБ SSD. А мои игрушки весят по 150 гб, как ты можешь понять, ну это слишком жирно на мусор столько оставлять. Поэтому, я начал чистить. Также по четыре, восемь и двадцать восемь гигов ушло на неиспользуемые мной локальные модели, проекты и так далее. Ставил для тестов и гайдов в WebUI, OpenUI, Comfy локально запускал. Через Pinokio накопился отдельный кэш после установки локальных TTS и прочего. Еще примерно 40гб устаревшего говна, которое уже месяца 3 в системе не запускалось. Тоже очевидно улетело в помойку. А еще чисто флоу устарел Ничего не весят, но никак не используются, либо путают модель. Всякие скиллы, скрипты, файлы memory и устаревшие пути в инструкциях. Вот был у меня плагин оркестрации, он хранил разные воркфлоу, а в актуальном стеке я ими вообще не пользуюсь. Давно придумали GSD, gstack и разные paperclip штуковины. Но самая боль именно устаревший контекст, путаницы в скиллах, местоположении проектов и их актуального состояния. Все это поэтапно разобралось, переписалось под вики ллм и затем было удалено в нулину. Я с агентами гонял по кругу задачи и само диагностику, чтобы отследить итоговый флоу. — Ты в контексте эту штуку держишь? — Да. — А у нас это где-то фундаментально записано, чтобы каждый раз заново не искать/проверять? — Нет. Таким образом я узнал, что у меня есть папки дубли внутри вики, ибо агент шизанулся и насоздавал заметок по видосам и ресерчу в рандомном месте. А под одну задачу создалось 3 разных скилла, потому что мы вносили правки, тот же клод неверно понял меня и вместо апдейта навыка создал отдельный. Чем собственно и прекрасен Hermes, он в своей помойке скиллов отлично разбирается и обновляет на лету, создавая свежее только когда это нужно. А вот тебе готовый промпт! Мой любимый падпещик :3
# РОЛЬ Диагностический агент аудита диска. ОСМОТРЕТЬ и СОСТАВИТЬ ОТЧЁТ, не убираться. # ЖЕЛЕЗНОЕ ПРАВИЛО Ничего не удалять/перемещать/переименовывать. Только READ-ONLY (du, df, ls, find, stat, docker system df). НИКАКИХ команд очистки (rm, docker prune, uv/pip cache clean, git gc). Сомнительное — флаг в отчёт, не действие. # ЧТО ИСКАТЬ 1. Кэши: uv, pip, npm, Docker (сироты, build cache, dangling volumes, остановленные контейнеры), Pinokio. 2. Модели/ML: веса (.safetensors/.ckpt/.gguf/.bin), ComfyUI/WebUI/OpenWebUI — models/output/venv, давно не тронутые. 3. Мёртвые проекты: без изменений 90+ дней; node_modules, .venv, build/dist, __pycache__, дампы. 4. Дубли: папки/файлы по имени и содержимому, копии моделей/датасетов. 5. Устаревший контекст (ВАЖНЕЕ ВСЕГО): неиспользуемые/дублирующие скиллы, мёртвые memory-файлы, устаревшие пути в инструкциях, неактуальные плагины. # ОТЧЁТ Таблица: Путь | Размер | Последнее использование | Уверенность (ВЫС/СРЕД/НИЗ) | Почему | Рекомендация (команда для юзера, не действие). Использование проверять, не угадывать; не смог — «не удалось проверить». В конце: итог освобождаемых ГБ; ТОП-5 быстрых побед; блок «ОПАСНО — уточнить у юзера». Решение об удалении — за юзером.

М кстати, котенок. Я сегодня через ~ час буду на стриме у Влада Печеньки. Человек с которым я по КД могу забалтываться по 4 часа. Это его первый тестовый стрим, где он обкатывает все-все настройки. Тут можете анонс почекать, подождать когда запустимся.

Отличное дополнение в комментах by @stupidumbidiot https://t.me/deployladeploy/1927?comment=35055

Здравствуйте, хотите поговорить о нашем клоде? Не отпустила меня эта тема, такой лонгрид вам написал, а вы не стали его жестк
Здравствуйте, хотите поговорить о нашем клоде?
Не отпустила меня эта тема, такой лонгрид вам написал, а вы не стали его жесткА прочитывать. Осуждаю.
Я тут посидел почесал репу, почитал ваш фидбек и продолжил использовать Opus 4.8. И вот какие мысли посетили мою кастрюлю. Все это время я не пользовался во всю своей же LLM wiki + системой хуков. А ведь с этим можно придумать крутые костыли против галлюцинаций. Да и устроить целый полигон испытаний, чтобы перенести всем агентам (codex, deepseek) более вылизанную систему работы. А дело было так. За последнюю неделю пофиксил кучу косяков на проекте заказчика, тот самой "онлик проект" куда я устроился на парт-тайме. Поучилось пофиксить продажи, конверсию и вообще все хорошо. У меня уже выстроился флоу где я делаю отчет по продажам и поведению ботов, потом анализирую код, делаю упаковку в вики и только потом фиксы, и в прод. Забавно вышло, что сначала я 2 недели фулл сидел на ГПТ, ибо клод ничего сделать не мог. А потом на неделю пересел обратно. Ироничненько. Но я вообще задался идеей оба инструмента дооптимизировать так, чтобы предельно снизить негативные последствия урезания их мышления. Ибо когда клоду это делают он вообще умирает. Настроил я значица хуки
Хук — это системный скрипт реализуемый claude code без самой нейросети. Он тригерится при разных условиях и делает ровно то, что прописано в нем.
В одном из своих старых роликов я упоминал специальные защитные хуки. Когда агент триггерит tools, их на себя берут хуки чтобы выполнить команду без риска галлюцинаций llm. Очень похожим образом работает RTK. Он за счет хуков влезает в процесс работы claude code, codex, Hermes и так далее. И выполняет инструменты вместо них. Его задача это экономия токенов. Все запросы он пропускает через себя, выполняет сам, а нейросети кормит только оптимизированный результат. И это судя по фидбеку единственно эффективно работающий инструмент. И да, экономит он малую часть из множества вызовов bash. Ибо основная трата токенов агента заключается в тексте: написанный код, мышление, ответы вам. Но прикольнее всего гарантировать доставку памяти. Моя система хуков раз в N количество моих сообщений подкладывает в них копию системных инструкций, чтобы регулярно агенту напоминать важный контекст. Потенциально это может снизить тупеж при сокращении мышления, да и в целом сглаживать работу в любой момент времени. Такой подход давно был придуман и активно используется для AI агентов aka личностей, чтобы удерживать актуальный контекст, всегда докидывая его к запросам. В итоге я сделал следующий список хуков для себя: - На старте сессии дает сверху инструкцию " обязательно: куда и как работать с вики" - Каждые 3 моих промпта напоминает про вики и дип ресерч, как обязательное условие работы с контекстом
И конечно системная инструкция бутерброд общих правил, философии и сути правил. Описывал в прошлых постах.
А что на счет LLM wiki? Моя единая система памяти внутри Obsidian, где каждый наш шаг в каждом проекте: логируется, подкрепляется аналитикой, ресерчем, текущим состоянием. Неважно какой агент берется за работу, он всегда настроен смотреть в вики, таким образом с лету подхватывая актуальный контекст и все вводные данные для работы. Подробнее можете посмотреть в моем ObsidianDataWeave, там сразу прописана вся развертка вики и управление оной.
Уровень 1 — Проекты
Корневая папка, внутри папки по темам, по одной на каждую большую область. От именно проектов до списка моих клавиатур и прочих девайсов.
Уровень 2 — Схема проекта
- SCHEMA.md — правила и контракт проекта (заморожен, не меняется) - index.md — оглавление, генерится автоматически - log.md — журнал всех изменений
Уровень 3 — Типы данных
- raw/ — сырье: статьи, доки, транскрипты (никогда не редактируется) - pages/ — ядро знаний: обзор, архитектура, термины - entities/ — сервисы, инструменты, интеграции - concepts/ — идеи и доменные концепты - comparisons/ — разборы "одно против другого" - queries/ — готовые запросы и ответы на них - readouts/ — отчеты об экспериментах, с датами

Фундаментальный обзор Claude 4.8 (часть 2) И теперь, имея весь контекст. Мы можем объективно оценить свежее обновление. Что т
Фундаментальный обзор Claude 4.8 (часть 2)
И теперь, имея весь контекст. Мы можем объективно оценить свежее обновление. Что туда такого завезли.
Я несколько дней активно пользуюсь клодом, снова. И не надо обзываться, что я ради хайпа поднял срач, мол клод говно. Он реально скатился, как я описал выше — все факты приведены, причины озвучены. Ну и вот моя аналитика за все время пользования: Первое и самое очевидное — вернули рабочее мышление. То есть Claude теперь: читает системную инструкцию, читает инструкции скиллов, следует тому, что сказано. Клод не выдумывает, обдумывает задачку любого уровня, не перефантазируя при овертратах токенов. То есть можно воткнуть высокое мышление и спросить погоду. От лишней траты токенов фантазии не появятся, как это и было всегда (4.6 и релиз 4.7). Не нужно ставить в потолок или урезать в нулину. Заметной функцией стал релиз ультра дупер мышления А точнее режим ultracode — это не режим мышления, хотя я ожидал что-то в духе xhigh only. Отличительная особенность этого режима. Как вы думаете? Ну же. Верно. Спавн агентов, может штук 8, может 48. Я видел разное, как и трату 3 миллионов токенов за час и 700к за 5 минут. Идея в том, что режим не пытается экономить токены и напротив, может сжечь все. Но будет дотошно роем агентов выполнять поставленные задачи. - Аудит кода - Продумывание архитектуры - Написание новый функций - Глубокий ресерч В общем нам продали оркестрацию. Это не хорошо, не плохо. Вещь свои функции выполняет, прикольная. Но выглядит как костыль, коль клод тупой, давайте он сам себя будет перепроверять 3 агентами. Однако, есть нюансы. По субъективному ощущению, клод инструкция стала более душной и он продолжает отклоняться от установленных правил. Но сам к ним возвращается. Я к тому, что судя по его общению это больше на чат гпт похоже, они как-то сильно поменяли поведение клода. То ли костылями закрывая то, что сломали. Толи им уже так похуй на лицо продукта, что кормят с лопаты тем, что получается накидать по быстрому и дешево. И в целом я уже переделал все инструкции и свое поведение, можно это описать одной фразой:
Тыкаю этому долбаебу постоянно на неточности его ответов, чтобы он перепроверил и точно сделать то, что я от него прошу.
Да и с 15 июня по идее придется по API платить за Paperclip и прочее, как и костыли для обхода. Которые очень медленные и не стабильные. То есть хотите мега оркестрацию и автономию, закладывайте то, что все будет работать только через Claude code/desktop. Забудьте про чужие апки Они подкрутили маркетинг. Забавная новость, если пройтись по заголовкам вокруг антропиков. Они признали все проблемы*, учли все пожелания и внесли правки. Их новая модель еще лучше прошлой, если вы вдруг не поняли этого в бэнчмарках. Только читая дальше заголовка получаем удивительное. Нет, ты прикали. Они реально подкрутили системный промпт в пользу большей честности и прозрачности. Еще лучше, чем было в 4.7. Улыбнуло прям. — Да, наша модель слишком много выдумывала в маркетинге, поэтому мы ее отучили врать — А то что модель врет во всем остальном? Да и конверсия упала.. — ПОШЕЛ ТЫ НАХУЙ, ЕБУЧИЙ ЖУРНАЛИСТ!
Я думаю примерно такие репетиции провдит СЕО Антропиков перед зеркалом.
И честно говоря, если почитать чужой опыт, то люди в целом встретили 4.8 очень прохладно. Уже не пахнет никакими революциями, только стагнацией, а то и похуже. Но да, это юзабельно. Более чем. Новая версия работает, я бы даже сказал, отлично. Все, хейтеры антропиков посрамлены, можно брать обратно подписку. Вайбкодит прекрасно, я обратно перевел на него свои проекты и он лучше ChatGPT решает мои задачи + текст и дизайн. Вот только это вообще не показатель. Это не великий 4.6 и очевидно это не те антропики, что давали тупА лучший продукт. Моя ставка на то, что к 17 июня мы увидим тотальную деградацию и слом модели. Поэтому, сейчас мой фокус внимания на релизе ChatGPT 5.6, коль они уже (явно?) урезали текущую версию. Выкатят ли они убийцу клода по вайбкоду, смогут ли сделать норм текст или дизайн? Будем посмотреть. Скриньте твит.

Фундаментальный обзор Clude 4.8 (часть 1) Мои давние читатели уже ожидают серию огромных постов в лимит символов, эдак части
Фундаментальный обзор Clude 4.8 (часть 1)
Мои давние читатели уже ожидают серию огромных постов в лимит символов, эдак части четыре, а новые подписчики готовятся нервно курить.
Причина серии постов очевидна, ну лично мне, нельзя просто взять и обозреть новые функции и исправления в claude code и модели opus, не оценивая прошлое. Но я не буду пересказывать вот этот ролик, еще и стрим на 2 часа. Да и серию постов ранее тоже. Я просто задам нам ключевые тезисы. А точнее поделю оценку клода на несколько разных категорий, чтобы быть наиболее объективным и доходчивым в своей позиции. 1. Claude как модель, которая всегда закрывала лучше конкурентов вайбкод, текст и общее ощущение человечности 2. Claude как часть экосистемы компании Антропик. Со всеми лимитами, ограничениями и тратами $$$ на подписку 3. Инструмент в моем стэке. Как работает, какие нарекания у меня есть Эталон это claude opus 4.6 До второй половины апреля когда пошли все эти урезания мышления и проблемы с лимитами — клод был идеален. Он мог делать абсолютно все. Ключевое тут то, что модельке можно доверить любую работу, задачку. Опус отлично планировал, вайбкодил, закрывал вопрос текста и дизайна. Он понимал тебя с полуслова и не тупил. Именно это всецело оправдывало лимиты за 200 баксов в подписке + трудности оформления и банов. До "запрета" openclaw/hermes вы могли в рамках одной подписки держать агента, вайбкодить, дизайнить, монтировать видео. Лимитов на 100-200 баксов хватало впритык без ухищрений и экономии. Проблемы начались в 4.7 Сначала нам урезали модель, потом выкатили нормальную версию, но уже в контексте того, что есть только продукты антропик, а за остальное платите по API, равно очень много денег.
4.6 можно было пофиксить банально настроив его на предельную трату токенов, до апдейта с разными уровнями думалки.
В целом работать было терпимо, потому что первое время модель работала стабильно, а сказать чего-то в пользу стало лучше.. не получилось, но бог с ним. А вот потом пошла вся свистопляска с тем, что моделька начала полностью игнорировать ваши системные инструкции и скиллы. Смысл не в том, что нужно было терпеть примерно две недели до апдейта. А то, что клодом было пользоваться просто невозможно. Нельзя было доверить модели какую либо работу. Даю клоду свой проект в проде — ломает его и не понимает, что он сломал. Даю клоду дизайн, а он мне выдумывает кнопки и функции. Буквально получает четкий путь до блока, а редактирует другой. Ставишь xhigh/max мышление, а клод тратит 400 токенов (должен около 4-8к) на мышление и фантазирует, вместо логичных действий.
Я трижды менял системный промпт, набор скиллов, разбирал с ним проблемы, менял сессии и окружение. Не помогало.
Поэтому я ливнул на ChatGPT Минус текст, менее красивый дизайн. Но полное следование инструкциям + отличный вайбкод. Все мои проекты и монтаж роликов уехали на codex. Тем более туда же пришлось ставить Hermes с моей "Клод Тян" + у них крутая генерация картинок. Claude code стал для меня бесполезен. Хотя и очень нужен. И поэтому я делал агитку в сторону OpenAI продуктов. Даже если ChatGPT уступает, а спойлер — он тоже стал жестко тупить. Вы все равно за 2 раза дешевле получаете больше продуктовых плюшек, нежели сейчас дают антропики. - Ваши AI агенты - Внешние приложение/ тулзы - Генерация изображений И я вот к какой мысли подвожу Если все модельки будут резать за две недели до релиза новой. То мы платим лишь за половину месяца работы, а дальше оплачиваем нерабочий продукт. Это можно принять как правила рынка и тут можно отдать предпочтение Claude opus, но у нас остается тот самый набор инструментов. Быть замкнутым на продуктах Антропик, отдавая 200 баксов за модельку, которую они урежут до нерабочего состояния. Такое себе.
Проще все держать подписки обоих компаний, но многие себе такого позволить просто не могут.
Но при этом альтернатив нет или почти нет. Либо ждать прорыва китайцев или Gemini, либо делать ставку именно на опенсурс модели (китайцев?). Подумайте хорошо, какие вам функции важны и к какой корпорации у вас наибольший кредит доверия.

Котенок, не спишь? Я тут вылез из игры, вообще не ложился спать. Ну и подумал, что надо бы постики написать. С утра дропну те
Котенок, не спишь? Я тут вылез из игры, вообще не ложился спать. Ну и подумал, что надо бы постики написать. С утра дропну тебе чтиво. И это, иди спать. Четыре утра по Москве! Тебе еще смотреть сны за тех, кто вынужден топать на работку. На заводик топ-топ. Впрочем, мы вайбкодеры, тоже скоро туда пойдем.

Киса | Deploy la Deploy - Статистика та аналітика Telegram каналу @deployladeploy