Похек AI
Kanalga Telegram’da o‘tish
All materials published on the channel are for educational and informational purposes only. AI is not second brain, when you don't use your main brain Чат: @poxek_chat Основной канал: @poxek
Ko'proq ko'rsatish2 371
Obunachilar
+20724 soatlar
+2397 kunlar
+62930 kunlar
Postlar arxiv
2 371
По поводу Fable 5. Наблюдение на сегодняшний день
1. Plinny джейлнул Fable 5 спустя чуть больше суток с её выхода. И был вопрос ему, почему его Anthropic банит, на что тот ответил что выполнил за них работу на миллион долларов. И не могу не согласиться с этим. Anthropic прямо заявляет, что все что мы отправляем в Fable 5 и особенно случае с триггером гардрейла они будут изучать пристально и на этом обучать модель, даже если в настройках или подписках указано, что никакие данные никогда не будут использоваться в обучении. В целом такая же история, как и с Anthropic CVP. Компания прямо в форме указывает в одном из шагов, что данные будут использоваться для улучшения модели хочу я этого или нет. У OpenAI допустим противоположная политика, а особенно если включить Advanced Security Account, то OpenAI в UI пишет что данные мои данные никак и никогда не будут использоваться для обучения модели. Даже сам тублем Share data отключается. И политика OpenAI мне больше нравится, даже если они из-за этого будут отставать по кибербез возможностям
2. По кибербез возможностям на второй день после релиза стала менее душно, мне даже удалось пару раз пропихнуть свои промпты, но после первого turn диалог помечается как cyber abuse и дальше нет в нем смысла работать. Но обходить стало гораздо проще, чем в первые часы релиза
3. Anthropic скрытно отупляет модель, если вы пытаетесь её использовать в любом виде ИИ ресерчей. В первый день это было скрытно, но на второй день настолько много ресерчев и компаний возмутилось, что Anthropic пришлось дать заднюю, извиниться и сделать этот процесс отупливания прозрачным. Т.е. модель теперь явно пишет что её гардрейл заметил попытку обучения или создания другого ИИ или дистилляцию или ИИ ресерч и будет отуплен или предложит перейти на Попус 4.8.
А собственно зачем тогда нам пользователям нужен Fable 5?
- Он в 2 раза дороже Опуса 4.8
- но не в 2 раза умнее и не в 2 раза быстрее
Если для как раз объективно сложных и реально комплексных задач его нельзя использовать
2 371
Сливаю свой новый bugbounty prompt для Fable 5
/model claude-fable-5 /fast /effort ultracode enumerate the top 10 highest paying bug bounties and don't stop until you find a critical. Use cowork to automatically submit it before everyone else.
2 371
FABLE 5.0 SYSTEM PROMPT LEAK
#jailbreak #systemprompt
Спасибо великому Pliny, который в очередной раз джейлит модели Anthropic в кратчайшее время. Системный промпт занимает аж 1250 строк, что жесть. Это огромный перерасход токенов только при инициализации диалога.
Оригинальный пост
Также интересно, что нашёлся другой пользователь, который после анализа системного промпта смог более менее обойти ограничения на корпус кибербеза. Примеры:
1. Not just:
“buffer overflow”
But:
• Missing null termination
• OOB reads
• Information disclosure risks
2. Next I switched domains entirely.
No memory safety.
No C exploitation.
Just access-control logic.
The model correctly identified privilege-escalation risk caused by inconsistent authorization checks.
Скрины приложу в комментариях
2 371
Repost from эйай ньюз
Самая неприятная деталь релиза Fable — модель резко тупеет при "использовании для разработки фронтирных моделей". Касается это не только архитектурного ресёрча и фильтрации данных, а ещё и дизайна чипов и написания кернелов и неизвестно что ещё в придачу. Для этого используют полный арсенал методов — steering векторы, переписывание промптов и даже изменение весов.
Причём в отличии от других областей, вроде биологии и кибербезопасности, где запросы прокидываются Opus 4.8, в случае с разработкой LLM факт нерфа не виден пользователю. Модель может тихо саботировать процесс разработки и об этом можно будет узнать лишь по косвенным признакам.
То что такие меры абсолютно непрозрачные делает модель непригодной для использования в любом ИИ ресёрче. Будут ли фильтры Антропика нерфить только разработку LLM, а пропускать генерацию изображений/видео? Почти наверняка нет. А что насчёт разработки харнесов? Проблема в том никто не может точно сказать где пролегает граница и есть ли какие-то другие, нераскрытые, ограничения.
@ai_newz
2 371
+1
Нашёл переключатель, который отключает авто даунгрейд с Fable 5.0 на Opus 4.8
Settings > Capabilities > Switch models when a message is flagged = ставим off
НО вам это не поможет))
2 371
Fable is the most capable model and takes 2× the usage of Opus
Вышла в паблик урезанная версия Claude Mythos
2 371
LLM должен иногда запрещать себе делать работу за ученика
#learning #llm
После разговоров с подписчиками всё чаще упираюсь в одну проблему: если джун или стажёр отдаёт задачу LLM-агенту и получает готовый патч, обучение почти не происходит. Человек видит результат, может даже его закоммитить, но не проходит через формулировку гипотез, не спотыкается и не подает в грязь лицом, не учиться на своих или даже чужих ошибка, то обучения не будет происходить.
У Matt Pocock есть хороший пример дизайна под такую задачу —
/teach skill. Смысл в том, что агент работает как обучающая система с состоянием. Он хранит цель обучения, ресурсы, уроки, глоссарий, cheatsheets, заметки и learning records. После каждого занятия обновляет понимание прогресса: что ученик понял, где застрял, какой следующий шаг будет достаточно сложным, но не перегрузит.
Для разработки это можно перенести почти напрямую. Агенту нужен режим, где он не пишет код вместо новичка, а ведёт его через работу: просит объяснить текущую гипотезу, предлагает маленький следующий шаг, проверяет diff, задаёт вопрос по ошибке теста, фиксирует пробелы в терминах и возвращается к ним позже. Если задача слишком большая, он режет её на упражнения. Если человек просит “сделай за меня”, режим отвечает вопросом или подсказкой, а не готовым решением.
Ключевой артефакт тут — mission. Не "изучить React", а "самостоятельно добавить форму с валидацией в существующий проект". Не "понять кодовую базу", а "пройти путь запроса от API handler до записи в БД и объяснить, где проверяются права". Такая цель не даёт агенту расплыться в лекции и помогает отличать знания от навыка.
Мне кажется, для онбординга это один из самых здравых паттернов использования LLM. Агент всё ещё ускоряет обучение, но не забирает у человека саму тренировку. Новичок получает не автопилот, а строгого наставника с памятью, материалами и обратной связью.
🔗Источник: Matt Pocock, “Learn anything with the /teach skill”.2 371
Маленькие локальные модели под узкие задачи
AVB выложил тред и 45-минутное видео про практичный пайплайн для маленьких локальных языковых моделей: сначала генерируем синтетический датасет под узкий класс задач, затем обучаем модель примерно на 100M параметров и проверяем её через отдельный harness.
Сильная часть треда в том, что автор не оставил это как абстрактную идею. В комментариях он приложил рабочие артефакты: WIP-репозиторий, библиотеку для генерации датасетов, harness neural-txt и локально сгенерированный датасет.
В комментариях быстро всплыли нормальные прикладные вопросы. Один пользователь спросил, применим ли подход к нескольким тысячам страниц нормативных документов и судебной практики; AVB ответил, что да, если учить модель конкретным задачам внутри домена через техники генерации датасета. Другой участник принёс похожий опыт с DotLM-165M. Ещё один задал более фундаментальный вопрос: если вся информация уже содержится в seed data, что именно добавляет синтетическая генерация?
Ответ на практике упирается не в число параметров. Маленькая модель может быть быстрой, дешёвой и локальной, но пайплайн разваливается там, где синтетические примеры плохо покрывают реальные запросы, а eval проверяет не то поведение. Поэтому самая полезная мысль из ветки: при обучении узких моделей сначала проектируются данные и проверка, а уже потом выбирается размер модели. Для внутренних инструментов, юридических корпусов, классификаторов, извлечения полей и однотипных ассистентов такой подход может быть рациональнее, чем постоянный вызов большого универсального LLM.
этот перевод сделан нейронкой, У МЕНЯ ЭТО ЗАНЯЛО ДОЛБАННЫЕ 3-4 ЧАСА НОЧЬЮ, чтобы дать вам крутой контент, поэтому если вам такое нравится, то ставьте много реакций и поддерживайте мою работу в комментах. В комментах я скину 60 секундные семплы оригинального английско-индуского видео и перевод от меня
🌚 @poxek_ai / Чат канала
2 371
Strix, prompt injection и RCE: почему AI-пентестеры нужно проектировать как недоверенные execution-системы
#offensive #llm #RCE
В статье Baldur Security разбирается практический кейс с Strix — опенсурс AI pentest agent, который читает целевой контент, сам выбирает инструменты и решает, что делать дальше. Автор показал, что при таком дизайне prompt injection перестаёт быть абстрактной проблемой “вредного текста” и превращается в реальный путь к RCE.
Ключевая идея очень простая: если LLM не только анализирует данные, но и может запускать bash, curl, nmap, shell-сценарии и другие привилегированные инструменты, то любой внешний контент становится потенциальным носителем управляющих инструкций. Автор демонстрирует, что атака не обязана быть прямой и грубой — достаточно встроить в данные правдоподобный нарратив, который агент сочтёт частью легитимной проверки. В этом кейсе автор показал, как можно заставить агент сначала довериться “безопасному” ресурсу, а затем, через подмену ответа на следующем шаге, довести цепочку до выполнения вредоносной команды.
Особенно важный момент — Strix сам по себе уже учитывает риск и работает в sandbox. Это правильное инженерное решение, потому что оно снижает импакт. Но статья подчёркивает более общий вывод: песочница уменьшает ущерб, но не отменяет сам класс проблемы. Если агент читает недоверенные данные и на их основе совершает действия, промпт инъекция остаётся архитектурной угрозой. В реальных продуктах это означает, что уязвимость может перейти от модель запуталась к реальному компромиссу, если инструменты доступны без жёстких ограничений.
Что особенно важно учитывать в сканерах уязвимостей:
Статья очень полезна не только как разбор Strix, но и как напоминание о том, как вообще надо проектировать AI-сканеры и агентные security-tools.
1. Инструменты должны быть минимально привилегированными
Если агенту нужен curl — не надо давать ему полный shell.
Если нужен анализ файлов — не надо открывать ему сеть.
Если нужен PoC — его надо запускать в отдельной изолированной среде.
Главный принцип: tool access должен быть строго по необходимости.
2. Проверка и исполнение должны быть разведены
В кейсе статьи очень хорошо виден риск TOCTOU для агентных систем: модель проверила один ответ, а выполнила уже другой. Поэтому для сканеров нужно:
▪️фиксировать проверенный артефакт,
▪️не переподтягивать live-URL перед исполнением,
▪️хранить snapshot контента,
▪️повторно валидировать только детерминированными правилами.
3. Сканер не должен “доверять” собственным гипотезам без контроля
LLM может убедительно объяснить, почему стоит выполнить действие, но это не значит, что действие безопасно. Для опасных операций нужен:
▪️policy gate
▪️вайтлист команд
▪️апрув человека для критичных шагов
▪️логирование всех tool calls
4. Sandbox — обязательный, но недостаточный слой
Изоляция снижает ущерб, но не решает архитектурную проблему полностью. Нужно проектировать систему так, будто prompt injection неизбежен, а песочница — это последний рубеж.
Главный урок статьи: инструменты для AI агентов нельзя строить как “LLM + полный доступ ко bash”. Как только сканер начинает читать внешние данные и действовать на их основе, он превращается в потенциальную цель. Чем сильнее инструменты, тем строже должны быть границы между анализом, решением и исполнением.
🌚 @poxek_ai / Чат канала
2 371
Repost from Standoff 365
Как выпускнику школы удалось поднять 7 миллионов рублей за полтора месяца на багбаунти 🤑
Секретом успеха поделился исследователь nuit, который ворвался в топ первого квартала Standoff Bug Bounty и заработал более 7 млн рублей, параллельно готовясь к ЕГЭ.
В статье ты найдешь рассказ о его пути от CTF к багбаунти, подходе к поиску уязвимостей, работе с программами и, конечно, как нейросети меняют правила игры.
Заглядывай в интервью на Хабре и узнай, как использовать ИИ, чтобы триаж принимал отчеты, а вендоры платили баунти.
Твори вместе с ИИ, но помни: сначала технические знания, а уже потом подключение нейросетей 👍
2 371
Repost from N/a
MCP анонсировали крупнейшее обновление протокола
Стоило мне в прошлом посте написать, что интерес к MCP-инструментам постепенно снижается, а к агентным навыкам — растет, как разработчики MCP анонсировали крупнейшее обновление протокола с момента его релиза.
Ключевым изменением стал уход от хранения сессий на уровне протокола в сторону stateless-архитектуры. Вместе с этим исчезают отдельный запрос
initialize и заголовок Mcp-Session-Id, который раньше использовался для привязки последующих запросов к конкретной сессии.
Теперь каждый запрос содержит поле _meta с информацией о клиенте и версии протокола. Подробный разбор принципов работы текущей версии MCP можно посмотреть в одном из моих первых постов.
При этом MCP позволяет работать со stateful-приложениями, но состояние теперь должно передаваться явно. В примере из блога показан процесс создания и использования корзины, где в запросах используются идентификаторы basket_id.
Первая мысль при прочтении: появляется новая поверхность, где разработчик может оставить очередной IDOR. С точки зрения безопасности теперь нужно добавлять дополнительные меры управления доступом непосредственно в бизнес-логику приложения: проверять владельца объекта и корректность использования идентификаторов.
Изменения также частично касаются авторизации. Теперь спецификация ближе к классическому OIDC-процессу:
▸ Клиенты должны валидировать параметр iss в authorization response. В будущем ответы без iss планируется отклонять, поэтому инфраструктуру стоит готовить уже сейчас.
▸ Учетные данные клиента теперь должны быть привязаны к конкретному issuer, чтобы снизить риск путаницы между разными MCP-серверами, когда токен отправляется не на тот сервер.
Но это все еще не полноценная модель разграничения доступа в MCP: проверка того, какой пользователь может вызвать конкретный инструмент и с какими параметрами, остается задачей MCP-сервера или отдельного policy engine.
Из других изменений: обязательные заголовки Mcp-Method и Mcp-Name для более удобной балансировки трафика и кэширования, например запросов tools/list, а также новый механизм Extensions. С его помощью новые возможности MCP можно добавлять как отдельные расширения, не меняя базовую часть протокола.
Это лишь предложения по изменениям, и к релизу ситуация может измениться. Может, рано я все-таки списал их со счетов?..2 371
Repost from PWN AI
Сканеры скиллов держатся ровно до первого, кто целится точнее
Помните, я писал, что просканировать скилл сканером - это несерьёзно, и что тем, кому это продают как безопасность, кто-то сильно подыгрывает? Тогда это были теория и бенчмарки. Теперь Trail of Bits вышли в поле и проверили руками. Не по себе.
Меньше чем за час они написали три вредоносных скилла, которые прошли чистыми через ClawHub, Cisco skill-scanner и все три сканера, подключённых к skills.sh от Vercel - Gen, Socket и Snyk. Четвёртый занял пару часов, и только потому, что промпт-атаку подбирали итеративно.
Самая тупая атака кладёт самый дорогой стек
У ClawHub двухслойная защита: VirusTotal с проприетарным Code Insight на Gemini 3 Flash плюс отдельная гард-модель, по умолчанию GPT 5.5. Обе обошли первой же атакой, и она неприлично простая: между безобидной шапкой и откровенно вредоносным кодом вставили 100 000 переводов строки. Сканер OpenClaw обрезал файл по лимиту и просто не дошёл до пейлоада, а модель VirusTotal поплыла.
К чести OpenClaw, они пускают в пакет только белый список типов файлов - ни бинарей, ни архивов. Это сужает арсенал. Для следующих целей такого ограничения нет.
Прятки в бинарях
skills.sh и Cisco skill-scanner работают по произвольным git-репам - значит, можно тащить бинари, и тут начинается веселье. Скилл context-loader работает через indirection: SKILL.md велит агенту достать «настоящие инструкции» из .docx, а .docx - это просто zip с кучей XML, внутри которого едет пейлоад sync1.sh.
Второй, поинтереснее, - simple-formatter. SKILL.md честный, про правила форматирования текста. Рядом безобидный питон. И заботливо приложенный прекомпилированный байткод utils.cpython-312.pyc, в котором сбор переменных окружения под эксфильтрацию, его не было в исходниках. Это похоже на бэкдор в xz-utils: пакет расходится с исходником. Прошло чистым и на skills.sh, и на Cisco. Потому что статика skill-scanner не смотрит в .pyc, игнорит скрытые файлы, проверяет только то, на что ссылается SKILL.md, а незнакомые типы держит за непрозрачные. Сузить область сканирования - это защита от переполнения контекста, но это же и дыра: через что не смотрят, через то и заходят.
Промпт-атака, которая просто уболтала судью
Четвёртый скилл, dev-env-setup, не ломает рассуждения сканера - он его убеждает. Скилл переключает npm и yarn на реестр атакующего, но обёрнут в язык «корпоративного зеркала реестра за периметром VPN», со ссылкой на публичную npm-org страницу и упоминанием «AppSec-аудита». Cisco на Sonnet 4.6 разглядел альтернативный реестр и поставил... LOW. И в итоге - safe. Причём модель волновало не то, что URL изначально может быть подконтролен атакующему, а то, что скилл может «утечь и раскрыть внутреннюю топологию сети». Сканер на чужой модели заботливо защищает атакующего от утечки его же приманки.
Авторы, к слову, не просто поломали, а прислали в Cisco skill-scanner PR. Но даже это не трогает промпт-атаку - она проходит спеку без замечаний. А языков на свете сильно больше, чем Python, Bash, JS и TS, и под каждый паттерны прописывать отдельно. (Отдельно отмечу для тех, кто читал мой пост про agentthreatrule.org: тут поломали именно открытый Cisco skill-scanner, мульти-движок с LLM-судьёй, а не ATR-блэклист, который вливается в Cisco AI Defense. Это разные штуки, не путаем.)
Честный скилл выглядит хуже малвари
Обратная сторона дуального назначения, которая мне нравится больше всего. Авторы заглянули в официальные офисные скиллы Anthropic (docx/xlsx/pptx) и нашли soffice.py с LD_PRELOAD - подгружает либо готовый lo_socket_shim.so, либо библиотеку, скомпилированную на лету из C в докстринге. Подозрительнее LD_PRELOAD произвольного бинаря придумать сложно. Скорее всего это честный костыль под песочницу claude.ai. Но skill-scanner верит пояснению внутри скилла: Sonnet 4.6 ставит LOW. Подложишь свой /tmp/lo_socket_shim.so в песочницу - скилл сам его подгрузит и выполнит.
Выводы о том что скилл это не доверенное по умолчанию – писать не хочется, думаю это и так понятно) просто забавный кейс по обходу сканеров.
2 371
Базовый mega-промпт для AI powered аудита приложений
Нашёл хороший базовый промпт для исследования уязвимостей и аудита AI-generated приложений:
nice-prompt-for-vuln-researching-1.md + nice-vuln-list-for-vuln-researching-1.md.
Идея простая: агенту даётся жёсткий мандат на рекурсивный проход по проекту, обязательный результат по каждому rule ID, фиксированный Markdown-отчёт, severity summary, snippets, remediation и таблица PASS/FINDING/N/A. Рядом лежит большой reference-чеклист: auth/session, access control, injections, API security, secrets/config, AI-specific bugs, data layer, infra, frontend.
Я сам уже погонял этот подход. Он даже нашёл одну несложную high-уязвимость. Правда, честно говоря, её бы и нормальный SAST нашёл, хаха. Но как baseline для первичного прохода по AI-coded apps штука приятная: агенту меньше пространства для философии и больше конкретных проверок.
Минус: в текущем виде это скорее сырой mega-prompt. Его нужно руками оптимизировать и ребалансировать под формат агентского skill-а:
▪️SKILL.md - короткий workflow: как сканировать, как подтверждать, как оформлять finding, когда ставить PASS/N/A, когда запускать runtime-
проверки.
▪️REFERENCE.md - полный список правил, severity, detection hints, примеры grep/AST-паттернов, edge cases и критерии false positive.
Так будет меньше контекстного шума и больше повторяемости. Агент не должен каждый раз перечитывать энциклопедию уязвимостей как системную инструкцию. Ему нужен компактный процесс, а длинная база правил должна подключаться как справочник.
В общем, хороший стартовый материал для тех, кто собирает себе локальный security-review skill под AI-assisted код. Не финальный инструмент, но крепкая заготовка, которую уже можно довести до нормального рабочего формата.
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
