Похек AI
Открыть в Telegram
All materials published on the channel are for educational and informational purposes only. AI is not second brain, when you don't use your main brain Чат: @poxek_chat Основной канал: @poxek
Больше2 516
Подписчики
+724 часа
+387 дней
+44030 день
Загрузка данных...
Похожие каналы
Нет данных
Возникли проблемы? Пожалуйста, обновите страницу или обратитесь к нашему support-менеджеру .
Облако тегов
Входящие и исходящие упоминания
---
---
---
---
---
---
Привлечение подписчиков
июль '26
июль '260
в 0 каналах
июнь '26
+466
в 6 каналах
Get PRO
май '26
+435
в 14 каналах
Get PRO
апрель '26
+180
в 4 каналах
Get PRO
март '26
+207
в 4 каналах
Get PRO
февраль '26
+535
в 12 каналах
Get PRO
январь '26
+328
в 6 каналах
Get PRO
декабрь '25
+535
в 5 каналах
Get PRO
ноябрь '250
в 5 каналах
Get PRO
октябрь '25
+1
в 1 каналах
| Дата | Привлечение подписчиков | Упоминания | Каналы | |
| 01 июля | 0 |
Посты канала
| 2 | RLM и subRLM: зачем агентам рекурсивное мышление
Большое контекстное окно не превращает LLM-агента в долгоживущую рабочую память. Репозиторий может формально влезать в 200K токенов, можно пульнуть весь лог целиком, историю чата можно тащить ещё десятки шагов, но качество всё равно начинает проседать через 30-50 тёрнов (действий): агент теряет цель, повторяет проверенные гипотезы, отвлекается на явный для человека шум и хуже связывает факты. Узкое место в том, что весь рабочий след складывается в одну линейную историю.
RLM предлагает другую форму работы агентов. В значении Recursive Language Model это не обязательно новый тип весов, а runtime-паттерн: главный агент получает задачу, но большой контекст лежит во внешней среде, например в Python REPL как переменная. Модель не читает всё сразу, а пишет код, ищет нужные фрагменты, режет данные на части, запускает дочерние LM-вызовы и собирает итоговый ответ. Контекст становится объектом, с которым можно работать программно, а не стеной текста, который надо проглотить целиком.
Здесь важно не перепутать термины. RLM иногда расшифровывают как Reasoning Language Model: это уже разговор о моделях, обученных тратить больше inference-time compute на многошаговое рассуждение. Recursive Language Model — другой слой: способ организовать выполнение вокруг любой подходящей LLM. Первая тема про способность модели рассуждать, вторая — про инженерную схему управления контекстом.
subRLM — ещё более узкая штука. Это не “маленькая RLM-модель”, а изолированный дочерний вызов для одной подзадачи. Основной агент остаётся координатором, формулирует локальную задачу, передаёт ограниченный контекст, получает короткий результат и решает, как использовать его дальше. В нашем случае это может быть отдельный codex exec с ролью, таймаут, моделью и git worktree. В готовых harness вроде Codex, Claude Code или OpenCode такой subRLM функционально почти повторяет механизм субагентов: чистый контекст, отдельная инструкция, локальная работа, результат наверх. Разница в упаковке: subagent встроен в harness, subRLM логичнее вписывать в самописную AI инфру.
Если кратко:
RLM = root-agent + внешняя среда + декомпозиция + sub-calls + синтез
subRLM = один изолированный worker-call для конкретной ветки
Это оправдано, когда задача ломается правда долгая и даже 1 млн контекста не помогает. Большие репозитории, длинные логи, ASR-транскрипты, длиннючие issue-треды, сравнение десятков источников, security review, независимая проверка гипотез — хорошие кандидаты. В таких задачах полезно разнести анализ по чистым контекстам и вернуть в главный поток только сжатые выводы.
Но RLM/subRLM не надо включать по привычке. Короткий вопрос, одно изменение в одном файле, простая проверка через grep, SQL, парсер или тест не становятся лучше от рекурсии. Дочерние вызовы стоят токенов, добавляют задержку, усложняют трассировку и могут породить fan-out, где система тратит больше времени на координацию, чем на работу.
Я лично применяю такой подход у себя около 2 месяцев, в целом результат нравится. Но если харнесс имеет встроенный или легко устанавливаемый функционал субагентов, то городить внутри него ещё и subRLM - это излишняя трата токенов по моему опыту.
Основной для изучения брал это исследование и эту статью. Альтернативное чтиво, особенно для тех кто юзает Google ADK. Но если честно мне кажется я недораскрыл потенциал концепции RLM
🌚 @poxek_ai / Чат канала | 524 |
| 3 | Semgrep написали у себя в блоге, что GLM 5.2 показало очень хорошие результаты на их внутреннем бенчмарке
На скрине вы можете увидеть среду тестирования и модель+харнесс. Я не доволен последним, т.к. команда Semgrep сделала не консистентные сравнения, что считаю критичной ошибкой для их оценки, но в данном случае GLM 5.2 только в более сильном свете показывается
Я вчера купил себе coding plan за 16$, полёт хороший. Пока только в разработке тестирую на модели GLM 5.2 (более низкие беру только под всякие разведки файлов и т.д.). Вчера очень прикольно настроил себе opencode, а сегодня добрался до ZCode - это очень близкий аналог к Codex Desktop | 644 |
| 4 | DeepSeek открыли DeepSpec: полный стек для speculative decoding
DeepSeek выложили DeepSpec: репозиторий для обучения и оценки draft-моделей, которые ускоряют генерацию LLM через speculative decoding. Внутри не только алгоритм DSpark, но и готовый контур: подготовка данных, обучение, evaluation-скрипты, конфиги и опубликованные чекпоинты для DSpark, DFlash и Eagle3.
Главный объект релиза - DSpark. В обычном speculative decoding маленькая draft-модель быстро предлагает блок следующих токенов, а большая целевая модель проверяет этот блок одним проходом и принимает корректный префикс. При правильной схеме это ускоряет вывод без изменения распределения целевой модели.
DSpark чинит две слабые точки параллельных драфтеров. Сначала он генерирует блок токенов параллельным backbone, затем легкая последовательная голова добавляет зависимости между соседними токенами, чтобы хвост блока не разваливался по acceptance rate. После этого scheduler не отправляет на проверку весь блок вслепую: он смотрит на confidence по позициям и текущий профиль пропускной способности железа, отсекая дорогие низкоуверенные суффиксы.
По теханализу от DeepSeek, в продовом инференсе DSpark для DeepSeek-V4 ускорил генерацию на пользователя на 60-85% для V4-Flash и 57-78% для V4-Pro относительно базового замена MTP-1 при сопоставимой общей пропускной способности.
Релиз полезен тем что DeepSeek открыли воспроизводимый стек, а не только графики: можно обучать драфтер под свой target model, сравнивать DSpark с DFlash/Eagle3 и честно мерить acceptance на задачах вроде GSM8K, HumanEval, MBPP, MT-Bench и Arena-Hard.
🌚 @poxek_ai / Чат канала | 740 |
| 5 | ИИ уже стал предметом геополитики
США первыми превратили LLM из исследовательской гонки в инфраструктуру власти: OpenAI, Anthropic и Google закрывают три уровня влияния — разработчиков, государственный сектор и массовую потребительскую поверхность. У Google это видно через Search: компания уже говорит про 2,5 млрд ежемесячных пользователей AI Overviews и 1 млрд пользователей AI Mode. Поиск постепенно становится интерфейсом к модели, а переход на сайт перестаёт быть обязательной частью сценария гуглежа.
Самый жёсткий сдвиг произошёл в кибербезопасности. Anthropic выпустила Claude Fable 5 как Mythos-class модель с защитными ограничителями, а Claude Mythos 5 — как ту же базовую модель для ограниченного круга компаний, но без ограничений по любому применению. Через три дня компания приостановила доступ к Fable 5 и Mythos 5.
Раньше такие решения выглядели бы как внутреннее управление рисками вендора. Теперь они ложатся в государственную рамку: указ Белого дома от 2 июня 2026 года вводит voluntary framework для covered frontier models, ранний доступ федерального правительства до 30 дней перед релизом trusted partners и AI cybersecurity clearinghouse для поиска, валидации и координации исправлений уязвимостей.
OpenAI попала в ту же логику. GPT-5.6 вышел сразу как ограниченное превью для непубличного круга лиц и компаний: Sol — флагман (аналогично Opus), Terra — сбалансированный вариант (аналог Sonnet), Luna — самый быстрый и дешёвый вариант (Аналог Haiku). OpenAI отдельно пишет, что запуск ограничен по согласованию с правительством США. Релиз передовой модели уже выглядит как экспортно-политический процесс: сначала государственная оценка, потом доверенный список, потом расширение доступа.
Для государств такие модели становятся ускорителем разведки, разработки, анализа кода, поиска уязвимостей, защиты своей КИИ, ну и кибератак на другие страны (извините, но это очевидно). Anthropic публично говорит о Claude Gov для национальной безопасности США и развёртывании в classified environments. OpenAI отдельно описала соглашение с Департаментов Войны США для определенных отгрузок доступов и перечислила красные линии: без массового внутреннего наблюдения, без автономного управления оружием, без высокорискованных автономных действий.
Китай отвечает симметрично, но инженерно иначе. На ISC.AI 2026 360 Group представила «倚天屠龙»: 图龙锋 для автоматизированного поиска уязвимостей и 仪天阵 для автоматизированной защиты и реагирования. По публикации на 360 BBS, 360 Group заявляет о 3432 найденных уязвимостях, 105 подтверждённых регулятором, и описывает подход как агентную инженерную систему: модель, база уязвимостей, опыт экспертов, инструменты, песочницы и автоматическая проверка эксплуатации. Т.е. компания уже имели десятилетия практик, которые понятно и интепретируемо легли на её новые ИИ системы.
Эти цифры нельзя независимо проверить по открытым данным, но политический сигнал понятен: Китай строит национальную AI-security систему поверх агентной оркестрации и не ждёт публичного паритета базовых моделей.
Европа в этой картине выглядит слабее. Mistral строит европейскую AI-платформу и продукты для бизнеса/государство, а ЕС через AI EU Act уже регулирует базовые AI модели и системные риски этих моделей. Но публичного аналога Project Glasswing, Mythos/GPT-5.6 или китайской «倚天屠龙» для кибербезопасности или хотя бы просто такого же качества пока не видно. В открытом контуре Европа пока показывает регуляторную и бизнесовую повестку, а США и Китай — национальную киберез инфраструктуру AI.
Для ИБ компаний это изменение скорости внедрения/прототипирования/поиска уязвимостей и их патчинга, а не просто новый сканер или замена сотрудников. Если у вас в бизнеса внедрена какая-то модель обмазанная скольки угодно уровнями маскирования данных, то остаётся глобальный риск, что вам её отключат и всё, работа сервисов или компании может встать. Причем использование китайских моделей как горячая замена, тоже уже несколько рискованной стратегией в перспективе 5-10 лет, а может и скорее.
Ну а про Российские ИИ, либо хорошо, либо никак. Я искренне хочу помочь в их развитии... По моему мнению Сбер выглядит лидером в этом направлении, либо я не знаю о более интересных R&D в продовом использовании. Говорю только на основе своего опыта
🌚 @poxek_ai / Чат канала | 797 |
| 6 | Один из лучших русскоязычных подкастом на тему AI (не про безопасность)
Не могу сказать, что речь братьев слушать легко, т.к. у них есть акцент сильный + они друг друга перебивают. На конкретно на это я выделил 1,5 часа времени, чтобы сфокусировано послушать
https://youtu.be/uKo4emYptFw
🌚 @poxek_ai | 893 |
| 7 | 🇨🇳На ISC[.]AI 2026 представили китайский Mythos
На 14-й Конференции по интернет-безопасности ISC[.]AI 2026, которая открылась 24 июня 2026 года, основатель компании 360 Group Чжоу Хунъи представил 2 новые ключевые разработки в сфере ИБ. Данные решения получили общее название «Итянь Тулун» (倚天屠龙). Они призваны полностью автоматизировать процессы поиска системных уязвимостей и защиты компьютерных сетей.
1️⃣ Первой анонсированной новинкой стал интеллектуальный агент для автоматического поиска уязвимостей под названием «Тулунфэн» (图龙锋). Руководитель компании назвал этот инструмент китайским аналогом известной американской ИИ-модели Mythos от компании Anthropic.
К настоящему моменту система «Тулунфэн» помогла обнаружить 3432 уязвимости. Из этого числа регулирующие органы официально подтвердили 105 уязвимостей, а национальная база данных уязвимостей классифицировала ряд из них как высокоопасные. Данная система успешно применяется для анализа открытого исходного кода, операционных систем, офисных программ и платформ для ИИ-агентов. Основатель компании 360 Group Чжоу Хунъи подчеркнул, что «Тулунфэн» уже обладает возможностями, аналогичными возможностям американской ИИ-модели Mythos.
2️⃣ Второй новинкой стала система автоматизированной сетевой защиты «Итяньчжэнь» (仪天阵). Данный комплекс предназначен для автономного управления безопасностью в реальных сетевых условиях. Система способна самостоятельно планировать задачи, оценивать сигналы тревоги и принимать скоординированные меры по устранению угроз. Даже появление китайской версии Mythos не устранит все риски, ведь уязвимости неисчерпаемы. Чжоу Хунъи считает, что единственным выходом остается противопоставление вычислительных мощностей вычислительным мощностям, что позволит перевести систему ИБ Китая от тактики привлечения огромного числа специалистов к режиму автопилота.
В своем выступлении основатель компании 360 Group Чжоу Хунъи упомянул действия американской компании Anthropic, которая недавно ограничила доступ к своей самой мощной внутренней ИИ-модели Mythos. Чжоу Хунъи пояснил, что ИИ-модель Mythos превратилась в сетевое ядерное оружие эпохи ИИ и сформировала новое стратегическое сдерживание, поскольку она способна самостоятельно находить и анализировать уязвимости, а также конструировать инструменты для совершения масштабных кибератак.
По мнению китайского предпринимателя, ИИ полностью меняет правила игры в сфере ИБ, которые оставались неизменными последние 30 лет.
Ранее поиск уязвимостей требовал колоссальных ресурсов и усилий редких высококлассных специалистов, однако новые ИИ-модели позволяют автоматизировать и масштабировать этот процесс, оперативно выявляя даже старые и глубоко скрытые дефекты кода. При этом Чжоу Хунъи отметил, что Китаю не следует просто копировать зарубежный подход, основанный на использовании вычислительных мощностей и возможностей ИИ-моделей ради достижения результата грубой силой.
В рамках конференции компания 360 Group также объявила о запуске программы сотрудничества в сфере безопасности под названием «Панши чжи дунь» (磐石之盾). Инициатива направлена на предоставление ИИ-технологий защиты ключевым отечественным ИТ-предприятиям и КИИ Китая. К проекту уже присоединился ряд ведущих китайских технологических, инфраструктурных и облачных компаний, среди которых присутствуют UnionTech (统信), Kylin (麒麟), Hillstone Networks (山石网科), Hygon (海光), Phytium (飞腾), Kingdee (金蝶), Biren Technology (壁仞), Mobile Cloud (移动云), Baoland (宝兰德) и Dameng (达梦).
👆Основатель компании 360 Group провел параллель с американским альянсом Glasswing, который использует возможности ИИ-модели Mythos для защиты критической инфраструктуры США, и призвал китайское деловое сообщество заблаговременно формировать собственные системы коллективной безопасности.
✋ @Russian_OSINT | 803 |
| 8 | Очень интересно было бы посмотреть на эти системы, но этого не случится | 857 |
| 9 | Решил покачать акк в X и на сдачу получил доступ к Grok Build. Попробую в этом месяце что-то с ним поделить. Если у кого уже есть опыт, то фидбекайте в комментариях | 911 |
| 10 | +3 GHSA и +1 CVE в процессе
Новые уязвимости все 8.2 8.2 и 8.5 по CVSS, оценка справедливая. Решил улучшить свой воркфлоу и сразу давать мейнтейнерам рабочий патч-фикс. Не душил сам себя попытками байпасса патча, но визуально вроде бы очевидного байпасса нет | 1 013 |
| 11 | sticker.webp | 1 084 |
| 12 | Есть ли у проблемы с подбором skills, MCP, hooks и определением безопасные ли они? | 1 297 |
| 13 | DontFeedTheAI: LLM не должен видеть ваш рабочий контур
Онлайн модели удобно подключать к пентесту, разбору логов, выводу nmap, конфигам, CI/CD и внутренним инцидентам. Проблема в том, что вместе с задачей в OpenAI, Google, Anthropic, Alibaba, Tencent или другой внешний сервис уезжают реальные IP, домены, имена хостов, фрагменты инфраструктуры, токены, клиентские артефакты и контекст заказчика.
Для pet-проекта это часто просто риск. Для рабочего контура, консалтинга и пентеста это уже вопрос NDA, договорных границ и профессиональной этики: заказчик мог разрешить тестирование своей системы, но не передачу её данных третьей стороне для обработки моделью.
DontFeedTheAI решает эту проблему не запретом на LLM, а промежуточным слоем. Это прозрачный прокси для LLM агентов, к примеру пентест или аппсек ИИ агентов: перед отправкой запроса он локально заменяет чувствительные сущности на реалистичные фейковые, а на обратном пути восстанавливает реальные значения. По README, инструмент режет IP, креды, хостнеймы, ПДн, токены, API-ключи и хранит маппинг в per-engagement хранилище, чтобы потом не забыть что сам подменял) Я посмотрел проект внимательно, есть объективно пробелы и особенно в категориях, кроме кодинга. Допустим под юридический блог или медицинский нужно допиливать значительно.
Архитектурно это правильный компромисс: данные у вас фактически не меняются, рабочий процесс не ломается, но внешний LLM видит srv-0042.pentest.local вместо реального dc01.acmecorp.local и суррогат секрета вместо настоящего токена. Это не делает облачную модель доверенной/конфиденциальной, зато уменьшает объем того, что она вообще может узнать.
Если вы уже используется LLM агентов или планируете внедрять в пентест или внутреннюю разработку, граница приватности должна быть технической и детерминированной, а не только юридической: не оправдываться “мы ничего чувствительного не вставляем в чат”, а конкретный инструмент прокси, который не дает утечь чувствительной инфе. Каждая команда может форкнуть его под себя и допилить под те данные, которые вы считаете чувствительными.
🐱 zeroc00I/DontFeedTheAI
🌚 @poxek_ai / Чат канала | 1 559 |
| 14 | Нет текста... | 1 538 |
| 15 | Я спарсил кучу AI Security тулов на GitHub и посмотрел на качество. Звёзды врут, а каждый четвёртый инструмент уже не поддерживается. (приготовьтесь, много чисел)
Недавно я писал про агентные скиллы, да и про то, что мне часто в мои репозитории отправляют шлак. Я решил спросить себя, а что в самом тулинге по нашей теме - не в скиллах, а в реальных проектах, сканерах, гардрейлах и бенчмарках? Я собрал и разобрал их так же безжалостно.
Считал я так. 28 дорк запросов к GitHub по топикам и ключевым словам, включая неочевидные запросы для поиска foolbox и прочих инструментов (не всё так просто ищется). Получилось 1 136 кандидатов. После очистки осталось 510 релевантных репозиториев и 477 реальных инструментов. Срез сделан на конец мая 2026.
Качество я оценивал без звёзд как сигнала, потому что мы уже сами показали, что они врут: тиры считались по свежести коммитов, реальному объёму кода, лицензии и послужному списку в виде форков. Я не всегда смог запускать код. Я оцениваю, что это за код, структуру, данные и какие именно там используются механизмы защиты/атаки, а не насколько хорошо он ловит атаки (думаю об этом отдельно). Дополнительно каждому инструменту я выставлял статическую оценку инженерного качества от 1 до 5 (1 - тонкая обёртка без валидации, 5 - крепкий код с тестами, CI и собственной оценкой точности).
Первое, что бросается в глаза - 84 инструмента из находимого рынка созданы за первые пять с половиной месяцев 2026 года - для сравнения, за весь 2025-й их было 43, а за 2024-й всего 25. Главный драйвер - агенты: 35% инструментов относятся к безопасности агентов, и 68% из них родились уже в 2026 году. Это значит, что человек, который сегодня гуглит «LLM guardrail», в большей степени выбирает из проектов младше полугода, без послужного списка и без единой опубликованной оценки.
Сколько здесь качества, а сколько мусора, зависит от того, на какой уровень смотреть, поэтому я разделил выборку на две популяции. Видное на рынке - это 239 инструментов с пятьюдесятью звёздами и выше, то есть то, что вы реально найдёте поиском. Из них половина качественные, 24% - инструменты, которые особо никто не проверял, да и живых данных нет по ним (живые, но без сильной поддержки), ещё 24% заброшенные, без коммитов больше года, и 2% откровенный мусор.
Длинный хвост ниже десяти звёзд выглядит иначе: 60% там чистый шлак, 39% инструменты, которые не валидировались разработчиком и слабые по качеству. Если упростить - меньше половины находимого тулинга в нормальном состоянии, каждый четвёртый заброшен, а всё, что ниже десяти звёзд, почти полностью мусор.
Тезис про звёзды подтвердился во второй раз. Топ-10 репозиториев держат 50% всех звёзд в нише, и при этом 21 инструмент с двумястами пятьюдесятью звёздами и выше заброшен на год-два. Среди них именно те, к которым тянутся первыми: protectai/rebuff с 1 499 звёздами - знаем его, писал про него ещё в 2024, последний коммит которого собственно был в августе 2024; BorealisAI/advertorch с 1 364 звёздами, мёртвый с 2023 года; репозиторий verazuo/jailbreak_llms с 3 705 звёздами - датасет, замороженный в 2024.
По категориям здоровье очень разное. Сканеры держатся лучше всех - 77% реального качественного материала и почти ничего заброшенного; якоря здесь promptfoo с 22 тысячами звёзд, NVIDIA garak с восемью тысячами и cyberark FuzzyAI. Если кому и доверять, то этой категории. Гардрейлы - монетка: 44% качества против ровно такой же доли непроверенных, десятки почти одинаковых «AI agent firewall», половина из 2026 года и почти без реальных тестов со стороны. Бенчмарки оказались ловушкой - 46% из них заброшены, а замороженные в 2024-м бенчмарки как мы можем догадаться – измеряют угрозы 2024 года.
Дальше я перешёл от взгляда снаружи к чтению исходников. Разобрал 24 настоящих гардрейла и посмотрел, что они вообще предъявляют как доказательство, что детект работает. Публичный бенчмарк уровня JailbreakBench или AgentDojo нашёлся ровно у одного из 24, то есть у 4%. Свой внутренний крошечный набор используют 33%. Ещё 8% называют «бенчмарком» то, что мерит скорость, а не точность. И у 54% нет вообще никакой оценки точности в ловле промпт-атак. Иными словами, статически вы не можете понять, ловят ли атаки 96% гардрейлов. Технически при этом они выглядят нормально - средняя оценка 3.5 из 5, есть тесты, CI и многослойность, - но качество кода не равно доказанной защите. Характерная деталь: llm-guard, pipelock и rampart хвалятся миллисекундной задержкой, но не приводят ни одного значения TP или FP. Скорость измерить легко, корректность трудно, поэтому мерят скорость.
В коде вскрылись ещё два звоночка. Четыре гардрейла из 24 имеют необследуемое ядро: aegis и ZenGuard - примерно 90 строк клиента к закрытому облаку, а last_layer прячет детектор в бинарный .so с заявленными «92%», которые невозможно проверить; «open source» там декоративный. А девять из 24 вообще не про инъекции и джейлбрейк - PII- и инструменты для маскировки данных под вывеской «гардрейл», так что реальная категория защиты от промпт-атак - мала. И прослеживается закономерность: кто честен, тот показывает скромные числа - localmod 0.75, cloakbot прямо признаёт утечку в 6-8%, - а кто рисует «100%» и «92%», тот невоспроизводим.
Если посмотреть на то, чем вообще детектят, картина по категориям складывается такая. У гардрейлов regex остаётся каркасом всей ниши и используется в 75% случаев; чисто на регулярках построен 21% - это нормально для PII, но хрупко для семантики. Чистого LLM-судьи как единственного слоя нет ни у одного: это дорого и недетерминированно, поэтому он всегда идёт в составе гибрида, а сам гибрид - мейнстрим, на него приходится 54%. Худший класс - закрытое ядро со средней оценкой 2.0. Сканеров я разобрал 44, и они делятся почти пополам: 16 динамических, которые шлют атаки в живой таргет (garak, PyRIT, FuzzyAI), против 17 статических, анализирующих код и конфиги без запуска. Самый сильный класс среди них - LLM-redteam с оценкой 4.4, хотя его находки держатся на «утверждает модель»; самый слабый из настоящих - чистые сигнатуры с 3.4 и нулём при собственной оценке. При этом 14% «сканеров» - вообще не сканеры (а больше, как инструменты для получения информации о происхождении данных и governance), а свою точность мерят лишь 24% из них.
Бенчмарков формально 13, но настоящих только девять; остальные четыре - это гайд, awesome-лист, одиночная атака и сканер-тулза. Единого стандарта скоринга нет: метрику ASR или F1 используют шесть, LLM-судью двое, правила один, ручную разметку один, а трое не считают ничего. Четыре бенчмарка из 13 заморожены.
Регулярки - универсальный и дешево, так к сожалению заведено в разработке инструментов для AI-security и при этом везде хуже всех проверяемо с точки зрения качества. LLM-as-judge - растущий слой, на нём построены лучшие новые тулзы, но он недетерминирован и не калиброван. Свою точность почти никто не мерит: около 4% гардрейлов и 24% сканеров, а сами бенчмарки, которые должны быть линейкой, фрагментированы и на треть заморожены. И ярлыки протекают - 14% «сканеров» и 31% «бенчмарков» на деле оказываются чем-то другим. Главная же параллель со скиллами вот в чём: раз 96% решений не публикуют точность, выбор идёт вслепую, а гардрейл, молча пропускающий атаку или режущий легитимный трафик, и есть тот самый случай, когда защита «делает хуже».
Ну и вывод такой. Сортируйте инструменты не по звёздам, а по дате последнего коммита и числу форков. По умолчанию доверяйте сканерам и скептически смотрите на гардрейлы, закладывая цикл замены примерно в 12 месяцев. Не верьте «безопасности», подтверждённой замороженным бенчмарком. Читайте код и лицензии.
Датасет с оценкой я опубликую в комментах к посту. Можно использовать как bullshit-фильтр. 😁. А можете и оспорить мои цифры в комментариях. | 2 012 |
| 16 | Туууулы.xlsx | 1 480 |
| 17 | Я спарсил кучу AI Security тулов на GitHub и посмотрел на качество. Звёзды врут, а каждый четвёртый инструмент уже не поддерживается. (приготовьтесь, много чисел)
Недавно я писал про агентные скиллы, да и про то, что мне часто в мои репозитории отправляют шлак. Я решил спросить себя, а что в самом тулинге по нашей теме - не в скиллах, а в реальных проектах, сканерах, гардрейлах и бенчмарках? Я собрал и разобрал их так же безжалостно.
Считал я так. 28 дорк запросов к GitHub по топикам и ключевым словам, включая неочевидные запросы для поиска foolbox и прочих инструментов (не всё так просто ищется). Получилось 1 136 кандидатов. После очистки осталось 510 релевантных репозиториев и 477 реальных инструментов. Срез сделан на конец мая 2026.
Качество я оценивал без звёзд как сигнала, потому что мы уже сами показали, что они врут: тиры считались по свежести коммитов, реальному объёму кода, лицензии и послужному списку в виде форков. Я не всегда смог запускать код. Я оцениваю, что это за код, структуру, данные и какие именно там используются механизмы защиты/атаки, а не насколько хорошо он ловит атаки (думаю об этом отдельно). Дополнительно каждому инструменту я выставлял статическую оценку инженерного качества от 1 до 5 (1 - тонкая обёртка без валидации, 5 - крепкий код с тестами, CI и собственной оценкой точности).
Первое, что бросается в глаза - 84 инструмента из находимого рынка созданы за первые пять с половиной месяцев 2026 года - для сравнения, за весь 2025-й их было 43, а за 2024-й всего 25. Главный драйвер - агенты: 35% инструментов относятся к безопасности агентов, и 68% из них родились уже в 2026 году. Это значит, что человек, который сегодня гуглит «LLM guardrail», в большей степени выбирает из проектов младше полугода, без послужного списка и без единой опубликованной оценки.
Сколько здесь качества, а сколько мусора, зависит от того, на какой уровень смотреть, поэтому я разделил выборку на две популяции. Видное на рынке - это 239 инструментов с пятьюдесятью звёздами и выше, то есть то, что вы реально найдёте поиском. Из них половина качественные, 24% - инструменты, которые особо никто не проверял, да и живых данных нет по ним (живые, но без сильной поддержки), ещё 24% заброшенные, без коммитов больше года, и 2% откровенный мусор.
Длинный хвост ниже десяти звёзд выглядит иначе: 60% там чистый шлак, 39% инструменты, которые не валидировались разработчиком и слабые по качеству. Если упростить - меньше половины находимого тулинга в нормальном состоянии, каждый четвёртый заброшен, а всё, что ниже десяти звёзд, почти полностью мусор.
Тезис про звёзды подтвердился во второй раз. Топ-10 репозиториев держат 50% всех звёзд в нише, и при этом 21 инструмент с двумястами пятьюдесятью звёздами и выше заброшен на год-два. Среди них именно те, к которым тянутся первыми: protectai/rebuff с 1 499 звёздами - знаем его, писал про него ещё в 2024, последний коммит которого собственно был в августе 2024; BorealisAI/advertorch с 1 364 звёздами, мёртвый с 2023 года; репозиторий verazuo/jailbreak_llms с 3 705 звёздами - датасет, замороженный в 2024.
По категориям здоровье очень разное. Сканеры держатся лучше всех - 77% реального качественного материала и почти ничего заброшенного; якоря здесь promptfoo с 22 тысячами звёзд, NVIDIA garak с восемью тысячами и cyberark FuzzyAI. Если кому и доверять, то этой категории. Гардрейлы - монетка: 44% качества против ровно такой же доли непроверенных, десятки почти одинаковых «AI agent firewall», половина из 2026 года и почти без реальных тестов со стороны. Бенчмарки оказались ловушкой - 46% из них заброшены, а замороженные в 2024-м бенчмарки как мы можем догадаться – измеряют угрозы 2024 года.
Дальше я перешёл от взгляда снаружи к чтению исходников. Разобрал 24 настоящих гардрейла и посмотрел, что они вообще предъявляют как доказательство, что детект работает. Публичный бенчмарк уровня JailbreakBench или AgentDojo нашёлся ровно у одного из 24, то есть у 4%. Свой внутренний крошечный набор используют 33%. Ещё 8% называют «бенчмарком» то, что мерит скорость, а не точность. И у 54% нет вообще никакой оценки точности в ловле промпт-атак. Иными словами, статически вы не можете понять, ловят ли атаки 96% гардрейлов. Технически при этом они выглядят нормально - средняя оценка 3.5 из 5, есть тесты, CI и многослойность, - но качество кода не равно доказанной защите. Характерная деталь: llm-guard, pipelock и rampart хвалятся миллисекундной задержкой, но не приводят ни одного значения TP или FP. Скорость измерить легко, корректность трудно, поэтому мерят скорость.
В коде вскрылись ещё два звоночка. Четыре гардрейла из 24 имеют необследуемое ядро: aegis и ZenGuard - примерно 90 строк клиента к закрытому облаку, а last_layer прячет детектор в бинарный .so с заявленными «92%», которые невозможно проверить; «open source» там декоративный. А девять из 24 вообще не про инъекции и джейлбрейк - PII- и инструменты для маскировки данных под вывеской «гардрейл», так что реальная категория защиты от промпт-атак - мала. И прослеживается закономерность: кто честен, тот показывает скромные числа - localmod 0.75, cloakbot прямо признаёт утечку в 6-8%, - а кто рисует «100%» и «92%», тот невоспроизводим.
Если посмотреть на то, чем вообще детектят, картина по категориям складывается такая. У гардрейлов regex остаётся каркасом всей ниши и используется в 75% случаев; чисто на регулярках построен 21% - это нормально для PII, но хрупко для семантики. Чистого LLM-судьи как единственного слоя нет ни у одного: это дорого и недетерминированно, поэтому он всегда идёт в составе гибрида, а сам гибрид - мейнстрим, на него приходится 54%. Худший класс - закрытое ядро со средней оценкой 2.0. Сканеров я разобрал 44, и они делятся почти пополам: 16 динамических, которые шлют атаки в живой таргет (garak, PyRIT, FuzzyAI), против 17 статических, анализирующих код и конфиги без запуска. Самый сильный класс среди них - LLM-redteam с оценкой 4.4, хотя его находки держатся на «утверждает модель»; самый слабый из настоящих - чистые сигнатуры с 3.4 и нулём при собственной оценке. При этом 14% «сканеров» - вообще не сканеры (а больше, как инструменты для получения информации о происхождении данных и governance), а свою точность мерят лишь 24% из них.
Бенчмарков формально 13, но настоящих только девять; остальные четыре - это гайд, awesome-лист, одиночная атака и сканер-тулза. Единого стандарта скоринга нет: метрику ASR или F1 используют шесть, LLM-судью двое, правила один, ручную разметку один, а трое не считают ничего. Четыре бенчмарка из 13 заморожены.
Регулярки - универсальный и дешево, так к сожалению заведено в разработке инструментов для AI-security и при этом везде хуже всех проверяемо с точки зрения качества. LLM-as-judge - растущий слой, на нём построены лучшие новые тулзы, но он недетерминирован и не калиброван. Свою точность почти никто не мерит: около 4% гардрейлов и 24% сканеров, а сами бенчмарки, которые должны быть линейкой, фрагментированы и на треть заморожены. И ярлыки протекают - 14% «сканеров» и 31% «бенчмарков» на деле оказываются чем-то другим. Главная же параллель со скиллами вот в чём: раз 96% решений не публикуют точность, выбор идёт вслепую, а гардрейл, молча пропускающий атаку или режущий легитимный трафик, и есть тот самый случай, когда защита «делает хуже».
Ну и вывод такой. Сортируйте инструменты не по звёздам, а по дате последнего коммита и числу форков. По умолчанию доверяйте сканерам и скептически смотрите на гардрейлы, закладывая цикл замены примерно в 12 месяцев. Не верьте «безопасности», подтверждённой замороженным бенчмарком. Читайте код и лицензии.
Датасет с оценкой я опубликую в комментах к посту. Можно использовать как bullshit-фильтр. 😁. А можете и оспорить мои цифры в комментариях. | 1 |
| 18 | ❕❗️❕Задали вопрос в формате:
я разработчик фул стак, работаю в компании и ещё какие-то свои проектики пробую запускать. На работе пихают AI, в проекты тоже вроде надо внедрить. Но вот читаю тебя и не понимаю как обезопасить свою работу и свои пет проектики. Чё посоветуешь?
Для базово входа со стороны разраба советы будут такие:
1. Начни с OWASP Top 10 for LLM Applications и OWASP Top 10 for Agentic Applications и OWASP Large Language Model Security Verification Standard (LLMSVS)
2. Опиши модель угроз: что чат-бот или LLM агент умеет, какие данные видит, какие действия или тулы (tools) может вызвать.
3. В промпте жестко раздели системные инструкции и не доверенный контент: user messages, RAG docs, web pages, tool outputs.
4. На серверной стороне создай белый список для тулов/действий чатбота. Модель не должна сама решать, что ей “можно”. Это не панацея, но самая дешёвая и простая митигация.
5. Логируй ВСЁ. Промпт свой и пользователя, ответы, tool calls, ивенты блокировки, сработки гардрейла.
6. Подготовь данные для регрессионных тестов. Это может быть набор из 20-50 атак: prompt override, system prompt leak, encoded input, multilingual attack, RAG injection, tool misuse.
7. Прогоняй его через свою реальную сетевую инфру, не напрямую в Openrouter/Другой API провайдер.
8. После каждого изменения промпта/модели/тула запускай эти тесты снова.
9. Пробуйте сами похекать своего агента/чатбота.
- Promptfoo
- HiveTrace Red
- PyRIT
- Garak
- OpenAI
10. Нашёл обход? Возвращайся к пункту 5 и усиливай тесты.
Будет ли это достаточно? Нет. (не)Безопасность никогда не останавливается, поэтому каждый час будут новые способы обхода X защиты и на следующий день будет появляться защита от этого | 1 683 |
| 19 | По поводу Fable 5. Наблюдение на сегодняшний день
1. Plinny джейлнул Fable 5 спустя чуть больше суток с её выхода. И был вопрос ему, почему его Anthropic банит, на что тот ответил что выполнил за них работу на миллион долларов. И не могу не согласиться с этим. Anthropic прямо заявляет, что все что мы отправляем в Fable 5 и особенно случае с триггером гардрейла они будут изучать пристально и на этом обучать модель, даже если в настройках или подписках указано, что никакие данные никогда не будут использоваться в обучении. В целом такая же история, как и с Anthropic CVP. Компания прямо в форме указывает в одном из шагов, что данные будут использоваться для улучшения модели хочу я этого или нет. У OpenAI допустим противоположная политика, а особенно если включить Advanced Security Account, то OpenAI в UI пишет что данные мои данные никак и никогда не будут использоваться для обучения модели. Даже сам тублем Share data отключается. И политика OpenAI мне больше нравится, даже если они из-за этого будут отставать по кибербез возможностям
2. По кибербез возможностям на второй день после релиза стала менее душно, мне даже удалось пару раз пропихнуть свои промпты, но после первого turn диалог помечается как cyber abuse и дальше нет в нем смысла работать. Но обходить стало гораздо проще, чем в первые часы релиза
3. Anthropic скрытно отупляет модель, если вы пытаетесь её использовать в любом виде ИИ ресерчей. В первый день это было скрытно, но на второй день настолько много ресерчев и компаний возмутилось, что Anthropic пришлось дать заднюю, извиниться и сделать этот процесс отупливания прозрачным. Т.е. модель теперь явно пишет что её гардрейл заметил попытку обучения или создания другого ИИ или дистилляцию или ИИ ресерч и будет отуплен или предложит перейти на Попус 4.8.
А собственно зачем тогда нам пользователям нужен Fable 5?
- Он в 2 раза дороже Опуса 4.8
- но не в 2 раза умнее и не в 2 раза быстрее
Если для как раз объективно сложных и реально комплексных задач его нельзя использовать | 1 449 |
| 20 | Сливаю свой новый bugbounty prompt для Fable 5
/model claude-fable-5
/fast
/effort ultracode
enumerate the top 10 highest paying bug bounties and don't stop until you find a critical. Use cowork to automatically submit it before everyone else. | 2 453 |
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
