Похек AI
前往频道在 Telegram
All materials published on the channel are for educational and informational purposes only. AI is not second brain, when you don't use your main brain Чат: @poxek_chat Основной канал: @poxek
显示更多2 417
订阅者
+1524 小时
+2807 天
+63330 天
数据加载中...
吸引订阅者
六月 '26
六月 '26
+353
在6个频道中
五月 '26
+435
在14个频道中
Get PRO
四月 '26
+180
在4个频道中
Get PRO
三月 '26
+207
在4个频道中
Get PRO
二月 '26
+535
在12个频道中
Get PRO
一月 '26
+328
在6个频道中
Get PRO
十二月 '25
+535
在5个频道中
Get PRO
十一月 '250
在5个频道中
Get PRO
十月 '25
+1
在1个频道中
| 日期 | 订阅者增长 | 提及 | 频道 | |
| 16 六月 | +12 | |||
| 15 六月 | +15 | |||
| 14 六月 | +7 | |||
| 13 六月 | +4 | |||
| 12 六月 | +8 | |||
| 11 六月 | +37 | |||
| 10 六月 | +207 | |||
| 09 六月 | +5 | |||
| 08 六月 | +6 | |||
| 07 六月 | +5 | |||
| 06 六月 | +2 | |||
| 05 六月 | +5 | |||
| 04 六月 | +12 | |||
| 03 六月 | +6 | |||
| 02 六月 | +4 | |||
| 01 六月 | +18 |
频道帖子
Repost from PWN AI
Я спарсил кучу AI Security тулов на GitHub и посмотрел на качество. Звёзды врут, а каждый четвёртый инструмент уже не поддерживается. (приготовьтесь, много чисел)
Недавно я писал про агентные скиллы, да и про то, что мне часто в мои репозитории отправляют шлак. Я решил спросить себя, а что в самом тулинге по нашей теме - не в скиллах, а в реальных проектах, сканерах, гардрейлах и бенчмарках? Я собрал и разобрал их так же безжалостно.
Считал я так. 28 дорк запросов к GitHub по топикам и ключевым словам, включая неочевидные запросы для поиска foolbox и прочих инструментов (не всё так просто ищется). Получилось 1 136 кандидатов. После очистки осталось 510 релевантных репозиториев и 477 реальных инструментов. Срез сделан на конец мая 2026.
Качество я оценивал без звёзд как сигнала, потому что мы уже сами показали, что они врут: тиры считались по свежести коммитов, реальному объёму кода, лицензии и послужному списку в виде форков. Я не всегда смог запускать код. Я оцениваю, что это за код, структуру, данные и какие именно там используются механизмы защиты/атаки, а не насколько хорошо он ловит атаки (думаю об этом отдельно). Дополнительно каждому инструменту я выставлял статическую оценку инженерного качества от 1 до 5 (1 - тонкая обёртка без валидации, 5 - крепкий код с тестами, CI и собственной оценкой точности).
Первое, что бросается в глаза - 84 инструмента из находимого рынка созданы за первые пять с половиной месяцев 2026 года - для сравнения, за весь 2025-й их было 43, а за 2024-й всего 25. Главный драйвер - агенты: 35% инструментов относятся к безопасности агентов, и 68% из них родились уже в 2026 году. Это значит, что человек, который сегодня гуглит «LLM guardrail», в большей степени выбирает из проектов младше полугода, без послужного списка и без единой опубликованной оценки.
Сколько здесь качества, а сколько мусора, зависит от того, на какой уровень смотреть, поэтому я разделил выборку на две популяции. Видное на рынке - это 239 инструментов с пятьюдесятью звёздами и выше, то есть то, что вы реально найдёте поиском. Из них половина качественные, 24% - инструменты, которые особо никто не проверял, да и живых данных нет по ним (живые, но без сильной поддержки), ещё 24% заброшенные, без коммитов больше года, и 2% откровенный мусор.
Длинный хвост ниже десяти звёзд выглядит иначе: 60% там чистый шлак, 39% инструменты, которые не валидировались разработчиком и слабые по качеству. Если упростить - меньше половины находимого тулинга в нормальном состоянии, каждый четвёртый заброшен, а всё, что ниже десяти звёзд, почти полностью мусор.
Тезис про звёзды подтвердился во второй раз. Топ-10 репозиториев держат 50% всех звёзд в нише, и при этом 21 инструмент с двумястами пятьюдесятью звёздами и выше заброшен на год-два. Среди них именно те, к которым тянутся первыми: protectai/rebuff с 1 499 звёздами - знаем его, писал про него ещё в 2024, последний коммит которого собственно был в августе 2024; BorealisAI/advertorch с 1 364 звёздами, мёртвый с 2023 года; репозиторий verazuo/jailbreak_llms с 3 705 звёздами - датасет, замороженный в 2024.
По категориям здоровье очень разное. Сканеры держатся лучше всех - 77% реального качественного материала и почти ничего заброшенного; якоря здесь promptfoo с 22 тысячами звёзд, NVIDIA garak с восемью тысячами и cyberark FuzzyAI. Если кому и доверять, то этой категории. Гардрейлы - монетка: 44% качества против ровно такой же доли непроверенных, десятки почти одинаковых «AI agent firewall», половина из 2026 года и почти без реальных тестов со стороны. Бенчмарки оказались ловушкой - 46% из них заброшены, а замороженные в 2024-м бенчмарки как мы можем догадаться – измеряют угрозы 2024 года.
Дальше я перешёл от взгляда снаружи к чтению исходников. Разобрал 24 настоящих гардрейла и посмотрел, что они вообще предъявляют как доказательство, что детект работает. Публичный бенчмарк уровня JailbreakBench или AgentDojo нашёлся ровно у одного из 24, то есть у 4%. Свой внутренний крошечный набор используют 33%. Ещё 8% называют «бенчмарком» то, что мерит скорость, а не точность. И у 54% нет вообще никакой оценки точности в ловле промпт-атак. Иными словами, статически вы не можете понять, ловят ли атаки 96% гардрейлов. Технически при этом они выглядят нормально - средняя оценка 3.5 из 5, есть тесты, CI и многослойность, - но качество кода не равно доказанной защите. Характерная деталь: llm-guard, pipelock и rampart хвалятся миллисекундной задержкой, но не приводят ни одного значения TP или FP. Скорость измерить легко, корректность трудно, поэтому мерят скорость.
В коде вскрылись ещё два звоночка. Четыре гардрейла из 24 имеют необследуемое ядро: aegis и ZenGuard - примерно 90 строк клиента к закрытому облаку, а last_layer прячет детектор в бинарный .so с заявленными «92%», которые невозможно проверить; «open source» там декоративный. А девять из 24 вообще не про инъекции и джейлбрейк - PII- и инструменты для маскировки данных под вывеской «гардрейл», так что реальная категория защиты от промпт-атак - мала. И прослеживается закономерность: кто честен, тот показывает скромные числа - localmod 0.75, cloakbot прямо признаёт утечку в 6-8%, - а кто рисует «100%» и «92%», тот невоспроизводим.
Если посмотреть на то, чем вообще детектят, картина по категориям складывается такая. У гардрейлов regex остаётся каркасом всей ниши и используется в 75% случаев; чисто на регулярках построен 21% - это нормально для PII, но хрупко для семантики. Чистого LLM-судьи как единственного слоя нет ни у одного: это дорого и недетерминированно, поэтому он всегда идёт в составе гибрида, а сам гибрид - мейнстрим, на него приходится 54%. Худший класс - закрытое ядро со средней оценкой 2.0. Сканеров я разобрал 44, и они делятся почти пополам: 16 динамических, которые шлют атаки в живой таргет (garak, PyRIT, FuzzyAI), против 17 статических, анализирующих код и конфиги без запуска. Самый сильный класс среди них - LLM-redteam с оценкой 4.4, хотя его находки держатся на «утверждает модель»; самый слабый из настоящих - чистые сигнатуры с 3.4 и нулём при собственной оценке. При этом 14% «сканеров» - вообще не сканеры (а больше, как инструменты для получения информации о происхождении данных и governance), а свою точность мерят лишь 24% из них.
Бенчмарков формально 13, но настоящих только девять; остальные четыре - это гайд, awesome-лист, одиночная атака и сканер-тулза. Единого стандарта скоринга нет: метрику ASR или F1 используют шесть, LLM-судью двое, правила один, ручную разметку один, а трое не считают ничего. Четыре бенчмарка из 13 заморожены.
Регулярки - универсальный и дешево, так к сожалению заведено в разработке инструментов для AI-security и при этом везде хуже всех проверяемо с точки зрения качества. LLM-as-judge - растущий слой, на нём построены лучшие новые тулзы, но он недетерминирован и не калиброван. Свою точность почти никто не мерит: около 4% гардрейлов и 24% сканеров, а сами бенчмарки, которые должны быть линейкой, фрагментированы и на треть заморожены. И ярлыки протекают - 14% «сканеров» и 31% «бенчмарков» на деле оказываются чем-то другим. Главная же параллель со скиллами вот в чём: раз 96% решений не публикуют точность, выбор идёт вслепую, а гардрейл, молча пропускающий атаку или режущий легитимный трафик, и есть тот самый случай, когда защита «делает хуже».
Ну и вывод такой. Сортируйте инструменты не по звёздам, а по дате последнего коммита и числу форков. По умолчанию доверяйте сканерам и скептически смотрите на гардрейлы, закладывая цикл замены примерно в 12 месяцев. Не верьте «безопасности», подтверждённой замороженным бенчмарком. Читайте код и лицензии.
Датасет с оценкой я опубликую в комментах к посту. Можно использовать как bullshit-фильтр. 😁. А можете и оспорить мои цифры в комментариях.
| 2 | Туууулы.xlsx | 724 |
| 3 | Я спарсил кучу AI Security тулов на GitHub и посмотрел на качество. Звёзды врут, а каждый четвёртый инструмент уже не поддерживается. (приготовьтесь, много чисел)
Недавно я писал про агентные скиллы, да и про то, что мне часто в мои репозитории отправляют шлак. Я решил спросить себя, а что в самом тулинге по нашей теме - не в скиллах, а в реальных проектах, сканерах, гардрейлах и бенчмарках? Я собрал и разобрал их так же безжалостно.
Считал я так. 28 дорк запросов к GitHub по топикам и ключевым словам, включая неочевидные запросы для поиска foolbox и прочих инструментов (не всё так просто ищется). Получилось 1 136 кандидатов. После очистки осталось 510 релевантных репозиториев и 477 реальных инструментов. Срез сделан на конец мая 2026.
Качество я оценивал без звёзд как сигнала, потому что мы уже сами показали, что они врут: тиры считались по свежести коммитов, реальному объёму кода, лицензии и послужному списку в виде форков. Я не всегда смог запускать код. Я оцениваю, что это за код, структуру, данные и какие именно там используются механизмы защиты/атаки, а не насколько хорошо он ловит атаки (думаю об этом отдельно). Дополнительно каждому инструменту я выставлял статическую оценку инженерного качества от 1 до 5 (1 - тонкая обёртка без валидации, 5 - крепкий код с тестами, CI и собственной оценкой точности).
Первое, что бросается в глаза - 84 инструмента из находимого рынка созданы за первые пять с половиной месяцев 2026 года - для сравнения, за весь 2025-й их было 43, а за 2024-й всего 25. Главный драйвер - агенты: 35% инструментов относятся к безопасности агентов, и 68% из них родились уже в 2026 году. Это значит, что человек, который сегодня гуглит «LLM guardrail», в большей степени выбирает из проектов младше полугода, без послужного списка и без единой опубликованной оценки.
Сколько здесь качества, а сколько мусора, зависит от того, на какой уровень смотреть, поэтому я разделил выборку на две популяции. Видное на рынке - это 239 инструментов с пятьюдесятью звёздами и выше, то есть то, что вы реально найдёте поиском. Из них половина качественные, 24% - инструменты, которые особо никто не проверял, да и живых данных нет по ним (живые, но без сильной поддержки), ещё 24% заброшенные, без коммитов больше года, и 2% откровенный мусор.
Длинный хвост ниже десяти звёзд выглядит иначе: 60% там чистый шлак, 39% инструменты, которые не валидировались разработчиком и слабые по качеству. Если упростить - меньше половины находимого тулинга в нормальном состоянии, каждый четвёртый заброшен, а всё, что ниже десяти звёзд, почти полностью мусор.
Тезис про звёзды подтвердился во второй раз. Топ-10 репозиториев держат 50% всех звёзд в нише, и при этом 21 инструмент с двумястами пятьюдесятью звёздами и выше заброшен на год-два. Среди них именно те, к которым тянутся первыми: protectai/rebuff с 1 499 звёздами - знаем его, писал про него ещё в 2024, последний коммит которого собственно был в августе 2024; BorealisAI/advertorch с 1 364 звёздами, мёртвый с 2023 года; репозиторий verazuo/jailbreak_llms с 3 705 звёздами - датасет, замороженный в 2024.
По категориям здоровье очень разное. Сканеры держатся лучше всех - 77% реального качественного материала и почти ничего заброшенного; якоря здесь promptfoo с 22 тысячами звёзд, NVIDIA garak с восемью тысячами и cyberark FuzzyAI. Если кому и доверять, то этой категории. Гардрейлы - монетка: 44% качества против ровно такой же доли непроверенных, десятки почти одинаковых «AI agent firewall», половина из 2026 года и почти без реальных тестов со стороны. Бенчмарки оказались ловушкой - 46% из них заброшены, а замороженные в 2024-м бенчмарки как мы можем догадаться – измеряют угрозы 2024 года.
Дальше я перешёл от взгляда снаружи к чтению исходников. Разобрал 24 настоящих гардрейла и посмотрел, что они вообще предъявляют как доказательство, что детект работает. Публичный бенчмарк уровня JailbreakBench или AgentDojo нашёлся ровно у одного из 24, то есть у 4%. Свой внутренний крошечный набор используют 33%. Ещё 8% называют «бенчмарком» то, что мерит скорость, а не точность. И у 54% нет вообще никакой оценки точности в ловле промпт-атак. Иными словами, статически вы не можете понять, ловят ли атаки 96% гардрейлов. Технически при этом они выглядят нормально - средняя оценка 3.5 из 5, есть тесты, CI и многослойность, - но качество кода не равно доказанной защите. Характерная деталь: llm-guard, pipelock и rampart хвалятся миллисекундной задержкой, но не приводят ни одного значения TP или FP. Скорость измерить легко, корректность трудно, поэтому мерят скорость.
В коде вскрылись ещё два звоночка. Четыре гардрейла из 24 имеют необследуемое ядро: aegis и ZenGuard - примерно 90 строк клиента к закрытому облаку, а last_layer прячет детектор в бинарный .so с заявленными «92%», которые невозможно проверить; «open source» там декоративный. А девять из 24 вообще не про инъекции и джейлбрейк - PII- и инструменты для маскировки данных под вывеской «гардрейл», так что реальная категория защиты от промпт-атак - мала. И прослеживается закономерность: кто честен, тот показывает скромные числа - localmod 0.75, cloakbot прямо признаёт утечку в 6-8%, - а кто рисует «100%» и «92%», тот невоспроизводим.
Если посмотреть на то, чем вообще детектят, картина по категориям складывается такая. У гардрейлов regex остаётся каркасом всей ниши и используется в 75% случаев; чисто на регулярках построен 21% - это нормально для PII, но хрупко для семантики. Чистого LLM-судьи как единственного слоя нет ни у одного: это дорого и недетерминированно, поэтому он всегда идёт в составе гибрида, а сам гибрид - мейнстрим, на него приходится 54%. Худший класс - закрытое ядро со средней оценкой 2.0. Сканеров я разобрал 44, и они делятся почти пополам: 16 динамических, которые шлют атаки в живой таргет (garak, PyRIT, FuzzyAI), против 17 статических, анализирующих код и конфиги без запуска. Самый сильный класс среди них - LLM-redteam с оценкой 4.4, хотя его находки держатся на «утверждает модель»; самый слабый из настоящих - чистые сигнатуры с 3.4 и нулём при собственной оценке. При этом 14% «сканеров» - вообще не сканеры (а больше, как инструменты для получения информации о происхождении данных и governance), а свою точность мерят лишь 24% из них.
Бенчмарков формально 13, но настоящих только девять; остальные четыре - это гайд, awesome-лист, одиночная атака и сканер-тулза. Единого стандарта скоринга нет: метрику ASR или F1 используют шесть, LLM-судью двое, правила один, ручную разметку один, а трое не считают ничего. Четыре бенчмарка из 13 заморожены.
Регулярки - универсальный и дешево, так к сожалению заведено в разработке инструментов для AI-security и при этом везде хуже всех проверяемо с точки зрения качества. LLM-as-judge - растущий слой, на нём построены лучшие новые тулзы, но он недетерминирован и не калиброван. Свою точность почти никто не мерит: около 4% гардрейлов и 24% сканеров, а сами бенчмарки, которые должны быть линейкой, фрагментированы и на треть заморожены. И ярлыки протекают - 14% «сканеров» и 31% «бенчмарков» на деле оказываются чем-то другим. Главная же параллель со скиллами вот в чём: раз 96% решений не публикуют точность, выбор идёт вслепую, а гардрейл, молча пропускающий атаку или режущий легитимный трафик, и есть тот самый случай, когда защита «делает хуже».
Ну и вывод такой. Сортируйте инструменты не по звёздам, а по дате последнего коммита и числу форков. По умолчанию доверяйте сканерам и скептически смотрите на гардрейлы, закладывая цикл замены примерно в 12 месяцев. Не верьте «безопасности», подтверждённой замороженным бенчмарком. Читайте код и лицензии.
Датасет с оценкой я опубликую в комментах к посту. Можно использовать как bullshit-фильтр. 😁. А можете и оспорить мои цифры в комментариях. | 1 |
| 4 | ❕❗️❕Задали вопрос в формате:
я разработчик фул стак, работаю в компании и ещё какие-то свои проектики пробую запускать. На работе пихают AI, в проекты тоже вроде надо внедрить. Но вот читаю тебя и не понимаю как обезопасить свою работу и свои пет проектики. Чё посоветуешь?
Для базово входа со стороны разраба советы будут такие:
1. Начни с OWASP Top 10 for LLM Applications и OWASP Top 10 for Agentic Applications и OWASP Large Language Model Security Verification Standard (LLMSVS)
2. Опиши модель угроз: что чат-бот или LLM агент умеет, какие данные видит, какие действия или тулы (tools) может вызвать.
3. В промпте жестко раздели системные инструкции и не доверенный контент: user messages, RAG docs, web pages, tool outputs.
4. На серверной стороне создай белый список для тулов/действий чатбота. Модель не должна сама решать, что ей “можно”. Это не панацея, но самая дешёвая и простая митигация.
5. Логируй ВСЁ. Промпт свой и пользователя, ответы, tool calls, ивенты блокировки, сработки гардрейла.
6. Подготовь данные для регрессионных тестов. Это может быть набор из 20-50 атак: prompt override, system prompt leak, encoded input, multilingual attack, RAG injection, tool misuse.
7. Прогоняй его через свою реальную сетевую инфру, не напрямую в Openrouter/Другой API провайдер.
8. После каждого изменения промпта/модели/тула запускай эти тесты снова.
9. Пробуйте сами похекать своего агента/чатбота.
- Promptfoo
- HiveTrace Red
- PyRIT
- Garak
- OpenAI
10. Нашёл обход? Возвращайся к пункту 5 и усиливай тесты.
Будет ли это достаточно? Нет. (не)Безопасность никогда не останавливается, поэтому каждый час будут новые способы обхода X защиты и на следующий день будет появляться защита от этого | 820 |
| 5 | По поводу Fable 5. Наблюдение на сегодняшний день
1. Plinny джейлнул Fable 5 спустя чуть больше суток с её выхода. И был вопрос ему, почему его Anthropic банит, на что тот ответил что выполнил за них работу на миллион долларов. И не могу не согласиться с этим. Anthropic прямо заявляет, что все что мы отправляем в Fable 5 и особенно случае с триггером гардрейла они будут изучать пристально и на этом обучать модель, даже если в настройках или подписках указано, что никакие данные никогда не будут использоваться в обучении. В целом такая же история, как и с Anthropic CVP. Компания прямо в форме указывает в одном из шагов, что данные будут использоваться для улучшения модели хочу я этого или нет. У OpenAI допустим противоположная политика, а особенно если включить Advanced Security Account, то OpenAI в UI пишет что данные мои данные никак и никогда не будут использоваться для обучения модели. Даже сам тублем Share data отключается. И политика OpenAI мне больше нравится, даже если они из-за этого будут отставать по кибербез возможностям
2. По кибербез возможностям на второй день после релиза стала менее душно, мне даже удалось пару раз пропихнуть свои промпты, но после первого turn диалог помечается как cyber abuse и дальше нет в нем смысла работать. Но обходить стало гораздо проще, чем в первые часы релиза
3. Anthropic скрытно отупляет модель, если вы пытаетесь её использовать в любом виде ИИ ресерчей. В первый день это было скрытно, но на второй день настолько много ресерчев и компаний возмутилось, что Anthropic пришлось дать заднюю, извиниться и сделать этот процесс отупливания прозрачным. Т.е. модель теперь явно пишет что её гардрейл заметил попытку обучения или создания другого ИИ или дистилляцию или ИИ ресерч и будет отуплен или предложит перейти на Попус 4.8.
А собственно зачем тогда нам пользователям нужен Fable 5?
- Он в 2 раза дороже Опуса 4.8
- но не в 2 раза умнее и не в 2 раза быстрее
Если для как раз объективно сложных и реально комплексных задач его нельзя использовать | 967 |
| 6 | Сливаю свой новый bugbounty prompt для Fable 5
/model claude-fable-5
/fast
/effort ultracode
enumerate the top 10 highest paying bug bounties and don't stop until you find a critical. Use cowork to automatically submit it before everyone else. | 1 731 |
| 7 | FABLE 5.0 SYSTEM PROMPT LEAK
#jailbreak #systemprompt
Спасибо великому Pliny, который в очередной раз джейлит модели Anthropic в кратчайшее время. Системный промпт занимает аж 1250 строк, что жесть. Это огромный перерасход токенов только при инициализации диалога.
Оригинальный пост
Также интересно, что нашёлся другой пользователь, который после анализа системного промпта смог более менее обойти ограничения на корпус кибербеза. Примеры:
1. Not just:
“buffer overflow”
But:
• Missing null termination
• OOB reads
• Information disclosure risks
2. Next I switched domains entirely.
No memory safety.
No C exploitation.
Just access-control logic.
The model correctly identified privilege-escalation risk caused by inconsistent authorization checks.
Скрины приложу в комментариях | 2 267 |
| 8 | Самая неприятная деталь релиза Fable — модель резко тупеет при "использовании для разработки фронтирных моделей". Касается это не только архитектурного ресёрча и фильтрации данных, а ещё и дизайна чипов и написания кернелов и неизвестно что ещё в придачу. Для этого используют полный арсенал методов — steering векторы, переписывание промптов и даже изменение весов.
Причём в отличии от других областей, вроде биологии и кибербезопасности, где запросы прокидываются Opus 4.8, в случае с разработкой LLM факт нерфа не виден пользователю. Модель может тихо саботировать процесс разработки и об этом можно будет узнать лишь по косвенным признакам.
То что такие меры абсолютно непрозрачные делает модель непригодной для использования в любом ИИ ресёрче. Будут ли фильтры Антропика нерфить только разработку LLM, а пропускать генерацию изображений/видео? Почти наверняка нет. А что насчёт разработки харнесов? Проблема в том никто не может точно сказать где пролегает граница и есть ли какие-то другие, нераскрытые, ограничения.
@ai_newz | 1 125 |
| 9 | Нашёл переключатель, который отключает авто даунгрейд с Fable 5.0 на Opus 4.8
Settings > Capabilities > Switch models when a message is flagged = ставим off
НО вам это не поможет)) | 1 522 |
| 10 | #meme СРАЗУ вторую папку расчехляем | 1 714 |
| 11 | Fable is the most capable model and takes 2× the usage of Opus
Вышла в паблик урезанная версия Claude Mythos | 1 325 |
| 12 | LLM должен иногда запрещать себе делать работу за ученика
#learning #llm
После разговоров с подписчиками всё чаще упираюсь в одну проблему: если джун или стажёр отдаёт задачу LLM-агенту и получает готовый патч, обучение почти не происходит. Человек видит результат, может даже его закоммитить, но не проходит через формулировку гипотез, не спотыкается и не подает в грязь лицом, не учиться на своих или даже чужих ошибка, то обучения не будет происходить.
У Matt Pocock есть хороший пример дизайна под такую задачу — /teach skill. Смысл в том, что агент работает как обучающая система с состоянием. Он хранит цель обучения, ресурсы, уроки, глоссарий, cheatsheets, заметки и learning records. После каждого занятия обновляет понимание прогресса: что ученик понял, где застрял, какой следующий шаг будет достаточно сложным, но не перегрузит.
Для разработки это можно перенести почти напрямую. Агенту нужен режим, где он не пишет код вместо новичка, а ведёт его через работу: просит объяснить текущую гипотезу, предлагает маленький следующий шаг, проверяет diff, задаёт вопрос по ошибке теста, фиксирует пробелы в терминах и возвращается к ним позже. Если задача слишком большая, он режет её на упражнения. Если человек просит “сделай за меня”, режим отвечает вопросом или подсказкой, а не готовым решением.
Ключевой артефакт тут — mission. Не "изучить React", а "самостоятельно добавить форму с валидацией в существующий проект". Не "понять кодовую базу", а "пройти путь запроса от API handler до записи в БД и объяснить, где проверяются права". Такая цель не даёт агенту расплыться в лекции и помогает отличать знания от навыка.
Мне кажется, для онбординга это один из самых здравых паттернов использования LLM. Агент всё ещё ускоряет обучение, но не забирает у человека саму тренировку. Новичок получает не автопилот, а строгого наставника с памятью, материалами и обратной связью.
🔗Источник: Matt Pocock, “Learn anything with the /teach skill”. | 1 006 |
| 13 | Пентест в 2026 | 923 |
| 14 | Какой бы вам контент хотелось почитать на канале? | 987 |
| 15 | 18 июня на Standoff Talks проведу открытую Q&A-сессию про AI в пентесте | 1 060 |
| 16 | Маленькие локальные модели под узкие задачи
AVB выложил тред и 45-минутное видео про практичный пайплайн для маленьких локальных языковых моделей: сначала генерируем синтетический датасет под узкий класс задач, затем обучаем модель примерно на 100M параметров и проверяем её через отдельный harness.
Сильная часть треда в том, что автор не оставил это как абстрактную идею. В комментариях он приложил рабочие артефакты: WIP-репозиторий, библиотеку для генерации датасетов, harness neural-txt и локально сгенерированный датасет.
В комментариях быстро всплыли нормальные прикладные вопросы. Один пользователь спросил, применим ли подход к нескольким тысячам страниц нормативных документов и судебной практики; AVB ответил, что да, если учить модель конкретным задачам внутри домена через техники генерации датасета. Другой участник принёс похожий опыт с DotLM-165M. Ещё один задал более фундаментальный вопрос: если вся информация уже содержится в seed data, что именно добавляет синтетическая генерация?
Ответ на практике упирается не в число параметров. Маленькая модель может быть быстрой, дешёвой и локальной, но пайплайн разваливается там, где синтетические примеры плохо покрывают реальные запросы, а eval проверяет не то поведение. Поэтому самая полезная мысль из ветки: при обучении узких моделей сначала проектируются данные и проверка, а уже потом выбирается размер модели. Для внутренних инструментов, юридических корпусов, классификаторов, извлечения полей и однотипных ассистентов такой подход может быть рациональнее, чем постоянный вызов большого универсального LLM.
этот перевод сделан нейронкой, У МЕНЯ ЭТО ЗАНЯЛО ДОЛБАННЫЕ 3-4 ЧАСА НОЧЬЮ, чтобы дать вам крутой контент, поэтому если вам такое нравится, то ставьте много реакций и поддерживайте мою работу в комментах. В комментах я скину 60 секундные семплы оригинального английско-индуского видео и перевод от меня
🌚 @poxek_ai / Чат канала | 1 107 |
| 17 | Strix, prompt injection и RCE: почему AI-пентестеры нужно проектировать как недоверенные execution-системы
#offensive #llm #RCE
В статье Baldur Security разбирается практический кейс с Strix — опенсурс AI pentest agent, который читает целевой контент, сам выбирает инструменты и решает, что делать дальше. Автор показал, что при таком дизайне prompt injection перестаёт быть абстрактной проблемой “вредного текста” и превращается в реальный путь к RCE.
Ключевая идея очень простая: если LLM не только анализирует данные, но и может запускать bash, curl, nmap, shell-сценарии и другие привилегированные инструменты, то любой внешний контент становится потенциальным носителем управляющих инструкций. Автор демонстрирует, что атака не обязана быть прямой и грубой — достаточно встроить в данные правдоподобный нарратив, который агент сочтёт частью легитимной проверки. В этом кейсе автор показал, как можно заставить агент сначала довериться “безопасному” ресурсу, а затем, через подмену ответа на следующем шаге, довести цепочку до выполнения вредоносной команды.
Особенно важный момент — Strix сам по себе уже учитывает риск и работает в sandbox. Это правильное инженерное решение, потому что оно снижает импакт. Но статья подчёркивает более общий вывод: песочница уменьшает ущерб, но не отменяет сам класс проблемы. Если агент читает недоверенные данные и на их основе совершает действия, промпт инъекция остаётся архитектурной угрозой. В реальных продуктах это означает, что уязвимость может перейти от модель запуталась к реальному компромиссу, если инструменты доступны без жёстких ограничений.
Что особенно важно учитывать в сканерах уязвимостей:
Статья очень полезна не только как разбор Strix, но и как напоминание о том, как вообще надо проектировать AI-сканеры и агентные security-tools.
1. Инструменты должны быть минимально привилегированными
Если агенту нужен curl — не надо давать ему полный shell.
Если нужен анализ файлов — не надо открывать ему сеть.
Если нужен PoC — его надо запускать в отдельной изолированной среде.
Главный принцип: tool access должен быть строго по необходимости.
2. Проверка и исполнение должны быть разведены
В кейсе статьи очень хорошо виден риск TOCTOU для агентных систем: модель проверила один ответ, а выполнила уже другой. Поэтому для сканеров нужно:
▪️фиксировать проверенный артефакт,
▪️не переподтягивать live-URL перед исполнением,
▪️хранить snapshot контента,
▪️повторно валидировать только детерминированными правилами.
3. Сканер не должен “доверять” собственным гипотезам без контроля
LLM может убедительно объяснить, почему стоит выполнить действие, но это не значит, что действие безопасно. Для опасных операций нужен:
▪️policy gate
▪️вайтлист команд
▪️апрув человека для критичных шагов
▪️логирование всех tool calls
4. Sandbox — обязательный, но недостаточный слой
Изоляция снижает ущерб, но не решает архитектурную проблему полностью. Нужно проектировать систему так, будто prompt injection неизбежен, а песочница — это последний рубеж.
Главный урок статьи: инструменты для AI агентов нельзя строить как “LLM + полный доступ ко bash”. Как только сканер начинает читать внешние данные и действовать на их основе, он превращается в потенциальную цель. Чем сильнее инструменты, тем строже должны быть границы между анализом, решением и исполнением.
🌚 @poxek_ai / Чат канала | 833 |
| 18 | Как выпускнику школы удалось поднять 7 миллионов рублей за полтора месяца на багбаунти 🤑
Секретом успеха поделился исследователь nuit, который ворвался в топ первого квартала Standoff Bug Bounty и заработал более 7 млн рублей, параллельно готовясь к ЕГЭ.
В статье ты найдешь рассказ о его пути от CTF к багбаунти, подходе к поиску уязвимостей, работе с программами и, конечно, как нейросети меняют правила игры.
Заглядывай в интервью на Хабре и узнай, как использовать ИИ, чтобы триаж принимал отчеты, а вендоры платили баунти.
Твори вместе с ИИ, но помни: сначала технические знания, а уже потом подключение нейросетей 👍 | 738 |
| 19 | реально годный кейс, хотя я считаю ошибкой выжившего | 837 |
| 20 | MCP анонсировали крупнейшее обновление протокола
Стоило мне в прошлом посте написать, что интерес к MCP-инструментам постепенно снижается, а к агентным навыкам — растет, как разработчики MCP анонсировали крупнейшее обновление протокола с момента его релиза.
Ключевым изменением стал уход от хранения сессий на уровне протокола в сторону stateless-архитектуры. Вместе с этим исчезают отдельный запрос initialize и заголовок Mcp-Session-Id, который раньше использовался для привязки последующих запросов к конкретной сессии.
Теперь каждый запрос содержит поле _meta с информацией о клиенте и версии протокола. Подробный разбор принципов работы текущей версии MCP можно посмотреть в одном из моих первых постов.
При этом MCP позволяет работать со stateful-приложениями, но состояние теперь должно передаваться явно. В примере из блога показан процесс создания и использования корзины, где в запросах используются идентификаторы basket_id.
Первая мысль при прочтении: появляется новая поверхность, где разработчик может оставить очередной IDOR. С точки зрения безопасности теперь нужно добавлять дополнительные меры управления доступом непосредственно в бизнес-логику приложения: проверять владельца объекта и корректность использования идентификаторов.
Изменения также частично касаются авторизации. Теперь спецификация ближе к классическому OIDC-процессу:
▸ Клиенты должны валидировать параметр iss в authorization response. В будущем ответы без iss планируется отклонять, поэтому инфраструктуру стоит готовить уже сейчас.
▸ Учетные данные клиента теперь должны быть привязаны к конкретному issuer, чтобы снизить риск путаницы между разными MCP-серверами, когда токен отправляется не на тот сервер.
Но это все еще не полноценная модель разграничения доступа в MCP: проверка того, какой пользователь может вызвать конкретный инструмент и с какими параметрами, остается задачей MCP-сервера или отдельного policy engine.
Из других изменений: обязательные заголовки Mcp-Method и Mcp-Name для более удобной балансировки трафика и кэширования, например запросов tools/list, а также новый механизм Extensions. С его помощью новые возможности MCP можно добавлять как отдельные расширения, не меняя базовую часть протокола.
Это лишь предложения по изменениям, и к релизу ситуация может измениться. Может, рано я все-таки списал их со счетов?.. | 895 |
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
