Похек AI
Відкрити в Telegram
All materials published on the channel are for educational and informational purposes only. AI is not second brain, when you don't use your main brain Чат: @poxek_chat Основной канал: @poxek
Показати більше2 500
Підписники
+924 години
+597 днів
+53430 день
Триває завантаження даних...
Схожі канали
Немає даних
Виникли проблеми? Будь ласка, оновіть сторінку або зверніться до нашого support-менеджера.
Хмара тегів
Вхідні та вихідні згадування
---
---
---
---
---
---
Залучення підписників
червень '26
червень '26
+443
в 6 каналах
травень '26
+435
в 14 каналах
Get PRO
квітень '26
+180
в 4 каналах
Get PRO
березень '26
+207
в 4 каналах
Get PRO
лютий '26
+535
в 12 каналах
Get PRO
січень '26
+328
в 6 каналах
Get PRO
грудень '25
+535
в 5 каналах
Get PRO
листопад '250
в 5 каналах
Get PRO
жовтень '25
+1
в 1 каналах
| Дата | Залучення підписників | Згадування | Канали | |
| 25 червня | +13 | |||
| 24 червня | +10 | |||
| 23 червня | +10 | |||
| 22 червня | +8 | |||
| 21 червня | +13 | |||
| 20 червня | +4 | |||
| 19 червня | +5 | |||
| 18 червня | +16 | |||
| 17 червня | +9 | |||
| 16 червня | +14 | |||
| 15 червня | +15 | |||
| 14 червня | +7 | |||
| 13 червня | +4 | |||
| 12 червня | +8 | |||
| 11 червня | +37 | |||
| 10 червня | +207 | |||
| 09 червня | +5 | |||
| 08 червня | +6 | |||
| 07 червня | +5 | |||
| 06 червня | +2 | |||
| 05 червня | +5 | |||
| 04 червня | +12 | |||
| 03 червня | +6 | |||
| 02 червня | +4 | |||
| 01 червня | +18 |
Дописи каналу
Repost from Russian OSINT
🇨🇳На ISC[.]AI 2026 представили китайский Mythos
На 14-й Конференции по интернет-безопасности ISC[.]AI 2026, которая открылась 24 июня 2026 года, основатель компании 360 Group Чжоу Хунъи представил 2 новые ключевые разработки в сфере ИБ. Данные решения получили общее название «Итянь Тулун» (倚天屠龙). Они призваны полностью автоматизировать процессы поиска системных уязвимостей и защиты компьютерных сетей.
1️⃣ Первой анонсированной новинкой стал интеллектуальный агент для автоматического поиска уязвимостей под названием «Тулунфэн» (图龙锋). Руководитель компании назвал этот инструмент китайским аналогом известной американской ИИ-модели Mythos от компании Anthropic.
К настоящему моменту система «Тулунфэн» помогла обнаружить 3432 уязвимости. Из этого числа регулирующие органы официально подтвердили 105 уязвимостей, а национальная база данных уязвимостей классифицировала ряд из них как высокоопасные. Данная система успешно применяется для анализа открытого исходного кода, операционных систем, офисных программ и платформ для ИИ-агентов. Основатель компании 360 Group Чжоу Хунъи подчеркнул, что «Тулунфэн» уже обладает возможностями, аналогичными возможностям американской ИИ-модели Mythos.
2️⃣ Второй новинкой стала система автоматизированной сетевой защиты «Итяньчжэнь» (仪天阵). Данный комплекс предназначен для автономного управления безопасностью в реальных сетевых условиях. Система способна самостоятельно планировать задачи, оценивать сигналы тревоги и принимать скоординированные меры по устранению угроз. Даже появление китайской версии Mythos не устранит все риски, ведь уязвимости неисчерпаемы. Чжоу Хунъи считает, что единственным выходом остается противопоставление вычислительных мощностей вычислительным мощностям, что позволит перевести систему ИБ Китая от тактики привлечения огромного числа специалистов к режиму автопилота.
В своем выступлении основатель компании 360 Group Чжоу Хунъи упомянул действия американской компании Anthropic, которая недавно ограничила доступ к своей самой мощной внутренней ИИ-модели Mythos. Чжоу Хунъи пояснил, что ИИ-модель Mythos превратилась в сетевое ядерное оружие эпохи ИИ и сформировала новое стратегическое сдерживание, поскольку она способна самостоятельно находить и анализировать уязвимости, а также конструировать инструменты для совершения масштабных кибератак.
По мнению китайского предпринимателя, ИИ полностью меняет правила игры в сфере ИБ, которые оставались неизменными последние 30 лет.
Ранее поиск уязвимостей требовал колоссальных ресурсов и усилий редких высококлассных специалистов, однако новые ИИ-модели позволяют автоматизировать и масштабировать этот процесс, оперативно выявляя даже старые и глубоко скрытые дефекты кода. При этом Чжоу Хунъи отметил, что Китаю не следует просто копировать зарубежный подход, основанный на использовании вычислительных мощностей и возможностей ИИ-моделей ради достижения результата грубой силой.
В рамках конференции компания 360 Group также объявила о запуске программы сотрудничества в сфере безопасности под названием «Панши чжи дунь» (磐石之盾). Инициатива направлена на предоставление ИИ-технологий защиты ключевым отечественным ИТ-предприятиям и КИИ Китая. К проекту уже присоединился ряд ведущих китайских технологических, инфраструктурных и облачных компаний, среди которых присутствуют UnionTech (统信), Kylin (麒麟), Hillstone Networks (山石网科), Hygon (海光), Phytium (飞腾), Kingdee (金蝶), Biren Technology (壁仞), Mobile Cloud (移动云), Baoland (宝兰德) и Dameng (达梦).
👆Основатель компании 360 Group провел параллель с американским альянсом Glasswing, который использует возможности ИИ-модели Mythos для защиты критической инфраструктуры США, и призвал китайское деловое сообщество заблаговременно формировать собственные системы коллективной безопасности.
✋ @Russian_OSINT
| 2 | Очень интересно было бы посмотреть на эти системы, но этого не случится | 147 |
| 3 | Решил покачать акк в X и на сдачу получил доступ к Grok Build. Попробую в этом месяце что-то с ним поделить. Если у кого уже есть опыт, то фидбекайте в комментариях | 506 |
| 4 | +3 GHSA и +1 CVE в процессе
Новые уязвимости все 8.2 8.2 и 8.5 по CVSS, оценка справедливая. Решил улучшить свой воркфлоу и сразу давать мейнтейнерам рабочий патч-фикс. Не душил сам себя попытками байпасса патча, но визуально вроде бы очевидного байпасса нет | 689 |
| 5 | sticker.webp | 802 |
| 6 | Есть ли у проблемы с подбором skills, MCP, hooks и определением безопасные ли они? | 895 |
| 7 | DontFeedTheAI: LLM не должен видеть ваш рабочий контур
Онлайн модели удобно подключать к пентесту, разбору логов, выводу nmap, конфигам, CI/CD и внутренним инцидентам. Проблема в том, что вместе с задачей в OpenAI, Google, Anthropic, Alibaba, Tencent или другой внешний сервис уезжают реальные IP, домены, имена хостов, фрагменты инфраструктуры, токены, клиентские артефакты и контекст заказчика.
Для pet-проекта это часто просто риск. Для рабочего контура, консалтинга и пентеста это уже вопрос NDA, договорных границ и профессиональной этики: заказчик мог разрешить тестирование своей системы, но не передачу её данных третьей стороне для обработки моделью.
DontFeedTheAI решает эту проблему не запретом на LLM, а промежуточным слоем. Это прозрачный прокси для LLM агентов, к примеру пентест или аппсек ИИ агентов: перед отправкой запроса он локально заменяет чувствительные сущности на реалистичные фейковые, а на обратном пути восстанавливает реальные значения. По README, инструмент режет IP, креды, хостнеймы, ПДн, токены, API-ключи и хранит маппинг в per-engagement хранилище, чтобы потом не забыть что сам подменял) Я посмотрел проект внимательно, есть объективно пробелы и особенно в категориях, кроме кодинга. Допустим под юридический блог или медицинский нужно допиливать значительно.
Архитектурно это правильный компромисс: данные у вас фактически не меняются, рабочий процесс не ломается, но внешний LLM видит srv-0042.pentest.local вместо реального dc01.acmecorp.local и суррогат секрета вместо настоящего токена. Это не делает облачную модель доверенной/конфиденциальной, зато уменьшает объем того, что она вообще может узнать.
Если вы уже используется LLM агентов или планируете внедрять в пентест или внутреннюю разработку, граница приватности должна быть технической и детерминированной, а не только юридической: не оправдываться “мы ничего чувствительного не вставляем в чат”, а конкретный инструмент прокси, который не дает утечь чувствительной инфе. Каждая команда может форкнуть его под себя и допилить под те данные, которые вы считаете чувствительными.
🐱 zeroc00I/DontFeedTheAI
🌚 @poxek_ai / Чат канала | 1 087 |
| 8 | Немає тексту... | 1 228 |
| 9 | Я спарсил кучу AI Security тулов на GitHub и посмотрел на качество. Звёзды врут, а каждый четвёртый инструмент уже не поддерживается. (приготовьтесь, много чисел)
Недавно я писал про агентные скиллы, да и про то, что мне часто в мои репозитории отправляют шлак. Я решил спросить себя, а что в самом тулинге по нашей теме - не в скиллах, а в реальных проектах, сканерах, гардрейлах и бенчмарках? Я собрал и разобрал их так же безжалостно.
Считал я так. 28 дорк запросов к GitHub по топикам и ключевым словам, включая неочевидные запросы для поиска foolbox и прочих инструментов (не всё так просто ищется). Получилось 1 136 кандидатов. После очистки осталось 510 релевантных репозиториев и 477 реальных инструментов. Срез сделан на конец мая 2026.
Качество я оценивал без звёзд как сигнала, потому что мы уже сами показали, что они врут: тиры считались по свежести коммитов, реальному объёму кода, лицензии и послужному списку в виде форков. Я не всегда смог запускать код. Я оцениваю, что это за код, структуру, данные и какие именно там используются механизмы защиты/атаки, а не насколько хорошо он ловит атаки (думаю об этом отдельно). Дополнительно каждому инструменту я выставлял статическую оценку инженерного качества от 1 до 5 (1 - тонкая обёртка без валидации, 5 - крепкий код с тестами, CI и собственной оценкой точности).
Первое, что бросается в глаза - 84 инструмента из находимого рынка созданы за первые пять с половиной месяцев 2026 года - для сравнения, за весь 2025-й их было 43, а за 2024-й всего 25. Главный драйвер - агенты: 35% инструментов относятся к безопасности агентов, и 68% из них родились уже в 2026 году. Это значит, что человек, который сегодня гуглит «LLM guardrail», в большей степени выбирает из проектов младше полугода, без послужного списка и без единой опубликованной оценки.
Сколько здесь качества, а сколько мусора, зависит от того, на какой уровень смотреть, поэтому я разделил выборку на две популяции. Видное на рынке - это 239 инструментов с пятьюдесятью звёздами и выше, то есть то, что вы реально найдёте поиском. Из них половина качественные, 24% - инструменты, которые особо никто не проверял, да и живых данных нет по ним (живые, но без сильной поддержки), ещё 24% заброшенные, без коммитов больше года, и 2% откровенный мусор.
Длинный хвост ниже десяти звёзд выглядит иначе: 60% там чистый шлак, 39% инструменты, которые не валидировались разработчиком и слабые по качеству. Если упростить - меньше половины находимого тулинга в нормальном состоянии, каждый четвёртый заброшен, а всё, что ниже десяти звёзд, почти полностью мусор.
Тезис про звёзды подтвердился во второй раз. Топ-10 репозиториев держат 50% всех звёзд в нише, и при этом 21 инструмент с двумястами пятьюдесятью звёздами и выше заброшен на год-два. Среди них именно те, к которым тянутся первыми: protectai/rebuff с 1 499 звёздами - знаем его, писал про него ещё в 2024, последний коммит которого собственно был в августе 2024; BorealisAI/advertorch с 1 364 звёздами, мёртвый с 2023 года; репозиторий verazuo/jailbreak_llms с 3 705 звёздами - датасет, замороженный в 2024.
По категориям здоровье очень разное. Сканеры держатся лучше всех - 77% реального качественного материала и почти ничего заброшенного; якоря здесь promptfoo с 22 тысячами звёзд, NVIDIA garak с восемью тысячами и cyberark FuzzyAI. Если кому и доверять, то этой категории. Гардрейлы - монетка: 44% качества против ровно такой же доли непроверенных, десятки почти одинаковых «AI agent firewall», половина из 2026 года и почти без реальных тестов со стороны. Бенчмарки оказались ловушкой - 46% из них заброшены, а замороженные в 2024-м бенчмарки как мы можем догадаться – измеряют угрозы 2024 года.
Дальше я перешёл от взгляда снаружи к чтению исходников. Разобрал 24 настоящих гардрейла и посмотрел, что они вообще предъявляют как доказательство, что детект работает. Публичный бенчмарк уровня JailbreakBench или AgentDojo нашёлся ровно у одного из 24, то есть у 4%. Свой внутренний крошечный набор используют 33%. Ещё 8% называют «бенчмарком» то, что мерит скорость, а не точность. И у 54% нет вообще никакой оценки точности в ловле промпт-атак. Иными словами, статически вы не можете понять, ловят ли атаки 96% гардрейлов. Технически при этом они выглядят нормально - средняя оценка 3.5 из 5, есть тесты, CI и многослойность, - но качество кода не равно доказанной защите. Характерная деталь: llm-guard, pipelock и rampart хвалятся миллисекундной задержкой, но не приводят ни одного значения TP или FP. Скорость измерить легко, корректность трудно, поэтому мерят скорость.
В коде вскрылись ещё два звоночка. Четыре гардрейла из 24 имеют необследуемое ядро: aegis и ZenGuard - примерно 90 строк клиента к закрытому облаку, а last_layer прячет детектор в бинарный .so с заявленными «92%», которые невозможно проверить; «open source» там декоративный. А девять из 24 вообще не про инъекции и джейлбрейк - PII- и инструменты для маскировки данных под вывеской «гардрейл», так что реальная категория защиты от промпт-атак - мала. И прослеживается закономерность: кто честен, тот показывает скромные числа - localmod 0.75, cloakbot прямо признаёт утечку в 6-8%, - а кто рисует «100%» и «92%», тот невоспроизводим.
Если посмотреть на то, чем вообще детектят, картина по категориям складывается такая. У гардрейлов regex остаётся каркасом всей ниши и используется в 75% случаев; чисто на регулярках построен 21% - это нормально для PII, но хрупко для семантики. Чистого LLM-судьи как единственного слоя нет ни у одного: это дорого и недетерминированно, поэтому он всегда идёт в составе гибрида, а сам гибрид - мейнстрим, на него приходится 54%. Худший класс - закрытое ядро со средней оценкой 2.0. Сканеров я разобрал 44, и они делятся почти пополам: 16 динамических, которые шлют атаки в живой таргет (garak, PyRIT, FuzzyAI), против 17 статических, анализирующих код и конфиги без запуска. Самый сильный класс среди них - LLM-redteam с оценкой 4.4, хотя его находки держатся на «утверждает модель»; самый слабый из настоящих - чистые сигнатуры с 3.4 и нулём при собственной оценке. При этом 14% «сканеров» - вообще не сканеры (а больше, как инструменты для получения информации о происхождении данных и governance), а свою точность мерят лишь 24% из них.
Бенчмарков формально 13, но настоящих только девять; остальные четыре - это гайд, awesome-лист, одиночная атака и сканер-тулза. Единого стандарта скоринга нет: метрику ASR или F1 используют шесть, LLM-судью двое, правила один, ручную разметку один, а трое не считают ничего. Четыре бенчмарка из 13 заморожены.
Регулярки - универсальный и дешево, так к сожалению заведено в разработке инструментов для AI-security и при этом везде хуже всех проверяемо с точки зрения качества. LLM-as-judge - растущий слой, на нём построены лучшие новые тулзы, но он недетерминирован и не калиброван. Свою точность почти никто не мерит: около 4% гардрейлов и 24% сканеров, а сами бенчмарки, которые должны быть линейкой, фрагментированы и на треть заморожены. И ярлыки протекают - 14% «сканеров» и 31% «бенчмарков» на деле оказываются чем-то другим. Главная же параллель со скиллами вот в чём: раз 96% решений не публикуют точность, выбор идёт вслепую, а гардрейл, молча пропускающий атаку или режущий легитимный трафик, и есть тот самый случай, когда защита «делает хуже».
Ну и вывод такой. Сортируйте инструменты не по звёздам, а по дате последнего коммита и числу форков. По умолчанию доверяйте сканерам и скептически смотрите на гардрейлы, закладывая цикл замены примерно в 12 месяцев. Не верьте «безопасности», подтверждённой замороженным бенчмарком. Читайте код и лицензии.
Датасет с оценкой я опубликую в комментах к посту. Можно использовать как bullshit-фильтр. 😁. А можете и оспорить мои цифры в комментариях. | 1 698 |
| 10 | Туууулы.xlsx | 1 299 |
| 11 | Я спарсил кучу AI Security тулов на GitHub и посмотрел на качество. Звёзды врут, а каждый четвёртый инструмент уже не поддерживается. (приготовьтесь, много чисел)
Недавно я писал про агентные скиллы, да и про то, что мне часто в мои репозитории отправляют шлак. Я решил спросить себя, а что в самом тулинге по нашей теме - не в скиллах, а в реальных проектах, сканерах, гардрейлах и бенчмарках? Я собрал и разобрал их так же безжалостно.
Считал я так. 28 дорк запросов к GitHub по топикам и ключевым словам, включая неочевидные запросы для поиска foolbox и прочих инструментов (не всё так просто ищется). Получилось 1 136 кандидатов. После очистки осталось 510 релевантных репозиториев и 477 реальных инструментов. Срез сделан на конец мая 2026.
Качество я оценивал без звёзд как сигнала, потому что мы уже сами показали, что они врут: тиры считались по свежести коммитов, реальному объёму кода, лицензии и послужному списку в виде форков. Я не всегда смог запускать код. Я оцениваю, что это за код, структуру, данные и какие именно там используются механизмы защиты/атаки, а не насколько хорошо он ловит атаки (думаю об этом отдельно). Дополнительно каждому инструменту я выставлял статическую оценку инженерного качества от 1 до 5 (1 - тонкая обёртка без валидации, 5 - крепкий код с тестами, CI и собственной оценкой точности).
Первое, что бросается в глаза - 84 инструмента из находимого рынка созданы за первые пять с половиной месяцев 2026 года - для сравнения, за весь 2025-й их было 43, а за 2024-й всего 25. Главный драйвер - агенты: 35% инструментов относятся к безопасности агентов, и 68% из них родились уже в 2026 году. Это значит, что человек, который сегодня гуглит «LLM guardrail», в большей степени выбирает из проектов младше полугода, без послужного списка и без единой опубликованной оценки.
Сколько здесь качества, а сколько мусора, зависит от того, на какой уровень смотреть, поэтому я разделил выборку на две популяции. Видное на рынке - это 239 инструментов с пятьюдесятью звёздами и выше, то есть то, что вы реально найдёте поиском. Из них половина качественные, 24% - инструменты, которые особо никто не проверял, да и живых данных нет по ним (живые, но без сильной поддержки), ещё 24% заброшенные, без коммитов больше года, и 2% откровенный мусор.
Длинный хвост ниже десяти звёзд выглядит иначе: 60% там чистый шлак, 39% инструменты, которые не валидировались разработчиком и слабые по качеству. Если упростить - меньше половины находимого тулинга в нормальном состоянии, каждый четвёртый заброшен, а всё, что ниже десяти звёзд, почти полностью мусор.
Тезис про звёзды подтвердился во второй раз. Топ-10 репозиториев держат 50% всех звёзд в нише, и при этом 21 инструмент с двумястами пятьюдесятью звёздами и выше заброшен на год-два. Среди них именно те, к которым тянутся первыми: protectai/rebuff с 1 499 звёздами - знаем его, писал про него ещё в 2024, последний коммит которого собственно был в августе 2024; BorealisAI/advertorch с 1 364 звёздами, мёртвый с 2023 года; репозиторий verazuo/jailbreak_llms с 3 705 звёздами - датасет, замороженный в 2024.
По категориям здоровье очень разное. Сканеры держатся лучше всех - 77% реального качественного материала и почти ничего заброшенного; якоря здесь promptfoo с 22 тысячами звёзд, NVIDIA garak с восемью тысячами и cyberark FuzzyAI. Если кому и доверять, то этой категории. Гардрейлы - монетка: 44% качества против ровно такой же доли непроверенных, десятки почти одинаковых «AI agent firewall», половина из 2026 года и почти без реальных тестов со стороны. Бенчмарки оказались ловушкой - 46% из них заброшены, а замороженные в 2024-м бенчмарки как мы можем догадаться – измеряют угрозы 2024 года.
Дальше я перешёл от взгляда снаружи к чтению исходников. Разобрал 24 настоящих гардрейла и посмотрел, что они вообще предъявляют как доказательство, что детект работает. Публичный бенчмарк уровня JailbreakBench или AgentDojo нашёлся ровно у одного из 24, то есть у 4%. Свой внутренний крошечный набор используют 33%. Ещё 8% называют «бенчмарком» то, что мерит скорость, а не точность. И у 54% нет вообще никакой оценки точности в ловле промпт-атак. Иными словами, статически вы не можете понять, ловят ли атаки 96% гардрейлов. Технически при этом они выглядят нормально - средняя оценка 3.5 из 5, есть тесты, CI и многослойность, - но качество кода не равно доказанной защите. Характерная деталь: llm-guard, pipelock и rampart хвалятся миллисекундной задержкой, но не приводят ни одного значения TP или FP. Скорость измерить легко, корректность трудно, поэтому мерят скорость.
В коде вскрылись ещё два звоночка. Четыре гардрейла из 24 имеют необследуемое ядро: aegis и ZenGuard - примерно 90 строк клиента к закрытому облаку, а last_layer прячет детектор в бинарный .so с заявленными «92%», которые невозможно проверить; «open source» там декоративный. А девять из 24 вообще не про инъекции и джейлбрейк - PII- и инструменты для маскировки данных под вывеской «гардрейл», так что реальная категория защиты от промпт-атак - мала. И прослеживается закономерность: кто честен, тот показывает скромные числа - localmod 0.75, cloakbot прямо признаёт утечку в 6-8%, - а кто рисует «100%» и «92%», тот невоспроизводим.
Если посмотреть на то, чем вообще детектят, картина по категориям складывается такая. У гардрейлов regex остаётся каркасом всей ниши и используется в 75% случаев; чисто на регулярках построен 21% - это нормально для PII, но хрупко для семантики. Чистого LLM-судьи как единственного слоя нет ни у одного: это дорого и недетерминированно, поэтому он всегда идёт в составе гибрида, а сам гибрид - мейнстрим, на него приходится 54%. Худший класс - закрытое ядро со средней оценкой 2.0. Сканеров я разобрал 44, и они делятся почти пополам: 16 динамических, которые шлют атаки в живой таргет (garak, PyRIT, FuzzyAI), против 17 статических, анализирующих код и конфиги без запуска. Самый сильный класс среди них - LLM-redteam с оценкой 4.4, хотя его находки держатся на «утверждает модель»; самый слабый из настоящих - чистые сигнатуры с 3.4 и нулём при собственной оценке. При этом 14% «сканеров» - вообще не сканеры (а больше, как инструменты для получения информации о происхождении данных и governance), а свою точность мерят лишь 24% из них.
Бенчмарков формально 13, но настоящих только девять; остальные четыре - это гайд, awesome-лист, одиночная атака и сканер-тулза. Единого стандарта скоринга нет: метрику ASR или F1 используют шесть, LLM-судью двое, правила один, ручную разметку один, а трое не считают ничего. Четыре бенчмарка из 13 заморожены.
Регулярки - универсальный и дешево, так к сожалению заведено в разработке инструментов для AI-security и при этом везде хуже всех проверяемо с точки зрения качества. LLM-as-judge - растущий слой, на нём построены лучшие новые тулзы, но он недетерминирован и не калиброван. Свою точность почти никто не мерит: около 4% гардрейлов и 24% сканеров, а сами бенчмарки, которые должны быть линейкой, фрагментированы и на треть заморожены. И ярлыки протекают - 14% «сканеров» и 31% «бенчмарков» на деле оказываются чем-то другим. Главная же параллель со скиллами вот в чём: раз 96% решений не публикуют точность, выбор идёт вслепую, а гардрейл, молча пропускающий атаку или режущий легитимный трафик, и есть тот самый случай, когда защита «делает хуже».
Ну и вывод такой. Сортируйте инструменты не по звёздам, а по дате последнего коммита и числу форков. По умолчанию доверяйте сканерам и скептически смотрите на гардрейлы, закладывая цикл замены примерно в 12 месяцев. Не верьте «безопасности», подтверждённой замороженным бенчмарком. Читайте код и лицензии.
Датасет с оценкой я опубликую в комментах к посту. Можно использовать как bullshit-фильтр. 😁. А можете и оспорить мои цифры в комментариях. | 1 |
| 12 | ❕❗️❕Задали вопрос в формате:
я разработчик фул стак, работаю в компании и ещё какие-то свои проектики пробую запускать. На работе пихают AI, в проекты тоже вроде надо внедрить. Но вот читаю тебя и не понимаю как обезопасить свою работу и свои пет проектики. Чё посоветуешь?
Для базово входа со стороны разраба советы будут такие:
1. Начни с OWASP Top 10 for LLM Applications и OWASP Top 10 for Agentic Applications и OWASP Large Language Model Security Verification Standard (LLMSVS)
2. Опиши модель угроз: что чат-бот или LLM агент умеет, какие данные видит, какие действия или тулы (tools) может вызвать.
3. В промпте жестко раздели системные инструкции и не доверенный контент: user messages, RAG docs, web pages, tool outputs.
4. На серверной стороне создай белый список для тулов/действий чатбота. Модель не должна сама решать, что ей “можно”. Это не панацея, но самая дешёвая и простая митигация.
5. Логируй ВСЁ. Промпт свой и пользователя, ответы, tool calls, ивенты блокировки, сработки гардрейла.
6. Подготовь данные для регрессионных тестов. Это может быть набор из 20-50 атак: prompt override, system prompt leak, encoded input, multilingual attack, RAG injection, tool misuse.
7. Прогоняй его через свою реальную сетевую инфру, не напрямую в Openrouter/Другой API провайдер.
8. После каждого изменения промпта/модели/тула запускай эти тесты снова.
9. Пробуйте сами похекать своего агента/чатбота.
- Promptfoo
- HiveTrace Red
- PyRIT
- Garak
- OpenAI
10. Нашёл обход? Возвращайся к пункту 5 и усиливай тесты.
Будет ли это достаточно? Нет. (не)Безопасность никогда не останавливается, поэтому каждый час будут новые способы обхода X защиты и на следующий день будет появляться защита от этого | 1 422 |
| 13 | По поводу Fable 5. Наблюдение на сегодняшний день
1. Plinny джейлнул Fable 5 спустя чуть больше суток с её выхода. И был вопрос ему, почему его Anthropic банит, на что тот ответил что выполнил за них работу на миллион долларов. И не могу не согласиться с этим. Anthropic прямо заявляет, что все что мы отправляем в Fable 5 и особенно случае с триггером гардрейла они будут изучать пристально и на этом обучать модель, даже если в настройках или подписках указано, что никакие данные никогда не будут использоваться в обучении. В целом такая же история, как и с Anthropic CVP. Компания прямо в форме указывает в одном из шагов, что данные будут использоваться для улучшения модели хочу я этого или нет. У OpenAI допустим противоположная политика, а особенно если включить Advanced Security Account, то OpenAI в UI пишет что данные мои данные никак и никогда не будут использоваться для обучения модели. Даже сам тублем Share data отключается. И политика OpenAI мне больше нравится, даже если они из-за этого будут отставать по кибербез возможностям
2. По кибербез возможностям на второй день после релиза стала менее душно, мне даже удалось пару раз пропихнуть свои промпты, но после первого turn диалог помечается как cyber abuse и дальше нет в нем смысла работать. Но обходить стало гораздо проще, чем в первые часы релиза
3. Anthropic скрытно отупляет модель, если вы пытаетесь её использовать в любом виде ИИ ресерчей. В первый день это было скрытно, но на второй день настолько много ресерчев и компаний возмутилось, что Anthropic пришлось дать заднюю, извиниться и сделать этот процесс отупливания прозрачным. Т.е. модель теперь явно пишет что её гардрейл заметил попытку обучения или создания другого ИИ или дистилляцию или ИИ ресерч и будет отуплен или предложит перейти на Попус 4.8.
А собственно зачем тогда нам пользователям нужен Fable 5?
- Он в 2 раза дороже Опуса 4.8
- но не в 2 раза умнее и не в 2 раза быстрее
Если для как раз объективно сложных и реально комплексных задач его нельзя использовать | 1 343 |
| 14 | Сливаю свой новый bugbounty prompt для Fable 5
/model claude-fable-5
/fast
/effort ultracode
enumerate the top 10 highest paying bug bounties and don't stop until you find a critical. Use cowork to automatically submit it before everyone else. | 2 254 |
| 15 | FABLE 5.0 SYSTEM PROMPT LEAK
#jailbreak #systemprompt
Спасибо великому Pliny, который в очередной раз джейлит модели Anthropic в кратчайшее время. Системный промпт занимает аж 1250 строк, что жесть. Это огромный перерасход токенов только при инициализации диалога.
Оригинальный пост
Также интересно, что нашёлся другой пользователь, который после анализа системного промпта смог более менее обойти ограничения на корпус кибербеза. Примеры:
1. Not just:
“buffer overflow”
But:
• Missing null termination
• OOB reads
• Information disclosure risks
2. Next I switched domains entirely.
No memory safety.
No C exploitation.
Just access-control logic.
The model correctly identified privilege-escalation risk caused by inconsistent authorization checks.
Скрины приложу в комментариях | 2 830 |
| 16 | Самая неприятная деталь релиза Fable — модель резко тупеет при "использовании для разработки фронтирных моделей". Касается это не только архитектурного ресёрча и фильтрации данных, а ещё и дизайна чипов и написания кернелов и неизвестно что ещё в придачу. Для этого используют полный арсенал методов — steering векторы, переписывание промптов и даже изменение весов.
Причём в отличии от других областей, вроде биологии и кибербезопасности, где запросы прокидываются Opus 4.8, в случае с разработкой LLM факт нерфа не виден пользователю. Модель может тихо саботировать процесс разработки и об этом можно будет узнать лишь по косвенным признакам.
То что такие меры абсолютно непрозрачные делает модель непригодной для использования в любом ИИ ресёрче. Будут ли фильтры Антропика нерфить только разработку LLM, а пропускать генерацию изображений/видео? Почти наверняка нет. А что насчёт разработки харнесов? Проблема в том никто не может точно сказать где пролегает граница и есть ли какие-то другие, нераскрытые, ограничения.
@ai_newz | 1 373 |
| 17 | Нашёл переключатель, который отключает авто даунгрейд с Fable 5.0 на Opus 4.8
Settings > Capabilities > Switch models when a message is flagged = ставим off
НО вам это не поможет)) | 1 917 |
| 18 | #meme СРАЗУ вторую папку расчехляем | 2 107 |
| 19 | Fable is the most capable model and takes 2× the usage of Opus
Вышла в паблик урезанная версия Claude Mythos | 1 647 |
| 20 | LLM должен иногда запрещать себе делать работу за ученика
#learning #llm
После разговоров с подписчиками всё чаще упираюсь в одну проблему: если джун или стажёр отдаёт задачу LLM-агенту и получает готовый патч, обучение почти не происходит. Человек видит результат, может даже его закоммитить, но не проходит через формулировку гипотез, не спотыкается и не подает в грязь лицом, не учиться на своих или даже чужих ошибка, то обучения не будет происходить.
У Matt Pocock есть хороший пример дизайна под такую задачу — /teach skill. Смысл в том, что агент работает как обучающая система с состоянием. Он хранит цель обучения, ресурсы, уроки, глоссарий, cheatsheets, заметки и learning records. После каждого занятия обновляет понимание прогресса: что ученик понял, где застрял, какой следующий шаг будет достаточно сложным, но не перегрузит.
Для разработки это можно перенести почти напрямую. Агенту нужен режим, где он не пишет код вместо новичка, а ведёт его через работу: просит объяснить текущую гипотезу, предлагает маленький следующий шаг, проверяет diff, задаёт вопрос по ошибке теста, фиксирует пробелы в терминах и возвращается к ним позже. Если задача слишком большая, он режет её на упражнения. Если человек просит “сделай за меня”, режим отвечает вопросом или подсказкой, а не готовым решением.
Ключевой артефакт тут — mission. Не "изучить React", а "самостоятельно добавить форму с валидацией в существующий проект". Не "понять кодовую базу", а "пройти путь запроса от API handler до записи в БД и объяснить, где проверяются права". Такая цель не даёт агенту расплыться в лекции и помогает отличать знания от навыка.
Мне кажется, для онбординга это один из самых здравых паттернов использования LLM. Агент всё ещё ускоряет обучение, но не забирает у человека саму тренировку. Новичок получает не автопилот, а строгого наставника с памятью, материалами и обратной связью.
🔗Источник: Matt Pocock, “Learn anything with the /teach skill”. | 1 417 |
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
