ch
Feedback
False Positive

False Positive

前往频道在 Telegram
963
订阅者
无数据24 小时
+107
+5630

数据加载中...

吸引订阅者
七月 '26
七月 '260
在0个频道中
六月 '26
+53
在4个频道中
Get PRO
五月 '26
+206
在7个频道中
Get PRO
四月 '26
+231
在3个频道中
Get PRO
三月 '26
+43
在0个频道中
Get PRO
二月 '26
+22
在0个频道中
Get PRO
一月 '26
+2
在0个频道中
Get PRO
十二月 '25
+18
在1个频道中
Get PRO
十一月 '25
+46
在0个频道中
Get PRO
十月 '25
+232
在1个频道中
Get PRO
九月 '250
在0个频道中
Get PRO
八月 '250
在0个频道中
Get PRO
七月 '25
+172
在3个频道中
日期
订阅者增长
提及
频道
01 七月0
频道帖子
Мы начинаем)

2
Привет! На грядущей РГ снова поговорим про бенчмарки. На этот раз про оценку безопасности кода, который пишут LLM и всеми люб
Привет! На грядущей РГ снова поговорим про бенчмарки. На этот раз про оценку безопасности кода, который пишут LLM и всеми любимые coding-агенты. Залезем под капот SecCodeBench-V2 от компании Alibaba и выясним: - как устроены задачи и их автоматическая оценка через песочницу, - зачем бенчмарку понадобился подход LLM-as-a-judge, - насколько честно сравнивать модели по итоговому скору, - попрепарируем датасет руками: несостыковки, баги и недочеты, - а также покажем замеры качества на тройке-другой open-source моделей. А еще попытаемся ответить на вопрос, можно ли доверять бенчмарку, который разработчик модели сделал для оценки собственной модели?) Встречаемся как обычно в пятницу в 15:00 по МСК. Link #reading_group #benchmark
579
3
На DevFest 2026 Игорь Кабанов рассказал о том, как мы строили MLOps для системы детектирования вредоносного HTTP-трафика. Осн
На DevFest 2026 Игорь Кабанов рассказал о том, как мы строили MLOps для системы детектирования вредоносного HTTP-трафика. Основная сложность проекта заключалась в том, что решение работает у клиентов on-premise. Это означает, что данные есть, телеметрия есть, а вот прямого доступа к самим данным, на которых будет работать готовая модель, нет. При этом модель нужно регулярно улучшать, контролировать качество детекта и держать под контролем ложные срабатывания. Основные поинты: • ETL для сбора и организации данных из множества источников; • поставка модели в кастомном ONNX с вшитым версионированием; • silent-режим - телеметрия без блокировки; • непрерывный мониторинг нескольких версий моделей одновременно; • анализ ложных срабатываний и процессы переразметки данных совместно с экспертами по кибербезопасности; В докладе описывается, как нам удалось выстроить вокруг этого полноценный MLOps-контур: от данных и обучения до мониторинга, анализа ошибок и безопасной поставки новых версий моделей. Запись доклада
497
4
Тех.репорт по модели MOLOT уже на arxiv 🔥 Мы выпустили MOLOT - трансформер для обнаружения вредоносного кода. Модель вошла в
Тех.репорт по модели MOLOT уже на arxiv 🔥 Мы выпустили MOLOT - трансформер для обнаружения вредоносного кода. Модель вошла в состав релиза 6.0 PT AI, а значит пора делиться техническими подробностями с вами! Полный набор: - arxiv - блог-пост - бенчмарк Для тех, кому нужен gonzo-обзор: ➡️ Поддержка топ-языков для веба: js/ts/py ➡️ До 40% меньше False Positive и F1 на 15% выше чем у open source инструментов ➡️ Ключевые улучшения: нашли и исключили data leakage по файловым названиям из оригинального подхода CEREBRO, расширили цепочку объявлениями литералов и padding активностями ➡️ 90% согласованности с экспертами по вредоносным строкам с помощью перехода к классификации файлов на LLM разметке и кастомный SHAP анализ ➡️ CPU инференс, квартал тестирования внутри контура компании с 90% Precision ➡️ Открытый бенчмарк для подтверждения результатов
2 323
5
Распиаренный WormGPT оказался Mistral-7B с RAG и почему кроме shadow it теперь стоит рассматривать и shadow AI в обзоре от наших аналитиков. https://habr.com/ru/companies/pt/articles/1044158/
781
6
Grafana Dashboard для анализа задач Airflow Когда мы начали искать готовое решение для мониторинга и анализа задач Airflow, в
Grafana Dashboard для анализа задач Airflow Когда мы начали искать готовое решение для мониторинга и анализа задач Airflow, выяснилось, что большинство популярных дашбордов на GitHub либо давно не обновлялись, либо покрывают только базовые инфраструктурные метрики. Поэтому мы сделали собственный Grafana dashboard для Airflow, который помогает быстро понять, что происходит с DAG'ами и задачами. С его помощью можно: • Находить самые медленные задачи и DAG'и • Выявлять нестабильные задачи с ошибками и ретраями • Смотреть распределение по операторам и воркерам * Исследовать историю запусков дагов и задач Установка: 1. Скачайте JSON-файл дашборда из репозитория 2. В Grafana откройте Dashboards → New → Import. 3. Импортируйте JSON и выберите PostgreSQL datasource, подключенный к metadata database Airflow. Будем рады issue, pull request'ам и идеям по улучшению=)
834
7
Помните кейс LiteLLM? Мы дропаем OMCBench (Open Malicious-Code Benchmark) - бенчмарк оценки качества по обнаружению вредоносн
Помните кейс LiteLLM? Мы дропаем OMCBench (Open Malicious-Code Benchmark) - бенчмарк оценки качества по обнаружению вредоносного кода: - 3 языка: Python, JavaScript, TypeScript - 400 вредоносных пакетов, 400 чистых из pypi/npm - пофайловая LLM разметка, о которой говорили на OFFZONE прошлым летом - Открытая лицензия, BSD-2 Открытые решения на нем набирают не больше 75% F1, выдавая ~50% False Positive результатов... Те, кто уже нажал звездочку на гитхабе, могли заметить, что в таблице мы также анонсим MOLOT - нашу модель для решения этого класса задач. Ловите блогпост, а на подходе arxiv статья с подробностями про анализ графов вызовов бертами, LLM разметку и выкатку в prod! Ждите дроп статьи в канале, stay tuned!
3 142
8
Помните нашу игру про аналитика SOC. Вот вам похожее: попробуйте не разрешить агенту лишнего 🙂 https://llmgame.scalex.dev/
8 688
9
🎬 Запись встречи, на которой Дима разобрал какими могут быть последствия использования серых LLM провайдеров. #reading_group
🎬 Запись встречи, на которой Дима разобрал какими могут быть последствия использования серых LLM провайдеров. #reading_group #agent #offense #recording
1 127
10
Мы начинаем
904
11
Привет! В этот раз поговорим про серые LLM-роутеры и как они могут незаметно угнать вашего AI-агента. Разберём статью Your Ag
Привет! В этот раз поговорим про серые LLM-роутеры и как они могут незаметно угнать вашего AI-агента. Разберём статью Your Agent Is Mine через путь джуна Феди (скааазочный персонаж), который купился на дешёвый доступ к моделькам и ВНЕЗАПНО обнаружил, что “дёшево” не значит “хорошо”. Посмотрим, как работают атаки на tool-call’ы, при каких триггерах, а также как это касается индустрии перепродажи ключей. Приходите в пятницу в 15:00 - будем разбирать, как не отдать своего агента посреднику. Вот тут 👉 ссылка
1 273
12
🎬 Запись разбора релиза DeepSeek-V4 #reading_group #llm #deepseek #recording
🎬 Запись разбора релиза DeepSeek-V4 #reading_group #llm #deepseek #recording
851
13
а мы начинаем!
1 142
14
В этот раз на reading group разберём DeepSeek‑V4 — не как очередную «большую модель», а как инженерную попытку сделать millio
В этот раз на reading group разберём DeepSeek‑V4 — не как очередную «большую модель», а как инженерную попытку сделать million-token context реально полезным для кода, агентов и длинных рабочих сценариев. Будет короткий доклад про архитектуру + наши собственные бенчмарки + немного честного сравнения с ожиданиями — интерактивная арена, где модели можно прогнать через длинный контекст, посмотреть на FLOPs/KV‑экономику и почувствовать разницу уже не только по таблицам, а в живом сценарии. Приходите: будет технично, дружелюбно и с нормальной долей здорового скепсиса. Ссылка на подключение Дата и время: 15 мая в 15.00
1 457
15
Представьте, что вы наняли рабочих сделать ремонт, а они устроили в квартире бардак. Что может сделать агент, которого вы пустили к себе на машину? Разбираемся с угрозами: https://habr.com/ru/companies/pt/articles/1030532/
1 057
16
Мы тут больше про ML, но чтобы что-то делать в ИБ приходится разбираться как там всё устроено. SOC, аналитики, ночные смены, вот это всё. И как-то поймали себя на мысли: читать про MITRE и смотреть писанину про APT-кампании — это понятно. А вот попробовать на собственной шкуре, каково это — сидеть в три ночи и думать «это атака через запуск PowerShell из ворда у бухгалтера или просто кто-то макросы открыл» — ну такое, попробовать особо негде. Поэтому Тимур Смирнов сел и сделал маленькую браузерную игру — Dwell Time. Три ночные смены, 30 алертов, ты SOC-аналитик первой линии. Тыкаешь что делать: разрешить, заблокировать, эскалировать или копнуть дальше. В конце говорят, где налажал и дают ссылки почитать про каждую технику, чтобы реально что-то выучить. Игра пока совсем простая, уровня «вход в SOC». Но если зайдёт — хочется докрутить до прикладной штуки, которая покрывала бы и threat hunting, и pentest, и detection engineering. Чтобы можно было постепенно прокачиваться по разным сферам ИБ через один сюжет в игровой форме🎮 Бесплатно, в браузере, минут на 15-20. Если попробуете — интересно ваше мнение. Что зашло, что не понятно, какие сферы ИБ хотелось бы видеть дальше. Пишите в комменты. https://sucky-charm.itch.io/dwell-time
49 366
17
🎬 Запись разбора соревнования BitGN PAC1 Таймкоды: 00:00 Intro от сореве и хабе 10:26 Топ-20 решение общего лидерборда 41:29
🎬 Запись разбора соревнования BitGN PAC1 Таймкоды: 00:00 Intro от сореве и хабе 10:26 Топ-20 решение общего лидерборда 41:29 Топ-2 решение хаба False Positive 1:00:59 Топ-4 решение хаба False Positive 1:19:50 Топ-рефлексия о стрельнувших идеях и фейлах #competition #recording
0
18
#мемы+1
#мемы
0
19
Через 2 минуты начинаем!💫
0
20
🎬 Выкладываем запись с прошедшей РГ с разбором Claude Code #reading_group #recording #claude #code
🎬 Выкладываем запись с прошедшей РГ с разбором Claude Code #reading_group #recording #claude #code
0