False Positive

Открыть в Telegram

PT ML Team

Больше

Россия316 735 Технологии и приложения40 828

1 011

Подписчики

Нет данных24 часа

+277 дней

+4830 день

920

Просмотры поста

~ 35524 часа

~ 44648 часов

91.00%

Коэффициент вовлеченности

Нет данных

Постов в день

Ads index

beta

Архив постов

1 011

🎬 Запись встречи, на которой Кирилл Вавилов разобрал какие есть способы виртуализации GPU. #reading_group #mlinfra #benchmark #recording

1 011

Ураааааа! Мы перевалили за 1000! 🚀 Спасибо всем кто поддержал нас сегодня на Технохаб-конф :) проверили больше сотни ваших МЛ дизайнов - было очень круто) P.S. Самой популярной задачка про фишинг - была выбрана больше 30 раз. Задачки в комментах

1 011

Мы начинаем)

1 011

Поговорим про агентскую разработку в контексте всего SDLC. LLM-агенты уже неплохо ускоряют отдельных инженеров, но рост эффективности в написании кода не означает рост эффективности разработки. Обсудим причины, из-за которых подписка на Claude не помогает ускорить жизненный цикл разработки: - почему локальная оптимизация отдельного разработчика далеко не всегда превращается в оптимизацию всего SDLC; - где сегодня находятся реальные ограничения; - какие агентские паттерны уже начинают появляться вокруг разработки, ревью, тестирования, документации и сопровождения; - какие инфраструктурные изменения потребуются, чтобы агенты стали полноценными участниками процесса, а не просто “умным автокомплитом”; - посмотрим на примеры агентских архитектур. И самое интересное — сколько еще шишек предстоит набить, прежде чем агентская разработка действительно станет новым способом строить инженерные процессы. Формат хочется оставить открытым к обсуждению, чтобы вместе порефлексировать и ответить на вопрос, нужно ли взросление агентской разработки в том виде, в котором оно происходит. 📅 Встречаемся уже сегодня в 15:00 (по МСК). Ссылка для подключения в Толк #reading_group #development #agents

1 011

мы начинаем!

1 011

🎬 Запись встречи, с разбором бенчмарка SecCodeBench-V2. #reading_group #benchmark #recording

1 011

Всем привет! 👋 В эту пятницу на очередной Reading Group поговорим про ML-инфраструктуру, а именно - про виртуализацию GPU. В программе: - NVIDIA Multi-Instance GPU (MIG) - как делить один GPU между несколькими задачами; - HAMi - виртуализация GPU в Kubernetes для AI-инфраструктуры; - MLPerf Inference Benchmark - запустим бенчмарк и разберёмся, как интерпретировать результаты. 📅 Встречаемся в пятницу в 15:00 (по МСК). Ссылка для подключения в Толк. 👈 #reading_group #mlinfra #benchmark

1 011

Написали на Хабре как ковался MOLOT https://habr.com/ru/companies/pt/articles/1052206/

1 011

ByteDog наконец в PT Sandbox и PT Email Security! (ссылка) Мы уже рассказывали про саму концепцию байтового подхода, теперь — коротко о том, что под капотом: - Бинарная классификация на сырых байтах. Модель работает без предварительного парсинга, распаковки и ручного выделения признаков. Чтобы обучить сеть в условиях сильного дисбаланса классов, мы кастомизировали функцию потерь под жесткие ограничения на ложноположительные срабатывания (FP). - Трансформер для супердлинных последовательностей. Для обхода квадратичной сложности O(N^2) по памяти на больших файлах используется Windowed Attention. Модель обрабатывает контекст локальными окнами, а размер последовательности дополнительно оптимизируется за счет сжатия избыточных токенов на промежуточных слоях трансформера. - Детерминированный байтовый токенизатор. Работает по фиксированным правилам без предварительного обучения. Он агрегирует байтовый поток в компактные токены, уменьшая исходную длину последовательности еще до передачи в энкодер. - Устойчивое представление файлового пространства. За счет комбинации supervised и self-supervised обучения модель не просто классифицирует файлы, а строит эмбеддинги, где похожие по логике и структуре объекты группируются в кластеры. - Оптимизация инференса. Граф вычислений оптимизирован и скомпилирован в единый артефакт ONNX. Для механизмов self-attention используются аппаратно оптимизированные вычисления. На проде это дает ~30 ms на файл при потреблении памяти в пределах ~200 MB в пике. - Результаты в бою: На реальном потоке это принесло +10% к уникальным детектам когда в продукте используется только статический анализ, +2% в совокупности с поведенческим анализом и 400+ уникальных детектов угроз за первый месяц работы на нашей инфраструктуре. #ml_team

1 011

Мы начинаем)

1 011

Привет! На грядущей РГ снова поговорим про бенчмарки. На этот раз про оценку безопасности кода, который пишут LLM и всеми любимые coding-агенты. Залезем под капот SecCodeBench-V2 от компании Alibaba и выясним: - как устроены задачи и их автоматическая оценка через песочницу, - зачем бенчмарку понадобился подход LLM-as-a-judge, - насколько честно сравнивать модели по итоговому скору, - попрепарируем датасет руками: несостыковки, баги и недочеты, - а также покажем замеры качества на тройке-другой open-source моделей. А еще попытаемся ответить на вопрос, можно ли доверять бенчмарку, который разработчик модели сделал для оценки собственной модели?) Встречаемся как обычно в пятницу в 15:00 по МСК. Link #reading_group #benchmark

1 011

На DevFest 2026 Игорь Кабанов рассказал о том, как мы строили MLOps для системы детектирования вредоносного HTTP-трафика. Основная сложность проекта заключалась в том, что решение работает у клиентов on-premise. Это означает, что данные есть, телеметрия есть, а вот прямого доступа к самим данным, на которых будет работать готовая модель, нет. При этом модель нужно регулярно улучшать, контролировать качество детекта и держать под контролем ложные срабатывания. Основные поинты: • ETL для сбора и организации данных из множества источников; • поставка модели в кастомном ONNX с вшитым версионированием; • silent-режим - телеметрия без блокировки; • непрерывный мониторинг нескольких версий моделей одновременно; • анализ ложных срабатываний и процессы переразметки данных совместно с экспертами по кибербезопасности; В докладе описывается, как нам удалось выстроить вокруг этого полноценный MLOps-контур: от данных и обучения до мониторинга, анализа ошибок и безопасной поставки новых версий моделей. Запись доклада

1 011

Тех.репорт по модели MOLOT уже на arxiv 🔥 Мы выпустили MOLOT - трансформер для обнаружения вредоносного кода. Модель вошла в состав релиза 6.0 PT AI, а значит пора делиться техническими подробностями с вами! Полный набор: - arxiv - блог-пост - бенчмарк Для тех, кому нужен gonzo-обзор: ➡️ Поддержка топ-языков для веба: js/ts/py ➡️ До 40% меньше False Positive и F1 на 15% выше чем у open source инструментов ➡️ Ключевые улучшения: нашли и исключили data leakage по файловым названиям из оригинального подхода CEREBRO, расширили цепочку объявлениями литералов и padding активностями ➡️ 90% согласованности с экспертами по вредоносным строкам с помощью перехода к классификации файлов на LLM разметке и кастомный SHAP анализ ➡️ CPU инференс, квартал тестирования внутри контура компании с 90% Precision ➡️ Открытый бенчмарк для подтверждения результатов

1 011

Распиаренный WormGPT оказался Mistral-7B с RAG и почему кроме shadow it теперь стоит рассматривать и shadow AI в обзоре от наших аналитиков. https://habr.com/ru/companies/pt/articles/1044158/

1 011

Grafana Dashboard для анализа задач Airflow Когда мы начали искать готовое решение для мониторинга и анализа задач Airflow, выяснилось, что большинство популярных дашбордов на GitHub либо давно не обновлялись, либо покрывают только базовые инфраструктурные метрики. Поэтому мы сделали собственный Grafana dashboard для Airflow, который помогает быстро понять, что происходит с DAG'ами и задачами. С его помощью можно: • Находить самые медленные задачи и DAG'и • Выявлять нестабильные задачи с ошибками и ретраями • Смотреть распределение по операторам и воркерам * Исследовать историю запусков дагов и задач Установка: 1. Скачайте JSON-файл дашборда из репозитория 2. В Grafana откройте Dashboards → New → Import. 3. Импортируйте JSON и выберите PostgreSQL datasource, подключенный к metadata database Airflow. Будем рады issue, pull request'ам и идеям по улучшению=)

1 011

Помните кейс LiteLLM? Мы дропаем OMCBench (Open Malicious-Code Benchmark) - бенчмарк оценки качества по обнаружению вредоносного кода: - 3 языка: Python, JavaScript, TypeScript - 400 вредоносных пакетов, 400 чистых из pypi/npm - пофайловая LLM разметка, о которой говорили на OFFZONE прошлым летом - Открытая лицензия, BSD-2 Открытые решения на нем набирают не больше 75% F1, выдавая ~50% False Positive результатов... Те, кто уже нажал звездочку на гитхабе, могли заметить, что в таблице мы также анонсим MOLOT - нашу модель для решения этого класса задач. Ловите блогпост, а на подходе arxiv статья с подробностями про анализ графов вызовов бертами, LLM разметку и выкатку в prod! Ждите дроп статьи в канале, stay tuned!

1 011

Помните нашу игру про аналитика SOC. Вот вам похожее: попробуйте не разрешить агенту лишнего 🙂 https://llmgame.scalex.dev/

1 011

🎬 Запись встречи, на которой Дима разобрал какими могут быть последствия использования серых LLM провайдеров. #reading_group #agent #offense #recording

1 011

Мы начинаем

1 011

Привет! В этот раз поговорим про серые LLM-роутеры и как они могут незаметно угнать вашего AI-агента. Разберём статью Your Agent Is Mine через путь джуна Феди (скааазочный персонаж), который купился на дешёвый доступ к моделькам и ВНЕЗАПНО обнаружил, что “дёшево” не значит “хорошо”. Посмотрим, как работают атаки на tool-call’ы, при каких триггерах, а также как это касается индустрии перепродажи ключей. Приходите в пятницу в 15:00 - будем разбирать, как не отдать своего агента посреднику. Вот тут 👉 ссылка