Data Portal | DS & ML
رفتن به کانال در Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
نمایش بیشتر8 407
مشترکین
-724 ساعت
-77 روز
-430 روز
آرشیو پست ها
XBOW привлекла $117 млн для разработки AI-агентов-хакеров
А теперь кто-то выложил аналог с открытым исходным кодом, бесплатно.
Strix — это автономные AI-агенты, которые действуют как реальные хакеры: они динамически выполняют ваш код, находят уязвимости и подтверждают их реальными proof-of-concept-эксплойтами.
Почему это важно:
Главная проблема классического security-тестирования - оно не успевает за скоростью разработки.
Strix решает это, интегрируясь прямо в ваш рабочий процесс:
↳ Запускайте его в CI/CD, чтобы ловить уязвимости до продакшена
↳ Получайте реальные PoC, а не ложные срабатывания от статического анализа
↳ Тестируйте всё: инъекции, контроль доступа, ошибки бизнес-логики
И самое крутое:
Вам не нужно быть экспертом по безопасности. Strix включает полный набор инструментов хакера: HTTP-прокси, автоматизацию браузера и Python runtime для разработки эксплойтов.
Это как если бы у вас была команда безопасности, работающая с той же скоростью, что и ваш CI/CD pipeline.
К тому же инструмент запускается локально в Docker-контейнерах, ваш код никогда не покидает ваше окружение.
Начать очень просто:
pipx install strix-agent
Укажите путь к вашему коду: приложению, репозиторию или директории.
Ссылка на GitHub-репозиторий: strix
👉 @DataSciencegx👩💻 Всем программистам посвящается!
Вот 17 авторских обучающих IT каналов по самым востребованным областям программирования:
Выбирай своё направление:
🖥 Data Science — t.me/data_ready
👩💻 Python — t.me/python_ready
🤔 InfoSec & Хакинг — t.me/hacking_ready
🖥 SQL & Базы Данных — t.me/sql_ready
👩💻 IT Новости — t.me/it_ready
🤖 Нейросети — t.me/neuro_ready
👩💻 Java — t.me/java_ready
🐞 QA-тестирование — t.me/qa_ready
👩💻 Linux — t.me/linux_ready
🖼️ DevOps — t.me/devops_ready
👩💻 Bash & Shell — t.me/bash_ready
📖 IT Книги — t.me/books_ready
👩💻 C/C++ — https://t.me/cpp_ready
👩💻 C# & Unity — t.me/csharp_ready
👩💻 Frontend — t.me/frontend_ready
📱 JavaScript — t.me/javascript_ready
👩💻 Backend — t.me/backend_ready
📱 GitHub & Git — t.me/github_ready
🖥 Design — t.me/design_ready
📌 Гайды, шпаргалки, задачи, ресурсы и фишки для каждого языка программирования!
Введение в системы машинного обучения
Создано профессором Гарварда Виджаем Джанапа Редди. Это открытый учебник, который учит тебя строить реальные, работающие AI-системы: от edge-устройств до облака.
Он выводит обучение за пределы простого “тренируем модель” и показывает, как заставить модель действительно работать - cтабильно, эффективно и с высокой производительностью.
PDF-ка и онлайн версия доступны здесь, репозиторий тут
👉 @DataSciencegx
🔥Прими участие в Хакатоне от ИТ-холдинга Т1 в Москве и поборись за призовой фонд 1 200 000 рублей!
Когда: 25–28 ноября
Формат: онлайн + финал на площадке
Участвуй, если ты:
🔹обучаешься на технической или ИТ-специальности
🔹развиваешься в направлении разработки, системной администрации, AI/ML или DevOps
🔹сможешь быть в Москве 28 ноября.
Выбери свой кейс:
✴️VibeCode Jam: собеседование будущего. Создай ИИ-платформу для прохождения технических собеседований с виртуальным интервьюером. ✴️Self-Deploy: CI/CD без DevOps. Автоматизируй генерацию CI/CD пайплайнов по анализу структуры Git-репозитория.Почему стоит участвовать: 🔘Кейс в портфолио и полезная обратная связь от менторов Т1 🔘Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний 🔘Реальный опыт командной работы 🔘Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси. Регистрация открыта! ➡️ Успей до 23 ноября по ссылке. Реклама. О рекламодателе.
RAG vs. CAG, понятное объяснение
RAG хорош, но у него есть серьёзная проблема
Каждый запрос бьёт по векторной БД. Даже ради статической информации, которая не менялась месяцами.
Это дорого, медленно и лишнее.
Cache-Augmented Generation (CAG) решает эту проблему, позволяя модели «помнить» статическую информацию прямо в своей key-value (KV) памяти.
Ещё лучше? Можно комбинировать RAG и CAG и получить лучшее из обоих подходов.
Как это работает:
RAG + CAG делит вашу базу знаний на два слоя:
↳ Статические данные (политики, документация) один раз кэшируются в KV-памяти модели
↳ Динамические данные (свежие апдейты, «живые» документы) подтягиваются через ретривал
Результат? Более быстрый инференс, меньше затрат, меньше избыточности.
Хитрость в том, чтобы избирательно кэшировать.
Кэшируйте только статичные, ценные знания, которые редко меняются. Если закэшируете всё, упрётесь в лимиты контекста. Разделение «cold» (кэшируемые) и «hot» (получаемые через ретривал) данных делает систему надёжной.
Можно начинать уже сегодня. OpenAI и Anthropic уже поддерживают кэширование промптов в своих API.
Вот ссылка на гайд OpenAI по кэшированию промптов: https://x.com/akshay_pachaar/status/1985690138756989286
Вы уже пробовали CAG в проде?
👉 @DataSciencegx
Все почему-то игнорируют эту новую OCR-модель. Chandra от Datalab заняла топовые позиции в независимых бенчмарках и обошла предыдущего лидера dots-ocr.
Поддерживает более 40 языков
Без проблем обрабатывает текст, таблицы и формулы
Я протестировал её на рукописном письме Рамануджана 1913 года.
Полностью опенсорс: GitHub
👉 @DataSciencegx
AI Engineering Hub
Комплексный ресурс для изучения и разработки решений на базе AI. Здесь вы найдёте:
- 93+ продакшн-готовых проектов для любого уровня
- подробные туториалы по LLM, RAG, агентам и многому другому
- реальные примеры применения AI-агентов
- готовые примеры для внедрения, адаптации и масштабирования в ваших проектах
Забираем на GitHub
👉 @DataSciencegx
Наконец-то в Python 3.14 можно отключить GIL
Это большое событие, потому что раньше, даже если ты писал многопоточный код, Python всё равно выполнял только один поток за раз, без какого-либо прироста производительности.
А теперь Python действительно может выполнять твой многопоточный код параллельно.
И uv полностью это поддерживает!
👉 @DataSciencegx
Находка: репозиторий, где куча туториалов по созданию AI-агентов, готовых к продакшену и с реальными кейсами использования
Весь код в открытом доступе и есть объяснение, как их развернуть. GitHub: agents-towards-production
👉 @DataSciencegx
Бесплатный курс по изучению концепций глубокого обучения
Концептуальное и архитектурное путешествие по моделям компьютерного зрения в глубоком обучении, прослеживающее эволюцию от LeNet и AlexNet до ResNet, EfficientNet и Vision Transformers.
Курс объясняет принципы проектирования, лежащие в основе skip-соединений, bottleneck-блоков, сохранения тождества, компромиссов глубины/ширины и attention.
Каждая глава сочетает наглядные иллюстрации, исторический контекст и сравнения «бок о бок», чтобы показать, почему архитектуры выглядят именно так и как они обрабатывают информацию.
Забираем на YouTube
👉 @DataSciencegx
Новое техношоу о фейлах на дата-платформах
Все упало, все сломалось, бизнес в панике. Для дата-инженеров это обычный вторник, а для шоу «Дропнуто» — повод снять свежий выпуск.
«Дропнуто» превращает фейлы дата-платформ в истории, которые полезно услышать каждому, кто работает с данными. В центре каждого эпизода — один герой и одна яркая история фейла, развернутое обсуждение архитектуры и процессов, а также немного самоиронии.
Анонсы и ссылки на прямые эфиры появятся в телеграм-боте проекта.
Подписывайтесь, чтобы узнавать о премьерах первыми.
Один из лучших ресурсов, если хочешь выучить SQL на практике и с нуля 👍
Это интерактивные уроки прямо в браузере, без регистрации и бесплатно. Всё подается шаг за шагом: от базовых запросов до более сложных тем, таких как JOIN и агрегации
Весь процесс строится на упражнениях, так что теорию сразу применяешь на практике
Всем, кто хочет научиться SQL с нуля, рекомендую заценить: https://sqlbolt.com/
👉 @DataSciencegx
Я никогда не использую метод
describe из Pandas
Skimpy — гораздо более удобная (и опенсорс) альтернатива, которая предоставляет расширенное описание данных: форму датасета, типы данных по колонкам, статистику, графики распределений и т.д.
👉 @DataSciencegxЭндрю Ын анонсировал новый бесплатный курс: Agentic AI
Здесь учат собирать LLM-агентов с нуля, без фреймворков, на чистом Python. Всё чётко, с разбором того, как устроены агенты под капотом.
Что внутри:
- Reflection — агент сам анализирует свои ответы и улучшает их;
- Tool use — учим LLM вызывать функции: искать в вебе, слать письма, писать код;
- Planning — разбиваем задачи на подзадачи и строим план выполнения;
- Multi-agent collaboration — создаём несколько специализированных агентов, которые работают вместе, как команда.
Плюс отдельный блок про evals и анализ ошибок
В итоге соберёте исследовательского агента, который сам ищет, анализирует и пишет отчёты.
Проходится в своём темпе, подходит всем, кто знаком с Python и немного с LLM. Забираем здесь
👉 @DataSciencegx
На GitHub есть репозиторий free-programming-books, где собрано более 4000 бесплатных книг, 2000 курсов и других полезных ресурсов по программированию
Для удобства поиска можно использовать этот инструмент
Этот проект - яркий пример силы опенсорс сообщества, который из клона списка со StackOverflow стал одним из самых популярных на GitHub ✌️
🔸 Русскоязычная версия ресурсов
👉 @DataSciencegx
3 ключевые свойства следа матрицы в Deep Learning
1. L2-регуляризация: Квадрат нормы Фробениуса,
||W||² = tr(WᵀW), используется для штрафования больших весов и предотвращения переобучения.
2. Вычисление градиентов: Циклическое свойство следа, tr(AB) = tr(BA), упрощает вывод матричных производных при обратном распространении ошибки (backpropagation).
3. Инвариантность: След инвариантен к замене базиса, tr(P⁻¹AP) = tr(A); это свойство используется при поиске нового, более удобного базиса в PCA.
👉 @DataSciencegx📘 На Stepik вышел курс — «ML-инженер: от первой модели до продакшена»
Хотите не просто натренировать модель в ноутбуке, а довести её до реального продукта? Этот курс — полный путь от основ до production.
• Математика и Python: линейная алгебра, статистика, NumPy, Pandas, визуализация (Matplotlib, Seaborn, Plotly)
• Классика ML: регрессия, KNN, деревья решений, Random Forest, SVM, Naive Bayes
• Ансамбли: XGBoost, LightGBM, CatBoost, подбор параметров (Optuna, Hyperopt), MLflow
• Deep Learning: PyTorch и TensorFlow/Keras, CNN, RNN/LSTM, Attention, Transfer Learning
• Работа с данными: парсинг (BeautifulSoup, Scrapy), SQL/API, feature engineering
• Продвинутые задачи: рекомендательные системы, временные ряды (ARIMA, Prophet), SHAP и LIME
• MLOps: FastAPI, Docker, деплой в облако, мониторинг моделей
• Подготовка к собеседованиям: технические вопросы, системный дизайн, SQL, портфолио
🎓 Сертификат — добавьте в резюме или LinkedIn
🚀 Скидка 25%, действует 48 часов
👉 Пройти курс на Stepik
Когда мы говорим про RAG, обычно думают так: проиндексировал документ → потом извлёк тот же самый документ.
Но индексация ≠ извлечение.
Данные, которые ты индексируешь, не обязаны быть теми же данными, которые ты подаёшь в LLM во время генерации.
Вот 4 умных способа индексировать данные:
1) Chunk Indexing (индексация чанков)
🔹Самый распространённый подход.
🔹Документ разбивается на чанки, затем каждый чанк преобразуется в эмбеддинг и сохраняется в векторную БД.
🔹При запросе извлекаются ближайшие чанки по косинусному сходству (или другому метрике).
Просто и эффективно, но слишком большие или «шумные» чанки могут снизить точность.
2) Sub-chunk Indexing (индексация под-чанков)
🔹Берём исходные чанки и дополнительно разбиваем их на более мелкие под-чанки.
🔹Индексируем именно эти мелкие фрагменты.
🔹При извлечении всё ещё возвращаем более крупный чанк для контекста.
Этот подход полезен, если документ содержит несколько разных концепций в одном разделе - повышается шанс точного совпадения с запросом.
3) Query Indexing (индексация по запросам)
🔹Вместо того чтобы индексировать сырой текст, генерируются гипотетические вопросы, на которые, по мнению LLM, данный чанк может ответить.
🔹Эти вопросы эмбеддятся и сохраняются.
🔹При реальном запросе пользователя поиск происходит по этим «синтетическим» вопросам.
🔹Похожая идея используется в HyDE, но там сопоставляется гипотетический ответ с реальными чанками.
Отличный вариант для систем вопрос–ответ (QA), поскольку он сокращает семантический разрыв между пользовательским запросом и индексированными данными.
4) Summary Indexing (индексация по суммаризации)
🔹Используется LLM, чтобы сгенерировать краткое семантическое представление (summary) для каждого чанка.
🔹В индекс попадает именно summary, а не исходный текст.
🔹При извлечении возвращается оригинальный чанк для контекста.
Особенно эффективно для плотных или структурированных данных (например, CSV или таблиц), где эмбеддинги сырого текста не дают осмысленных результатов.
👉 @DataSciencegx
Repost from IT Portal
Стенфорд запустил бесплатный курс по Deep Learning, который ведёт основатель Coursera — Эндрю Ын
Программа охватывает всё: от базовых принципов нейросетей до LLM, RL, агентов, RAG и мультимодальных моделей
Первая лекция здесь. Материалы и расписание здесь
@IT_Portal
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
