Data Portal | DS & ML

رفتن به کانال در Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

نمایش بیشتر

شبکه:IT Portal روسيا75 941 فناوری و برنامه‌ها13 882

8 407

مشترکین

-724 ساعت

-77 روز

-430 روز

951

نمایش های پست

~ 57524 ساعت

~ 69048 ساعت

11.31%

نرخ مشارکت

~ 2

پست های در روز

Ads index

beta

آرشیو پست ها

8 405

Multi-Head Attention в LLM, визуальное объяснение 👉 @DataSciencegx

8 405

XBOW привлекла $117 млн для разработки AI-агентов-хакеров А теперь кто-то выложил аналог с открытым исходным кодом, бесплатно. Strix — это автономные AI-агенты, которые действуют как реальные хакеры: они динамически выполняют ваш код, находят уязвимости и подтверждают их реальными proof-of-concept-эксплойтами. Почему это важно: Главная проблема классического security-тестирования - оно не успевает за скоростью разработки. Strix решает это, интегрируясь прямо в ваш рабочий процесс: ↳ Запускайте его в CI/CD, чтобы ловить уязвимости до продакшена ↳ Получайте реальные PoC, а не ложные срабатывания от статического анализа ↳ Тестируйте всё: инъекции, контроль доступа, ошибки бизнес-логики И самое крутое: Вам не нужно быть экспертом по безопасности. Strix включает полный набор инструментов хакера: HTTP-прокси, автоматизацию браузера и Python runtime для разработки эксплойтов. Это как если бы у вас была команда безопасности, работающая с той же скоростью, что и ваш CI/CD pipeline. К тому же инструмент запускается локально в Docker-контейнерах, ваш код никогда не покидает ваше окружение. Начать очень просто: pipx install strix-agent Укажите путь к вашему коду: приложению, репозиторию или директории. Ссылка на GitHub-репозиторий: strix 👉 @DataSciencegx

8 405

👩‍💻 Всем программистам посвящается! Вот 17 авторских обучающих IT каналов по самым востребованным областям программирования: Выбирай своё направление: 🖥 Data Science — t.me/data_ready 👩‍💻 Python — t.me/python_ready 🤔 InfoSec & Хакинг — t.me/hacking_ready 🖥 SQL & Базы Данных — t.me/sql_ready 👩‍💻 IT Новости — t.me/it_ready 🤖 Нейросети — t.me/neuro_ready 👩‍💻 Java — t.me/java_ready 🐞 QA-тестирование — t.me/qa_ready 👩‍💻 Linux — t.me/linux_ready 🖼️ DevOps — t.me/devops_ready 👩‍💻 Bash & Shell — t.me/bash_ready 📖 IT Книги — t.me/books_ready 👩‍💻 C/C++ — https://t.me/cpp_ready 👩‍💻 C# & Unity — t.me/csharp_ready 👩‍💻 Frontend — t.me/frontend_ready 📱 JavaScript — t.me/javascript_ready 👩‍💻 Backend — t.me/backend_ready 📱 GitHub & Git — t.me/github_ready 🖥 Design — t.me/design_ready 📌 Гайды, шпаргалки, задачи, ресурсы и фишки для каждого языка программирования!

8 405

Введение в системы машинного обучения Создано профессором Гарварда Виджаем Джанапа Редди. Это открытый учебник, который учит тебя строить реальные, работающие AI-системы: от edge-устройств до облака. Он выводит обучение за пределы простого “тренируем модель” и показывает, как заставить модель действительно работать - cтабильно, эффективно и с высокой производительностью. PDF-ка и онлайн версия доступны здесь, репозиторий тут 👉 @DataSciencegx

8 405

🔥Прими участие в Хакатоне от ИТ-холдинга Т1 в Москве и поборись за призовой фонд 1 200 000 рублей! Когда: 25–28 ноября Формат: онлайн + финал на площадке Участвуй, если ты: 🔹обучаешься на технической или ИТ-специальности 🔹развиваешься в направлении разработки, системной администрации, AI/ML или DevOps 🔹сможешь быть в Москве 28 ноября. Выбери свой кейс:

✴️VibeCode Jam: собеседование будущего. Создай ИИ-платформу для прохождения технических собеседований с виртуальным интервьюером. ✴️Self-Deploy: CI/CD без DevOps. Автоматизируй генерацию CI/CD пайплайнов по анализу структуры Git-репозитория.

Почему стоит участвовать: 🔘Кейс в портфолио и полезная обратная связь от менторов Т1 🔘Шанс проявить себя, чтобы начать карьеру в одной из крупнейших ИТ-компаний 🔘Реальный опыт командной работы 🔘Мерч и атмосфера сильного комьюнити — в Т1 более 5 000 джунов из 580+ вузов России и Беларуси. Регистрация открыта! ➡️ Успей до 23 ноября по ссылке. Реклама. О рекламодателе.

8 405

RAG vs. CAG, понятное объяснение RAG хорош, но у него есть серьёзная проблема Каждый запрос бьёт по векторной БД. Даже ради статической информации, которая не менялась месяцами. Это дорого, медленно и лишнее. Cache-Augmented Generation (CAG) решает эту проблему, позволяя модели «помнить» статическую информацию прямо в своей key-value (KV) памяти. Ещё лучше? Можно комбинировать RAG и CAG и получить лучшее из обоих подходов. Как это работает: RAG + CAG делит вашу базу знаний на два слоя: ↳ Статические данные (политики, документация) один раз кэшируются в KV-памяти модели ↳ Динамические данные (свежие апдейты, «живые» документы) подтягиваются через ретривал Результат? Более быстрый инференс, меньше затрат, меньше избыточности. Хитрость в том, чтобы избирательно кэшировать. Кэшируйте только статичные, ценные знания, которые редко меняются. Если закэшируете всё, упрётесь в лимиты контекста. Разделение «cold» (кэшируемые) и «hot» (получаемые через ретривал) данных делает систему надёжной. Можно начинать уже сегодня. OpenAI и Anthropic уже поддерживают кэширование промптов в своих API. Вот ссылка на гайд OpenAI по кэшированию промптов: https://x.com/akshay_pachaar/status/1985690138756989286 Вы уже пробовали CAG в проде? 👉 @DataSciencegx

8 405

Все почему-то игнорируют эту новую OCR-модель. Chandra от Datalab заняла топовые позиции в независимых бенчмарках и обошла предыдущего лидера dots-ocr. Поддерживает более 40 языков Без проблем обрабатывает текст, таблицы и формулы Я протестировал её на рукописном письме Рамануджана 1913 года. Полностью опенсорс: GitHub 👉 @DataSciencegx

8 405

AI Engineering Hub Комплексный ресурс для изучения и разработки решений на базе AI. Здесь вы найдёте: - 93+ продакшн-готовых проектов для любого уровня - подробные туториалы по LLM, RAG, агентам и многому другому - реальные примеры применения AI-агентов - готовые примеры для внедрения, адаптации и масштабирования в ваших проектах Забираем на GitHub 👉 @DataSciencegx

8 405

Наконец-то в Python 3.14 можно отключить GIL Это большое событие, потому что раньше, даже если ты писал многопоточный код, Python всё равно выполнял только один поток за раз, без какого-либо прироста производительности. А теперь Python действительно может выполнять твой многопоточный код параллельно. И uv полностью это поддерживает! 👉 @DataSciencegx

8 405

Находка: репозиторий, где куча туториалов по созданию AI-агентов, готовых к продакшену и с реальными кейсами использования Весь код в открытом доступе и есть объяснение, как их развернуть. GitHub: agents-towards-production 👉 @DataSciencegx

8 405

Бесплатный курс по изучению концепций глубокого обучения Концептуальное и архитектурное путешествие по моделям компьютерного зрения в глубоком обучении, прослеживающее эволюцию от LeNet и AlexNet до ResNet, EfficientNet и Vision Transformers. Курс объясняет принципы проектирования, лежащие в основе skip-соединений, bottleneck-блоков, сохранения тождества, компромиссов глубины/ширины и attention. Каждая глава сочетает наглядные иллюстрации, исторический контекст и сравнения «бок о бок», чтобы показать, почему архитектуры выглядят именно так и как они обрабатывают информацию. Забираем на YouTube 👉 @DataSciencegx

8 405

Новое техношоу о фейлах на дата-платформах Все упало, все сломалось, бизнес в панике. Для дата-инженеров это обычный вторник, а для шоу «Дропнуто» — повод снять свежий выпуск. «Дропнуто» превращает фейлы дата-платформ в истории, которые полезно услышать каждому, кто работает с данными. В центре каждого эпизода — один герой и одна яркая история фейла, развернутое обсуждение архитектуры и процессов, а также немного самоиронии. Анонсы и ссылки на прямые эфиры появятся в телеграм-боте проекта. Подписывайтесь, чтобы узнавать о премьерах первыми.

8 405

Один из лучших ресурсов, если хочешь выучить SQL на практике и с нуля 👍 Это интерактивные уроки прямо в браузере, без регистрации и бесплатно. Всё подается шаг за шагом: от базовых запросов до более сложных тем, таких как JOIN и агрегации Весь процесс строится на упражнениях, так что теорию сразу применяешь на практике Всем, кто хочет научиться SQL с нуля, рекомендую заценить: https://sqlbolt.com/ 👉 @DataSciencegx

8 405

Я никогда не использую метод describe из Pandas Skimpy — гораздо более удобная (и опенсорс) альтернатива, которая предоставляет расширенное описание данных: форму датасета, типы данных по колонкам, статистику, графики распределений и т.д. 👉 @DataSciencegx

8 405

Эндрю Ын анонсировал новый бесплатный курс: Agentic AI Здесь учат собирать LLM-агентов с нуля, без фреймворков, на чистом Python. Всё чётко, с разбором того, как устроены агенты под капотом. Что внутри: - Reflection — агент сам анализирует свои ответы и улучшает их; - Tool use — учим LLM вызывать функции: искать в вебе, слать письма, писать код; - Planning — разбиваем задачи на подзадачи и строим план выполнения; - Multi-agent collaboration — создаём несколько специализированных агентов, которые работают вместе, как команда. Плюс отдельный блок про evals и анализ ошибок В итоге соберёте исследовательского агента, который сам ищет, анализирует и пишет отчёты. Проходится в своём темпе, подходит всем, кто знаком с Python и немного с LLM. Забираем здесь 👉 @DataSciencegx

8 405

На GitHub есть репозиторий free-programming-books, где собрано более 4000 бесплатных книг, 2000 курсов и других полезных ресурсов по программированию Для удобства поиска можно использовать этот инструмент Этот проект - яркий пример силы опенсорс сообщества, который из клона списка со StackOverflow стал одним из самых популярных на GitHub ✌️ 🔸 Русскоязычная версия ресурсов 👉 @DataSciencegx

8 405

3 ключевые свойства следа матрицы в Deep Learning 1. L2-регуляризация: Квадрат нормы Фробениуса, ||W||² = tr(WᵀW), используется для штрафования больших весов и предотвращения переобучения. 2. Вычисление градиентов: Циклическое свойство следа, tr(AB) = tr(BA), упрощает вывод матричных производных при обратном распространении ошибки (backpropagation). 3. Инвариантность: След инвариантен к замене базиса, tr(P⁻¹AP) = tr(A); это свойство используется при поиске нового, более удобного базиса в PCA. 👉 @DataSciencegx

8 405

📘 На Stepik вышел курс — «ML-инженер: от первой модели до продакшена» Хотите не просто натренировать модель в ноутбуке, а довести её до реального продукта? Этот курс — полный путь от основ до production. • Математика и Python: линейная алгебра, статистика, NumPy, Pandas, визуализация (Matplotlib, Seaborn, Plotly) • Классика ML: регрессия, KNN, деревья решений, Random Forest, SVM, Naive Bayes • Ансамбли: XGBoost, LightGBM, CatBoost, подбор параметров (Optuna, Hyperopt), MLflow • Deep Learning: PyTorch и TensorFlow/Keras, CNN, RNN/LSTM, Attention, Transfer Learning • Работа с данными: парсинг (BeautifulSoup, Scrapy), SQL/API, feature engineering • Продвинутые задачи: рекомендательные системы, временные ряды (ARIMA, Prophet), SHAP и LIME • MLOps: FastAPI, Docker, деплой в облако, мониторинг моделей • Подготовка к собеседованиям: технические вопросы, системный дизайн, SQL, портфолио 🎓 Сертификат — добавьте в резюме или LinkedIn 🚀 Скидка 25%, действует 48 часов 👉 Пройти курс на Stepik

8 405

Когда мы говорим про RAG, обычно думают так: проиндексировал документ → потом извлёк тот же самый документ. Но индексация ≠ извлечение. Данные, которые ты индексируешь, не обязаны быть теми же данными, которые ты подаёшь в LLM во время генерации. Вот 4 умных способа индексировать данные: 1) Chunk Indexing (индексация чанков) 🔹Самый распространённый подход. 🔹Документ разбивается на чанки, затем каждый чанк преобразуется в эмбеддинг и сохраняется в векторную БД. 🔹При запросе извлекаются ближайшие чанки по косинусному сходству (или другому метрике). Просто и эффективно, но слишком большие или «шумные» чанки могут снизить точность. 2) Sub-chunk Indexing (индексация под-чанков) 🔹Берём исходные чанки и дополнительно разбиваем их на более мелкие под-чанки. 🔹Индексируем именно эти мелкие фрагменты. 🔹При извлечении всё ещё возвращаем более крупный чанк для контекста. Этот подход полезен, если документ содержит несколько разных концепций в одном разделе - повышается шанс точного совпадения с запросом. 3) Query Indexing (индексация по запросам) 🔹Вместо того чтобы индексировать сырой текст, генерируются гипотетические вопросы, на которые, по мнению LLM, данный чанк может ответить. 🔹Эти вопросы эмбеддятся и сохраняются. 🔹При реальном запросе пользователя поиск происходит по этим «синтетическим» вопросам. 🔹Похожая идея используется в HyDE, но там сопоставляется гипотетический ответ с реальными чанками. Отличный вариант для систем вопрос–ответ (QA), поскольку он сокращает семантический разрыв между пользовательским запросом и индексированными данными. 4) Summary Indexing (индексация по суммаризации) 🔹Используется LLM, чтобы сгенерировать краткое семантическое представление (summary) для каждого чанка. 🔹В индекс попадает именно summary, а не исходный текст. 🔹При извлечении возвращается оригинальный чанк для контекста. Особенно эффективно для плотных или структурированных данных (например, CSV или таблиц), где эмбеддинги сырого текста не дают осмысленных результатов. 👉 @DataSciencegx

8 405

Repost from IT Portal

Стенфорд запустил бесплатный курс по Deep Learning, который ведёт основатель Coursera — Эндрю Ын Программа охватывает всё: от базовых принципов нейросетей до LLM, RL, агентов, RAG и мультимодальных моделей Первая лекция здесь. Материалы и расписание здесь @IT_Portal