Data Portal | DS & ML
Открыть в Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
Больше8 410
Подписчики
+524 часа
+107 дней
-1530 день
Архив постов
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз.
https://arxiv.org/html/2602.24286v1
Они натренировали агента, который пишет CUDA лучше многих людей.
Называется CUDA Agent.
Схема простая:
→ пишет CUDA-ядро
→ компилирует
→ гоняет профилировщик
→ ищет узкие места
→ переписывает код
→ повторяет цикл снова и снова
По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо.
Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят.
Результаты на KernelBench получились очень жирными.
• до 3.2× быстрее стандартного исполнения через PyTorch
• на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40%
• регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы
Почему это важно?
Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая.
Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA.
Но если агент способен сам писать и оптимизировать ядра...
то внезапно становится не так важно, какой у тебя чип.
Сегодня CUDA.
Завтра ROCm.
Послезавтра какой-нибудь кастомный AI-ускоритель.
Самый интересный вывод из всей истории:
возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа.
👉 @DataSciencegx
Почитай это, если хочешь разобраться в ML-инфраструктуре.
https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/
Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:
аппаратное обеспечение память и пропускная способность памяти процесс проведения ML-экспериментовОтдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения. 👉 @DataSciencegx
40 собесов и оффер за 1 месяц
Алексей разработчик.
Искал работу с декабря - написание сопроводов и отклики занимали очень много времени.
Выхлоп - почти нулевой.
В какой-то момент понял:
так можно искать бесконечно.
И по совету друга попробовал ии-ассистента Софи.
▫️За ~1 месяц прошел около 40 собеседований
▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам
В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался.Весь процесс - от первого собеседования до оффера - занял 4 дня. P.S. Попробовать Софи бесплатно можно будет 16 июня. Не пропусти анонс здесь.
Как получить ChatGPT Plus стоимостью $20 бесплатно
В некоторых регионах ChatGPT предлагает бесплатный месяц подписки.
Что для этого нужно:
- Аккаунт GoPay (его можно открыть в Индии)
- Новый аккаунт ChatGPT
- VPN с подключением через Японию
Как получить предложение:
Перейдите по ссылке: https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing1. Подключите VPN через Японию 2. Создайте новый аккаунт ChatGPT 3. Нажмите «Claim Offer» 4. Пролистайте страницу вниз и выберите Индонезию 5. Выберите тариф «Plus» 6. В качестве способа оплаты выберите GoPay 7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты. На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей. 👉 @DataSciencegx
9 мер расстояния, которые часто используются в Data Science и ML
👉 @DataSciencegx
Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes
Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок.
Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео.
Что внутри:
• Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других
• Таблица с лекциями, описаниями, видео, конспектами и авторами
• Ссылки на оригинальные лекции и сопутствующие заметки
• Пометки WIP для незавершённых материалов
• Инструкция для контрибьюторов с процессом добавления и улучшения конспектов
Мне понравилась сама идея.
Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения.
👉 @DataSciencegx
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N.
"Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул.
Внутри:
• Chain Rule
• Computational Graphs
• Векторизованные производные
• Эффективное вычисление градиентов
• Пошаговые примеры с разбором формул
Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова
.backward().
Эти заметки как раз закрывают этот пробел.
PDF:
https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf
👉 @DataSciencegx«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц.
Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров.
Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных.
Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей.
Бесплатный учебник:
https://open.umn.edu/opentextbooks/textbooks/675
👉 @DataSciencegx
Математическое моделирование обычно начинается с пустого листа.
Этот проект решил, что так быть не должно.
MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта.
Что умеет:
• Разбирает условие задачи и выделяет ключевые требования
• Формулирует допущения и строит математическую модель
• Генерирует код для вычислений и дорабатывает его по ходу решения
• Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей
• Автоматически собирает итоговый отчёт
• Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой
Сейчас поддерживаются GPT-4o и DeepSeek-R1.
По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта.
Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent
👉 @DataSciencegx
Единственный чит-лист по LLM, который вам когда-либо понадобится
Охватывает основные концепции, архитектуры и практические применения.
LLM Cheatsheet (Google Drive)
Основы
Токены (токенизация, BPE) Эмбеддинги (косинусное сходство) Механизм внимания (формула Attention, Multi-Head Attention)Архитектура Transformer и её разновидности
BERT (модели только с энкодером) GPT (модели только с декодером) T5 (модели с энкодером и декодером)Большие языковые модели (LLM)
Промптинг (длина контекста, Chain-of-Thought) Дообучение (SFT, PEFT/LoRA) Настройка предпочтений (Reward Model, Reinforcement Learning) Оптимизации (Mixture of Experts, Distillation, Quantization)Применение
LLM-as-a-Judge (LaaJ) RAG (Retrieval-Augmented Generation) Агенты (ReAct) Рассуждающие модели (Scaling)👉 @DataSciencegx
«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне.
Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры.
На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете.
Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e
👉 @DataSciencegx
Уже в среду, 3 июня, Visiology проведёт бесплатный онлайн-эфир о том, как ИИ меняет работу с корпоративной аналитикой после Power BI.
Поговорим о том, как быстрее получать ответы по данным, сокращать ручную отчётность и принимать решения без долгой подготовки дашбордов.
В программе:
— self-service аналитика и ИИ-ассистенты;
— автоматизация отчётов и контроль ключевых метрик;
— сценарии для бизнеса, IT-команд и аналитиков;
— безопасность данных и развитие BI-инфраструктуры.
Эфир будет полезен аналитикам, руководителям и IT-специалистам, которые хотят ускорить работу с данными и сделать аналитику понятнее для бизнеса.
Мероприятие уже скоро!
Участие бесплатное. Количество мест ограничено.
Успейте зарегистрироваться!
+1
БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning:
1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/
2. Understanding Deep Learning udlbook.github.io/udlbook/
3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do
4. Algorithms for ML algorithmsbook.com
5. Deep Learning deeplearningbook.org
6. Reinforcement Learning andrew.cmu.edu/course/10-703/
7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog
8. Multi Agent Reinforcement Learning marl-book.com
9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog
10. Fairness and Machine Learning fairmlbook.org
11. Probabilistic Machine Learning
❯ Part 1 : probml.github.io/pml-book/book1
❯ Part 2 : probml.github.io/pml-book/book2
👉 @DataSciencegx
Обучение LLM с миллиардами параметров с нуля на одной видеокарте.
Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов.
Этот репозиторий показывает, что это не всегда так.
В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе.
От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде.
→ Создание GPT-подобных моделей с нуля
→ Практики эффективного обучения на ограниченных ресурсах
→ Токенизация, архитектура модели и пайплайн обучения
→ Методы масштабирования и оптимизации обучения
→ Полностью open-source
GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch
👉 @DataSciencegx
На Stepik вышла программа «Фундамент DevOps»
Это комплексная программа из 4 практических курсов по ключевым технологиям современного DevOps: Linux, Git, Docker и Kubernetes.
Вы последовательно пройдёте путь от работы в Linux и Git до контейнеризации приложений и управления ими в Kubernetes.
Что вы изучите:
• уверенную работу в Linux и терминале • Git и контроль версий в реальных проектах • Docker и контейнеризацию приложений • Kubernetes и оркестрацию контейнеров • основы сетей, безопасности и хранения данных • автоматизацию задач и диагностику инфраструктуры ... и многому другомуВсе знания закрепляются на практике с помощью заданий с автопроверкой. Материал подаётся понятным языком, шаг за шагом, с большим количеством примеров, схем и демонстраций. После прохождения вы получите сертификат, который можно добавить в резюме. Отдельно курсы стоят 16 600 ₽, но в составе программы доступны всего за 7 990 ₽: открыть на Stepik
Утечка данных — одна из главных причин, почему ML-демо выглядят впечатляюще... а затем разваливаются в продакшене.
Модель не стала умнее.
Она просто случайно увидела правильные ответы заранее.
За 4 минуты вы поймёте, где скрываются утечки данных.
Давайте разберёмся
1. Утечка данных (Data Leakage)
Утечка данных возникает, когда в процессе обучения модели используется информация, которая не будет доступна в момент реального предсказания.
Из-за этого метрики на этапе валидации могут выглядеть значительно лучше, чем фактическое качество модели на новых, ранее не встречавшихся данных.
2. Цель оценки модели (Evaluation)
Тестовая выборка — это не просто «дополнительные данные».
Это симуляция будущего.
Обучайте модель только на той информации, которая была бы вам известна на момент предсказания.
Оценивайте её на примерах, на которые модель никак не могла повлиять в процессе обучения.
3. Прямая утечка данных (Direct Leakage)
Это самый очевидный вид утечки.
Примеры:
- поле с информацией из будущего;
- идентификатор (ID), в котором закодирована целевая переменная;
- переменная, появляющаяся только после наступления события;
- дубликаты записей одновременно в обучающей и тестовой выборках.
Если признак не существует в момент инференса (предсказания), то, скорее всего, он является источником утечки данных.
4. Косвенная утечка данных (Indirect Leakage)
Именно этот тип утечки чаще всего становится ловушкой для команд.
Вы выполняете нормализацию, заполнение пропусков, отбор признаков, удаление выбросов или снижение размерности до разделения данных на обучающую и тестовую выборки.
Модель напрямую не видела данные из тестовой выборки.
Но их уже увидел ваш пайплайн предобработки.
5. Разделение на обучающую и тестовую выборки (Train/Test Split):
Неправильно:
обучить (
fit) скейлер на всех данных → разделить данные → провести оценку
Правильно:
разделить данные → обучить (fit) скейлер только на обучающей выборке → применить (transform) к обучающей и тестовой выборкам
Та же идея относится к импьютерам, энкодерам, отбору признаков, PCA и любому этапу предобработки, который обучается на данных.
6. Кросс-валидация (Cross-Validation):
Каждый фолд — это мини-эксперимент с обучающей и тестовой выборками.
Поэтому предобработка должна выполняться внутри каждого фолда.
Если вы один раз подготовили весь датасет, а затем запустили кросс-валидацию, то каждый фолд уже получил доступ к своим отложенным данным.
7. Пайплайны (Pipelines):
Пайплайн — это не просто способ сделать код чище.
Это ещё и защита от утечки данных.
Объедините предобработку, отбор признаков и модель в один пайплайн, а затем передайте этот пайплайн в кросс-валидацию или поиск гиперпараметров (grid search).
8. Версия для AI Engineering:
Утечки данных встречаются и в RAG-системах, и при оценке LLM.
Утечка возникает, когда вы настраиваете чанки, промпты, реранкеры, пороговые значения или примеры на том же наборе данных для оценки, который позже представляете как «отложенный» (held-out).
В результате ваш бенчмарк превращается в обучающие данные.
9. Чек-лист по поиску утечек данных (Leakage Checklist):
Прежде чем доверять полученной метрике, задайте себе вопросы:
Мог бы этот признак существовать в момент предсказания?
Не был ли какой-либо этап преобразования (transform) обучен (fit) на тестовых данных?
Включала ли кросс-валидация весь пайплайн целиком?
Не подбирали ли мы параметры на финальном наборе данных для оценки?
Если ответ «да», то метрика, скорее всего, не отражает реального качества модели.
👉 @DataSciencegx«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу.
Книга написана понятным и доступным языком, при этом сохраняет необходимую математическую строгость. Она содержит большое количество примеров и задач, поэтому подходит как для самостоятельного изучения, так и для использования в учебном процессе.
В учебнике рассматривается широкий круг тем, включая:
• пределы;
• производные;
• интегралы;
• последовательности и ряды;
• дифференциальные уравнения;
• многомерный анализ.
Считаю эту книгу ещё одним ценным инструментом в арсенале любого, кто изучает математику.
Если вы студент и хотите освоить или повторить ключевые темы математического анализа либо преподаватель, ищущий новые идеи и альтернативные объяснения, этот учебник определённо заслуживает внимания.
https://open.umn.edu/opentextbooks/textbooks/415
https://github.com/antoniolupetti/algebrica
👉 @DataSciencegx
Запусти собственную AI-компанию с командой AI-агентов
Alook — это open-source платформа для совместной работы AI coding-агентов. Self-hosted и local-first.
Как устроено:
Ты задаёшь структуру организации. Назначаешь каждому агенту роль — разработка, DevOps, ресерч и всё, что нужно. Настраиваешь иерархию и линии подчинения. Alook выдаёт каждому агенту собственный email-адрес.
Как это работает:
Ты назначаешь задачу нужному агенту — дальше он разбирается сам. Агенты координируются через email: передают результаты, задают вопросы, обновляют статусы. Ты видишь всё в своём inbox, но вручную ничего не маршрутизируешь.
Работает как always-on daemon. Закрыл ноутбук — агенты продолжают работать. Вернулся — задачи уже выполнены.
Общая память между всеми агентами. Каждый агент знает, над чем работали остальные. Не нужно заново объяснять контекст. После завершения каждой задачи Alook логирует удачные подходы и формирует SOP’ы. Со временем вся команда становится эффективнее.
Поддерживает Claude Code, Codex и OpenCode. Можно комбинировать разные системы или запускать несколько агентов в одном runtime.
Встроенные Kanban-доски для трекинга задач. Календарь для планирования. Email для всей коммуникации. Агенты сами подхватывают задачи, обновляют свои календари и закрывают issue после выполнения.
С агентами можно общаться через чат или email, как с любым AI-инструментом. Runtime устанавливается один раз и дальше работает в фоне. После настройки терминал больше не нужен.
Ключевые возможности:
• Координация агентов через email с реальными inbox’ами
• Структура организации с ролями и иерархией
• Общая память и самообучающиеся SOP’ы
• Always-on daemon для работы 24/7
• Поддержка Claude Code, Codex и OpenCode
• Встроенные Kanban, календарь и email
• Self-hosted и local-first
Полностью open source.
👉 @DataSciencegx
Тихо, почти незаметно, AI-инфраструктуру захватывает новая инженерная дисциплина.
И это не prompt engineering. И не выбор модели.
Это harness engineering.
Идея простая: практически любой сбой AI-агента — это проблема scaffolding-а.
Плохой контекст. Плохие инструменты. Отсутствие памяти. Нет верификации.
Этот репозиторий собирает всё необходимое для построения такого scaffolding’а — от статьи про ReAct до гайда Anthropic по context compaction и middleware-паттернов из LangGraph.
Ресурсы от OpenAI, Anthropic, Google, Meta, Microsoft и многих других — в одном месте.
https://github.com/ai-boost/awesome-harness-engineering
👉 @DataSciencegx
ИИ в аналитике — новый стандарт для бизнеса
Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее конкурентов. Те, кто остаётся на старых подходах, теряют скорость и преимущество.
Аналитика с искусственным интеллектом становится новым стандартом рынка — и те, кто не объединит бизнес-аналитику и ИИ сейчас, рискуют остаться за бортом.
3 июня Visiology проведёт бесплатный онлайн-эфир о том, как ИИ ускоряет работу с данными, сокращает ручную отчётность и помогает получать ответы без долгой подготовки.
Обсудим:
— ИИ-помощников для аналитики и поиска закономерностей;
— автоматизацию отчётности;
— как быстрее находить ответы в данных;
и многое другое.
Эфир полезен аналитикам, ИТ-командам и руководителям.
Мероприятие уже скоро — успейте зарегистрироваться.
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
