Data Portal | DS & ML

Відкрити в Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

Сітка:IT Portal Росія76 226 Технології та додатки13 907

8 413

Підписники

-324 години

-127 днів

-530 день

1 066

Перегляди допису

~ 54924 години

~ 63848 годин

12.67%

Коефіцієнт залучення

~ 2

Дописів на день

Ads index

beta

Архів дописів

8 413

Хотите не читать про AI Engineering, а реально что-то собрать? Выложили в опенсорс коллекцию из 50+ практических туториалов по AI Engineering. Внутри пошаговые проекты по: • AI-агентам и мультиагентным системам • RAG (Agentic, Vision и Local) • MCP-агентам • OCR-приложениям • Голосовым AI-агентам • и многому другому Всё бесплатно, с исходниками и готовыми примерами. 🥩 👉 @DataSciencegx

8 413

Кто-то потратил несколько месяцев и вручную написал 200-страничный гайд по математике и основам машинного обучения. Без маркетинговой воды и бесконечных ссылок между статьями. Просто попытка собрать всё самое важное в одном месте. Внутри: • нейросети: backpropagation, SGD, Adam, BatchNorm; • классический ML: SVM, Gradient Boosting, K-Means, PCA; • железо для AI: Tensor Cores, Systolic Arrays, CUDA; • трансформеры: Multi-Head Attention, KV Cache, LoRA; • компьютерное зрение: ViT, CNN, MAE, IoU, NMS, VLM; • агентные системы: ReAct, память, оркестрация, OpenClaw. Автор описывает его как материал, который хотел бы получить сам несколько лет назад. И да, весь гайд распространяется бесплатно. https://www.arjunvirk.com/writing/ml-guide 👉 @DataSciencegx

8 413

Если у вас уже 200 открытых вкладок с курсами, статьями и GitHub-репозиториями по ML, этот репозиторий может немного спасти ситуацию. Awesome Machine Learning Resources — это огромная подборка подборок по машинному обучению, deep learning и AI. Вместо бесконечного поиска по Google всё разложено по категориям: • основы машинного обучения • нейросети и современные архитектуры • задачи и прикладные области • датасеты • библиотеки и инструменты • fairness и AI ethics • production ML и MLOps У каждой ссылки есть короткое описание, поэтому можно быстро понять, стоит ли открывать её или пройти мимо. Отдельно понравилось, что авторы помечают заброшенные подборки значком , если их не обновляли больше года. https://github.com/ZhiningLiu1998/awesome-machine-learning-resources 👉 @DataSciencegx

8 413

В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности. Но существует менее известный и при этом полностью строгий подход: определять угол через площадь кругового сектора. В этой формулировке угол связывается не с длиной кривой, а с величиной, которую можно напрямую вычислить средствами интегрального исчисления. Получается интересный взгляд на основы тригонометрии: вместо геометрических соглашений и интуитивных определений всё строится на анализе и математически строгих определениях. Такой подход позволяет вывести тригонометрию из анализа и избежать части логических кругов, которые часто встречаются в классическом изложении темы. В статье разбираются основы тригонометрии от единичной окружности до строгих аналитических определений синуса и косинуса. Полный разбор⟶синус и косинус через анализ 👉 @DataSciencegx

8 413

Туториалов по AI-агентам стало слишком много. Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, как строить реальные агентные системы. Наткнулся на хороший open-source репозиторий для изучения LangChain и LangGraph. LangGraph 101 проводит путь от базовых агентов до более продвинутых паттернов через ноутбуки и готовые примеры. Что внутри: • Два уровня обучения: 101 для основ и 201 для продвинутых сценариев • Пошаговые ноутбуки по моделям, инструментам, памяти, стримингу, middleware, guardrails и human-in-the-loop • Готовые проекты: email triage, исследовательские агенты, multi-agent системы и Deep Agents • Интеграция с LangGraph Studio для локальной разработки и hot reload • Инструкции по настройке OpenAI, Azure OpenAI, AWS Bedrock и Google Vertex AI По сути, это структурированная дорожная карта по LangGraph вместо десятков разрозненных статей и видео. MIT License. Open Source. https://github.com/langchain-ai/langgraph-101 👉 @DataSciencegx

8 413

Кто-то взял Gemma 4 12B, снял цензуру, сделал аблитерацию модели и получил довольно неожиданный результат. https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16 Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B. Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию. Пока доступна только в BF16. Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов. Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге. 👉 @DataSciencegx

8 413

ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз. https://arxiv.org/html/2602.24286v1 Они натренировали агента, который пишет CUDA лучше многих людей. Называется CUDA Agent. Схема простая: → пишет CUDA-ядро → компилирует → гоняет профилировщик → ищет узкие места → переписывает код → повторяет цикл снова и снова По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо. Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят. Результаты на KernelBench получились очень жирными. • до 3.2× быстрее стандартного исполнения через PyTorch • на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40% • регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы Почему это важно? Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая. Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA. Но если агент способен сам писать и оптимизировать ядра... то внезапно становится не так важно, какой у тебя чип. Сегодня CUDA. Завтра ROCm. Послезавтра какой-нибудь кастомный AI-ускоритель. Самый интересный вывод из всей истории: возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа. 👉 @DataSciencegx

8 413

Почитай это, если хочешь разобраться в ML-инфраструктуре. https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/ Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:

аппаратное обеспечение память и пропускная способность памяти процесс проведения ML-экспериментов

Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения. 👉 @DataSciencegx

8 413

40 собесов и оффер за 1 месяц Алексей разработчик. Искал работу с декабря - написание сопроводов и отклики занимали очень много времени. Выхлоп - почти нулевой. В какой-то момент понял: так можно искать бесконечно. И по совету друга попробовал ии-ассистента Софи. ▫️За ~1 месяц прошел около 40 собеседований ▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам

В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался.

Весь процесс - от первого собеседования до оффера - занял 4 дня. P.S. Попробовать Софи бесплатно можно будет 16 июня. Не пропусти анонс здесь.

8 413

Как получить ChatGPT Plus стоимостью $20 бесплатно В некоторых регионах ChatGPT предлагает бесплатный месяц подписки. Что для этого нужно: - Аккаунт GoPay (его можно открыть в Индии) - Новый аккаунт ChatGPT - VPN с подключением через Японию Как получить предложение:

Перейдите по ссылке: https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing

1. Подключите VPN через Японию 2. Создайте новый аккаунт ChatGPT 3. Нажмите «Claim Offer» 4. Пролистайте страницу вниз и выберите Индонезию 5. Выберите тариф «Plus» 6. В качестве способа оплаты выберите GoPay 7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты. На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей. 👉 @DataSciencegx

8 413

9 мер расстояния, которые часто используются в Data Science и ML 👉 @DataSciencegx

8 413

Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок. Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео. Что внутри: • Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других • Таблица с лекциями, описаниями, видео, конспектами и авторами • Ссылки на оригинальные лекции и сопутствующие заметки • Пометки WIP для незавершённых материалов • Инструкция для контрибьюторов с процессом добавления и улучшения конспектов Мне понравилась сама идея. Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения. 👉 @DataSciencegx

8 413

Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N. "Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул. Внутри: • Chain Rule • Computational Graphs • Векторизованные производные • Эффективное вычисление градиентов • Пошаговые примеры с разбором формул Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward(). Эти заметки как раз закрывают этот пробел. PDF: https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf 👉 @DataSciencegx

8 413

«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц. Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров. Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных. Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей. Бесплатный учебник: https://open.umn.edu/opentextbooks/textbooks/675 👉 @DataSciencegx

8 413

Математическое моделирование обычно начинается с пустого листа. Этот проект решил, что так быть не должно. MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта. Что умеет: • Разбирает условие задачи и выделяет ключевые требования • Формулирует допущения и строит математическую модель • Генерирует код для вычислений и дорабатывает его по ходу решения • Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей • Автоматически собирает итоговый отчёт • Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой Сейчас поддерживаются GPT-4o и DeepSeek-R1. По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта. Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent 👉 @DataSciencegx

8 413

Единственный чит-лист по LLM, который вам когда-либо понадобится Охватывает основные концепции, архитектуры и практические применения. LLM Cheatsheet (Google Drive) Основы

Токены (токенизация, BPE) Эмбеддинги (косинусное сходство) Механизм внимания (формула Attention, Multi-Head Attention)

Архитектура Transformer и её разновидности

BERT (модели только с энкодером) GPT (модели только с декодером) T5 (модели с энкодером и декодером)

Большие языковые модели (LLM)

Промптинг (длина контекста, Chain-of-Thought) Дообучение (SFT, PEFT/LoRA) Настройка предпочтений (Reward Model, Reinforcement Learning) Оптимизации (Mixture of Experts, Distillation, Quantization)

Применение

LLM-as-a-Judge (LaaJ) RAG (Retrieval-Augmented Generation) Агенты (ReAct) Рассуждающие модели (Scaling)

👉 @DataSciencegx

8 413

«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне. Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры. На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете. Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e 👉 @DataSciencegx

8 413

Уже в среду, 3 июня, Visiology проведёт бесплатный онлайн-эфир о том, как ИИ меняет работу с корпоративной аналитикой после Power BI. Поговорим о том, как быстрее получать ответы по данным, сокращать ручную отчётность и принимать решения без долгой подготовки дашбордов. В программе: — self-service аналитика и ИИ-ассистенты; — автоматизация отчётов и контроль ключевых метрик; — сценарии для бизнеса, IT-команд и аналитиков; — безопасность данных и развитие BI-инфраструктуры. Эфир будет полезен аналитикам, руководителям и IT-специалистам, которые хотят ускорить работу с данными и сделать аналитику понятнее для бизнеса. Мероприятие уже скоро! Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться!

8 413

БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning: 1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/ 2. Understanding Deep Learning udlbook.github.io/udlbook/ 3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do 4. Algorithms for ML algorithmsbook.com 5. Deep Learning deeplearningbook.org 6. Reinforcement Learning andrew.cmu.edu/course/10-703/ 7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog 8. Multi Agent Reinforcement Learning marl-book.com 9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog 10. Fairness and Machine Learning fairmlbook.org 11. Probabilistic Machine Learning ❯ Part 1 : probml.github.io/pml-book/book1 ❯ Part 2 : probml.github.io/pml-book/book2 👉 @DataSciencegx

8 413

Обучение LLM с миллиардами параметров с нуля на одной видеокарте. Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов. Этот репозиторий показывает, что это не всегда так. В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе. От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде. → Создание GPT-подобных моделей с нуля → Практики эффективного обучения на ограниченных ресурсах → Токенизация, архитектура модели и пайплайн обучения → Методы масштабирования и оптимизации обучения → Полностью open-source GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch 👉 @DataSciencegx