Data Portal | DS & ML
Відкрити в Telegram
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
Показати більше8 410
Підписники
+524 години
+187 днів
-630 день
Триває завантаження даних...
Схожі канали
Хмара тегів
Вхідні та вихідні згадування
---
---
---
---
---
---
Залучення підписників
червень '26
червень '26
+45
в 3 каналах
травень '26
+92
в 2 каналах
Get PRO
квітень '26
+48
в 0 каналах
Get PRO
березень '26
+61
в 1 каналах
Get PRO
лютий '26
+48
в 1 каналах
Get PRO
січень '26
+52
в 2 каналах
Get PRO
грудень '25
+183
в 8 каналах
Get PRO
листопад '25
+715
в 318 каналах
Get PRO
жовтень '25
+29
в 0 каналах
Get PRO
вересень '25
+44
в 0 каналах
Get PRO
серпень '25
+80
в 0 каналах
Get PRO
липень '25
+1 123
в 264 каналах
Get PRO
червень '25
+283
в 2 каналах
Get PRO
травень '25
+147
в 1 каналах
Get PRO
квітень '25
+662
в 2 каналах
Get PRO
березень '25
+591
в 0 каналах
Get PRO
лютий '25
+507
в 0 каналах
Get PRO
січень '25
+651
в 0 каналах
Get PRO
грудень '24
+1 342
в 404 каналах
Get PRO
листопад '24
+509
в 164 каналах
Get PRO
жовтень '24
+1 048
в 285 каналах
Get PRO
вересень '24
+887
в 281 каналах
Get PRO
серпень '24
+1 933
в 234 каналах
| Дата | Залучення підписників | Згадування | Канали | |
| 07 червня | +3 | |||
| 06 червня | +5 | |||
| 05 червня | +5 | |||
| 04 червня | +10 | |||
| 03 червня | +4 | |||
| 02 червня | +7 | |||
| 01 червня | +11 |
Дописи каналу
Кто-то потратил несколько месяцев и вручную написал 200-страничный гайд по математике и основам машинного обучения.
Без маркетинговой воды и бесконечных ссылок между статьями. Просто попытка собрать всё самое важное в одном месте.
Внутри:
• нейросети: backpropagation, SGD, Adam, BatchNorm;
• классический ML: SVM, Gradient Boosting, K-Means, PCA;
• железо для AI: Tensor Cores, Systolic Arrays, CUDA;
• трансформеры: Multi-Head Attention, KV Cache, LoRA;
• компьютерное зрение: ViT, CNN, MAE, IoU, NMS, VLM;
• агентные системы: ReAct, память, оркестрация, OpenClaw.
Автор описывает его как материал, который хотел бы получить сам несколько лет назад.
И да, весь гайд распространяется бесплатно.
https://www.arjunvirk.com/writing/ml-guide
👉 @DataSciencegx
| 2 | Если у вас уже 200 открытых вкладок с курсами, статьями и GitHub-репозиториями по ML, этот репозиторий может немного спасти ситуацию.
Awesome Machine Learning Resources — это огромная подборка подборок по машинному обучению, deep learning и AI.
Вместо бесконечного поиска по Google всё разложено по категориям:
• основы машинного обучения
• нейросети и современные архитектуры
• задачи и прикладные области
• датасеты
• библиотеки и инструменты
• fairness и AI ethics
• production ML и MLOps
У каждой ссылки есть короткое описание, поэтому можно быстро понять, стоит ли открывать её или пройти мимо.
Отдельно понравилось, что авторы помечают заброшенные подборки значком , если их не обновляли больше года.
https://github.com/ZhiningLiu1998/awesome-machine-learning-resources
👉 @DataSciencegx | 488 |
| 3 | В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности.
Но существует менее известный и при этом полностью строгий подход: определять угол через площадь кругового сектора.
В этой формулировке угол связывается не с длиной кривой, а с величиной, которую можно напрямую вычислить средствами интегрального исчисления.
Получается интересный взгляд на основы тригонометрии: вместо геометрических соглашений и интуитивных определений всё строится на анализе и математически строгих определениях.
Такой подход позволяет вывести тригонометрию из анализа и избежать части логических кругов, которые часто встречаются в классическом изложении темы.
В статье разбираются основы тригонометрии от единичной окружности до строгих аналитических определений синуса и косинуса.
Полный разбор⟶синус и косинус через анализ
👉 @DataSciencegx | 561 |
| 4 | Туториалов по AI-агентам стало слишком много.
Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, как строить реальные агентные системы.
Наткнулся на хороший open-source репозиторий для изучения LangChain и LangGraph.
LangGraph 101 проводит путь от базовых агентов до более продвинутых паттернов через ноутбуки и готовые примеры.
Что внутри:
• Два уровня обучения: 101 для основ и 201 для продвинутых сценариев
• Пошаговые ноутбуки по моделям, инструментам, памяти, стримингу, middleware, guardrails и human-in-the-loop
• Готовые проекты: email triage, исследовательские агенты, multi-agent системы и Deep Agents
• Интеграция с LangGraph Studio для локальной разработки и hot reload
• Инструкции по настройке OpenAI, Azure OpenAI, AWS Bedrock и Google Vertex AI
По сути, это структурированная дорожная карта по LangGraph вместо десятков разрозненных статей и видео.
MIT License. Open Source.
https://github.com/langchain-ai/langgraph-101
👉 @DataSciencegx | 671 |
| 5 | Кто-то взял Gemma 4 12B, снял цензуру, сделал аблитерацию модели и получил довольно неожиданный результат.
https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16
Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B.
Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию.
Пока доступна только в BF16.
Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов.
Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге.
👉 @DataSciencegx | 668 |
| 6 | ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз.
https://arxiv.org/html/2602.24286v1
Они натренировали агента, который пишет CUDA лучше многих людей.
Называется CUDA Agent.
Схема простая:
→ пишет CUDA-ядро
→ компилирует
→ гоняет профилировщик
→ ищет узкие места
→ переписывает код
→ повторяет цикл снова и снова
По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо.
Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят.
Результаты на KernelBench получились очень жирными.
• до 3.2× быстрее стандартного исполнения через PyTorch
• на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40%
• регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы
Почему это важно?
Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая.
Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA.
Но если агент способен сам писать и оптимизировать ядра...
то внезапно становится не так важно, какой у тебя чип.
Сегодня CUDA.
Завтра ROCm.
Послезавтра какой-нибудь кастомный AI-ускоритель.
Самый интересный вывод из всей истории:
возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа.
👉 @DataSciencegx | 719 |
| 7 | Почитай это, если хочешь разобраться в ML-инфраструктуре.
https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/
Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:
аппаратное обеспечение
память и пропускная способность памяти
процесс проведения ML-экспериментов
Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения.
👉 @DataSciencegx | 738 |
| 8 | 40 собесов и оффер за 1 месяц
Алексей разработчик.
Искал работу с декабря - написание сопроводов и отклики занимали очень много времени.
Выхлоп - почти нулевой.
В какой-то момент понял:
так можно искать бесконечно.
И по совету друга попробовал ии-ассистента Софи.
▫️За ~1 месяц прошел около 40 собеседований
▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам
В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался.
Весь процесс - от первого собеседования до оффера - занял 4 дня.
P.S. Попробовать Софи бесплатно можно будет 16 июня.
Не пропусти анонс здесь. | 729 |
| 9 | Как получить ChatGPT Plus стоимостью $20 бесплатно
В некоторых регионах ChatGPT предлагает бесплатный месяц подписки.
Что для этого нужно:
- Аккаунт GoPay (его можно открыть в Индии)
- Новый аккаунт ChatGPT
- VPN с подключением через Японию
Как получить предложение:
Перейдите по ссылке:
https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing
1. Подключите VPN через Японию
2. Создайте новый аккаунт ChatGPT
3. Нажмите «Claim Offer»
4. Пролистайте страницу вниз и выберите Индонезию
5. Выберите тариф «Plus»
6. В качестве способа оплаты выберите GoPay
7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты.
На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей.
👉 @DataSciencegx | 894 |
| 10 | 9 мер расстояния, которые часто используются в Data Science и ML
👉 @DataSciencegx | 831 |
| 11 | Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes
Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок.
Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео.
Что внутри:
• Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других
• Таблица с лекциями, описаниями, видео, конспектами и авторами
• Ссылки на оригинальные лекции и сопутствующие заметки
• Пометки WIP для незавершённых материалов
• Инструкция для контрибьюторов с процессом добавления и улучшения конспектов
Мне понравилась сама идея.
Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения.
👉 @DataSciencegx | 884 |
| 12 | Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N.
"Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул.
Внутри:
• Chain Rule
• Computational Graphs
• Векторизованные производные
• Эффективное вычисление градиентов
• Пошаговые примеры с разбором формул
Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward().
Эти заметки как раз закрывают этот пробел.
PDF:
https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf
👉 @DataSciencegx | 830 |
| 13 | «Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц.
Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров.
Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных.
Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей.
Бесплатный учебник:
https://open.umn.edu/opentextbooks/textbooks/675
👉 @DataSciencegx | 818 |
| 14 | Математическое моделирование обычно начинается с пустого листа.
Этот проект решил, что так быть не должно.
MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта.
Что умеет:
• Разбирает условие задачи и выделяет ключевые требования
• Формулирует допущения и строит математическую модель
• Генерирует код для вычислений и дорабатывает его по ходу решения
• Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей
• Автоматически собирает итоговый отчёт
• Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой
Сейчас поддерживаются GPT-4o и DeepSeek-R1.
По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта.
Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent
👉 @DataSciencegx | 843 |
| 15 | Единственный чит-лист по LLM, который вам когда-либо понадобится
Охватывает основные концепции, архитектуры и практические применения.
LLM Cheatsheet (Google Drive)
Основы
Токены (токенизация, BPE)
Эмбеддинги (косинусное сходство)
Механизм внимания (формула Attention, Multi-Head Attention)
Архитектура Transformer и её разновидности
BERT (модели только с энкодером)
GPT (модели только с декодером)
T5 (модели с энкодером и декодером)
Большие языковые модели (LLM)
Промптинг (длина контекста, Chain-of-Thought)
Дообучение (SFT, PEFT/LoRA)
Настройка предпочтений (Reward Model, Reinforcement Learning)
Оптимизации (Mixture of Experts, Distillation, Quantization)
Применение
LLM-as-a-Judge (LaaJ)
RAG (Retrieval-Augmented Generation)
Агенты (ReAct)
Рассуждающие модели (Scaling)
👉 @DataSciencegx | 1 016 |
| 16 | «Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне.
Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры.
На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете.
Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e
👉 @DataSciencegx | 1 105 |
| 17 | Уже в среду, 3 июня, Visiology проведёт бесплатный онлайн-эфир о том, как ИИ меняет работу с корпоративной аналитикой после Power BI.
Поговорим о том, как быстрее получать ответы по данным, сокращать ручную отчётность и принимать решения без долгой подготовки дашбордов.
В программе:
— self-service аналитика и ИИ-ассистенты;
— автоматизация отчётов и контроль ключевых метрик;
— сценарии для бизнеса, IT-команд и аналитиков;
— безопасность данных и развитие BI-инфраструктуры.
Эфир будет полезен аналитикам, руководителям и IT-специалистам, которые хотят ускорить работу с данными и сделать аналитику понятнее для бизнеса.
Мероприятие уже скоро!
Участие бесплатное. Количество мест ограничено.
Успейте зарегистрироваться! | 655 |
| 18 | БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning:
1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/
2. Understanding Deep Learning udlbook.github.io/udlbook/
3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do
4. Algorithms for ML algorithmsbook.com
5. Deep Learning deeplearningbook.org
6. Reinforcement Learning andrew.cmu.edu/course/10-703/
7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog
8. Multi Agent Reinforcement Learning marl-book.com
9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog
10. Fairness and Machine Learning fairmlbook.org
11. Probabilistic Machine Learning
❯ Part 1 : probml.github.io/pml-book/book1
❯ Part 2 : probml.github.io/pml-book/book2
👉 @DataSciencegx | 1 123 |
| 19 | Обучение LLM с миллиардами параметров с нуля на одной видеокарте.
Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов.
Этот репозиторий показывает, что это не всегда так.
В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе.
От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде.
→ Создание GPT-подобных моделей с нуля
→ Практики эффективного обучения на ограниченных ресурсах
→ Токенизация, архитектура модели и пайплайн обучения
→ Методы масштабирования и оптимизации обучения
→ Полностью open-source
GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch
👉 @DataSciencegx | 961 |
| 20 | На Stepik вышла программа «Фундамент DevOps»
Это комплексная программа из 4 практических курсов по ключевым технологиям современного DevOps: Linux, Git, Docker и Kubernetes.
Вы последовательно пройдёте путь от работы в Linux и Git до контейнеризации приложений и управления ими в Kubernetes.
Что вы изучите:
• уверенную работу в Linux и терминале
• Git и контроль версий в реальных проектах
• Docker и контейнеризацию приложений
• Kubernetes и оркестрацию контейнеров
• основы сетей, безопасности и хранения данных
• автоматизацию задач и диагностику инфраструктуры
... и многому другому
Все знания закрепляются на практике с помощью заданий с автопроверкой.
Материал подаётся понятным языком, шаг за шагом, с большим количеством примеров, схем и демонстраций. После прохождения вы получите сертификат, который можно добавить в резюме.
Отдельно курсы стоят 16 600 ₽, но в составе программы доступны всего за 7 990 ₽: открыть на Stepik | 659 |
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
