ar
Feedback
Data Portal | DS & ML

Data Portal | DS & ML

الذهاب إلى القناة على Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

إظهار المزيد
8 406
المشتركون
+524 ساعات
+187 أيام
-630 أيام

جاري تحميل البيانات...

جذب المشتركين
يونيو '26
يونيو '26
+39
في 3 قنوات
مايو '26
+92
في 2 قنوات
Get PRO
أبريل '26
+48
في 0 قنوات
Get PRO
مارس '26
+61
في 1 قنوات
Get PRO
فبراير '26
+48
في 1 قنوات
Get PRO
يناير '26
+52
في 2 قنوات
Get PRO
ديسمبر '25
+183
في 8 قنوات
Get PRO
نوفمبر '25
+715
في 318 قنوات
Get PRO
أكتوبر '25
+29
في 0 قنوات
Get PRO
سبتمبر '25
+44
في 0 قنوات
Get PRO
أغسطس '25
+80
في 0 قنوات
Get PRO
يوليو '25
+1 123
في 264 قنوات
Get PRO
يونيو '25
+283
في 2 قنوات
Get PRO
مايو '25
+147
في 1 قنوات
Get PRO
أبريل '25
+662
في 2 قنوات
Get PRO
مارس '25
+591
في 0 قنوات
Get PRO
فبراير '25
+507
في 0 قنوات
Get PRO
يناير '25
+651
في 0 قنوات
Get PRO
ديسمبر '24
+1 342
في 404 قنوات
Get PRO
نوفمبر '24
+509
في 164 قنوات
Get PRO
أكتوبر '24
+1 048
في 285 قنوات
Get PRO
سبتمبر '24
+887
في 281 قنوات
Get PRO
أغسطس '24
+1 933
في 234 قنوات
التاريخ
نمو المشتركين
الإشارات
القنوات
06 يونيو+2
05 يونيو+5
04 يونيو+10
03 يونيو+4
02 يونيو+7
01 يونيو+11
منشورات القناة
В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности. Но существует менее и
В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности. Но существует менее известный и при этом полностью строгий подход: определять угол через площадь кругового сектора. В этой формулировке угол связывается не с длиной кривой, а с величиной, которую можно напрямую вычислить средствами интегрального исчисления. Получается интересный взгляд на основы тригонометрии: вместо геометрических соглашений и интуитивных определений всё строится на анализе и математически строгих определениях. Такой подход позволяет вывести тригонометрию из анализа и избежать части логических кругов, которые часто встречаются в классическом изложении темы. В статье разбираются основы тригонометрии от единичной окружности до строгих аналитических определений синуса и косинуса. Полный разбор⟶синус и косинус через анализ 👉 @DataSciencegx

2
Туториалов по AI-агентам стало слишком много. Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, к
Туториалов по AI-агентам стало слишком много. Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, как строить реальные агентные системы. Наткнулся на хороший open-source репозиторий для изучения LangChain и LangGraph. LangGraph 101 проводит путь от базовых агентов до более продвинутых паттернов через ноутбуки и готовые примеры. Что внутри: • Два уровня обучения: 101 для основ и 201 для продвинутых сценариев • Пошаговые ноутбуки по моделям, инструментам, памяти, стримингу, middleware, guardrails и human-in-the-loop • Готовые проекты: email triage, исследовательские агенты, multi-agent системы и Deep Agents • Интеграция с LangGraph Studio для локальной разработки и hot reload • Инструкции по настройке OpenAI, Azure OpenAI, AWS Bedrock и Google Vertex AI По сути, это структурированная дорожная карта по LangGraph вместо десятков разрозненных статей и видео. MIT License. Open Source. https://github.com/langchain-ai/langgraph-101 👉 @DataSciencegx
547
3
Кто-то взял Gemma 4 12B, снял цензуру, сделал аблитерацию модели и получил довольно неожиданный результат. https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16 Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B. Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию. Пока доступна только в BF16. Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов. Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге. 👉 @DataSciencegx
604
4
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз. https://arxiv.org/html/2602.24286v1 Они натрениро
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз. https://arxiv.org/html/2602.24286v1 Они натренировали агента, который пишет CUDA лучше многих людей. Называется CUDA Agent. Схема простая: → пишет CUDA-ядро → компилирует → гоняет профилировщик → ищет узкие места → переписывает код → повторяет цикл снова и снова По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо. Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят. Результаты на KernelBench получились очень жирными. • до 3.2× быстрее стандартного исполнения через PyTorch • на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40% • регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы Почему это важно? Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая. Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA. Но если агент способен сам писать и оптимизировать ядра... то внезапно становится не так важно, какой у тебя чип. Сегодня CUDA. Завтра ROCm. Послезавтра какой-нибудь кастомный AI-ускоритель. Самый интересный вывод из всей истории: возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа. 👉 @DataSciencegx
666
5
Почитай это, если хочешь разобраться в ML-инфраструктуре. https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/ Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются: аппаратное обеспечение память и пропускная способность памяти процесс проведения ML-экспериментов Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения. 👉 @DataSciencegx
671
6
40 собесов и оффер за 1 месяц Алексей разработчик. Искал работу с декабря - написание сопроводов и отклики занимали очень мно
40 собесов и оффер за 1 месяц Алексей разработчик. Искал работу с декабря - написание сопроводов и отклики занимали очень много времени. Выхлоп - почти нулевой. В какой-то момент понял: так можно искать бесконечно. И по совету друга попробовал ии-ассистента Софи. ▫️За ~1 месяц прошел около 40 собеседований ▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался. Весь процесс - от первого собеседования до оффера - занял 4 дня. P.S. Попробовать Софи бесплатно можно будет 16 июня. Не пропусти анонс здесь.
729
7
Как получить ChatGPT Plus стоимостью $20 бесплатно В некоторых регионах ChatGPT предлагает бесплатный месяц подписки. Что для
Как получить ChatGPT Plus стоимостью $20 бесплатно В некоторых регионах ChatGPT предлагает бесплатный месяц подписки. Что для этого нужно: - Аккаунт GoPay (его можно открыть в Индии) - Новый аккаунт ChatGPT - VPN с подключением через Японию Как получить предложение: Перейдите по ссылке: https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing 1. Подключите VPN через Японию 2. Создайте новый аккаунт ChatGPT 3. Нажмите «Claim Offer» 4. Пролистайте страницу вниз и выберите Индонезию 5. Выберите тариф «Plus» 6. В качестве способа оплаты выберите GoPay 7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты. На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей. 👉 @DataSciencegx
848
8
9 мер расстояния, которые часто используются в Data Science и ML 👉 @DataSciencegx
9 мер расстояния, которые часто используются в Data Science и ML 👉 @DataSciencegx
755
9
Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок. Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео. Что внутри: • Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других • Таблица с лекциями, описаниями, видео, конспектами и авторами • Ссылки на оригинальные лекции и сопутствующие заметки • Пометки WIP для незавершённых материалов • Инструкция для контрибьюторов с процессом добавления и улучшения конспектов Мне понравилась сама идея. Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения. 👉 @DataSciencegx
804
10
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N. "Computing
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N. "Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул. Внутри: • Chain Rule • Computational Graphs • Векторизованные производные • Эффективное вычисление градиентов • Пошаговые примеры с разбором формул Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward(). Эти заметки как раз закрывают этот пробел. PDF: https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf 👉 @DataSciencegx
791
11
«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц. Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров. Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных. Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей. Бесплатный учебник: https://open.umn.edu/opentextbooks/textbooks/675 👉 @DataSciencegx
791
12
Математическое моделирование обычно начинается с пустого листа. Этот проект решил, что так быть не должно. MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта. Что умеет: • Разбирает условие задачи и выделяет ключевые требования • Формулирует допущения и строит математическую модель • Генерирует код для вычислений и дорабатывает его по ходу решения • Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей • Автоматически собирает итоговый отчёт • Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой Сейчас поддерживаются GPT-4o и DeepSeek-R1. По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта. Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent 👉 @DataSciencegx
821
13
Единственный чит-лист по LLM, который вам когда-либо понадобится Охватывает основные концепции, архитектуры и практические применения. LLM Cheatsheet (Google Drive) Основы Токены (токенизация, BPE) Эмбеддинги (косинусное сходство) Механизм внимания (формула Attention, Multi-Head Attention) Архитектура Transformer и её разновидности BERT (модели только с энкодером) GPT (модели только с декодером) T5 (модели с энкодером и декодером) Большие языковые модели (LLM) Промптинг (длина контекста, Chain-of-Thought) Дообучение (SFT, PEFT/LoRA) Настройка предпочтений (Reward Model, Reinforcement Learning) Оптимизации (Mixture of Experts, Distillation, Quantization) Применение LLM-as-a-Judge (LaaJ) RAG (Retrieval-Augmented Generation) Агенты (ReAct) Рассуждающие модели (Scaling) 👉 @DataSciencegx
888
14
«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на нач
«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне. Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры. На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете. Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e 👉 @DataSciencegx
1 052
15
Уже в среду, 3 июня, Visiology проведёт бесплатный онлайн-эфир о том, как ИИ меняет работу с корпоративной аналитикой после Power BI. Поговорим о том, как быстрее получать ответы по данным, сокращать ручную отчётность и принимать решения без долгой подготовки дашбордов. В программе: — self-service аналитика и ИИ-ассистенты; — автоматизация отчётов и контроль ключевых метрик; — сценарии для бизнеса, IT-команд и аналитиков; — безопасность данных и развитие BI-инфраструктуры. Эфир будет полезен аналитикам, руководителям и IT-специалистам, которые хотят ускорить работу с данными и сделать аналитику понятнее для бизнеса. Мероприятие уже скоро! Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться!
655
16
БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning: 1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/ 2. Understanding+1
БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning: 1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/ 2. Understanding Deep Learning udlbook.github.io/udlbook/ 3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do 4. Algorithms for ML algorithmsbook.com 5. Deep Learning deeplearningbook.org 6. Reinforcement Learning andrew.cmu.edu/course/10-703/ 7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog 8. Multi Agent Reinforcement Learning marl-book.com 9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog 10. Fairness and Machine Learning fairmlbook.org 11. Probabilistic Machine Learning ❯ Part 1 : probml.github.io/pml-book/book1 ❯ Part 2 : probml.github.io/pml-book/book2 👉 @DataSciencegx
1 110
17
Обучение LLM с миллиардами параметров с нуля на одной видеокарте. Большинство считает, что для обучения LLM нужны дата-центр
Обучение LLM с миллиардами параметров с нуля на одной видеокарте. Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов. Этот репозиторий показывает, что это не всегда так. В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе. От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде. → Создание GPT-подобных моделей с нуля → Практики эффективного обучения на ограниченных ресурсах → Токенизация, архитектура модели и пайплайн обучения → Методы масштабирования и оптимизации обучения → Полностью open-source GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch 👉 @DataSciencegx
935
18
На Stepik вышла программа «Фундамент DevOps» Это комплексная программа из 4 практических курсов по ключевым технологиям совре
На Stepik вышла программа «Фундамент DevOps» Это комплексная программа из 4 практических курсов по ключевым технологиям современного DevOps: Linux, Git, Docker и Kubernetes. Вы последовательно пройдёте путь от работы в Linux и Git до контейнеризации приложений и управления ими в Kubernetes. Что вы изучите: • уверенную работу в Linux и терминале • Git и контроль версий в реальных проектах • Docker и контейнеризацию приложений • Kubernetes и оркестрацию контейнеров • основы сетей, безопасности и хранения данных • автоматизацию задач и диагностику инфраструктуры ... и многому другому Все знания закрепляются на практике с помощью заданий с автопроверкой. Материал подаётся понятным языком, шаг за шагом, с большим количеством примеров, схем и демонстраций. После прохождения вы получите сертификат, который можно добавить в резюме. Отдельно курсы стоят 16 600 ₽, но в составе программы доступны всего за 7 990 ₽: открыть на Stepik
659
19
Утечка данных — одна из главных причин, почему ML-демо выглядят впечатляюще... а затем разваливаются в продакшене. Модель не стала умнее. Она просто случайно увидела правильные ответы заранее. За 4 минуты вы поймёте, где скрываются утечки данных. Давайте разберёмся 1. Утечка данных (Data Leakage) Утечка данных возникает, когда в процессе обучения модели используется информация, которая не будет доступна в момент реального предсказания. Из-за этого метрики на этапе валидации могут выглядеть значительно лучше, чем фактическое качество модели на новых, ранее не встречавшихся данных. 2. Цель оценки модели (Evaluation) Тестовая выборка — это не просто «дополнительные данные». Это симуляция будущего. Обучайте модель только на той информации, которая была бы вам известна на момент предсказания. Оценивайте её на примерах, на которые модель никак не могла повлиять в процессе обучения. 3. Прямая утечка данных (Direct Leakage) Это самый очевидный вид утечки. Примеры: - поле с информацией из будущего; - идентификатор (ID), в котором закодирована целевая переменная; - переменная, появляющаяся только после наступления события; - дубликаты записей одновременно в обучающей и тестовой выборках. Если признак не существует в момент инференса (предсказания), то, скорее всего, он является источником утечки данных. 4. Косвенная утечка данных (Indirect Leakage) Именно этот тип утечки чаще всего становится ловушкой для команд. Вы выполняете нормализацию, заполнение пропусков, отбор признаков, удаление выбросов или снижение размерности до разделения данных на обучающую и тестовую выборки. Модель напрямую не видела данные из тестовой выборки. Но их уже увидел ваш пайплайн предобработки. 5. Разделение на обучающую и тестовую выборки (Train/Test Split): Неправильно: обучить (fit) скейлер на всех данных → разделить данные → провести оценку Правильно: разделить данные → обучить (fit) скейлер только на обучающей выборке → применить (transform) к обучающей и тестовой выборкам Та же идея относится к импьютерам, энкодерам, отбору признаков, PCA и любому этапу предобработки, который обучается на данных. 6. Кросс-валидация (Cross-Validation): Каждый фолд — это мини-эксперимент с обучающей и тестовой выборками. Поэтому предобработка должна выполняться внутри каждого фолда. Если вы один раз подготовили весь датасет, а затем запустили кросс-валидацию, то каждый фолд уже получил доступ к своим отложенным данным. 7. Пайплайны (Pipelines): Пайплайн — это не просто способ сделать код чище. Это ещё и защита от утечки данных. Объедините предобработку, отбор признаков и модель в один пайплайн, а затем передайте этот пайплайн в кросс-валидацию или поиск гиперпараметров (grid search). 8. Версия для AI Engineering: Утечки данных встречаются и в RAG-системах, и при оценке LLM. Утечка возникает, когда вы настраиваете чанки, промпты, реранкеры, пороговые значения или примеры на том же наборе данных для оценки, который позже представляете как «отложенный» (held-out). В результате ваш бенчмарк превращается в обучающие данные. 9. Чек-лист по поиску утечек данных (Leakage Checklist): Прежде чем доверять полученной метрике, задайте себе вопросы: Мог бы этот признак существовать в момент предсказания? Не был ли какой-либо этап преобразования (transform) обучен (fit) на тестовых данных? Включала ли кросс-валидация весь пайплайн целиком? Не подбирали ли мы параметры на финальном наборе данных для оценки? Если ответ «да», то метрика, скорее всего, не отражает реального качества модели. 👉 @DataSciencegx
894
20
«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу. Кни
«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу. Книга написана понятным и доступным языком, при этом сохраняет необходимую математическую строгость. Она содержит большое количество примеров и задач, поэтому подходит как для самостоятельного изучения, так и для использования в учебном процессе. В учебнике рассматривается широкий круг тем, включая: • пределы; • производные; • интегралы; • последовательности и ряды; • дифференциальные уравнения; • многомерный анализ. Считаю эту книгу ещё одним ценным инструментом в арсенале любого, кто изучает математику. Если вы студент и хотите освоить или повторить ключевые темы математического анализа либо преподаватель, ищущий новые идеи и альтернативные объяснения, этот учебник определённо заслуживает внимания. https://open.umn.edu/opentextbooks/textbooks/415 https://github.com/antoniolupetti/algebrica 👉 @DataSciencegx
922