fa
Feedback
Data Portal | DS & ML

Data Portal | DS & ML

رفتن به کانال در Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

نمایش بیشتر
8 405
مشترکین
+524 ساعت
+107 روز
-1530 روز
جذب مشترکین
ژوئن '26
ژوئن '26
+32
در 3 کانال‌ها
مه '26
+92
در 2 کانال‌ها
Get PRO
آوریل '26
+48
در 0 کانال‌ها
Get PRO
مارس '26
+61
در 1 کانال‌ها
Get PRO
فوریه '26
+48
در 1 کانال‌ها
Get PRO
ژانویه '26
+52
در 2 کانال‌ها
Get PRO
دسامبر '25
+183
در 8 کانال‌ها
Get PRO
نوامبر '25
+715
در 318 کانال‌ها
Get PRO
اکتبر '25
+29
در 0 کانال‌ها
Get PRO
سپتامبر '25
+44
در 0 کانال‌ها
Get PRO
اوت '25
+80
در 0 کانال‌ها
Get PRO
ژوئیه '25
+1 123
در 264 کانال‌ها
Get PRO
ژوئن '25
+283
در 2 کانال‌ها
Get PRO
مه '25
+147
در 1 کانال‌ها
Get PRO
آوریل '25
+662
در 2 کانال‌ها
Get PRO
مارس '25
+591
در 0 کانال‌ها
Get PRO
فوریه '25
+507
در 0 کانال‌ها
Get PRO
ژانویه '25
+651
در 0 کانال‌ها
Get PRO
دسامبر '24
+1 342
در 404 کانال‌ها
Get PRO
نوامبر '24
+509
در 164 کانال‌ها
Get PRO
اکتبر '24
+1 048
در 285 کانال‌ها
Get PRO
سپتامبر '24
+887
در 281 کانال‌ها
Get PRO
اوت '24
+1 933
در 234 کانال‌ها
تاریخ
رشد مشترکین
اشارات
کانال‌ها
04 ژوئن+10
03 ژوئن+4
02 ژوئن+7
01 ژوئن+11
پست‌های کانال
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз. https://arxiv.org/html/2602.24286v1 Они натрениро
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз. https://arxiv.org/html/2602.24286v1 Они натренировали агента, который пишет CUDA лучше многих людей. Называется CUDA Agent. Схема простая: → пишет CUDA-ядро → компилирует → гоняет профилировщик → ищет узкие места → переписывает код → повторяет цикл снова и снова По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо. Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят. Результаты на KernelBench получились очень жирными. • до 3.2× быстрее стандартного исполнения через PyTorch • на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40% • регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы Почему это важно? Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая. Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA. Но если агент способен сам писать и оптимизировать ядра... то внезапно становится не так важно, какой у тебя чип. Сегодня CUDA. Завтра ROCm. Послезавтра какой-нибудь кастомный AI-ускоритель. Самый интересный вывод из всей истории: возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа. 👉 @DataSciencegx

2
Почитай это, если хочешь разобраться в ML-инфраструктуре. https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/ Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются: аппаратное обеспечение память и пропускная способность памяти процесс проведения ML-экспериментов Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения. 👉 @DataSciencegx
430
3
40 собесов и оффер за 1 месяц Алексей разработчик. Искал работу с декабря - написание сопроводов и отклики занимали очень мно
40 собесов и оффер за 1 месяц Алексей разработчик. Искал работу с декабря - написание сопроводов и отклики занимали очень много времени. Выхлоп - почти нулевой. В какой-то момент понял: так можно искать бесконечно. И по совету друга попробовал ии-ассистента Софи. ▫️За ~1 месяц прошел около 40 собеседований ▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался. Весь процесс - от первого собеседования до оффера - занял 4 дня. P.S. Попробовать Софи бесплатно можно будет 16 июня. Не пропусти анонс здесь.
553
4
Как получить ChatGPT Plus стоимостью $20 бесплатно В некоторых регионах ChatGPT предлагает бесплатный месяц подписки. Что для
Как получить ChatGPT Plus стоимостью $20 бесплатно В некоторых регионах ChatGPT предлагает бесплатный месяц подписки. Что для этого нужно: - Аккаунт GoPay (его можно открыть в Индии) - Новый аккаунт ChatGPT - VPN с подключением через Японию Как получить предложение: Перейдите по ссылке: https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing 1. Подключите VPN через Японию 2. Создайте новый аккаунт ChatGPT 3. Нажмите «Claim Offer» 4. Пролистайте страницу вниз и выберите Индонезию 5. Выберите тариф «Plus» 6. В качестве способа оплаты выберите GoPay 7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты. На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей. 👉 @DataSciencegx
725
5
9 мер расстояния, которые часто используются в Data Science и ML 👉 @DataSciencegx
9 мер расстояния, которые часто используются в Data Science и ML 👉 @DataSciencegx
679
6
Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок. Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео. Что внутри: • Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других • Таблица с лекциями, описаниями, видео, конспектами и авторами • Ссылки на оригинальные лекции и сопутствующие заметки • Пометки WIP для незавершённых материалов • Инструкция для контрибьюторов с процессом добавления и улучшения конспектов Мне понравилась сама идея. Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения. 👉 @DataSciencegx
727
7
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N. "Computing
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N. "Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул. Внутри: • Chain Rule • Computational Graphs • Векторизованные производные • Эффективное вычисление градиентов • Пошаговые примеры с разбором формул Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward(). Эти заметки как раз закрывают этот пробел. PDF: https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf 👉 @DataSciencegx
711
8
«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц. Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров. Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных. Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей. Бесплатный учебник: https://open.umn.edu/opentextbooks/textbooks/675 👉 @DataSciencegx
720
9
Математическое моделирование обычно начинается с пустого листа. Этот проект решил, что так быть не должно. MM-Agent использует LLM-агентов для решения реальных задач математического моделирования: от размытого условия задачи до готовой модели, вычислений и оформленного отчёта. Что умеет: • Разбирает условие задачи и выделяет ключевые требования • Формулирует допущения и строит математическую модель • Генерирует код для вычислений и дорабатывает его по ходу решения • Использует HMML (Hierarchical Mathematical Modeling Library) с 98 готовыми шаблонами моделей • Автоматически собирает итоговый отчёт • Можно запустить локально: Next.js, FastAPI, SQLite, BYOK и старт одной командой Сейчас поддерживаются GPT-4o и DeepSeek-R1. По сути это попытка собрать «Claude Code для математического моделирования», где агент не просто пишет формулы, а проходит весь путь от постановки задачи до финального отчёта. Бесплатный публичный репозиторий на GitHub: https://github.com/usail-hkust/LLM-MM-Agent 👉 @DataSciencegx
767
10
Единственный чит-лист по LLM, который вам когда-либо понадобится Охватывает основные концепции, архитектуры и практические применения. LLM Cheatsheet (Google Drive) Основы Токены (токенизация, BPE) Эмбеддинги (косинусное сходство) Механизм внимания (формула Attention, Multi-Head Attention) Архитектура Transformer и её разновидности BERT (модели только с энкодером) GPT (модели только с декодером) T5 (модели с энкодером и декодером) Большие языковые модели (LLM) Промптинг (длина контекста, Chain-of-Thought) Дообучение (SFT, PEFT/LoRA) Настройка предпочтений (Reward Model, Reinforcement Learning) Оптимизации (Mixture of Experts, Distillation, Quantization) Применение LLM-as-a-Judge (LaaJ) RAG (Retrieval-Augmented Generation) Агенты (ReAct) Рассуждающие модели (Scaling) 👉 @DataSciencegx
845
11
«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на нач
«Algebra 2» — ещё один полностью бесплатный учебник, охватывающий значительную часть алгебры как на довузовском, так и на начальном университетском уровне. Объёмом более 1100 страниц и с большим количеством разобранных примеров, практических задач и упражнений, он охватывает линейные уравнения, квадратные уравнения, полиномиальные уравнения, рациональные уравнения, иррациональные уравнения, показательные и логарифмические уравнения, системы уравнений, неравенства и многие фундаментальные концепции, лежащие в основе алгебры. На мой взгляд, это один из самых полных бесплатных ресурсов для изучения теории уравнений и алгебраических методов, с которыми обычно сталкиваются в первые годы обучения в университете. Источник: https://openstax.org/details/books/algebra-and-trigonometry-2e 👉 @DataSciencegx
926
12
Уже в среду, 3 июня, Visiology проведёт бесплатный онлайн-эфир о том, как ИИ меняет работу с корпоративной аналитикой после Power BI. Поговорим о том, как быстрее получать ответы по данным, сокращать ручную отчётность и принимать решения без долгой подготовки дашбордов. В программе: — self-service аналитика и ИИ-ассистенты; — автоматизация отчётов и контроль ключевых метрик; — сценарии для бизнеса, IT-команд и аналитиков; — безопасность данных и развитие BI-инфраструктуры. Эфир будет полезен аналитикам, руководителям и IT-специалистам, которые хотят ускорить работу с данными и сделать аналитику понятнее для бизнеса. Мероприятие уже скоро! Участие бесплатное. Количество мест ограничено. Успейте зарегистрироваться!
655
13
БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning: 1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/ 2. Understanding+1
БЕСПЛАТНЫЕ книги MIT по AI и Machine Learning: 1. Foundations of Machine Learning cs.nyu.edu/~mohri/mlbook/ 2. Understanding Deep Learning udlbook.github.io/udlbook/ 3. Introduction to Machine Learning Systems ❯ Vol 1: mlsysbook.ai/vol1/assets/do ❯ Vol 2: mlsysbook.ai/vol2/assets/do 4. Algorithms for ML algorithmsbook.com 5. Deep Learning deeplearningbook.org 6. Reinforcement Learning andrew.cmu.edu/course/10-703/ 7. Distributional Reinforcement Learning direct.mit.edu/books/oa-monog 8. Multi Agent Reinforcement Learning marl-book.com 9. Agents in the Long Game of AI direct.mit.edu/books/oa-monog 10. Fairness and Machine Learning fairmlbook.org 11. Probabilistic Machine Learning ❯ Part 1 : probml.github.io/pml-book/book1 ❯ Part 2 : probml.github.io/pml-book/book2 👉 @DataSciencegx
927
14
Обучение LLM с миллиардами параметров с нуля на одной видеокарте. Большинство считает, что для обучения LLM нужны дата-центр
Обучение LLM с миллиардами параметров с нуля на одной видеокарте. Большинство считает, что для обучения LLM нужны дата-центр и миллионы долларов. Этот репозиторий показывает, что это не всегда так. В нём подробно разобран процесс создания и обучения GPT-подобных моделей с нуля, включая техники, которые делают обучение крупных моделей возможным даже на потребительском железе. От токенизации до приёмов распределённого обучения — всё открыто и доступно в исходном коде. → Создание GPT-подобных моделей с нуля → Практики эффективного обучения на ограниченных ресурсах → Токенизация, архитектура модели и пайплайн обучения → Методы масштабирования и оптимизации обучения → Полностью open-source GitHub: https://github.com/FareedKhan-dev/train-llm-from-scratch 👉 @DataSciencegx
895
15
На Stepik вышла программа «Фундамент DevOps» Это комплексная программа из 4 практических курсов по ключевым технологиям совре
На Stepik вышла программа «Фундамент DevOps» Это комплексная программа из 4 практических курсов по ключевым технологиям современного DevOps: Linux, Git, Docker и Kubernetes. Вы последовательно пройдёте путь от работы в Linux и Git до контейнеризации приложений и управления ими в Kubernetes. Что вы изучите: • уверенную работу в Linux и терминале • Git и контроль версий в реальных проектах • Docker и контейнеризацию приложений • Kubernetes и оркестрацию контейнеров • основы сетей, безопасности и хранения данных • автоматизацию задач и диагностику инфраструктуры ... и многому другому Все знания закрепляются на практике с помощью заданий с автопроверкой. Материал подаётся понятным языком, шаг за шагом, с большим количеством примеров, схем и демонстраций. После прохождения вы получите сертификат, который можно добавить в резюме. Отдельно курсы стоят 16 600 ₽, но в составе программы доступны всего за 7 990 ₽: открыть на Stepik
659
16
Утечка данных — одна из главных причин, почему ML-демо выглядят впечатляюще... а затем разваливаются в продакшене. Модель не стала умнее. Она просто случайно увидела правильные ответы заранее. За 4 минуты вы поймёте, где скрываются утечки данных. Давайте разберёмся 1. Утечка данных (Data Leakage) Утечка данных возникает, когда в процессе обучения модели используется информация, которая не будет доступна в момент реального предсказания. Из-за этого метрики на этапе валидации могут выглядеть значительно лучше, чем фактическое качество модели на новых, ранее не встречавшихся данных. 2. Цель оценки модели (Evaluation) Тестовая выборка — это не просто «дополнительные данные». Это симуляция будущего. Обучайте модель только на той информации, которая была бы вам известна на момент предсказания. Оценивайте её на примерах, на которые модель никак не могла повлиять в процессе обучения. 3. Прямая утечка данных (Direct Leakage) Это самый очевидный вид утечки. Примеры: - поле с информацией из будущего; - идентификатор (ID), в котором закодирована целевая переменная; - переменная, появляющаяся только после наступления события; - дубликаты записей одновременно в обучающей и тестовой выборках. Если признак не существует в момент инференса (предсказания), то, скорее всего, он является источником утечки данных. 4. Косвенная утечка данных (Indirect Leakage) Именно этот тип утечки чаще всего становится ловушкой для команд. Вы выполняете нормализацию, заполнение пропусков, отбор признаков, удаление выбросов или снижение размерности до разделения данных на обучающую и тестовую выборки. Модель напрямую не видела данные из тестовой выборки. Но их уже увидел ваш пайплайн предобработки. 5. Разделение на обучающую и тестовую выборки (Train/Test Split): Неправильно: обучить (fit) скейлер на всех данных → разделить данные → провести оценку Правильно: разделить данные → обучить (fit) скейлер только на обучающей выборке → применить (transform) к обучающей и тестовой выборкам Та же идея относится к импьютерам, энкодерам, отбору признаков, PCA и любому этапу предобработки, который обучается на данных. 6. Кросс-валидация (Cross-Validation): Каждый фолд — это мини-эксперимент с обучающей и тестовой выборками. Поэтому предобработка должна выполняться внутри каждого фолда. Если вы один раз подготовили весь датасет, а затем запустили кросс-валидацию, то каждый фолд уже получил доступ к своим отложенным данным. 7. Пайплайны (Pipelines): Пайплайн — это не просто способ сделать код чище. Это ещё и защита от утечки данных. Объедините предобработку, отбор признаков и модель в один пайплайн, а затем передайте этот пайплайн в кросс-валидацию или поиск гиперпараметров (grid search). 8. Версия для AI Engineering: Утечки данных встречаются и в RAG-системах, и при оценке LLM. Утечка возникает, когда вы настраиваете чанки, промпты, реранкеры, пороговые значения или примеры на том же наборе данных для оценки, который позже представляете как «отложенный» (held-out). В результате ваш бенчмарк превращается в обучающие данные. 9. Чек-лист по поиску утечек данных (Leakage Checklist): Прежде чем доверять полученной метрике, задайте себе вопросы: Мог бы этот признак существовать в момент предсказания? Не был ли какой-либо этап преобразования (transform) обучен (fit) на тестовых данных? Включала ли кросс-валидация весь пайплайн целиком? Не подбирали ли мы параметры на финальном наборе данных для оценки? Если ответ «да», то метрика, скорее всего, не отражает реального качества модели. 👉 @DataSciencegx
863
17
«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу. Кни
«Calculus: Early Transcendentals» — отличный бесплатный учебник для формирования прочной базы по математическому анализу. Книга написана понятным и доступным языком, при этом сохраняет необходимую математическую строгость. Она содержит большое количество примеров и задач, поэтому подходит как для самостоятельного изучения, так и для использования в учебном процессе. В учебнике рассматривается широкий круг тем, включая: • пределы; • производные; • интегралы; • последовательности и ряды; • дифференциальные уравнения; • многомерный анализ. Считаю эту книгу ещё одним ценным инструментом в арсенале любого, кто изучает математику. Если вы студент и хотите освоить или повторить ключевые темы математического анализа либо преподаватель, ищущий новые идеи и альтернативные объяснения, этот учебник определённо заслуживает внимания. https://open.umn.edu/opentextbooks/textbooks/415 https://github.com/antoniolupetti/algebrica 👉 @DataSciencegx
887
18
Запусти собственную AI-компанию с командой AI-агентов Alook — это open-source платформа для совместной работы AI coding-агентов. Self-hosted и local-first. Как устроено: Ты задаёшь структуру организации. Назначаешь каждому агенту роль — разработка, DevOps, ресерч и всё, что нужно. Настраиваешь иерархию и линии подчинения. Alook выдаёт каждому агенту собственный email-адрес. Как это работает: Ты назначаешь задачу нужному агенту — дальше он разбирается сам. Агенты координируются через email: передают результаты, задают вопросы, обновляют статусы. Ты видишь всё в своём inbox, но вручную ничего не маршрутизируешь. Работает как always-on daemon. Закрыл ноутбук — агенты продолжают работать. Вернулся — задачи уже выполнены. Общая память между всеми агентами. Каждый агент знает, над чем работали остальные. Не нужно заново объяснять контекст. После завершения каждой задачи Alook логирует удачные подходы и формирует SOP’ы. Со временем вся команда становится эффективнее. Поддерживает Claude Code, Codex и OpenCode. Можно комбинировать разные системы или запускать несколько агентов в одном runtime. Встроенные Kanban-доски для трекинга задач. Календарь для планирования. Email для всей коммуникации. Агенты сами подхватывают задачи, обновляют свои календари и закрывают issue после выполнения. С агентами можно общаться через чат или email, как с любым AI-инструментом. Runtime устанавливается один раз и дальше работает в фоне. После настройки терминал больше не нужен. Ключевые возможности: • Координация агентов через email с реальными inbox’ами • Структура организации с ролями и иерархией • Общая память и самообучающиеся SOP’ы • Always-on daemon для работы 24/7 • Поддержка Claude Code, Codex и OpenCode • Встроенные Kanban, календарь и email • Self-hosted и local-first Полностью open source. 👉 @DataSciencegx
925
19
Тихо, почти незаметно, AI-инфраструктуру захватывает новая инженерная дисциплина. И это не prompt engineering. И не выбор модели. Это harness engineering. Идея простая: практически любой сбой AI-агента — это проблема scaffolding-а. Плохой контекст. Плохие инструменты. Отсутствие памяти. Нет верификации. Этот репозиторий собирает всё необходимое для построения такого scaffolding’а — от статьи про ReAct до гайда Anthropic по context compaction и middleware-паттернов из LangGraph. Ресурсы от OpenAI, Anthropic, Google, Meta, Microsoft и многих других — в одном месте. https://github.com/ai-boost/awesome-harness-engineering 👉 @DataSciencegx
975
20
ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее к
ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее конкурентов. Те, кто остаётся на старых подходах, теряют скорость и преимущество. Аналитика с искусственным интеллектом становится новым стандартом рынка — и те, кто не объединит бизнес-аналитику и ИИ сейчас, рискуют остаться за бортом. 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как ИИ ускоряет работу с данными, сокращает ручную отчётность и помогает получать ответы без долгой подготовки. Обсудим: — ИИ-помощников для аналитики и поиска закономерностей; — автоматизацию отчётности; — как быстрее находить ответы в данных; и многое другое. Эфир полезен аналитикам, ИТ-командам и руководителям. Мероприятие уже скоро — успейте зарегистрироваться.
594