en
Feedback
Data Portal | DS & ML

Data Portal | DS & ML

Open in Telegram

Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx

Show more
8 424
Subscribers
-224 hours
+237 days
No data30 days
Attracting Subscribers
June '26
June '26
+68
in 3 channels
May '26
+92
in 2 channels
Get PRO
April '26
+48
in 0 channels
Get PRO
March '26
+61
in 1 channels
Get PRO
February '26
+48
in 1 channels
Get PRO
January '26
+52
in 2 channels
Get PRO
December '25
+183
in 8 channels
Get PRO
November '25
+715
in 318 channels
Get PRO
October '25
+29
in 0 channels
Get PRO
September '25
+44
in 0 channels
Get PRO
August '25
+80
in 0 channels
Get PRO
July '25
+1 123
in 264 channels
Get PRO
June '25
+283
in 2 channels
Get PRO
May '25
+147
in 1 channels
Get PRO
April '25
+662
in 2 channels
Get PRO
March '25
+591
in 0 channels
Get PRO
February '25
+507
in 0 channels
Get PRO
January '25
+651
in 0 channels
Get PRO
December '24
+1 342
in 404 channels
Get PRO
November '24
+509
in 164 channels
Get PRO
October '24
+1 048
in 285 channels
Get PRO
September '24
+887
in 281 channels
Get PRO
August '24
+1 933
in 234 channels
Date
Subscriber Growth
Mentions
Channels
10 June+3
09 June+5
08 June+13
07 June+5
06 June+5
05 June+5
04 June+10
03 June+4
02 June+7
01 June+11
Channel Posts
Лето начинается: водные развлечения, гриль на острове и новые маршруты в бутик-отеле «Заонежье» Для гостей бутик-отеля «Заоне
+9
Лето начинается: водные развлечения, гриль на острове и новые маршруты в бутик-отеле «Заонежье» Для гостей бутик-отеля «Заонежье» к новому сезону подготовлены лесные трассы для первых заездов на новых квадроциклах — они позволяют исследовать дикие уголки карельской тайги и скалистые берега озер. Велопрогулки по дорогам Заонежья стали еще комфортнее благодаря электробайкам, которые этой весной пополнили велопарк отеля. В мае, в отеле открылся сезон водных развлечений: гостям доступны сапы, каяки и весельные лодки. В этом году пользование ими - комплементарное для всех гостей. Также появились новые маршруты для катеров по заливам Онежского озера. Ресторан «Руна» представляет летнюю серию гриль-сетов, которые можно приготовить самостоятельно на одном из необитаемых островов или устроить барбекю на лужайке у дома. В меню — овощные и рыбные сеты, а также мясное ассорти. Бутик-отель «Заонежье» приглашает к активному отдыху среди озер и северной природы Карелии.

2
Вышла новая работа о том, как ИИ-агенты меняют интеллектуальный труд. Редкий случай, когда обсуждают не модели и бенчмарки, а
Вышла новая работа о том, как ИИ-агенты меняют интеллектуальный труд. Редкий случай, когда обсуждают не модели и бенчмарки, а то, как меняется сама работа людей. Авторы рассматривают внедрение агентов через 3 параметра: • уровень автономности • рост эффективности • объём задач, которые сотрудники готовы делегировать агентам Интересный вывод: главный барьер для внедрения агентов часто связан не с качеством моделей. Большинство людей просто никогда не учили работать с агентными системами. Статья: https://arxiv.org/abs/2606.07489 👉 @DataSciencegx
443
3
Поздравляем, вы на 1 шаг ближе к работе мечты 🥳 Осталось только прочитать этот пост, подписаться на канал и откликнуться на
Поздравляем, вы на 1 шаг ближе к работе мечты 🥳 Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉 Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов. Подписывайтесь, чтобы найти ту самую работу ✨ *карьера
585
4
Как AI Engineer, изучайте: - Инженерию агентных рантаймов (agent harness engineering), а не только промпт-инжиниринг - Контекстную инженерию (context engineering), а не только длинные промпты - Компромиссы между prompt caching и semantic caching - Управление KV-кэшем: вытеснение, повторное использование и давление на память при масштабировании - Разницу между задержкой на prefill и decode, и почему они требуют разных подходов к оптимизации - Continuous batching, paged attention и повышение пропускной способности (throughput) - Компромиссы между speculative decoding, квантизацией и дистилляцией - INT8, INT4, FP8, AWQ, GPTQ и случаи, когда квантизация ухудшает качество - Сбои структурированного вывода, валидацию схем, циклы исправления (repair loops) и цепочки резервных сценариев (fallback chains) - Надёжность function calling, контракты инструментов (tool contracts), валидацию аргументов и идемпотентность - Ограничители для агентов (guardrails), лимиты циклов, лимиты использования инструментов и условия завершения работы - Маршрутизацию моделей (model routing), логику плавного переключения на резервные сценарии (graceful fallback) и UX в деградированном режиме - Архитектуру RAG: чанкинг, эмбеддинги, гибридный поиск, реранжирование и актуальность данных - Оценку качества поиска (retrieval evals): полноту (recall), точность (precision), grounding, attribution и качество цитирования Evals: эталонные наборы данных (golden sets), регрессионные тесты, adversarial-тесты, LLM-as-a-judge и ручную оценку - Наблюдаемость LLM-систем (LLM observability) как полноценную инженерную дисциплину: трассировки, спаны, токены, задержки, ошибки и дрейф - Атрибуцию затрат по функциям, workflow, арендаторам (tenants) и пользовательским сценариям, а не только по моделям - Инженерию безопасности: защиту от prompt injection, предотвращение утечек данных и разграничение прав доступа - Изоляцию арендаторов (multi-tenant isolation), безопасность кэшей и предотвращение загрязнения контекста между пользователями - Fine-tuning, in-context learning, RAG и дистилляцию, а также случаи, когда каждый из этих подходов оказывается неподходящим инструментом - Компромиссы между задержкой, качеством, стоимостью и надёжностью по всей цепочке инференса - Типичные сбои в продакшене: галлюцинированные вызовы инструментов, некорректный JSON, устаревшие данные из поиска, зациклившиеся агенты и незаметные регрессии в evals 👉 @DataSciencegx
751
5
Джек Дорси создал локального ИИ-агента Goose и передал проект в Linux Foundation. Сейчас у проекта: • 46,4 тыс. звёзд на GitH
Джек Дорси создал локального ИИ-агента Goose и передал проект в Linux Foundation. Сейчас у проекта: • 46,4 тыс. звёзд на GitHub • 518 контрибьюторов • 137 релизов • обновления выходят до сих пор Goose не ограничивается генерацией кода. Он умеет устанавливать зависимости, запускать приложения, редактировать файлы, выполнять тесты, отлаживать и деплоить проекты. Что есть из коробки: Нативное десктопное приложение, CLI и API — можно выбрать любой способ работы Поддерживает любые LLM: Claude, GPT, Gemini, DeepSeek, Ollama и ещё более 15 моделей Работает с уже существующими подписками — не нужно отдельно платить за новые API Более 70 MCP-расширений: GitHub, Google Drive, базы данных, браузер и многое другое Параллельные субагенты — разбивает сложные задачи на части и выполняет их одновременно Recipes — позволяет сохранять workflow в YAML и делиться ими с командой Встроенный режим adversary — ревьюер, который выявляет prompt injection и потенциально опасные действия Совместим с Claude Code и Codex в качестве провайдеров через ACP Написан на Rust. Поддерживает macOS, Linux и Windows. Лицензия Apache 2.0 Самая любопытная часть — Goose может использовать Claude Code или Codex как субагентов. Goose координирует работу, а они выполняют задачи. https://github.com/aaif-goose/goose 👉 @DataSciencegx
676
6
Hugging Face выпустили Repo2RLEnv — инструмент, который превращает любой GitHub-репозиторий в источник данных для обучения RL-агентов. Идея довольно красивая. Каждый смёрженный PR — это уже решённая задача. Кто-то нашёл баг, исправил его и добился прохождения тестов. Repo2RLEnv автоматически собирает такие кейсы и превращает их в RL-задачи. Указываешь репозиторий, а дальше система сама: - поднимает Docker-окружение; - находит смёрженные PR; - создаёт задачи на основе сломанной версии кода; - проверяет, что до фикса тесты падают, а после проходят; - публикует готовый датасет в Hugging Face Hub. С наградами тоже всё просто. Агент предлагает исправление → запускаются тесты → прошли = +1, не прошли = 0. Без LLM-судей и других эвристик. Под капотом 9 пайплайнов генерации данных: реальные PR, коммиты, баги, CVE, рефакторинг, mutation testing и другие сценарии. Поддерживаются Claude Code, Codex CLI, Gemini CLI, OpenHands и любые другие агентные фреймворки через Harbor. Что особенно понравилось — инструмент работает не только с открытыми, но и с приватными репозиториями. По сути, теперь любой достаточно крупный GitHub-репозиторий можно превратить в фабрику задач для обучения кодовых агентов. Полностью open source.
735
7
Хотите не читать про AI Engineering, а реально что-то собрать? Выложили в опенсорс коллекцию из 50+ практических туториалов по AI Engineering. Внутри пошаговые проекты по: • AI-агентам и мультиагентным системам • RAG (Agentic, Vision и Local) • MCP-агентам • OCR-приложениям • Голосовым AI-агентам • и многому другому Всё бесплатно, с исходниками и готовыми примерами. 🥩 👉 @DataSciencegx
813
8
Кто-то потратил несколько месяцев и вручную написал 200-страничный гайд по математике и основам машинного обучения. Без марке
Кто-то потратил несколько месяцев и вручную написал 200-страничный гайд по математике и основам машинного обучения. Без маркетинговой воды и бесконечных ссылок между статьями. Просто попытка собрать всё самое важное в одном месте. Внутри: • нейросети: backpropagation, SGD, Adam, BatchNorm; • классический ML: SVM, Gradient Boosting, K-Means, PCA; • железо для AI: Tensor Cores, Systolic Arrays, CUDA; • трансформеры: Multi-Head Attention, KV Cache, LoRA; • компьютерное зрение: ViT, CNN, MAE, IoU, NMS, VLM; • агентные системы: ReAct, память, оркестрация, OpenClaw. Автор описывает его как материал, который хотел бы получить сам несколько лет назад. И да, весь гайд распространяется бесплатно. https://www.arjunvirk.com/writing/ml-guide 👉 @DataSciencegx
849
9
Если у вас уже 200 открытых вкладок с курсами, статьями и GitHub-репозиториями по ML, этот репозиторий может немного спасти с
Если у вас уже 200 открытых вкладок с курсами, статьями и GitHub-репозиториями по ML, этот репозиторий может немного спасти ситуацию. Awesome Machine Learning Resources — это огромная подборка подборок по машинному обучению, deep learning и AI. Вместо бесконечного поиска по Google всё разложено по категориям: • основы машинного обучения • нейросети и современные архитектуры • задачи и прикладные области • датасеты • библиотеки и инструменты • fairness и AI ethics • production ML и MLOps У каждой ссылки есть короткое описание, поэтому можно быстро понять, стоит ли открывать её или пройти мимо. Отдельно понравилось, что авторы помечают заброшенные подборки значком , если их не обновляли больше года. https://github.com/ZhiningLiu1998/awesome-machine-learning-resources 👉 @DataSciencegx
856
10
В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности. Но существует менее и
В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности. Но существует менее известный и при этом полностью строгий подход: определять угол через площадь кругового сектора. В этой формулировке угол связывается не с длиной кривой, а с величиной, которую можно напрямую вычислить средствами интегрального исчисления. Получается интересный взгляд на основы тригонометрии: вместо геометрических соглашений и интуитивных определений всё строится на анализе и математически строгих определениях. Такой подход позволяет вывести тригонометрию из анализа и избежать части логических кругов, которые часто встречаются в классическом изложении темы. В статье разбираются основы тригонометрии от единичной окружности до строгих аналитических определений синуса и косинуса. Полный разбор⟶синус и косинус через анализ 👉 @DataSciencegx
782
11
Туториалов по AI-агентам стало слишком много. Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, к
Туториалов по AI-агентам стало слишком много. Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, как строить реальные агентные системы. Наткнулся на хороший open-source репозиторий для изучения LangChain и LangGraph. LangGraph 101 проводит путь от базовых агентов до более продвинутых паттернов через ноутбуки и готовые примеры. Что внутри: • Два уровня обучения: 101 для основ и 201 для продвинутых сценариев • Пошаговые ноутбуки по моделям, инструментам, памяти, стримингу, middleware, guardrails и human-in-the-loop • Готовые проекты: email triage, исследовательские агенты, multi-agent системы и Deep Agents • Интеграция с LangGraph Studio для локальной разработки и hot reload • Инструкции по настройке OpenAI, Azure OpenAI, AWS Bedrock и Google Vertex AI По сути, это структурированная дорожная карта по LangGraph вместо десятков разрозненных статей и видео. MIT License. Open Source. https://github.com/langchain-ai/langgraph-101 👉 @DataSciencegx
885
12
Кто-то взял Gemma 4 12B, снял цензуру, сделал аблитерацию модели и получил довольно неожиданный результат. https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16 Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B. Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию. Пока доступна только в BF16. Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов. Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге. 👉 @DataSciencegx
842
13
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз. https://arxiv.org/html/2602.24286v1 Они натрениро
ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз. https://arxiv.org/html/2602.24286v1 Они натренировали агента, который пишет CUDA лучше многих людей. Называется CUDA Agent. Схема простая: → пишет CUDA-ядро → компилирует → гоняет профилировщик → ищет узкие места → переписывает код → повторяет цикл снова и снова По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо. Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят. Результаты на KernelBench получились очень жирными. • до 3.2× быстрее стандартного исполнения через PyTorch • на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40% • регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы Почему это важно? Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая. Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA. Но если агент способен сам писать и оптимизировать ядра... то внезапно становится не так важно, какой у тебя чип. Сегодня CUDA. Завтра ROCm. Послезавтра какой-нибудь кастомный AI-ускоритель. Самый интересный вывод из всей истории: возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа. 👉 @DataSciencegx
895
14
Почитай это, если хочешь разобраться в ML-инфраструктуре. https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/ Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются: аппаратное обеспечение память и пропускная способность памяти процесс проведения ML-экспериментов Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения. 👉 @DataSciencegx
983
15
40 собесов и оффер за 1 месяц Алексей разработчик. Искал работу с декабря - написание сопроводов и отклики занимали очень мно
40 собесов и оффер за 1 месяц Алексей разработчик. Искал работу с декабря - написание сопроводов и отклики занимали очень много времени. Выхлоп - почти нулевой. В какой-то момент понял: так можно искать бесконечно. И по совету друга попробовал ии-ассистента Софи. ▫️За ~1 месяц прошел около 40 собеседований ▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался. Весь процесс - от первого собеседования до оффера - занял 4 дня. P.S. Попробовать Софи бесплатно можно будет 16 июня. Не пропусти анонс здесь.
729
16
Как получить ChatGPT Plus стоимостью $20 бесплатно В некоторых регионах ChatGPT предлагает бесплатный месяц подписки. Что для
Как получить ChatGPT Plus стоимостью $20 бесплатно В некоторых регионах ChatGPT предлагает бесплатный месяц подписки. Что для этого нужно: - Аккаунт GoPay (его можно открыть в Индии) - Новый аккаунт ChatGPT - VPN с подключением через Японию Как получить предложение: Перейдите по ссылке: https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing 1. Подключите VPN через Японию 2. Создайте новый аккаунт ChatGPT 3. Нажмите «Claim Offer» 4. Пролистайте страницу вниз и выберите Индонезию 5. Выберите тариф «Plus» 6. В качестве способа оплаты выберите GoPay 7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты. На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей. 👉 @DataSciencegx
1 113
17
9 мер расстояния, которые часто используются в Data Science и ML 👉 @DataSciencegx
9 мер расстояния, которые часто используются в Data Science и ML 👉 @DataSciencegx
1 009
18
Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок. Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео. Что внутри: • Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других • Таблица с лекциями, описаниями, видео, конспектами и авторами • Ссылки на оригинальные лекции и сопутствующие заметки • Пометки WIP для незавершённых материалов • Инструкция для контрибьюторов с процессом добавления и улучшения конспектов Мне понравилась сама идея. Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения. 👉 @DataSciencegx
1 075
19
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N. "Computing
Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N. "Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул. Внутри: • Chain Rule • Computational Graphs • Векторизованные производные • Эффективное вычисление градиентов • Пошаговые примеры с разбором формул Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward(). Эти заметки как раз закрывают этот пробел. PDF: https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf 👉 @DataSciencegx
993
20
«Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц. Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров. Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных. Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей. Бесплатный учебник: https://open.umn.edu/opentextbooks/textbooks/675 👉 @DataSciencegx
1 012