Data Portal | DS & ML
Kanalga Telegram’da o‘tish
Всё самое интересное из мира Data Science и машинного обучения Связь: @devmangx
Ko'proq ko'rsatish8 424
Obunachilar
-224 soatlar
+237 kunlar
Ma'lumot yo'q30 kunlar
Ma'lumot yuklanmoqda...
O'xshash kanallar
Taglar buluti
Kirish va chiqish esdaliklari
---
---
---
---
---
---
Obunachilarni jalb qilish
Iyun '26
Iyun '26
+68
3 kanalda
May '26
+92
2 kanalda
Get PRO
Aprel '26
+48
0 kanalda
Get PRO
Mart '26
+61
1 kanalda
Get PRO
Fevral '26
+48
1 kanalda
Get PRO
Yanvar '26
+52
2 kanalda
Get PRO
Dekabr '25
+183
8 kanalda
Get PRO
Noyabr '25
+715
318 kanalda
Get PRO
Oktabr '25
+29
0 kanalda
Get PRO
Sentabr '25
+44
0 kanalda
Get PRO
Avgust '25
+80
0 kanalda
Get PRO
Iyul '25
+1 123
264 kanalda
Get PRO
Iyun '25
+283
2 kanalda
Get PRO
May '25
+147
1 kanalda
Get PRO
Aprel '25
+662
2 kanalda
Get PRO
Mart '25
+591
0 kanalda
Get PRO
Fevral '25
+507
0 kanalda
Get PRO
Yanvar '25
+651
0 kanalda
Get PRO
Dekabr '24
+1 342
404 kanalda
Get PRO
Noyabr '24
+509
164 kanalda
Get PRO
Oktabr '24
+1 048
285 kanalda
Get PRO
Sentabr '24
+887
281 kanalda
Get PRO
Avgust '24
+1 933
234 kanalda
| Sana | Obunachilarni jalb qilish | Esdaliklar | Kanallar | |
| 10 Iyun | +3 | |||
| 09 Iyun | +5 | |||
| 08 Iyun | +13 | |||
| 07 Iyun | +5 | |||
| 06 Iyun | +5 | |||
| 05 Iyun | +5 | |||
| 04 Iyun | +10 | |||
| 03 Iyun | +4 | |||
| 02 Iyun | +7 | |||
| 01 Iyun | +11 |
Kanal postlari
Лето начинается: водные развлечения, гриль на острове и новые маршруты в бутик-отеле «Заонежье»
Для гостей бутик-отеля «Заонежье» к новому сезону подготовлены лесные трассы для первых заездов на новых квадроциклах — они позволяют исследовать дикие уголки карельской тайги и скалистые берега озер. Велопрогулки по дорогам Заонежья стали еще комфортнее благодаря электробайкам, которые этой весной пополнили велопарк отеля.
В мае, в отеле открылся сезон водных развлечений: гостям доступны сапы, каяки и весельные лодки. В этом году пользование ими - комплементарное для всех гостей. Также появились новые маршруты для катеров по заливам Онежского озера.
Ресторан «Руна» представляет летнюю серию гриль-сетов, которые можно приготовить самостоятельно на одном из необитаемых островов или устроить барбекю на лужайке у дома. В меню — овощные и рыбные сеты, а также мясное ассорти.
Бутик-отель «Заонежье» приглашает к активному отдыху среди озер и северной природы Карелии.
| 2 | Вышла новая работа о том, как ИИ-агенты меняют интеллектуальный труд.
Редкий случай, когда обсуждают не модели и бенчмарки, а то, как меняется сама работа людей.
Авторы рассматривают внедрение агентов через 3 параметра:
• уровень автономности
• рост эффективности
• объём задач, которые сотрудники готовы делегировать агентам
Интересный вывод: главный барьер для внедрения агентов часто связан не с качеством моделей.
Большинство людей просто никогда не учили работать с агентными системами.
Статья: https://arxiv.org/abs/2606.07489
👉 @DataSciencegx | 443 |
| 3 | Поздравляем, вы на 1 шаг ближе к работе мечты 🥳
Осталось только прочитать этот пост, подписаться на канал и откликнуться на вакансию 😉
Avito Career* — место, где Авито делится актуальными вакансиями и стажировками для Data Science специалистов.
Подписывайтесь, чтобы найти ту самую работу ✨
*карьера | 585 |
| 4 | Как AI Engineer, изучайте:
- Инженерию агентных рантаймов (agent harness engineering), а не только промпт-инжиниринг
- Контекстную инженерию (context engineering), а не только длинные промпты
- Компромиссы между prompt caching и semantic caching
- Управление KV-кэшем: вытеснение, повторное использование и давление на память при масштабировании
- Разницу между задержкой на prefill и decode, и почему они требуют разных подходов к оптимизации
- Continuous batching, paged attention и повышение пропускной способности (throughput)
- Компромиссы между speculative decoding, квантизацией и дистилляцией
- INT8, INT4, FP8, AWQ, GPTQ и случаи, когда квантизация ухудшает качество
- Сбои структурированного вывода, валидацию схем, циклы исправления (repair loops) и цепочки резервных сценариев (fallback chains)
- Надёжность function calling, контракты инструментов (tool contracts), валидацию аргументов и идемпотентность
- Ограничители для агентов (guardrails), лимиты циклов, лимиты использования инструментов и условия завершения работы
- Маршрутизацию моделей (model routing), логику плавного переключения на резервные сценарии (graceful fallback) и UX в деградированном режиме
- Архитектуру RAG: чанкинг, эмбеддинги, гибридный поиск, реранжирование и актуальность данных
- Оценку качества поиска (retrieval evals): полноту (recall), точность (precision), grounding, attribution и качество цитирования
Evals: эталонные наборы данных (golden sets), регрессионные тесты, adversarial-тесты, LLM-as-a-judge и ручную оценку
- Наблюдаемость LLM-систем (LLM observability) как полноценную инженерную дисциплину: трассировки, спаны, токены, задержки, ошибки и дрейф
- Атрибуцию затрат по функциям, workflow, арендаторам (tenants) и пользовательским сценариям, а не только по моделям
- Инженерию безопасности: защиту от prompt injection, предотвращение утечек данных и разграничение прав доступа
- Изоляцию арендаторов (multi-tenant isolation), безопасность кэшей и предотвращение загрязнения контекста между пользователями
- Fine-tuning, in-context learning, RAG и дистилляцию, а также случаи, когда каждый из этих подходов оказывается неподходящим инструментом
- Компромиссы между задержкой, качеством, стоимостью и надёжностью по всей цепочке инференса
- Типичные сбои в продакшене: галлюцинированные вызовы инструментов, некорректный JSON, устаревшие данные из поиска, зациклившиеся агенты и незаметные регрессии в evals
👉 @DataSciencegx | 751 |
| 5 | Джек Дорси создал локального ИИ-агента Goose и передал проект в Linux Foundation.
Сейчас у проекта:
• 46,4 тыс. звёзд на GitHub
• 518 контрибьюторов
• 137 релизов
• обновления выходят до сих пор
Goose не ограничивается генерацией кода. Он умеет устанавливать зависимости, запускать приложения, редактировать файлы, выполнять тесты, отлаживать и деплоить проекты.
Что есть из коробки:
Нативное десктопное приложение, CLI и API — можно выбрать любой способ работы
Поддерживает любые LLM: Claude, GPT, Gemini, DeepSeek, Ollama и ещё более 15 моделей
Работает с уже существующими подписками — не нужно отдельно платить за новые API
Более 70 MCP-расширений: GitHub, Google Drive, базы данных, браузер и многое другое
Параллельные субагенты — разбивает сложные задачи на части и выполняет их одновременно
Recipes — позволяет сохранять workflow в YAML и делиться ими с командой
Встроенный режим adversary — ревьюер, который выявляет prompt injection и потенциально опасные действия
Совместим с Claude Code и Codex в качестве провайдеров через ACP
Написан на Rust. Поддерживает macOS, Linux и Windows. Лицензия Apache 2.0
Самая любопытная часть — Goose может использовать Claude Code или Codex как субагентов.
Goose координирует работу, а они выполняют задачи.
https://github.com/aaif-goose/goose
👉 @DataSciencegx | 676 |
| 6 | Hugging Face выпустили Repo2RLEnv — инструмент, который превращает любой GitHub-репозиторий в источник данных для обучения RL-агентов.
Идея довольно красивая.
Каждый смёрженный PR — это уже решённая задача. Кто-то нашёл баг, исправил его и добился прохождения тестов. Repo2RLEnv автоматически собирает такие кейсы и превращает их в RL-задачи.
Указываешь репозиторий, а дальше система сама:
- поднимает Docker-окружение;
- находит смёрженные PR;
- создаёт задачи на основе сломанной версии кода;
- проверяет, что до фикса тесты падают, а после проходят;
- публикует готовый датасет в Hugging Face Hub.
С наградами тоже всё просто.
Агент предлагает исправление → запускаются тесты → прошли = +1, не прошли = 0.
Без LLM-судей и других эвристик.
Под капотом 9 пайплайнов генерации данных: реальные PR, коммиты, баги, CVE, рефакторинг, mutation testing и другие сценарии.
Поддерживаются Claude Code, Codex CLI, Gemini CLI, OpenHands и любые другие агентные фреймворки через Harbor.
Что особенно понравилось — инструмент работает не только с открытыми, но и с приватными репозиториями.
По сути, теперь любой достаточно крупный GitHub-репозиторий можно превратить в фабрику задач для обучения кодовых агентов.
Полностью open source. | 735 |
| 7 | Хотите не читать про AI Engineering, а реально что-то собрать?
Выложили в опенсорс коллекцию из 50+ практических туториалов по AI Engineering.
Внутри пошаговые проекты по:
• AI-агентам и мультиагентным системам
• RAG (Agentic, Vision и Local)
• MCP-агентам
• OCR-приложениям
• Голосовым AI-агентам
• и многому другому
Всё бесплатно, с исходниками и готовыми примерами. 🥩
👉 @DataSciencegx | 813 |
| 8 | Кто-то потратил несколько месяцев и вручную написал 200-страничный гайд по математике и основам машинного обучения.
Без маркетинговой воды и бесконечных ссылок между статьями. Просто попытка собрать всё самое важное в одном месте.
Внутри:
• нейросети: backpropagation, SGD, Adam, BatchNorm;
• классический ML: SVM, Gradient Boosting, K-Means, PCA;
• железо для AI: Tensor Cores, Systolic Arrays, CUDA;
• трансформеры: Multi-Head Attention, KV Cache, LoRA;
• компьютерное зрение: ViT, CNN, MAE, IoU, NMS, VLM;
• агентные системы: ReAct, память, оркестрация, OpenClaw.
Автор описывает его как материал, который хотел бы получить сам несколько лет назад.
И да, весь гайд распространяется бесплатно.
https://www.arjunvirk.com/writing/ml-guide
👉 @DataSciencegx | 849 |
| 9 | Если у вас уже 200 открытых вкладок с курсами, статьями и GitHub-репозиториями по ML, этот репозиторий может немного спасти ситуацию.
Awesome Machine Learning Resources — это огромная подборка подборок по машинному обучению, deep learning и AI.
Вместо бесконечного поиска по Google всё разложено по категориям:
• основы машинного обучения
• нейросети и современные архитектуры
• задачи и прикладные области
• датасеты
• библиотеки и инструменты
• fairness и AI ethics
• production ML и MLOps
У каждой ссылки есть короткое описание, поэтому можно быстро понять, стоит ли открывать её или пройти мимо.
Отдельно понравилось, что авторы помечают заброшенные подборки значком , если их не обновляли больше года.
https://github.com/ZhiningLiu1998/awesome-machine-learning-resources
👉 @DataSciencegx | 856 |
| 10 | В большинстве учебников синус и косинус вводят через углы, измеряемые длиной дуги единичной окружности.
Но существует менее известный и при этом полностью строгий подход: определять угол через площадь кругового сектора.
В этой формулировке угол связывается не с длиной кривой, а с величиной, которую можно напрямую вычислить средствами интегрального исчисления.
Получается интересный взгляд на основы тригонометрии: вместо геометрических соглашений и интуитивных определений всё строится на анализе и математически строгих определениях.
Такой подход позволяет вывести тригонометрию из анализа и избежать части логических кругов, которые часто встречаются в классическом изложении темы.
В статье разбираются основы тригонометрии от единичной окружности до строгих аналитических определений синуса и косинуса.
Полный разбор⟶синус и косинус через анализ
👉 @DataSciencegx | 782 |
| 11 | Туториалов по AI-агентам стало слишком много.
Большинство показывает очередного чат-бота на 50 строк кода, но не объясняет, как строить реальные агентные системы.
Наткнулся на хороший open-source репозиторий для изучения LangChain и LangGraph.
LangGraph 101 проводит путь от базовых агентов до более продвинутых паттернов через ноутбуки и готовые примеры.
Что внутри:
• Два уровня обучения: 101 для основ и 201 для продвинутых сценариев
• Пошаговые ноутбуки по моделям, инструментам, памяти, стримингу, middleware, guardrails и human-in-the-loop
• Готовые проекты: email triage, исследовательские агенты, multi-agent системы и Deep Agents
• Интеграция с LangGraph Studio для локальной разработки и hot reload
• Инструкции по настройке OpenAI, Azure OpenAI, AWS Bedrock и Google Vertex AI
По сути, это структурированная дорожная карта по LangGraph вместо десятков разрозненных статей и видео.
MIT License. Open Source.
https://github.com/langchain-ai/langgraph-101
👉 @DataSciencegx | 885 |
| 12 | Кто-то взял Gemma 4 12B, снял цензуру, сделал аблитерацию модели и получил довольно неожиданный результат.
https://huggingface.co/AEON-7/Gemma-4-12B-it-AEON-Abliterated-K4-BF16
Новая версия показала более высокий результат на OpenAI HumanEval, чем официальный Gemma 4 12B.
Да, модель стала менее выровненной и при этом лучше справилась с задачами по программированию.
Пока доступна только в BF16.
Следующий шаг — NVFP4-квантизация. Интересно будет посмотреть, сохранится ли прирост после квантизации или это преимущество исчезнет вместе с частью весов.
Не каждый день увидишь, как "uncensored" версия обгоняет оригинал в кодинге.
👉 @DataSciencegx | 842 |
| 13 | ByteDance выкатили бумагу, от которой у NVIDIA может начать дёргаться глаз.
https://arxiv.org/html/2602.24286v1
Они натренировали агента, который пишет CUDA лучше многих людей.
Называется CUDA Agent.
Схема простая:
→ пишет CUDA-ядро
→ компилирует
→ гоняет профилировщик
→ ищет узкие места
→ переписывает код
→ повторяет цикл снова и снова
По сути это RL-агент, который бесконечно оптимизирует код под конкретное железо.
Самое интересное, что он начал находить оптимизации памяти и стратегии тайлинга, которые обычные компиляторы просто не видят.
Результаты на KernelBench получились очень жирными.
• до 3.2× быстрее стандартного исполнения через PyTorch
• на сложных задачах обошёл Claude Opus 4.5 и Gemini 3 Pro примерно на 40%
• регулярно генерирует более быстрые CUDA-ядра, чем традиционные компиляторы
Почему это важно?
Одна из главных причин доминирования NVIDIA заключается в том, что хороший CUDA-разработчик стоит дорого, а сама экосистема очень липкая.
Когда оптимизация под железо требует лет опыта, большинство компаний просто остаются внутри CUDA.
Но если агент способен сам писать и оптимизировать ядра...
то внезапно становится не так важно, какой у тебя чип.
Сегодня CUDA.
Завтра ROCm.
Послезавтра какой-нибудь кастомный AI-ускоритель.
Самый интересный вывод из всей истории:
возможно, главным конкурентным преимуществом скоро станет не сам SDK, а агент, который умеет автоматически выжимать максимум из любого железа.
👉 @DataSciencegx | 895 |
| 14 | Почитай это, если хочешь разобраться в ML-инфраструктуре.
https://www.sei.cmu.edu/blog/a-hitchhikers-guide-to-ml-training-infrastructure/
Это отличный обзор от CMU верхнего уровня про то, что важно учитывать при обучении ML-моделей. В статье разбираются:
аппаратное обеспечение
память и пропускная способность памяти
процесс проведения ML-экспериментов
Отдельно объясняется, почему GPU настолько важны для обучения моделей, чем они отличаются от CPU и какие аппаратные ограничения сильнее всего влияют на скорость обучения.
👉 @DataSciencegx | 983 |
| 15 | 40 собесов и оффер за 1 месяц
Алексей разработчик.
Искал работу с декабря - написание сопроводов и отклики занимали очень много времени.
Выхлоп - почти нулевой.
В какой-то момент понял:
так можно искать бесконечно.
И по совету друга попробовал ии-ассистента Софи.
▫️За ~1 месяц прошел около 40 собеседований
▫️Получил оффер с вакансии, на которую, по его словам, не откликнулся бы сам
В описании она выглядела скучно, а по факту - одна из самых интересных компаний, с которыми я общался.
Весь процесс - от первого собеседования до оффера - занял 4 дня.
P.S. Попробовать Софи бесплатно можно будет 16 июня.
Не пропусти анонс здесь. | 729 |
| 16 | Как получить ChatGPT Plus стоимостью $20 бесплатно
В некоторых регионах ChatGPT предлагает бесплатный месяц подписки.
Что для этого нужно:
- Аккаунт GoPay (его можно открыть в Индии)
- Новый аккаунт ChatGPT
- VPN с подключением через Японию
Как получить предложение:
Перейдите по ссылке:
https://chatgpt.com/?promo_campaign=plus-1-month-free#pricing
1. Подключите VPN через Японию
2. Создайте новый аккаунт ChatGPT
3. Нажмите «Claim Offer»
4. Пролистайте страницу вниз и выберите Индонезию
5. Выберите тариф «Plus»
6. В качестве способа оплаты выберите GoPay
7. Оплатите и пользуйтесь ChatGPT Plus в течение месяца. Повторяйте это каждую неделю, создавая новые аккаунты.
На балансе GoPay должен быть 1 рупий. GoPay начисляет 1 рупий при открытии аккаунта. Если нужно больше, их можно купить у индонезийских пользователей.
👉 @DataSciencegx | 1 113 |
| 17 | 9 мер расстояния, которые часто используются в Data Science и ML
👉 @DataSciencegx | 1 009 |
| 18 | Пополняем список фри курсов: https://github.com/dair-ai/ML-Course-Notes
Если изучаете ML по десяткам случайных вкладок и незакрытым плейлистам, этот репозиторий может навести порядок.
Machine Learning Course Notes — это открытая коллекция конспектов по машинному обучению, NLP и AI, собранная вокруг полноценных курсов, а не отдельных видео.
Что внутри:
• Курсы от Machine Learning Specialization, MIT 6.S191, CMU Neural Nets for NLP, CS224N, CS25 и других
• Таблица с лекциями, описаниями, видео, конспектами и авторами
• Ссылки на оригинальные лекции и сопутствующие заметки
• Пометки WIP для незавершённых материалов
• Инструкция для контрибьюторов с процессом добавления и улучшения конспектов
Мне понравилась сама идея.
Вместо очередной подборки из сотни ссылок здесь получилась карта курсов, по которой можно проходить материал последовательно и не теряться через неделю обучения.
👉 @DataSciencegx | 1 075 |
| 19 | Если хотите наконец разобраться, как нейросети на самом деле обучаются, рекомендую эти заметки из Stanford CS224N.
"Computing Neural Network Gradients" объясняет вычисление градиентов и backpropagation без блэк-бокс формул.
Внутри:
• Chain Rule
• Computational Graphs
• Векторизованные производные
• Эффективное вычисление градиентов
• Пошаговые примеры с разбором формул
Многие используют PyTorch или TensorFlow каждый день, но никогда не разбирались, что происходит после вызова .backward().
Эти заметки как раз закрывают этот пробел.
PDF:
https://web.stanford.edu/class/cs224n/readings/gradient-notes.pdf
👉 @DataSciencegx | 993 |
| 20 | «Fundamentals of Matrix Algebra» — это бесплатный учебник, который даёт хорошее введение в теорию матриц.
Он охватывает операции над матрицами, обратные матрицы, определители, системы линейных уравнений, собственные значения и собственные векторы, а также линейные преобразования. Материал сопровождается понятными объяснениями и большим количеством разобранных примеров.
Матрицы играют фундаментальную роль не только в математике, но и в компьютерных науках, машинном обучении, оптимизации и анализе данных.
Многие современные AI-системы построены на масштабном использовании матричных операций. Например, архитектуры Transformer, лежащие в основе больших языковых моделей (LLM), активно используют умножение матриц для эффективной обработки эмбеддингов, механизмов внимания (attention) и слоёв нейронных сетей.
Бесплатный учебник:
https://open.umn.edu/opentextbooks/textbooks/675
👉 @DataSciencegx | 1 012 |
Endi mavjud! Telegram Tadqiqoti 2025 — yilning asosiy insaytlari 
