Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Все самое полезное для дата сайентиста в одном канале. По рекламе: @proglib_adv Курс по Ai-агентам: https://clc.to/9L0Tqg Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
نمایش بیشتر📈 تحلیل کانال تلگرام Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
کانال Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 18 500 مشترک است و جایگاه 7 255 را در دسته فناوری و برنامهها و رتبه 36 562 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 18 500 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 09 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -24 و در ۲۴ ساعت گذشته برابر -2 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 6.69% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.50% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 1 238 بازدید دریافت میکند. در اولین روز معمولاً 833 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 5 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند сайентиста, llm, буст, навигация, openai تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Все самое полезное для дата сайентиста в одном канале.
По рекламе: @proglib_adv
Курс по Ai-агентам: https://clc.to/9L0Tqg
Для обратной связи: @proglibrary_feeedback_bot
РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 10 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
در حال بارگیری داده...
| تاریخ | رشد مشترکین | اشارات | کانالها | |
| 09 ژوئن | +4 | |||
| 08 ژوئن | +6 | |||
| 07 ژوئن | +1 | |||
| 06 ژوئن | +3 | |||
| 05 ژوئن | 0 | |||
| 04 ژوئن | +8 | |||
| 03 ژوئن | +2 | |||
| 02 ژوئن | +2 | |||
| 01 ژوئن | 0 |
pip install supertree
Пример использования:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from supertree import SuperTree
iris = load_iris()
model = DecisionTreeClassifier(max_depth=3)
model.fit(iris.data, iris.target)
super_tree = SuperTree(
model,
iris.data,
iris.target,
iris.feature_names,
iris.target_names
)
super_tree.show_tree()
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст| 2 | 🧠 Google представила Memory-Cached RNN — возможного конкурента Transformers
Последние 7 лет практически все крупные языковые модели — ChatGPT, Claude, Gemini, Llama — строились на архитектуре Transformer. Несмотря на впечатляющие результаты, у неё есть фундаментальная проблема: вычислительная сложность внимания растёт квадратично относительно длины контекста.
До появления Transformers основой многих нейросетей были RNN (Recurrent Neural Networks). Они обрабатывают последовательности намного эффективнее, но страдают от другой проблемы — ограниченной памяти. При работе с длинными текстами модель постепенно «забывает» информацию из начала последовательности.
Исследователи Google предложили новый подход в работе «Memory Caching: RNNs with Growing Memory».
💡 Ключевая идея — добавить RNN механизм кэширования промежуточных состояний.
Вместо фиксированной памяти модель сохраняет важные «снимки» своего внутреннего состояния по мере чтения текста. По мере роста последовательности память также может расширяться.
Что это даёт:
• память растёт вместе с длиной контекста;
• вычислительная стоимость остаётся значительно ниже, чем у Transformer;
• улучшается работа с длинными документами и задачами на запоминание;
• достигается качество, близкое к Transformer, без квадратичного роста вычислений.
🚀 Если результаты подтвердятся на больших языковых моделях промышленного масштаба, в ближайшие годы мы можем увидеть новый класс архитектур, где память растёт динамически, а вычисления остаются линейными по длине последовательности.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 747 |
| 3 | Библиотека дата-сайентиста
#развлекалово | 914 |
| 4 | 🖼️ Как работает сжатие изображений: взгляд Data Scientist
Для дата-сайентиста изображение — это не картинка, а матрица чисел.
Сжатие же изображений позволяет уменьшить объём данных, сохранив максимум полезной информации.
Классный гид для быстрого понимания темы
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 977 |
| 5 | 🔥 Инженерная методичка по ИИ от Романа Барлоса (Team Lead в Yandex Cloud)
Продолжаем делиться экспертизой команды курса «Разработка ИИ-агентов».
Роман собрал мастхев-инструменты и ключевые работы для тех, кто хочет выйти за рамки вайбкодинга.
🛠️ Полезные инструменты:
• Understand Anything — граф знаний по коду и зависимостям.
• DeepTutor — open-source платформа для персонализированного обучения.
• Superpowers — набор практик для системной разработки с ИИ.
• Awesome Agent Skills — коллекция навыков для ИИ-агентов.
📚 Ключевые работы по LLM:
• Attention Is All You Need (2017) — архитектура Transformer.
• GPT-1 (2018) — начало эпохи GPT.
• GPT-2 (2019) — решение новых задач без дообучения.
• GPT-3 (2020) — обучение на примерах из запроса.
• InstructGPT (2022) — RLHF и современные чат-боты.
На курсе Роман выступает консультантом программы: помогает формировать содержание уроков с опорой на актуальные инженерные практики».
Занять свое место на потоке:
👉 Курс «Разработка ИИ-агентов» | 1 009 |
| 6 | 🤖 Материалы: Awesome Self-Evolving Agents
Подборка материалов про самоэволюционирующих AI-агентов и их развитие в последние годы.
Проект систематизирует исследования в области agentic AI и разбивает их на понятную структуру эволюции методов
📍 Навигация: Вакансии • Задачи • Собесы
📍 Как внедрять AI-логику в бэкенд и сохранять стабильность сервиса
#буст | 992 |
| 7 | 🖼️ Как CNN «видят» изображения
Сверточные нейронные сети (CNN) лежат в основе множества задач компьютерного зрения — от классификации изображений до детекции объектов и сегментации.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 050 |
| 8 | 📘 Это классика: Dive into Deep Learning
Один из самых популярных open-source учебников по deep learning — «Dive into Deep Learning» от Aston Zhang, Zachary C. Lipton, Mu Li и Alexander J. Smola.
Это не просто теория, а практико-ориентированное пособие, которое объясняет ключевые идеи машинного обучения и нейросетей через код и интуицию.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 088 |
| 9 | 😎 Знакомьтесь с экспертом Proglib.academy: Senior Software Engineer и Team Lead в Yandex Cloud Роман Барлос
Роман — консультант нашего курса «Разработка ИИ-агентов». Он работает на стыке cloud-native архитектуры и AI, активно внедряя современные ИИ-подходы в реальные процессы разработки.
За что его ценит IT-комьюнити?
🟣 Team Lead и AI-евангелист в команде UX Yandex Cloud
14-лет в разработке. Занимается AI-адопшеном в команде Yandex Cloud, проводит мастер-классы и продвигает лучшие практики для повышения эффективности разработчиков.
🟣 Техлид Sourcecraft Code Assistant
С сильным практическим бэкграундом принимал участие как технический лид в создании мощного AI-расширения для VS Code.
🟣 Создатель полезного Open Source
Разрабатывает утилиты, которые позволяют быстро начать эксперименты с инференсом и агентами в локальном окружении: например, набор скриптов vllm-setup для быстрого запуска окружения и mini-proxy — минималистичный прокси для OpenAI API провайдеров.
🟣 Автор интерактивных ML-визуализаций
Объясняет сложные концепции наглядно. Создал серию залипательных обучающих материалов, где можно вживую пощупать работу сетей Хопфилда, машин Больцмана и VC-размерности.
Роман регулярно делится инженерными наработками, инсайтами и экспертизой в своем авторском Telegram-канале
На курсе Роман выступает консультантом программы: он помогает формировать содержание уроков с опорой на актуальные инженерные практики и жесткие требования индустрии.
Узнать больше о программе и разработке автономных систем:
👉 Курс «Разработка ИИ-агентов»
Так, продолжаем знакомить вас с командой?
👍 — Да, ждем новых лиц
🔥 — Жду полезные материалы от Романа | 998 |
| 10 | Новый open-source проект для тех, кто исследует современные механизмы внимания в трансформерах.
attnhut — это коллекция реализаций различных Attention-механизмов в PyTorch, собранных в одном месте.
Вместо того чтобы искать код по десяткам репозиториев, можно быстро изучить и протестировать популярные подходы через единый интерфейс.
Что уже доступно:
✅ Standard Multi-Head Attention (Transformer)
✅ Multi-Query Attention (MQA)
✅ Grouped Query Attention (GQA)
✅ Multi-Head Latent Attention (MLA) из DeepSeek
✅ Differential Attention
✅ Delta Attention
✅ DeepSeek Sparse Attention
✅ MiniMax Sparse Attention
✅ BigBird
✅ Slot Attention
✅ Compressed Sparse Attention (DeepSeek V4)
✅ Heavily Compressed Attention
Особенность проекта — максимально простой API:
from attnhut import GroupedQueryAttention
attn = GroupedQueryAttention(
dim=512,
num_heads=8,
num_kv_heads=2
)
y = attn(x)
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 064 |
| 11 | 🚀 MLOps на минималках: разворачиваем production-стек прямо на ноутбуке
На инфографике выше представлен подробный пайплайн настройки локальной среды для работы с ML-моделями.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 180 |
| 12 | ✔️ Визуальные объяснения по deep learning
Идея простая — закреплять знания через активное воспроизведение, а не просто чтение. Это работает: когда объясняешь тему сам себе, пробелы сразу становятся видны.
Проект рассчитан на абсолютных новичков — людям с опытом может показаться базовым. Это работа в процессе, новые темы будут добавляться по мере изучения.
🔗 Сайт: https://clc.to/dOkFVQ
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 289 |
| 13 | Wall Attention — новый механизм внимания который умеет забывать
Стандартный attention обрабатывает все токены одинаково — каждый запрос смотрит на весь контекст с одинаковым «весом памяти». Исследователи решили это исправить.
Wall Attention добавляет обучаемый decay в QK скалярное произведение — каждый канал учится забывать с разной скоростью. Если упростить: модель сама решает какая информация из прошлого важна для каждого типа признаков.
Технически это выглядит так:
# Стандартный attention
score(i, j) = sum_n(q[i,n] * k[j,n])
# Wall Attention — добавляем decay между позициями
score(i, j) = sum_n(q[i,n] * k[j,n] * decay(i,j,n))
Поддерживает GQA, sliding window, varlen packing, BF16/FP32. При g=0 получаем обычный softmax attention — полная обратная совместимость.
Пока исследовательский инструмент, но направление интересное — особенно для задач с длинным контекстом:
pip install -e .
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 262 |
| 14 | Лень как двигатель промпт-инжиниринга
Рассказываю, как нейронка может составить инструкцию за тебя, всё на реальном кейсе с поиском лидов.
➖ Задача: найти зацепки в тоннах отчетов
Я работаю над поисковиком, который переваривает гигабайты годовых отчетов компаний. Клиенту нужно не просто «найти компанию», а выудить конкретные «крючки» для продаж. Нужно лезть в глубину, понимать боли бизнеса и искать точки соприкосновения.
➖ Метод: «План для ассистента»
Вместо того чтобы самому расписывать, на что обращать внимание при анализе, я прошу ChatGPT составить план исследования.
Help me build a research blueprint for scouting potential clients for [COMPANY_NAME]. Below is our business profile for context: [INSERT_DESCRIPTION].
The goal is to provide a "discovery checklist" for investigating a specific lead company online. I need a list of sharp questions and data points that will help me understand if they are a fit.
Please focus the checklist on:
Identifying recent "trigger events" (pivots, new product launches, or leadership changes).
Pinpointing current operational friction or visible bottlenecks.
Finding JTBD-style insights (what specific "job" is this company currently trying to solve?).
The final output should be a structured list of investigation points for a research agent to follow during their deep-dive.
Самое забавное, что «ассистентом», который пойдет работать по этой инструкции, будет тот же самый ChatGPT. Итог: нейронка сама пишет себе ТЗ, сама его выполняет, а ты просто забираешь качественный результат.
Проблема в том, что люди часто пытаются быть микроменеджерами для ИИ, когда пора переходить на уровень постановки стратегии.
Если хочешь перестать просто «переписываться с ботом» и научиться создавать автономные системы, которые реально работают в проде, заглядывай на курс по AgentOps
Доверяете нейронке писать инструкции для самой себя?
❤️ - да, она лучше знает свои возможности
🔥 - нет, предпочитаю контролировать каждый символ в промпте
🔹 Курс разработка AI-агентов
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🏃♀️ Азбука айтишника
#магиякода | 1 177 |
| 15 | 🔥 SQL Шпаргалка для Data Analytics
Независимо от того, работаете ли вы с PostgreSQL, MySQL, SQL Server или BigQuery, большинство запросов строятся вокруг одних и тех же конструкций.
Сохраняйте шпаргалку, чтобы не искать синтаксис в документации каждый раз.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 268 |
| 16 | 🔎 Профилирование в PyTorch: как находить узкие места через `torch.profiler`
Если PyTorch-код работает медленно, угадывать причину почти всегда бесполезно. Гораздо эффективнее — смотреть профилировщик.
Ниже — практический чеклист, который помогает быстро читать torch.profiler и понимать, где именно теряется производительность.
1️⃣ Сначала проверьте соотношение CPU и GPU времени
Откройте prof.key_averages().table():
CPU ≫ GPU (ms vs µs) → overhead-bound
- причина: Python-оверhead, dispatch, мелкие операции
- решение: увеличить batch, размер матриц, фьюзинг операций
CPU ≈ GPU (оба в ms) → compute-bound
- это нормальный режим, дальше оптимизация идёт на уровне GPU
2️⃣ Если GPU простаивает — ищите пустые зоны в трейсе
В trace (Perfetto / Chrome):
- задержки между CPU и GPU
- паузы перед cudaLaunchKernel
- разрывы между record_function и aten::*
Чаще всего это связано с:
- lazy инициализацией cuBLAS
- аллокациями памяти
- слишком мелкими kernel’ами
- Python overhead
3️⃣ Обращайте внимание на cudaOccupancyMaxActiveBlocksPerMultiprocessor
Если он присутствует перед kernel’ом:
- это тяжелый kernel (GEMM, conv)
- есть runtime-выбор конфигурации
- cuBLAS подбирает стратегию исполнения
Если его нет — чаще всего это elementwise операция с фиксированной стоимостью запуска.
4️⃣ Warmup обязателен
Без warmup вы фактически измеряете:
- инициализацию CUDA
- загрузку cuBLAS
- первые аллокации
Минимальный вариант:
for _ in range(5):
step()
5️⃣ Маленькие матрицы почти всегда дают искажения
Например:
- 64×64 → GPU почти не загружен
- 4096×4096 → нормальный compute-bound режим
Если кажется, что GPU медленный, сначала увеличьте размер задачи.
6️⃣ Что важно в таблице профайлера
Обращайте внимание на:
- одна операция занимает 80–90% CUDA time → основной bottleneck
- большое число вызовов → кандидат на fusion
- CPU total ≫ self CPU → проблема внутри вложенных операций
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 104 |
| 17 | ⚡️ Продолжаем знакомить вас с экспертами курса AgentOps!
— Сергей Нотевский расскажет, как выстроить FinOps для AI-продуктов: оптимизировать затраты на разработку и продакшен, внедрить model routing, semantic cache и систему алертов для контроля расходов
— Эмиль Сатаев разберет Context Engineering: управление контекстом, защиту от prompt injection, работу с длинными контекстами и построение безопасного пайплайна входа для AI-систем
— Михаил Бондаревский покажет, как подготовить инфраструктуру для AI-агентов: Docker, sandboxing, streaming, docker-compose и воспроизводимое окружение для разработки и продакшена
— Мурат Хажгериев расскажет про Enterprise Integrations & MCP: когда MCP действительно нужен, как подключать внешние сервисы и реализовывать интеграции с OAuth2 delegation
— Герман Сабиров разберет Governance & Compliance для AI-систем: data flow, audit logs, требования 152-ФЗ, локализацию данных и построение compliance-подхода на уровне архитектуры
Курс для backend-разработчиков, тимлидов и LLM инженеров о том, как внедрять AI-логику в бэкенд IT-продуктов и сохранять стабильность сервиса.
👉 Изучить обновленную программу AgentOps и занять место. | 1 137 |
| 18 | 📍 Вышел подробный гайд по MCP для локальных LLM
Если хотите запускать AI-агентов локально и при этом безопасно подключать их к файлам, инструментам и внешним API — стоит обратить внимание на MCP (Model Context Protocol).
В руководстве показано, как использовать MCP с моделями Qwen3.6 и Gemma 4 для создания приватных автоматизированных воркфлоу.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 227 |
| 19 | 🚀 Papers with Code возвращается
Команда Hugging Face возродила легендарный сайт Papers with Code.
Теперь там можно не только отслеживать SOTA по различным направлениям ИИ, но и удобно просматривать работы с крупнейших конференций.
Новая функция — поддержка конференций. Уже проиндексированы все статьи CVPR 2026 с привязкой к arXiv, GitHub-репозиториям, проектным страницам, артефактам Hugging Face и результатам бенчмарков.
Удобный способ держать руку на пульсе последних исследований без десятков открытых вкладок.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 373 |
| 20 | Что вы знаете про AgentOps? Зачем это нужно в современной разработке ИИ-систем?
Когда хайп вокруг простых чат-ботов утих, индустрия перешла к автономным ИИ-агентам, способным выполнять сложные цепочки задач. Но если поведение одной модели бывает трудно предсказать, то мультиагентная система в продакшене без жесткого контроля быстро превращается в хаос.
Для решения этой проблемы появился AgentOps (Agent Operations) — методология и набор инструментов для управления жизненным циклом ИИ-агентов. Это ближайший родственник DevOps в традиционной разработке и MLOps в классическом машинном обучении.
У методологии AgentOps есть несколько ключевых свойств и задач:
▪️ Наблюдаемость (Observability): детальное пошаговое логирование. Инженер должен четко видеть граф рассуждений агента: какой промпт ушел в LLM, какой инструмент (tool) модель решила вызвать и почему она приняла именно такое решение.
▪️ Оценка и тестирование (Evaluation): автоматическая проверка агентов на специализированных unit-тестах перед деплоем. Это предотвращает регрессию, когда исправление одного бага ломает логику агента в трех других местах.
▪️ Управление стоимостью (Cost Management): трекинг расхода токенов и кэширования в реальном времени, чтобы система жестко контролировала бюджет на API.
▪️ Защита от бесконечных циклов: расстановка «предохранителей», которые принудительно останавливают агента, если он зациклился на одной задаче или начал бесконечно перекидывать её соседним агентам.
Если вы хотите выйти на этот уровень и научиться проектировать, тестировать и выводить мультиагентные системы в реальный прод, ждем вас на курсе AgentOps от Proglib.academy.
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🏃♀️ Proglib Academy
#оффер_мечты | 1 207 |
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
