Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Все самое полезное для дата сайентиста в одном канале. По рекламе: @proglib_adv Курс по Ai-агентам: https://clc.to/9L0Tqg Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
نمایش بیشتر📈 تحلیل کانال تلگرام Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
کانال Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) در بخش زبانی روسی بازیگری فعال است. در حال حاضر جامعه شامل 18 501 مشترک است و جایگاه 7 246 را در دسته فناوری و برنامهها و رتبه 36 576 را در منطقه روسيا دارد.
📊 شاخصهای مخاطب و پویایی
از زمان ایجاد در невідомо، پروژه رشد سریعی داشته و 18 501 مشترک جذب کرده است.
بر اساس آخرین دادهها در تاریخ 08 ژوئن, 2026، کانال فعالیت پایداری دارد. در ۳۰ روز گذشته تغییر اعضا برابر -12 و در ۲۴ ساعت گذشته برابر -2 بوده و همچنان دسترسی گستردهای حفظ شده است.
- وضعیت تأیید: تأیید نشده
- نرخ تعامل (ER): میانگین تعامل مخاطب 6.73% است و در ۲۴ ساعت نخست پس از انتشار، محتوا معمولاً 4.37% واکنش نسبت به کل مشترکان کسب میکند.
- دسترسی پستها: هر پست به طور میانگین 1 245 بازدید دریافت میکند. در اولین روز معمولاً 809 بازدید جمعآوری میشود.
- واکنشها و تعامل: مخاطبان بهطور فعال حمایت میکنند؛ میانگین واکنش به هر پست 6 است.
- علایق موضوعی: محتوا بر موضوعات کلیدی مانند сайентиста, llm, буст, навигация, openai تمرکز دارد.
📝 توضیح و سیاست محتوایی
نویسنده این فضا را محل بیان دیدگاههای شخصی توصیف میکند:
“Все самое полезное для дата сайентиста в одном канале.
По рекламе: @proglib_adv
Курс по Ai-агентам: https://clc.to/9L0Tqg
Для обратной связи: @proglibrary_feeedback_bot
РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”
به لطف بهروزرسانیهای پرتکرار (آخرین داده در تاریخ 09 ژوئن, 2026)، کانال همواره بهروز و دارای دسترسی بالاست. تحلیلها نشان میدهد مخاطبان بهطور فعال با محتوا تعامل دارند و آن را به نقطه اثرگذاری مهم در دسته فناوری و برنامهها تبدیل کردهاند.
در حال بارگیری داده...
| تاریخ | رشد مشترکین | اشارات | کانالها | |
| 08 ژوئن | +6 | |||
| 07 ژوئن | +1 | |||
| 06 ژوئن | +3 | |||
| 05 ژوئن | 0 | |||
| 04 ژوئن | +8 | |||
| 03 ژوئن | +2 | |||
| 02 ژوئن | +2 | |||
| 01 ژوئن | 0 |
| 2 | 🖼️ Как работает сжатие изображений: взгляд Data Scientist
Для дата-сайентиста изображение — это не картинка, а матрица чисел.
Сжатие же изображений позволяет уменьшить объём данных, сохранив максимум полезной информации.
Классный гид для быстрого понимания темы
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 766 |
| 3 | 🔥 Инженерная методичка по ИИ от Романа Барлоса (Team Lead в Yandex Cloud)
Продолжаем делиться экспертизой команды курса «Разработка ИИ-агентов».
Роман собрал мастхев-инструменты и ключевые работы для тех, кто хочет выйти за рамки вайбкодинга.
🛠️ Полезные инструменты:
• Understand Anything — граф знаний по коду и зависимостям.
• DeepTutor — open-source платформа для персонализированного обучения.
• Superpowers — набор практик для системной разработки с ИИ.
• Awesome Agent Skills — коллекция навыков для ИИ-агентов.
📚 Ключевые работы по LLM:
• Attention Is All You Need (2017) — архитектура Transformer.
• GPT-1 (2018) — начало эпохи GPT.
• GPT-2 (2019) — решение новых задач без дообучения.
• GPT-3 (2020) — обучение на примерах из запроса.
• InstructGPT (2022) — RLHF и современные чат-боты.
На курсе Роман выступает консультантом программы: помогает формировать содержание уроков с опорой на актуальные инженерные практики».
Занять свое место на потоке:
👉 Курс «Разработка ИИ-агентов» | 838 |
| 4 | 🤖 Материалы: Awesome Self-Evolving Agents
Подборка материалов про самоэволюционирующих AI-агентов и их развитие в последние годы.
Проект систематизирует исследования в области agentic AI и разбивает их на понятную структуру эволюции методов
📍 Навигация: Вакансии • Задачи • Собесы
📍 Как внедрять AI-логику в бэкенд и сохранять стабильность сервиса
#буст | 919 |
| 5 | 🖼️ Как CNN «видят» изображения
Сверточные нейронные сети (CNN) лежат в основе множества задач компьютерного зрения — от классификации изображений до детекции объектов и сегментации.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 979 |
| 6 | 📘 Это классика: Dive into Deep Learning
Один из самых популярных open-source учебников по deep learning — «Dive into Deep Learning» от Aston Zhang, Zachary C. Lipton, Mu Li и Alexander J. Smola.
Это не просто теория, а практико-ориентированное пособие, которое объясняет ключевые идеи машинного обучения и нейросетей через код и интуицию.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 027 |
| 7 | 😎 Знакомьтесь с экспертом Proglib.academy: Senior Software Engineer и Team Lead в Yandex Cloud Роман Барлос
Роман — консультант нашего курса «Разработка ИИ-агентов». Он работает на стыке cloud-native архитектуры и AI, активно внедряя современные ИИ-подходы в реальные процессы разработки.
За что его ценит IT-комьюнити?
🟣 Team Lead и AI-евангелист в команде UX Yandex Cloud
14-лет в разработке. Занимается AI-адопшеном в команде Yandex Cloud, проводит мастер-классы и продвигает лучшие практики для повышения эффективности разработчиков.
🟣 Техлид Sourcecraft Code Assistant
С сильным практическим бэкграундом принимал участие как технический лид в создании мощного AI-расширения для VS Code.
🟣 Создатель полезного Open Source
Разрабатывает утилиты, которые позволяют быстро начать эксперименты с инференсом и агентами в локальном окружении: например, набор скриптов vllm-setup для быстрого запуска окружения и mini-proxy — минималистичный прокси для OpenAI API провайдеров.
🟣 Автор интерактивных ML-визуализаций
Объясняет сложные концепции наглядно. Создал серию залипательных обучающих материалов, где можно вживую пощупать работу сетей Хопфилда, машин Больцмана и VC-размерности.
Роман регулярно делится инженерными наработками, инсайтами и экспертизой в своем авторском Telegram-канале
На курсе Роман выступает консультантом программы: он помогает формировать содержание уроков с опорой на актуальные инженерные практики и жесткие требования индустрии.
Узнать больше о программе и разработке автономных систем:
👉 Курс «Разработка ИИ-агентов»
Так, продолжаем знакомить вас с командой?
👍 — Да, ждем новых лиц
🔥 — Жду полезные материалы от Романа | 952 |
| 8 | Новый open-source проект для тех, кто исследует современные механизмы внимания в трансформерах.
attnhut — это коллекция реализаций различных Attention-механизмов в PyTorch, собранных в одном месте.
Вместо того чтобы искать код по десяткам репозиториев, можно быстро изучить и протестировать популярные подходы через единый интерфейс.
Что уже доступно:
✅ Standard Multi-Head Attention (Transformer)
✅ Multi-Query Attention (MQA)
✅ Grouped Query Attention (GQA)
✅ Multi-Head Latent Attention (MLA) из DeepSeek
✅ Differential Attention
✅ Delta Attention
✅ DeepSeek Sparse Attention
✅ MiniMax Sparse Attention
✅ BigBird
✅ Slot Attention
✅ Compressed Sparse Attention (DeepSeek V4)
✅ Heavily Compressed Attention
Особенность проекта — максимально простой API:
from attnhut import GroupedQueryAttention
attn = GroupedQueryAttention(
dim=512,
num_heads=8,
num_kv_heads=2
)
y = attn(x)
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 030 |
| 9 | 🚀 MLOps на минималках: разворачиваем production-стек прямо на ноутбуке
На инфографике выше представлен подробный пайплайн настройки локальной среды для работы с ML-моделями.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 067 |
| 10 | ✔️ Визуальные объяснения по deep learning
Идея простая — закреплять знания через активное воспроизведение, а не просто чтение. Это работает: когда объясняешь тему сам себе, пробелы сразу становятся видны.
Проект рассчитан на абсолютных новичков — людям с опытом может показаться базовым. Это работа в процессе, новые темы будут добавляться по мере изучения.
🔗 Сайт: https://clc.to/dOkFVQ
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 230 |
| 11 | Wall Attention — новый механизм внимания который умеет забывать
Стандартный attention обрабатывает все токены одинаково — каждый запрос смотрит на весь контекст с одинаковым «весом памяти». Исследователи решили это исправить.
Wall Attention добавляет обучаемый decay в QK скалярное произведение — каждый канал учится забывать с разной скоростью. Если упростить: модель сама решает какая информация из прошлого важна для каждого типа признаков.
Технически это выглядит так:
# Стандартный attention
score(i, j) = sum_n(q[i,n] * k[j,n])
# Wall Attention — добавляем decay между позициями
score(i, j) = sum_n(q[i,n] * k[j,n] * decay(i,j,n))
Поддерживает GQA, sliding window, varlen packing, BF16/FP32. При g=0 получаем обычный softmax attention — полная обратная совместимость.
Пока исследовательский инструмент, но направление интересное — особенно для задач с длинным контекстом:
pip install -e .
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 233 |
| 12 | Лень как двигатель промпт-инжиниринга
Рассказываю, как нейронка может составить инструкцию за тебя, всё на реальном кейсе с поиском лидов.
➖ Задача: найти зацепки в тоннах отчетов
Я работаю над поисковиком, который переваривает гигабайты годовых отчетов компаний. Клиенту нужно не просто «найти компанию», а выудить конкретные «крючки» для продаж. Нужно лезть в глубину, понимать боли бизнеса и искать точки соприкосновения.
➖ Метод: «План для ассистента»
Вместо того чтобы самому расписывать, на что обращать внимание при анализе, я прошу ChatGPT составить план исследования.
Help me build a research blueprint for scouting potential clients for [COMPANY_NAME]. Below is our business profile for context: [INSERT_DESCRIPTION].
The goal is to provide a "discovery checklist" for investigating a specific lead company online. I need a list of sharp questions and data points that will help me understand if they are a fit.
Please focus the checklist on:
Identifying recent "trigger events" (pivots, new product launches, or leadership changes).
Pinpointing current operational friction or visible bottlenecks.
Finding JTBD-style insights (what specific "job" is this company currently trying to solve?).
The final output should be a structured list of investigation points for a research agent to follow during their deep-dive.
Самое забавное, что «ассистентом», который пойдет работать по этой инструкции, будет тот же самый ChatGPT. Итог: нейронка сама пишет себе ТЗ, сама его выполняет, а ты просто забираешь качественный результат.
Проблема в том, что люди часто пытаются быть микроменеджерами для ИИ, когда пора переходить на уровень постановки стратегии.
Если хочешь перестать просто «переписываться с ботом» и научиться создавать автономные системы, которые реально работают в проде, заглядывай на курс по AgentOps
Доверяете нейронке писать инструкции для самой себя?
❤️ - да, она лучше знает свои возможности
🔥 - нет, предпочитаю контролировать каждый символ в промпте
🔹 Курс разработка AI-агентов
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🏃♀️ Азбука айтишника
#магиякода | 1 125 |
| 13 | 🔥 SQL Шпаргалка для Data Analytics
Независимо от того, работаете ли вы с PostgreSQL, MySQL, SQL Server или BigQuery, большинство запросов строятся вокруг одних и тех же конструкций.
Сохраняйте шпаргалку, чтобы не искать синтаксис в документации каждый раз.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 243 |
| 14 | 🔎 Профилирование в PyTorch: как находить узкие места через `torch.profiler`
Если PyTorch-код работает медленно, угадывать причину почти всегда бесполезно. Гораздо эффективнее — смотреть профилировщик.
Ниже — практический чеклист, который помогает быстро читать torch.profiler и понимать, где именно теряется производительность.
1️⃣ Сначала проверьте соотношение CPU и GPU времени
Откройте prof.key_averages().table():
CPU ≫ GPU (ms vs µs) → overhead-bound
- причина: Python-оверhead, dispatch, мелкие операции
- решение: увеличить batch, размер матриц, фьюзинг операций
CPU ≈ GPU (оба в ms) → compute-bound
- это нормальный режим, дальше оптимизация идёт на уровне GPU
2️⃣ Если GPU простаивает — ищите пустые зоны в трейсе
В trace (Perfetto / Chrome):
- задержки между CPU и GPU
- паузы перед cudaLaunchKernel
- разрывы между record_function и aten::*
Чаще всего это связано с:
- lazy инициализацией cuBLAS
- аллокациями памяти
- слишком мелкими kernel’ами
- Python overhead
3️⃣ Обращайте внимание на cudaOccupancyMaxActiveBlocksPerMultiprocessor
Если он присутствует перед kernel’ом:
- это тяжелый kernel (GEMM, conv)
- есть runtime-выбор конфигурации
- cuBLAS подбирает стратегию исполнения
Если его нет — чаще всего это elementwise операция с фиксированной стоимостью запуска.
4️⃣ Warmup обязателен
Без warmup вы фактически измеряете:
- инициализацию CUDA
- загрузку cuBLAS
- первые аллокации
Минимальный вариант:
for _ in range(5):
step()
5️⃣ Маленькие матрицы почти всегда дают искажения
Например:
- 64×64 → GPU почти не загружен
- 4096×4096 → нормальный compute-bound режим
Если кажется, что GPU медленный, сначала увеличьте размер задачи.
6️⃣ Что важно в таблице профайлера
Обращайте внимание на:
- одна операция занимает 80–90% CUDA time → основной bottleneck
- большое число вызовов → кандидат на fusion
- CPU total ≫ self CPU → проблема внутри вложенных операций
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 080 |
| 15 | ⚡️ Продолжаем знакомить вас с экспертами курса AgentOps!
— Сергей Нотевский расскажет, как выстроить FinOps для AI-продуктов: оптимизировать затраты на разработку и продакшен, внедрить model routing, semantic cache и систему алертов для контроля расходов
— Эмиль Сатаев разберет Context Engineering: управление контекстом, защиту от prompt injection, работу с длинными контекстами и построение безопасного пайплайна входа для AI-систем
— Михаил Бондаревский покажет, как подготовить инфраструктуру для AI-агентов: Docker, sandboxing, streaming, docker-compose и воспроизводимое окружение для разработки и продакшена
— Мурат Хажгериев расскажет про Enterprise Integrations & MCP: когда MCP действительно нужен, как подключать внешние сервисы и реализовывать интеграции с OAuth2 delegation
— Герман Сабиров разберет Governance & Compliance для AI-систем: data flow, audit logs, требования 152-ФЗ, локализацию данных и построение compliance-подхода на уровне архитектуры
Курс для backend-разработчиков, тимлидов и LLM инженеров о том, как внедрять AI-логику в бэкенд IT-продуктов и сохранять стабильность сервиса.
👉 Изучить обновленную программу AgentOps и занять место. | 1 118 |
| 16 | 📍 Вышел подробный гайд по MCP для локальных LLM
Если хотите запускать AI-агентов локально и при этом безопасно подключать их к файлам, инструментам и внешним API — стоит обратить внимание на MCP (Model Context Protocol).
В руководстве показано, как использовать MCP с моделями Qwen3.6 и Gemma 4 для создания приватных автоматизированных воркфлоу.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 219 |
| 17 | 🚀 Papers with Code возвращается
Команда Hugging Face возродила легендарный сайт Papers with Code.
Теперь там можно не только отслеживать SOTA по различным направлениям ИИ, но и удобно просматривать работы с крупнейших конференций.
Новая функция — поддержка конференций. Уже проиндексированы все статьи CVPR 2026 с привязкой к arXiv, GitHub-репозиториям, проектным страницам, артефактам Hugging Face и результатам бенчмарков.
Удобный способ держать руку на пульсе последних исследований без десятков открытых вкладок.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 373 |
| 18 | Что вы знаете про AgentOps? Зачем это нужно в современной разработке ИИ-систем?
Когда хайп вокруг простых чат-ботов утих, индустрия перешла к автономным ИИ-агентам, способным выполнять сложные цепочки задач. Но если поведение одной модели бывает трудно предсказать, то мультиагентная система в продакшене без жесткого контроля быстро превращается в хаос.
Для решения этой проблемы появился AgentOps (Agent Operations) — методология и набор инструментов для управления жизненным циклом ИИ-агентов. Это ближайший родственник DevOps в традиционной разработке и MLOps в классическом машинном обучении.
У методологии AgentOps есть несколько ключевых свойств и задач:
▪️ Наблюдаемость (Observability): детальное пошаговое логирование. Инженер должен четко видеть граф рассуждений агента: какой промпт ушел в LLM, какой инструмент (tool) модель решила вызвать и почему она приняла именно такое решение.
▪️ Оценка и тестирование (Evaluation): автоматическая проверка агентов на специализированных unit-тестах перед деплоем. Это предотвращает регрессию, когда исправление одного бага ломает логику агента в трех других местах.
▪️ Управление стоимостью (Cost Management): трекинг расхода токенов и кэширования в реальном времени, чтобы система жестко контролировала бюджет на API.
▪️ Защита от бесконечных циклов: расстановка «предохранителей», которые принудительно останавливают агента, если он зациклился на одной задаче или начал бесконечно перекидывать её соседним агентам.
Если вы хотите выйти на этот уровень и научиться проектировать, тестировать и выводить мультиагентные системы в реальный прод, ждем вас на курсе AgentOps от Proglib.academy.
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🏃♀️ Proglib Academy
#оффер_мечты | 1 188 |
| 19 | 🦾 ML-модели текстом: пробуем роль архитектора
Нашел инструмент, который делает из тебя ML-лида за пару команд. По факту это просто грамотная агентская система:
— Текстовое описание
Описываешь задачу словами, например: «предсказать цену квартиры». Итог: система сама планирует архитектуру и пишет код. Тебе не нужно вспоминать синтаксис библиотек.
— Команда ИИ-агентов
Под капотом не одна нейронка, а целая группа. Один планирует, второй кодит, третий фиксит баги. Итог: на выходе получаешь не «галлюцинации», а рабочее решение.
— Генерация данных
Если твой датасет пустой, агент сам наклепает синтетические данные для тестов. Итог: можно проверить гипотезу, даже если данных пока кот наплакал.
— Масштабируемость и гибкость
Поддерживает Ray для параллельных вычислений и подключается к любой LLM (от Claude до локальной Llama). Итог: ты не привязан к одному вендору и можешь раскатать нагрузку на весь кластер.
👉 Ссылка
🔹 Практический интенсив «Архитектуры и шаблоны проектирования»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib
🏃♀️ Азбука айтишника
#магиякода | 1 123 |
| 20 | 📚 The Little Book of Generative AI Foundations: компактный математический гид по генеративному ИИ
Вместо очередного обзора популярных архитектур книга фокусируется на том, почему работают современные генеративные модели и как они связаны между собой математически.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 241 |
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
