Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Все самое полезное для дата сайентиста в одном канале. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Show more📈 Analytical overview of Telegram channel Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Channel Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) in the Russian language segment is an active participant. Currently, the community unites 18 481 subscribers, ranking 7 255 in the Technologies & Applications category and 36 514 in the Russia region.
📊 Audience metrics and dynamics
Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 18 481 subscribers.
According to the latest data from 16 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -43 over the last 30 days and by -1 over the last 24 hours, overall reach remains high.
- Verification status: Not verified
- Engagement rate (ER): The average audience engagement rate is 7.12%. Within the first 24 hours after publication, content typically collects 4.18% reactions from the total number of subscribers.
- Post reach: On average, each post receives 1 315 views. Within the first day, a publication typically gains 773 views.
- Reactions and interaction: The audience actively supports content: the average number of reactions per post is 5.
- Thematic interests: Content is focused on key topics such as сайентиста, llm, буст, навигация, openai.
📝 Description and content policy
The author describes the resource as a platform for expressing subjective opinions:
“Все самое полезное для дата сайентиста в одном канале.
Курс по Ai-агентам: https://clc.to/9L0Tqg
По рекламе: @proglib_adv
Для обратной связи: @proglibrary_feeedback_bot
РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”
Thanks to the high frequency of updates (latest data received on 17 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.
Data loading in progress...
| Date | Subscriber Growth | Mentions | Channels | |
| 17 June | +4 | |||
| 16 June | +3 | |||
| 15 June | +6 | |||
| 14 June | 0 | |||
| 13 June | +2 | |||
| 12 June | +5 | |||
| 11 June | +3 | |||
| 10 June | +6 | |||
| 09 June | +4 | |||
| 08 June | +6 | |||
| 07 June | +1 | |||
| 06 June | +3 | |||
| 05 June | 0 | |||
| 04 June | +8 | |||
| 03 June | +2 | |||
| 02 June | +2 | |||
| 01 June | 0 |
| 2 | ➡️ Визуализация градиентного спуска
Небольшой эксперимент чтобы наглядно увидеть как SGD, Momentum, RMSProp и Adam ведут себя в разных «долинах».
🔥 Написано с нуля на JS, без ML-библиотек.
Особенно интересно смотреть на Rosenbrock — узкая изогнутая долина хорошо показывает почему обычный SGD застревает, а Momentum и Adam справляются заметно быстрее.
Попробовать
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 748 |
| 3 | 👀
Библиотека дата-сайентиста
#развлекалово | 919 |
| 4 | 🍀 scikit-learn 1.9 — что нового
Релиз без громких новых алгоритмов, но с заметной консолидацией.
❇️ Callbacks — новый механизм мониторинга
Экспериментальная фича: теперь можно отслеживать прогресс обучения, делать early stopping, выводить progress bar — не дожидаясь окончания .fit().
from sklearn.linear_model import LogisticRegression
from sklearn.callback import ProgressBar
clf = LogisticRegression(solver="lbfgs")
clf.fit(X, y, callback=ProgressBar())
Пока поддерживается в LogisticRegression (LBFGS), *SearchCV, Pipeline и StandardScaler. Дальше будет больше.
❇️ Что добавили в существующие модели
— RandomForestRegressor теперь умеет работать с пропущенными значениями при критерии absolute error
— monotonic constraints в деревьях теперь поддерживают missing values
— LogisticRegression работает с float32 напрямую — меньше памяти
— sample weights в HistGradientBoosting, RandomForest, ExtraTree стали статистически корректнее
— RidgeCV и RidgeClassifierCV — быстрее и стабильнее
❇️ GPU-поддержка расширяется
Через Array API теперь на GPU можно гонять:
— LogisticRegression и PoissonRegressor с LBFGS
— больше метрик (average precision score и другие)
— Nystroem kernel approximation
Опыт работы с GPU backend пока не идеален по сравнению с обычным numpy — но направление развивается.
❇️ Удобство в Jupyter
HTML-визуализация estimator'ов теперь показывает fitted attributes по клику, а ColumnTransformer наглядно показывает как собираются фичи.
pip install -U scikit-learn
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#свежак | 989 |
| 5 | RAG from scratch: разбираемся в деталях
Базовый RAG понятен: чанки → эмбеддинги → retrieval → generation. Но между «понял концепцию» и «работает в проде» — пропасть.
LangChain выпустили серию «RAG from scratch» — ноутбуки с видео которые разбирают не только основы, но и то где обычно всё ломается.
🖥 Ссылка на ресурс
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 139 |
| 6 | 💪 Paca: проджект-менеджмент для AI
Jira даёт бэклог. ClickUp даёт автоматизации. Monday даёт дашборды. Все они добавляют AI как чатбот сбоку.
Paca идёт дальше: AI агент получает место в Scrum-команде наравне с людьми.
В Paca агент не отвечает на вопросы — он участвует в процессе:
— появляется на Scrumban-доске рядом с людьми
— берёт задачи из бэклога и обновляет статус в реальном времени
— помогает писать BDD-спецификации и Gherkin-сценарии
— участвует в System Design — архитектура видна всей команде
При этом:
— Self-hosted: данные остаются у вас
— Бесплатно и open-source (Apache 2.0)
— MCP Server из коробки — подключается к Claude, Cursor и другим агентам
— Claude Code Skill — агент знает как работать с Paca
— Полностью конфигурируемый через плагины
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 143 |
| 7 | а что выбираешь ты 😁
Библиотека дата-сайентиста
#развлекалово | 1 051 |
| 8 | 🎥 До открытого урока — несколько дней. Подготовили небольшую подборку материалов от нашего спикера Дмитрия Юдина.
Дмитрий руководит AI/ML-направлением в Сloud․ru и развивает Evolution AI Factory — среду для работы с GenAI: от инфраструктуры обучения LLM до внедрения интеллектуальных агентов.
С чего начать:
📺 AI-инструменты для разработчиков — как код, автотесты и ассистенты меняют рутину инженера.
📺 AI-эволюция бизнеса в эпоху генеративных моделей — агентные системы в реальных продуктах.
📺 Разработка мертва? — дискуссия о будущем профессии и роли AI в ней.
📖 Применение LLM в бизнесе — статья Дмитрия о практике внедрения и роли облака.
Одна из ключевых тем Дмитрия — практическое применение агентных систем и их ограничения.
Именно об этом — бесплатный урок 18 июня в 19:00: «Мультиагентные системы: почему большинство архитектур переусложнены» 🔥
🎁 Для участников подготовили промокод на скидку 10 000 ₽ на курс «Разработка ИИ-агентов».
👉 Успей занять место на открытом уроке | 1 031 |
| 9 | 🤖 Архитектуры нейросетей: объясняем на пальцах
Разбираться в Data Science и Deep Learning становится проще! В одной картинке собрали 8 ключевых архитектур нейросетей, которые двигают вперед современный ИИ.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 065 |
| 10 | 💻 3 курса по цене одного — собери стек для оффера в топовую IT-компанию
Для следующего карьерного шага мало писать код. Работодатели ждут не только знания языка, но и понимания архитектуры, алгоритмов, автоматизации, AI-инструментов и агентных систем.
Одно направление закрывает только часть задачи.
Поэтому сейчас мы предлагаем освоить сразу несколько востребованных навыков — выбери любой курс и получи доступ еще к двум бесплатно 🔥
Собери стек навыков под свою цель:
🔹 подготовка к сильным компаниям (алгоритмы, архитектура);
🔹 переход в AI-направление (ИИ-агенты, AgentOps);
🔹 развитие в ML и Data Science (математика, основы ML);
🔹 новый оффер и рост дохода.
Полученные знания применяешь в работе уже во время обучения.
⏳ Акция действует 48 часов — 13 и 14 июня.
👉 Переходи на сайт, выбирай курсы и оставляй заявку — за 10 минут поможем собрать комплект под твою цель. | 1 088 |
| 11 | Библиотека дата-сайентиста
#развлекалово | 1 106 |
| 12 | ✳️ 4 библиотеки для полного DS-пайплайна на Polars
Polars набирает популярность стремительно — на PyCon US 2026 очередь на подпись книги по Polars растянулась на весь коридор. Но многие останавливаются на вопросе: «А поддерживают ли мои инструменты Polars?»
Вот четыре библиотеки которые поддерживают — и закрывают весь пайплайн.
1. pointblank — валидация данных
agent = (
pb.Validate(sales_data)
.col_vals_not_null(columns="date")
.col_vals_between(columns="sales", left=0, right=10000)
.col_vals_in_set(columns="region", set=["North", "South", "East", "West"])
.interrogate()
)
Проверяет качество данных прямо в Polars DataFrame. Никакого .to_pandas().
2. Great Tables — публикационные таблицы
GT(regional_summary)
.fmt_currency(columns=["total_sales"])
.fmt_nanoplot(columns="sales_trend", plot_type="line")
.data_color(columns="total_sales", palette=["#f0f0f0", "#447099"])
Форматирование, цвета, мини-графики прямо в таблице. Это дефолтный способ стилизации Polars DataFrame через df.style.
3. plotnine — ggplot2 для Python
ggplot(sales_data, aes(x="region", y="sales", fill="product"))
+ geom_col(position=position_dodge(width=0.8))
+ scale_fill_manual(values=product_colors)
+ theme_minimal()
Grammar of graphics в Python. Работает с Polars напрямую — конвертация не нужна.
4. mall — LLM прямо в пайплайне
sales_data.llm.use("ollama", "llama3.2")
sales_data.llm.classify("sales", ["high", "medium", "low"])
sales_data.llm.sentiment("review_text")
sales_data.llm.summarize("description")
.llm accessor добавляет LLM-операции к любому Polars DataFrame. Работает с Ollama, OpenAI, Anthropic.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 080 |
| 13 | 🔥 Строишь ИИ-агентов? Руководитель AI/ML-направления Сloud․ru покажет, где большинство архитектур ломаются, и как этого избежать.
18 июня в 19:00 совместно с Сloud․ru проведём открытый урок «Мультиагентные системы: почему большинство архитектур переусложнены».
Спикер — Дмитрий Юдин, эксперт по масштабированию и оптимизации вычислительных ресурсов для ML. Под его руководством развивается Evolution AI Factory — цифровая среда для работы с GenAI. Он занимается развитием сервисов генеративного ИИ, инфраструктуры для обучения больших языковых моделей и внедрением интеллектуальных агентов.
Что получишь на уроке:
— критерии выбора между одним агентом и мультиагентной системой;
— разбор популярных архитектурных ошибок;
— реальные ограничения современных ИИ-агентов;
— практические рекомендации по проектированию агентных систем.
🎁 Для участников урока подготовили промокод на скидку 10 000 ₽.
🗓️ Когда: 18 июня, 19:00 (МСК)
👉 Занять место на открытом уроке | 1 134 |
| 14 | CVPR 2026: 16 000 заявок, 4 090 принято. Вот 5, которые стоит прочитать первыми
Если вы работаете с VLM или мультимодальными пайплайнами — это ваш список на длинные выходные.
1. SAM 3D — лучшая работа конференции
«Сегментируй что угодно» теперь в 3D из одного 2D изображения, за один проход. Год назад это назвали бы исследовательским демо.
2. Back to Basics — Tianhong Li & Kaiming He
Когда Каiming He публикует «Назад к основам» — читаешь сразу. Оба предыдущих раза он переписывал то, что область считала устоявшимся.
3. TIPSv2 — vision-language pretraining с улучшенным patch-text alignment
Поиск на уровне патчей — это следующее поколение image RAG. Здесь оно живёт.
4. INSID3 — сегментация по примерам без обучения, на DINOv3
Никакого файн-тюнинга, никаких меток, oral на CVPR. Training-free подход — тренд, которому поле долго сопротивлялось.
5. A Frame is Worth One Token — дельта-токены для генеративного моделирования мира
Токенная эффективность которая изменила LLM-инференс теперь добралась до видео.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 253 |
| 15 | PyTorch custom operations: когда стандартных слоёв не хватает
Иногда нужна операция, которой нет в PyTorch из коробки. Можно написать её на Python, но если нужна скорость — пишут на C++ и CUDA. Разбираем как это устроено.
Два способа расширить PyTorch
1. Custom function — stateless операция
Реализуется на C++/CUDA, регистрируется через TORCH_LIBRARY_IMPL. PyTorch сам выбирает CPU или CUDA реализацию в зависимости от устройства тензора:
# После загрузки .so файла
result = torch.ops.my_ops.identity_conv_op(tensor)
2. Custom class — операция с состоянием
Если нужно хранить параметры (веса, конфиг) — используют torch::CustomClassHolder. Класс регистрируется и становится доступен из Python:
conv = torch.classes.my_ops.IdentityConvClass(channels=3)
output = conv.forward(input_tensor)
Главная сложность — torch.export
Когда модель компилируется для продакшена через torch.export, трассировщик работает с «фейковыми» тензорами — он не запускает реальный C++ код. Поэтому нужно зарегистрировать абстрактную Python-версию каждой операции:
@torch.library.register_fake("my_ops::identity_conv_op")
def _fake(x: torch.Tensor) -> torch.Tensor:
return torch.empty_like(x) # только форма и тип, без вычислений
Что в итоге
Скомпилированная модель (.pt2 файл) запускается и из Python, и из чистого C++ без зависимости от libpython — удобно для деплоя в продакшен без Python окружения.
Схема работы:
C++/CUDA код → .so библиотека → регистрация в PyTorch
↓
torch.export → AOTInductor → model.pt2
↓
Python inference или C++ inference (dlopen)
Полный пример с Identity Convolution
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 265 |
| 16 | ✳️Шпаргалка: рабочая станция для AI/ML в 2026
Больше не нужен огромный бюджет на облако. Консьюмерское железо и open-source модели изменили правила. Но покупать нужно стратегически.
🖥 Железо: смотрите на VRAM, не на CPU
GPU (RTX 5090):
— лучший выбор для дообучения тяжёлых моделей
— CUDA незаменима для full fine-tuning
— дорого, шумно, энергозатратно
NPU + unified memory (Apple M5 Max, Intel Panther Lake):
— 64–128 ГБ RAM → большая часть уходит под VRAM
— 70B+ моделей локально без облака
— тихо, эффективно, достаточно для большинства DS-задач
Правило: для инференса и экспериментов — unified memory. Для обучения с нуля — GPU.
📦 Локальные модели: уходите от API-зависимости
Лучшие модели для локального запуска в 2026:
— DeepSeek V4 — сильный reasoning, хорош для кода
— Qwen3-Coder — отличный выбор для задач с данными
— Llama 3.3 — универсальный вариант
Запуск через Ollama:
ollama run qwen3-coder
ollama run deepseek-v4
Квантизация — ключевое понятие:
Q8 — максимальное качество, нужно много VRAM
Q4 — баланс качества и размера (рекомендуется)
Q3 — минимум VRAM, качество падает заметно
🔍 Как выбрать модель для задачи
— Анализ данных, код → Qwen3-Coder, DeepSeek V4
— Длинный контекст, документы → Gemini 3.1 Pro
— Сложные агентные задачи → Claude Opus 4.7
— Быстрый инференс локально → Llama 3.3 Q4
Ориентир для сравнения моделей на реальных задачах с кодом — SWE-bench.
⚙️ Минимальный стек для старта
Ollama — локальный запуск моделей
LM Studio — GUI для экспериментов
LangChain — оркестрация агентов
ChromaDB — локальная векторная БД для RAG
💡 Правило выбора
— Чувствительные данные → только локально
— Разовые тяжёлые задачи → API
— Повторяющиеся задачи → локально, окупается быстро
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 261 |
| 17 | 🌳 SuperTree — интерактивная визуализация деревьев решений прямо в Jupyter Notebook
Если вы работаете с деревьями решений и ансамблями, то наверняка сталкивались с тем, что стандартные визуализации быстро становятся неудобными для анализа.
SuperTree решает эту проблему, добавляя полноценную интерактивность:
✅ Масштабирование и навигация по дереву
✅ Сворачивание и разворачивание узлов
✅ Отслеживание пути конкретного объекта через дерево
✅ Работа прямо в Jupyter Notebook, JupyterLab и Google Colab
Установка:
pip install supertree
Пример использования:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from supertree import SuperTree
iris = load_iris()
model = DecisionTreeClassifier(max_depth=3)
model.fit(iris.data, iris.target)
super_tree = SuperTree(
model,
iris.data,
iris.target,
iris.feature_names,
iris.target_names
)
super_tree.show_tree()
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 424 |
| 18 | 🧠 Google представила Memory-Cached RNN — возможного конкурента Transformers
Последние 7 лет практически все крупные языковые модели — ChatGPT, Claude, Gemini, Llama — строились на архитектуре Transformer. Несмотря на впечатляющие результаты, у неё есть фундаментальная проблема: вычислительная сложность внимания растёт квадратично относительно длины контекста.
До появления Transformers основой многих нейросетей были RNN (Recurrent Neural Networks). Они обрабатывают последовательности намного эффективнее, но страдают от другой проблемы — ограниченной памяти. При работе с длинными текстами модель постепенно «забывает» информацию из начала последовательности.
Исследователи Google предложили новый подход в работе «Memory Caching: RNNs with Growing Memory».
💡 Ключевая идея — добавить RNN механизм кэширования промежуточных состояний.
Вместо фиксированной памяти модель сохраняет важные «снимки» своего внутреннего состояния по мере чтения текста. По мере роста последовательности память также может расширяться.
Что это даёт:
• память растёт вместе с длиной контекста;
• вычислительная стоимость остаётся значительно ниже, чем у Transformer;
• улучшается работа с длинными документами и задачами на запоминание;
• достигается качество, близкое к Transformer, без квадратичного роста вычислений.
🚀 Если результаты подтвердятся на больших языковых моделях промышленного масштаба, в ближайшие годы мы можем увидеть новый класс архитектур, где память растёт динамически, а вычисления остаются линейными по длине последовательности.
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 394 |
| 19 | Библиотека дата-сайентиста
#развлекалово | 1 429 |
| 20 | 🖼️ Как работает сжатие изображений: взгляд Data Scientist
Для дата-сайентиста изображение — это не картинка, а матрица чисел.
Сжатие же изображений позволяет уменьшить объём данных, сохранив максимум полезной информации.
Классный гид для быстрого понимания темы
📍 Навигация: Вакансии • Задачи • Собесы
Библиотека дата-сайентиста
#буст | 1 486 |
Available now! Telegram Research 2025 — the year's key insights 
