Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Open in Telegram

Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Network:Книги для программистов Russia35 877 Technologies & Applications7 037...

📈 Analytical overview of Telegram channel Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Channel Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) in the Russian language segment is an active participant. Currently, the community unites 18 413 subscribers, ranking 7 037 in the Technologies & Applications category and 35 877 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 18 413 subscribers.

According to the latest data from 28 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -46 over the last 30 days and by -6 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 6.75%. Within the first 24 hours after publication, content typically collects 3.66% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 242 views. Within the first day, a publication typically gains 674 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 5.
Thematic interests: Content is focused on key topics such as сайентиста, llm, буст, навигация, openai.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”

Thanks to the high frequency of updates (latest data received on 29 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

18 413

Subscribers

-624 hours

-107 days

-4630 days

1 242

Post views

~ 67424 hours

~ 82848 hours

6.75%

Engagement rate

~ 1

Posts per day

Ads index

beta

Data loading in progress...

Similar Channels

288.9K

Machinelearning

77.8K

Библиотека программиста

37.7K

Библиотека питониста | Python, Django, Flask

19.9K

Data Science | Machinelearning [ru]

1.4K

Финансовая Лаборатория

More channels

Incoming and Outgoing Mentions

---

Attracting Subscribers

July '26

+74

in 0 channels

June '26

+97

in 2 channels

Get PRO

May '26

+142

in 1 channels

Get PRO

April '26

+106

in 0 channels

Get PRO

March '26

+329

in 4 channels

Get PRO

February '26

+154

in 5 channels

Get PRO

January '26

+212

in 4 channels

Get PRO

December '25

+211

in 3 channels

Get PRO

November '25

+101

in 1 channels

Get PRO

October '25

+148

in 5 channels

Get PRO

September '25

+105

in 2 channels

Get PRO

August '25

+103

in 4 channels

Get PRO

July '25

+171

in 2 channels

Get PRO

June '25

+185

in 42 channels

Get PRO

May '25

+319

in 6 channels

Get PRO

April '25

+206

in 18 channels

Get PRO

March '25

+247

in 53 channels

Get PRO

February '25

+236

in 36 channels

Get PRO

January '25

+180

in 41 channels

Get PRO

December '24

+212

in 42 channels

Get PRO

November '24

+217

in 52 channels

Get PRO

October '24

+224

in 43 channels

Get PRO

September '24

+249

in 38 channels

Get PRO

August '24

+269

in 37 channels

Get PRO

July '24

+197

in 37 channels

Get PRO

June '24

+257

in 31 channels

Get PRO

May '24

+429

in 38 channels

Get PRO

April '24

+339

in 38 channels

Get PRO

March '24

+437

in 32 channels

Get PRO

February '24

+426

in 32 channels

Get PRO

January '24

+473

in 28 channels

Get PRO

December '23

+604

in 34 channels

Get PRO

November '23

+289

in 13 channels

Get PRO

October '23

+462

in 22 channels

Get PRO

September '23

+631

in 0 channels

Get PRO

August '23

+488

in 0 channels

Get PRO

July '23

+420

in 0 channels

Get PRO

June '23

+329

in 0 channels

Get PRO

May '23

+433

in 0 channels

Get PRO

April '23

+224

in 0 channels

Get PRO

March '23

+712

in 0 channels

Get PRO

February '23

+249

in 0 channels

Get PRO

January '23

+260

in 0 channels

Get PRO

December '22

+292

in 0 channels

Get PRO

November '22

+407

in 0 channels

Get PRO

October '22

+172

in 0 channels

Get PRO

September '22

+209

in 0 channels

Get PRO

August '22

+287

in 0 channels

Get PRO

July '22

+352

in 0 channels

Get PRO

June '22

+407

in 0 channels

Get PRO

May '22

+166

in 0 channels

Get PRO

April '22

+215

in 0 channels

Get PRO

March '22

+225

in 0 channels

Get PRO

February '22

+129

in 0 channels

Get PRO

January '22

+250

in 0 channels

Get PRO

December '21

+203

in 0 channels

Get PRO

November '21

+253

in 0 channels

Get PRO

October '21

+237

in 0 channels

Get PRO

September '21

+208

in 0 channels

Get PRO

August '21

+297

in 0 channels

Get PRO

July '21

+312

in 0 channels

Get PRO

June '21

+288

in 0 channels

Get PRO

May '21

+446

in 0 channels

Get PRO

April '21

+446

in 0 channels

Get PRO

March '21

+429

in 0 channels

Get PRO

February '21

+396

in 0 channels

Get PRO

January '21

+351

in 0 channels

Get PRO

December '20

+12 450

in 0 channels

Date	Subscriber Growth	Mentions	Channels
29 July	+1
28 July	0
27 July	+3
26 July	+4
25 July	+1
24 July	0
23 July	+2
22 July	+3
21 July	+10
20 July	+5
19 July	0
18 July	+2
17 July	+1
16 July	+3
15 July	+2
14 July	+3
13 July	+3
12 July	+5
11 July	+5
10 July	+4
09 July	+6
08 July	+1
07 July	+1
06 July	+1
05 July	+1
04 July	+2
03 July	+3
02 July	+1
01 July	+1

Channel Posts

Repost from Proglib.academy | IT-курсы

😱 Знакомо? Лимит уже закончился, а задача всё ещё не готова. Часть токенов могла уйти на повторное чтение файлов, лишний контекст и неудачные попытки. ⚡️ Этому посвящён отдельный блок курса «ИИ для разработчиков». Вы разберёте расходы на собственных проектах, сравните подходы и найдёте места, где агент выполняет лишнюю работу.

В итоге станет понятнее, сколько ресурсов выделять на запуск, когда его останавливать и в какой момент лучше изменить подход 🔍

До 31 июля курс можно купить со скидкой, а все материалы останутся в бессрочном доступе. 🔗 Узнать подробности о курсе 🏃‍♀️ Proglib Academy

2	Куда на самом деле уходят токены во время агентного кодинга? ⚡️	437
3	🔄 Superlog — open-source агентный мониторинг для продакшен ML-систем Модель задеплоена. Трафик идёт. Что-то пошло не так — но в логах тысячи строк и непонятно где именно проблема. Superlog решает именно это: принимает OpenTelemetry трейсы, логи и метрики, автоматически группирует шумные сигналы в инциденты и запускает AI-агентов для расследования. 🔧 Что внутри · OTLP прокси для приёма телеметрии · Автоматическая группировка событий в инциденты · AI-агент который записывает саммари инцидента · Postgres + ClickHouse под капотом · Веб-интерфейс для дебаггинга Если вы деплоите модели как сервисы — FastAPI, Triton, vLLM — стандартный вопрос: как узнать что что-то сломалось и почему? Superlog принимает OTel-метрики из любого фреймворка и сам разбирается в инцидентах пока вы спите. docker compose up -d pnpm dev # OTLP: http://localhost:4101 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	866
4	🎨 cnsplots: графики без боли с форматированием Знакомая ситуация: модель готова, результаты есть, а половина времени уходит на подгонку размеров шрифтов, цветов и отступов под требования журнала. cnsplots — Python-библиотека поверх matplotlib которая берёт это на себя. 🎨 Что внутри Готовые стили под Cell, Nature, Science. Размеры в пикселях — точно под гайдлайны журналов. SVG с редактируемыми шрифтами для Adobe Illustrator. 25+ типов графиков: боксплоты, violin, scatter, ROC-кривые, volcano plots, heatmaps с кластеризацией, Kaplan-Meier, UpSet plots и другие. pip install cnsplots 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	978
5	📚 Книга: Machine Learning with Neural Networks Bernhard Mehlig, профессор физики University of Gothenburg, написал учебник по нейросетям с уклоном в математику и теорию. Доступна бесплатная версия без упражнений. Охватывает всё от сетей Хопфилда и машин Больцмана до CNN, RNN и обучения с подкреплением. Хорошо подходит если хотите понять теоретическую основу, а не только научиться пользоваться PyTorch. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 143
6	😳 Documentation Driven Development звучит как ещё один модный термин. Пока не попробуешь объяснить свой проект AI. Агент работает только с тем контекстом, который ему дали. Если документация неполная или устарела, он начинает додумывать — отсюда появляется неверный код. 🔘 На курсе «ИИ для разработчиков» эту тему разбирает Арсений Харланов. Он покажет, как подготовить документацию и контекст, чтобы агент понимал архитектуру проекта, ограничения и связи между компонентами. Также разберём, как выбирать модель под задачу: Claude, DeepSeek, Qwen и другие ✏️ Впереди 7 недель работы со своим репозиторием. Вебинары проходят вживую и остаются в записи. Стартуем 31 августа. До конца июля можно присоединиться по ранней цене, а доступ к материалам останется бессрочным 😀 🔗 Посмотреть, что будет на курсе 🏃‍♀️ Proglib Academy	838
7	😏 Документация давно перестала быть формальностью. Особенно когда проект нужно объяснить кому-то ещё 👇	1 041
8	🎯 TurboVec: 31 ГБ эмбеддингов в 4 ГБ без обучения Хранение векторов для RAG быстро съедает память. 10 миллионов документов в float32 — это 31 ГБ RAM. Google выпустили open-source Rust-библиотеку которая меняет это соотношение. TurboVec использует TurboQuant — квантайзер которому не нужно обучение: · Нормализация вектора · Случайный поворот · Разбивка на бакеты через предвычисленную математику Фиксированный пайплайн который работает на любых данных без калибровки под конкретный датасет. Никакого managed сервиса который трогает ваши векторы. Работает с любой open embedding моделью. Получаете полностью air-gapped retrieval стек с Python биндингами. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 336
9	PCA видит паттерны которых нет и пропускает те что есть Статья поднимает важный вопрос который многие игнорируют: простейший метод не всегда лучший. PCA — один из самых популярных методов снижения размерности. Но у него есть системная проблема: он оптимизирует под дисперсию, а не под структуру данных. ⚠️ Три сценария где PCA ошибается Данные гауссовы → PCA работает идеально, всё хорошо. Данные — смесь гауссиан → PCA «видит» измерения которых нет. Проблема в ограничении ортогональности. Данные нелинейно структурированы (например, динозавр из точек) → PCA не находит реальную структуру (1D-многообразие), зато находит «структуру» которой нет. 🎵 Phantom oscillations Особенно коварный случай: если данные плавно меняются во времени (что почти всегда верно в реальном мире), PCA извлекает осциллирующие компоненты. Не потому что они есть в данных — а потому что PCA применён к гладким сигналам. Это называется phantom oscillations. 🔧 Что делать Альтернативы которые снимают ограничения PCA: · ICA — убирает ограничение гауссовости · NMF — убирает отрицательные значения, даёт parts-based представление · Isomap, UMAP — работают с нелинейными многообразиями · jPCA, GPFA — для временных рядов с динамикой Но осторожно: более сложные модели тоже могут галлюцинировать. jPCA находит ротационную динамику даже там где её нет. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 169
10	18 докладов, мастер-классы и нетворкинг: «Урбан ML» уже 2 августа Если давно хотели выбраться на крупный Data Science-митап — хороший повод. На «Урбан ML» обсудят рекомендательные системы, NLP, антифрод и агентные системы. Среди спикеров — эксперты MTS Web Services, ВТБ, Wildberries, «Звук», Альфа-Банка и других компаний. После докладов — мастер-классы, общение, спортивные активности и афтепати. Участие бесплатное по регистрации (на площадку необходимо взять с собой паспорт или права): ссылка 📍 Москва, офлайн 🗓 2 августа, 11:00-21:00 (первый доклад в 12:00)	1 233
11	Git для дата сайнтиста: не только commit и push Большинство DS знают базовые команды. Но несколько паттернов реально меняют качество работы с кодом. 🔀 merge vs rebase — в чём разница Когда нужно влить изменения из main в свою ветку: git pull origin main --no-rebase # merge: создаёт merge commit git pull origin main --rebase # rebase: кладёт ваши коммиты поверх main Rebase даёт чистую линейную историю — но осторожно если ветку используют другие. ↩️ revert vs reset — когда что git revert <commit-hash> # создаёт новый коммит который отменяет изменения git reset <commit-hash> # удаляет коммиты из истории (деструктивно) Для командной работы — revert. reset только если история ещё не запушена. 📋 Что всегда должно быть в .gitignore data/ # датасеты — не версионировать в git .env # ключи и credentials venv/ .vscode/ __pycache__/ *.pyc Для версионирования данных — DVC поверх Git. ✅ pre-commit — форматирование до коммита # .pre-commit-config.yaml repos: - repo: https://github.com/astral-sh/ruff-pre-commit hooks: - id: ruff - repo: https://github.com/psf/black hooks: - id: black Ruff + Black запускаются автоматически перед каждым коммитом. Ревьюер фокусируется на логике, не на форматировании. Правила которые реально помогают · Маленькие коммиты с одной целью — легче ревертить и ревьюить · Описательные названия веток: encode-categorical-columns вместо fix · Никаких данных и секретов в репо 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 125
12	🤢 Чем больше разработчиков в команде начинают пользоваться Claude Code, тем заметнее одна проблема: кодовая база перестаёт выглядеть как работа одной команды. Где-то есть тесты, где-то их забыли. Где-то агент следует архитектуре проекта, где-то предлагает решение, которое с ней не сочетается. ⚠️ И это не проблема Claude Code. Он просто следует тому контексту, который получает от каждого разработчика. Сегодня покажем, как передать AI инженерный контекст команды и не превратить его внедрение в ещё один источник хаоса. 🗓 23 июля, 19:00 МСК Бесплатно. 60 минут доклада + 30 минут вопросов. 🔗 Занять место на вебинаре и разобраться, почему так происходит 🏃‍♀️ Proglib Academy	799
13	Хороший разбор для тех, кто уже использует Claude Code в команде или только собирается его внедрять 🔥	978
14	balance: библиотека для коррекции смещённых выборок Классическая проблема в DS: есть данные опроса, но респонденты не репрезентативны — молодые отвечают чаще, богатые меньше. Как делать выводы о всей популяции? balance решает именно это. Библиотека присваивает каждому респонденту вес — сколько людей из целевой популяции он представляет. Как работает: from balance import load_data, Sample target_df, sample_df = load_data() sample = Sample.from_frame(sample_df, outcome_columns=["happiness"]) target = Sample.from_frame(target_df) sample_with_target = sample.set_target(target) adjusted = sample_with_target.adjust() print(adjusted.summary()) # Covar ASMD reduction: 62.3% # ASMD: 0.335 → 0.126 ASMD (Absolute Standardized Mean Difference) — основная метрика качества балансировки. Чем ниже, тем лучше. 📊 Методы взвешивания · IPW — логистическая регрессия с L1 регуляризацией · CBPS — Covariate Balancing Propensity Score · Post-stratification · Raking 📊 Когда использовать · Анализ опросов с non-response bias · Observational studies (treated vs untreated) · Любые данные с selection bias pip install balance 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 049
15	⚡️ Fine-tune Gemma 4 на ноутбуке Тонкая настройка LLM больше не требует серьёзного железа. Gemma 4 через Unsloth можно дообучить на базовой GPU или даже в бесплатном Google Colab. Что нужно · Gemma 4 2B → 8 ГБ VRAM (бесплатный Colab T4) · Gemma 4 4B → ~10 ГБ VRAM через LoRA · Для большинства практических задач этого достаточно Модели мультимодальные — одинаковый стек для: · текстовых задач · vision задач · аудио задач Ссылка на ноутбук 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 383
16	5 техник fine-tuning LLM Инфографика по популярным методам тонкой настройки больших языковых моделей. · Full Fine-tuning — все 100% параметров · LoRA — только ~1.3% параметров · LoRA-FA — ещё меньше, ~0.5% · QLoRA — LoRA поверх 4-битной модели (140 ГБ → 35 ГБ) · TinyLoRA — буквально единицы параметров Смотрите инфографику выше 👆 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 519
17	😸 Каждый разработчик подходит к задаче со своим опытом: помнит прошлые решения, знает ограничения проекта и понимает, какой код команда пропустит на ревью. Для человека это естественная часть работы. У Claude Code этого контекста по умолчанию нет — только задача и инструкции, которые ему дали. Поэтому в большой команде недостаточно просто выбрать хорошую модель. ❗️ Нужно ещё объяснить ей, как у вас устроена разработка: какие подходы приняты, что обязательно проверять и по каким правилам принимать решения. 🗓 23 июля в 19:00 МСК поговорим об этом на бесплатном вебинаре с Алексеем Жиряковым — он Executive Director в Сбере, руководит GenAI Data Platform, и с этой проблемой сталкивался не раз 🔥 Покажет живое демо, разберём, как встроить AI в процесс разработки так, чтобы он реально помогал, а не добавлял ещё один повод для споров на ревью. 🔗 Занять место на вебинаре 🏃‍♀️ Proglib Academy	1 083
18	✏️ Если вы уже работаете с Claude Code, Cursor или Copilot, этот вебинар будет особенно полезен. Разберут, как превратить AI из инструмента для отдельных задач в часть инженерного процесса ⬇️	1 165
19	🧑‍💻 Учиться агентной разработке — у тех, кто уже внедряет её в бигтехе Курс «ИИ для разработчиков» ведут практики из ведущих российских IT-компаний 🔥 🔵 Они прошли путь от первых экспериментов с AI до рабочих процессов, в которых агенты помогают команде писать код, готовить PR и быстрее доводить задачи до продакшена. В ближайшее время познакомим вас с каждым преподавателем. Программа курса — по ссылке 🎹 🏃‍♀️ Proglib Academy	998
20	📍 Курс — это не только темы и домашние задания Во многом его ценность определяет опыт тех, кто его разрабатывает и ведёт. Об этом как раз новый пост Proglib Academy 🔥	1 148

View all posts