Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Відкрити в Telegram

Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Сітка:Книги для программистов Росія36 196 Технології та додатки7 084...

📈 Аналітичний огляд Telegram-каналу Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Канал Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 18 422 підписників, посідаючи 7 084 місце в категорії Технології та додатки та 36 196 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 18 422 підписників.

За останніми даними від 26 липня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на -38, а за останні 24 години на 3, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 6.72%. Протягом перших 24 годин після публікації контент зазвичай збирає 3.76% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 1 237 переглядів. Протягом першої доби публікація в середньому набирає 693 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 5.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як сайентиста, llm, буст, навигация, openai.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”

Завдяки високій частоті оновлень (останні дані отримано 27 липня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

18 422

Підписники

+324 години

+17 днів

-3830 день

1 237

Перегляди допису

~ 69324 години

~ 84348 годин

6.72%

Коефіцієнт залучення

~ 2

Дописів на день

Ads index

beta

Триває завантаження даних...

Схожі канали

77.8K

Библиотека программиста

37.7K

Библиотека питониста | Python, Django, Flask

25.9K

hahacker_news

19.9K

Data Science | Machinelearning [ru]

1.4K

Финансовая Лаборатория

Більше каналів

Вхідні та вихідні згадування

---

Залучення підписників

липень '26

+72

в 0 каналах

червень '26

+97

в 2 каналах

Get PRO

травень '26

+142

в 1 каналах

Get PRO

квітень '26

+106

в 0 каналах

Get PRO

березень '26

+329

в 4 каналах

Get PRO

лютий '26

+154

в 5 каналах

Get PRO

січень '26

+212

в 4 каналах

Get PRO

грудень '25

+211

в 3 каналах

Get PRO

листопад '25

+101

в 1 каналах

Get PRO

жовтень '25

+148

в 5 каналах

Get PRO

вересень '25

+105

в 2 каналах

Get PRO

серпень '25

+103

в 4 каналах

Get PRO

липень '25

+171

в 2 каналах

Get PRO

червень '25

+185

в 42 каналах

Get PRO

травень '25

+319

в 6 каналах

Get PRO

квітень '25

+206

в 18 каналах

Get PRO

березень '25

+247

в 53 каналах

Get PRO

лютий '25

+236

в 36 каналах

Get PRO

січень '25

+180

в 41 каналах

Get PRO

грудень '24

+212

в 42 каналах

Get PRO

листопад '24

+217

в 52 каналах

Get PRO

жовтень '24

+224

в 43 каналах

Get PRO

вересень '24

+249

в 38 каналах

Get PRO

серпень '24

+269

в 37 каналах

Get PRO

липень '24

+197

в 37 каналах

Get PRO

червень '24

+257

в 31 каналах

Get PRO

травень '24

+429

в 38 каналах

Get PRO

квітень '24

+339

в 38 каналах

Get PRO

березень '24

+437

в 32 каналах

Get PRO

лютий '24

+426

в 32 каналах

Get PRO

січень '24

+473

в 28 каналах

Get PRO

грудень '23

+604

в 34 каналах

Get PRO

листопад '23

+289

в 13 каналах

Get PRO

жовтень '23

+462

в 22 каналах

Get PRO

вересень '23

+631

в 0 каналах

Get PRO

серпень '23

+488

в 0 каналах

Get PRO

липень '23

+420

в 0 каналах

Get PRO

червень '23

+329

в 0 каналах

Get PRO

травень '23

+433

в 0 каналах

Get PRO

квітень '23

+224

в 0 каналах

Get PRO

березень '23

+712

в 0 каналах

Get PRO

лютий '23

+249

в 0 каналах

Get PRO

січень '23

+260

в 0 каналах

Get PRO

грудень '22

+292

в 0 каналах

Get PRO

листопад '22

+407

в 0 каналах

Get PRO

жовтень '22

+172

в 0 каналах

Get PRO

вересень '22

+209

в 0 каналах

Get PRO

серпень '22

+287

в 0 каналах

Get PRO

липень '22

+352

в 0 каналах

Get PRO

червень '22

+407

в 0 каналах

Get PRO

травень '22

+166

в 0 каналах

Get PRO

квітень '22

+215

в 0 каналах

Get PRO

березень '22

+225

в 0 каналах

Get PRO

лютий '22

+129

в 0 каналах

Get PRO

січень '22

+250

в 0 каналах

Get PRO

грудень '21

+203

в 0 каналах

Get PRO

листопад '21

+253

в 0 каналах

Get PRO

жовтень '21

+237

в 0 каналах

Get PRO

вересень '21

+208

в 0 каналах

Get PRO

серпень '21

+297

в 0 каналах

Get PRO

липень '21

+312

в 0 каналах

Get PRO

червень '21

+288

в 0 каналах

Get PRO

травень '21

+446

в 0 каналах

Get PRO

квітень '21

+446

в 0 каналах

Get PRO

березень '21

+429

в 0 каналах

Get PRO

лютий '21

+396

в 0 каналах

Get PRO

січень '21

+351

в 0 каналах

Get PRO

грудень '20

+12 450

в 0 каналах

Дата	Залучення підписників	Згадування	Канали
27 липня	+2
26 липня	+4
25 липня	+1
24 липня	0
23 липня	+2
22 липня	+3
21 липня	+10
20 липня	+5
19 липня	0
18 липня	+2
17 липня	+1
16 липня	+3
15 липня	+2
14 липня	+3
13 липня	+3
12 липня	+5
11 липня	+5
10 липня	+4
09 липня	+6
08 липня	+1
07 липня	+1
06 липня	+1
05 липня	+1
04 липня	+2
03 липня	+3
02 липня	+1
01 липня	+1

Дописи каналу

📚 Книга: Machine Learning with Neural Networks Bernhard Mehlig, профессор физики University of Gothenburg, написал учебник по нейросетям с уклоном в математику и теорию. Доступна бесплатная версия без упражнений. Охватывает всё от сетей Хопфилда и машин Больцмана до CNN, RNN и обучения с подкреплением. Хорошо подходит если хотите понять теоретическую основу, а не только научиться пользоваться PyTorch. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

2	😳 Documentation Driven Development звучит как ещё один модный термин. Пока не попробуешь объяснить свой проект AI. Агент работает только с тем контекстом, который ему дали. Если документация неполная или устарела, он начинает додумывать — отсюда появляется неверный код. 🔘 На курсе «ИИ для разработчиков» эту тему разбирает Арсений Харланов. Он покажет, как подготовить документацию и контекст, чтобы агент понимал архитектуру проекта, ограничения и связи между компонентами. Также разберём, как выбирать модель под задачу: Claude, DeepSeek, Qwen и другие ✏️ Впереди 7 недель работы со своим репозиторием. Вебинары проходят вживую и остаются в записи. Стартуем 31 августа. До конца июля можно присоединиться по ранней цене, а доступ к материалам останется бессрочным 😀 🔗 Посмотреть, что будет на курсе 🏃‍♀️ Proglib Academy	520
3	😏 Документация давно перестала быть формальностью. Особенно когда проект нужно объяснить кому-то ещё 👇	765
4	🎯 TurboVec: 31 ГБ эмбеддингов в 4 ГБ без обучения Хранение векторов для RAG быстро съедает память. 10 миллионов документов в float32 — это 31 ГБ RAM. Google выпустили open-source Rust-библиотеку которая меняет это соотношение. TurboVec использует TurboQuant — квантайзер которому не нужно обучение: · Нормализация вектора · Случайный поворот · Разбивка на бакеты через предвычисленную математику Фиксированный пайплайн который работает на любых данных без калибровки под конкретный датасет. Никакого managed сервиса который трогает ваши векторы. Работает с любой open embedding моделью. Получаете полностью air-gapped retrieval стек с Python биндингами. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 080
5	PCA видит паттерны которых нет и пропускает те что есть Статья поднимает важный вопрос который многие игнорируют: простейший метод не всегда лучший. PCA — один из самых популярных методов снижения размерности. Но у него есть системная проблема: он оптимизирует под дисперсию, а не под структуру данных. ⚠️ Три сценария где PCA ошибается Данные гауссовы → PCA работает идеально, всё хорошо. Данные — смесь гауссиан → PCA «видит» измерения которых нет. Проблема в ограничении ортогональности. Данные нелинейно структурированы (например, динозавр из точек) → PCA не находит реальную структуру (1D-многообразие), зато находит «структуру» которой нет. 🎵 Phantom oscillations Особенно коварный случай: если данные плавно меняются во времени (что почти всегда верно в реальном мире), PCA извлекает осциллирующие компоненты. Не потому что они есть в данных — а потому что PCA применён к гладким сигналам. Это называется phantom oscillations. 🔧 Что делать Альтернативы которые снимают ограничения PCA: · ICA — убирает ограничение гауссовости · NMF — убирает отрицательные значения, даёт parts-based представление · Isomap, UMAP — работают с нелинейными многообразиями · jPCA, GPFA — для временных рядов с динамикой Но осторожно: более сложные модели тоже могут галлюцинировать. jPCA находит ротационную динамику даже там где её нет. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	978
6	18 докладов, мастер-классы и нетворкинг: «Урбан ML» уже 2 августа Если давно хотели выбраться на крупный Data Science-митап — хороший повод. На «Урбан ML» обсудят рекомендательные системы, NLP, антифрод и агентные системы. Среди спикеров — эксперты MTS Web Services, ВТБ, Wildberries, «Звук», Альфа-Банка и других компаний. После докладов — мастер-классы, общение, спортивные активности и афтепати. Участие бесплатное по регистрации (на площадку необходимо взять с собой паспорт или права): ссылка 📍 Москва, офлайн 🗓 2 августа, 11:00-21:00 (первый доклад в 12:00)	1 062
7	Git для дата сайнтиста: не только commit и push Большинство DS знают базовые команды. Но несколько паттернов реально меняют качество работы с кодом. 🔀 merge vs rebase — в чём разница Когда нужно влить изменения из main в свою ветку: git pull origin main --no-rebase # merge: создаёт merge commit git pull origin main --rebase # rebase: кладёт ваши коммиты поверх main Rebase даёт чистую линейную историю — но осторожно если ветку используют другие. ↩️ revert vs reset — когда что git revert <commit-hash> # создаёт новый коммит который отменяет изменения git reset <commit-hash> # удаляет коммиты из истории (деструктивно) Для командной работы — revert. reset только если история ещё не запушена. 📋 Что всегда должно быть в .gitignore data/ # датасеты — не версионировать в git .env # ключи и credentials venv/ .vscode/ __pycache__/ *.pyc Для версионирования данных — DVC поверх Git. ✅ pre-commit — форматирование до коммита # .pre-commit-config.yaml repos: - repo: https://github.com/astral-sh/ruff-pre-commit hooks: - id: ruff - repo: https://github.com/psf/black hooks: - id: black Ruff + Black запускаются автоматически перед каждым коммитом. Ревьюер фокусируется на логике, не на форматировании. Правила которые реально помогают · Маленькие коммиты с одной целью — легче ревертить и ревьюить · Описательные названия веток: encode-categorical-columns вместо fix · Никаких данных и секретов в репо 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	993
8	🤢 Чем больше разработчиков в команде начинают пользоваться Claude Code, тем заметнее одна проблема: кодовая база перестаёт выглядеть как работа одной команды. Где-то есть тесты, где-то их забыли. Где-то агент следует архитектуре проекта, где-то предлагает решение, которое с ней не сочетается. ⚠️ И это не проблема Claude Code. Он просто следует тому контексту, который получает от каждого разработчика. Сегодня покажем, как передать AI инженерный контекст команды и не превратить его внедрение в ещё один источник хаоса. 🗓 23 июля, 19:00 МСК Бесплатно. 60 минут доклада + 30 минут вопросов. 🔗 Занять место на вебинаре и разобраться, почему так происходит 🏃‍♀️ Proglib Academy	738
9	Хороший разбор для тех, кто уже использует Claude Code в команде или только собирается его внедрять 🔥	919
10	balance: библиотека для коррекции смещённых выборок Классическая проблема в DS: есть данные опроса, но респонденты не репрезентативны — молодые отвечают чаще, богатые меньше. Как делать выводы о всей популяции? balance решает именно это. Библиотека присваивает каждому респонденту вес — сколько людей из целевой популяции он представляет. Как работает: from balance import load_data, Sample target_df, sample_df = load_data() sample = Sample.from_frame(sample_df, outcome_columns=["happiness"]) target = Sample.from_frame(target_df) sample_with_target = sample.set_target(target) adjusted = sample_with_target.adjust() print(adjusted.summary()) # Covar ASMD reduction: 62.3% # ASMD: 0.335 → 0.126 ASMD (Absolute Standardized Mean Difference) — основная метрика качества балансировки. Чем ниже, тем лучше. 📊 Методы взвешивания · IPW — логистическая регрессия с L1 регуляризацией · CBPS — Covariate Balancing Propensity Score · Post-stratification · Raking 📊 Когда использовать · Анализ опросов с non-response bias · Observational studies (treated vs untreated) · Любые данные с selection bias pip install balance 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	995
11	⚡️ Fine-tune Gemma 4 на ноутбуке Тонкая настройка LLM больше не требует серьёзного железа. Gemma 4 через Unsloth можно дообучить на базовой GPU или даже в бесплатном Google Colab. Что нужно · Gemma 4 2B → 8 ГБ VRAM (бесплатный Colab T4) · Gemma 4 4B → ~10 ГБ VRAM через LoRA · Для большинства практических задач этого достаточно Модели мультимодальные — одинаковый стек для: · текстовых задач · vision задач · аудио задач Ссылка на ноутбук 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 245
12	5 техник fine-tuning LLM Инфографика по популярным методам тонкой настройки больших языковых моделей. · Full Fine-tuning — все 100% параметров · LoRA — только ~1.3% параметров · LoRA-FA — ещё меньше, ~0.5% · QLoRA — LoRA поверх 4-битной модели (140 ГБ → 35 ГБ) · TinyLoRA — буквально единицы параметров Смотрите инфографику выше 👆 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 300
13	😸 Каждый разработчик подходит к задаче со своим опытом: помнит прошлые решения, знает ограничения проекта и понимает, какой код команда пропустит на ревью. Для человека это естественная часть работы. У Claude Code этого контекста по умолчанию нет — только задача и инструкции, которые ему дали. Поэтому в большой команде недостаточно просто выбрать хорошую модель. ❗️ Нужно ещё объяснить ей, как у вас устроена разработка: какие подходы приняты, что обязательно проверять и по каким правилам принимать решения. 🗓 23 июля в 19:00 МСК поговорим об этом на бесплатном вебинаре с Алексеем Жиряковым — он Executive Director в Сбере, руководит GenAI Data Platform, и с этой проблемой сталкивался не раз 🔥 Покажет живое демо, разберём, как встроить AI в процесс разработки так, чтобы он реально помогал, а не добавлял ещё один повод для споров на ревью. 🔗 Занять место на вебинаре 🏃‍♀️ Proglib Academy	1 026
14	✏️ Если вы уже работаете с Claude Code, Cursor или Copilot, этот вебинар будет особенно полезен. Разберут, как превратить AI из инструмента для отдельных задач в часть инженерного процесса ⬇️	1 113
15	🧑‍💻 Учиться агентной разработке — у тех, кто уже внедряет её в бигтехе Курс «ИИ для разработчиков» ведут практики из ведущих российских IT-компаний 🔥 🔵 Они прошли путь от первых экспериментов с AI до рабочих процессов, в которых агенты помогают команде писать код, готовить PR и быстрее доводить задачи до продакшена. В ближайшее время познакомим вас с каждым преподавателем. Программа курса — по ссылке 🎹 🏃‍♀️ Proglib Academy	931
16	📍 Курс — это не только темы и домашние задания Во многом его ценность определяет опыт тех, кто его разрабатывает и ведёт. Об этом как раз новый пост Proglib Academy 🔥	1 103
17	Оценка качества LLM — шпаргалка по метрикам и методам Как понять что модель работает хорошо? Единой метрики нет — зависит от задачи. 📊 Автоматические метрики 🔤 Для генерации текста: · BLEU — совпадение n-грамм с эталоном. Быстро, но плохо коррелирует с качеством · ROUGE — полнота n-грамм. Чаще используется для суммаризации · BERTScore — семантическое сходство через эмбеддинги. Лучше BLEU/ROUGE · METEOR — учитывает синонимы и морфологию. Лучше для перевода 📐 Для RAG и QA: · Faithfulness — насколько ответ соответствует контексту (не галлюцинирует) · Answer Relevance — насколько ответ релевантен вопросу · Context Recall — насколько полно использован контекст · Context Precision — насколько точно выбраны релевантные куски Инструменты: RAGAS, TruLens 🤖 LLM-as-Judge Используете сильную модель (GPT-4, Claude) чтобы оценить ответ слабой. Самый гибкий метод: Оцени ответ по шкале 1-5: · Точность (фактическая корректность) · Полнота (покрытие вопроса) · Релевантность (соответствие запросу) · Стиль (читаемость и тон) · Плюсы: гибко, понимает нюансы · Минусы: дорого, bias к похожим на себя ответам, не детерминировано 👥 Human evaluation · Попарное сравнение (A vs B) — надёжнее абсолютных оценок · Оценка по чеклисту критериев · Crowdsourcing через Toloka, MTurk Золотой стандарт, но дорого и медленно. 🏆 Бенчмарки · MMLU — знания по 57 областям · HumanEval / EvalPlus — генерация кода · MT-Bench — многоходовые диалоги · HELM — комплексная оценка по многим задачам · LiveBench — обновляется, минимизирует data contamination ✅ Когда что использовать · Разработка → автоматические метрики + LLM-as-Judge (быстро и дёшево) · До продакшена → human evaluation на репрезентативном сете · В продакшене → мониторинг через LLM-Judge + сбор user feedback · Для публикации/сравнения → стандартные бенчмарки 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 260
18	🔧 Градиент, Якобиан, Гессиан: математика под каждой обучаемой моделью Три слова которые выглядят пугающе. На деле — три способа измерить изменение. 📐 Градиент ∇f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает вектор частных производных первого порядка Отвечает на вопрос: «В каком направлении f растёт быстрее всего?» Именно поэтому градиент в центре оптимизации. Градиентный спуск идёт в противоположном направлении — потому что градиент указывает вверх по склону. Backpropagation — это эффективное вычисление градиентов во время обучения. 📊 Якобиан J_F Принимает векторную функцию F : ℝⁿ → ℝᵐ Возвращает матрицу m × n частных производных первого порядка Отвечает на вопрос: «Как каждый выход меняется с каждым входом?» Встречается в: анализе чувствительности, автодифференцировании, смене переменных. Простая связь с AD: — Forward-mode AD использует произведения Якобиан-вектор — Reverse-mode AD (backprop) использует произведения вектор-Якобиан 📈 Гессиан H_f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает матрицу n × n частных производных второго порядка Отвечает на вопрос: «Как меняется сам градиент?» Гессиан измеряет кривизну. В критической точке: — Гессиан положительно определён → локальный минимум — Гессиан отрицательно определён → локальный максимум — Гессиан неопределён → седловая точка Чистая ментальная модель Градиент = производные одного выхода → направление Якобиан = производные многих выходов → чувствительность Гессиан = производные второго порядка → кривизна И простая связь: Гессиан — это Якобиан градиента. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 335
19	Коллеги, привет! Меня зовут Василий Леоненко, я кандидат физико-математических наук, занимаюсь вычислительной эпидемиологией и моделированием живых систем. Я люблю предсказывать и прогнозировать. Люблю, когда модели интерпретируемы, а прогнозы понятны и однозначны. Поэтому я всегда предпочитал строгие математические законы и дифференциальные уравнения. Но жизнь меня заставила изменить свою точку зрения. В понедельник 20 июля я хочу рассказать о том, почему машинное обучение — полезная штука и почему оно часто бывает эффективнее, чем классическое моделирование. Почему «черные ящики», которые базируются на огромном количестве непонятных данных и делают какие-то неверифицируемые выводы, вдруг оказались так востребованы. Обсудим: • в чем отличие математических моделей, статистических моделей, ML и Deep learning • когда и что из них выгодно применить (а может всё невыгодно!) • как не испугаться кучи методов и каков достаточный минимум для работы Приходите немного разобраться в математике, пообщаться и подискутировать! Записаться: https://s.salebot.pro/r/model_1 ❗️Если у вас не работает ссылка выше, то регистрируйтесь тут: https://agency.blastim.ru/pythonandml#leonenko	883
20	Machine Learning Systems — бесплатный учебник от Harvard «Мир спешит строить AI-системы. Но не проектирует их.» — именно с этого начинается учебник. ML Systems от Harvard — полный курс по инженерии AI-систем: от основ deep learning до распределённого обучения, оптимизации моделей и деплоя на реальном железе. В 2026 выйдет в MIT Press. 🔗 Ссылка на учебник 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 261

Переглянути всі дописи