Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Kanalga Telegram’da o‘tish

Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Ko'proq ko'rsatish

Tarmoq:Книги для программистов Rossiya36 196 Texnologiyalar & Aralashmalar7 084...

📈 Telegram kanali Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение analitikasi

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 18 422 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 7 084-o'rinni va Rossiya mintaqasida 36 196-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 18 422 obunachiga ega bo‘ldi.

26 Iyul, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni -38 ga, so‘nggi 24 soatda esa 3 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 6.72% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 3.76% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 1 237 marta ko‘riladi; birinchi sutkada odatda 693 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 5 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent сайентиста, llm, буст, навигация, openai kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 27 Iyul, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

18 422

Obunachilar

+324 soatlar

+17 kunlar

-3830 kunlar

1 237

Post ko'rishlar

~ 69324 soatlar

~ 84348 soatlar

6.72%

Muloqot nisbati

~ 2

Kuniga postlar

Ads index

beta

Ma'lumot yuklanmoqda...

O'xshash kanallar

77.8K

Библиотека программиста

37.7K

Библиотека питониста | Python, Django, Flask

25.9K

hahacker_news

19.9K

Data Science | Machinelearning [ru]

1.4K

Финансовая Лаборатория

Ko'proq kanallar

Kirish va chiqish esdaliklari

---

Obunachilarni jalb qilish

Iyul '26

+72

0 kanalda

Iyun '26

+97

2 kanalda

Get PRO

May '26

+142

1 kanalda

Get PRO

Aprel '26

+106

0 kanalda

Get PRO

Mart '26

+329

4 kanalda

Get PRO

Fevral '26

+154

5 kanalda

Get PRO

Yanvar '26

+212

4 kanalda

Get PRO

Dekabr '25

+211

3 kanalda

Get PRO

Noyabr '25

+101

1 kanalda

Get PRO

Oktabr '25

+148

5 kanalda

Get PRO

Sentabr '25

+105

2 kanalda

Get PRO

Avgust '25

+103

4 kanalda

Get PRO

Iyul '25

+171

2 kanalda

Get PRO

Iyun '25

+185

42 kanalda

Get PRO

May '25

+319

6 kanalda

Get PRO

Aprel '25

+206

18 kanalda

Get PRO

Mart '25

+247

53 kanalda

Get PRO

Fevral '25

+236

36 kanalda

Get PRO

Yanvar '25

+180

41 kanalda

Get PRO

Dekabr '24

+212

42 kanalda

Get PRO

Noyabr '24

+217

52 kanalda

Get PRO

Oktabr '24

+224

43 kanalda

Get PRO

Sentabr '24

+249

38 kanalda

Get PRO

Avgust '24

+269

37 kanalda

Get PRO

Iyul '24

+197

37 kanalda

Get PRO

Iyun '24

+257

31 kanalda

Get PRO

May '24

+429

38 kanalda

Get PRO

Aprel '24

+339

38 kanalda

Get PRO

Mart '24

+437

32 kanalda

Get PRO

Fevral '24

+426

32 kanalda

Get PRO

Yanvar '24

+473

28 kanalda

Get PRO

Dekabr '23

+604

34 kanalda

Get PRO

Noyabr '23

+289

13 kanalda

Get PRO

Oktabr '23

+462

22 kanalda

Get PRO

Sentabr '23

+631

0 kanalda

Get PRO

Avgust '23

+488

0 kanalda

Get PRO

Iyul '23

+420

0 kanalda

Get PRO

Iyun '23

+329

0 kanalda

Get PRO

May '23

+433

0 kanalda

Get PRO

Aprel '23

+224

0 kanalda

Get PRO

Mart '23

+712

0 kanalda

Get PRO

Fevral '23

+249

0 kanalda

Get PRO

Yanvar '23

+260

0 kanalda

Get PRO

Dekabr '22

+292

0 kanalda

Get PRO

Noyabr '22

+407

0 kanalda

Get PRO

Oktabr '22

+172

0 kanalda

Get PRO

Sentabr '22

+209

0 kanalda

Get PRO

Avgust '22

+287

0 kanalda

Get PRO

Iyul '22

+352

0 kanalda

Get PRO

Iyun '22

+407

0 kanalda

Get PRO

May '22

+166

0 kanalda

Get PRO

Aprel '22

+215

0 kanalda

Get PRO

Mart '22

+225

0 kanalda

Get PRO

Fevral '22

+129

0 kanalda

Get PRO

Yanvar '22

+250

0 kanalda

Get PRO

Dekabr '21

+203

0 kanalda

Get PRO

Noyabr '21

+253

0 kanalda

Get PRO

Oktabr '21

+237

0 kanalda

Get PRO

Sentabr '21

+208

0 kanalda

Get PRO

Avgust '21

+297

0 kanalda

Get PRO

Iyul '21

+312

0 kanalda

Get PRO

Iyun '21

+288

0 kanalda

Get PRO

May '21

+446

0 kanalda

Get PRO

Aprel '21

+446

0 kanalda

Get PRO

Mart '21

+429

0 kanalda

Get PRO

Fevral '21

+396

0 kanalda

Get PRO

Yanvar '21

+351

0 kanalda

Get PRO

Dekabr '20

+12 450

0 kanalda

Sana	Obunachilarni jalb qilish	Esdaliklar	Kanallar
27 Iyul	+2
26 Iyul	+4
25 Iyul	+1
24 Iyul	0
23 Iyul	+2
22 Iyul	+3
21 Iyul	+10
20 Iyul	+5
19 Iyul	0
18 Iyul	+2
17 Iyul	+1
16 Iyul	+3
15 Iyul	+2
14 Iyul	+3
13 Iyul	+3
12 Iyul	+5
11 Iyul	+5
10 Iyul	+4
09 Iyul	+6
08 Iyul	+1
07 Iyul	+1
06 Iyul	+1
05 Iyul	+1
04 Iyul	+2
03 Iyul	+3
02 Iyul	+1
01 Iyul	+1

Kanal postlari

📚 Книга: Machine Learning with Neural Networks Bernhard Mehlig, профессор физики University of Gothenburg, написал учебник по нейросетям с уклоном в математику и теорию. Доступна бесплатная версия без упражнений. Охватывает всё от сетей Хопфилда и машин Больцмана до CNN, RNN и обучения с подкреплением. Хорошо подходит если хотите понять теоретическую основу, а не только научиться пользоваться PyTorch. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

2	😳 Documentation Driven Development звучит как ещё один модный термин. Пока не попробуешь объяснить свой проект AI. Агент работает только с тем контекстом, который ему дали. Если документация неполная или устарела, он начинает додумывать — отсюда появляется неверный код. 🔘 На курсе «ИИ для разработчиков» эту тему разбирает Арсений Харланов. Он покажет, как подготовить документацию и контекст, чтобы агент понимал архитектуру проекта, ограничения и связи между компонентами. Также разберём, как выбирать модель под задачу: Claude, DeepSeek, Qwen и другие ✏️ Впереди 7 недель работы со своим репозиторием. Вебинары проходят вживую и остаются в записи. Стартуем 31 августа. До конца июля можно присоединиться по ранней цене, а доступ к материалам останется бессрочным 😀 🔗 Посмотреть, что будет на курсе 🏃‍♀️ Proglib Academy	520
3	😏 Документация давно перестала быть формальностью. Особенно когда проект нужно объяснить кому-то ещё 👇	765
4	🎯 TurboVec: 31 ГБ эмбеддингов в 4 ГБ без обучения Хранение векторов для RAG быстро съедает память. 10 миллионов документов в float32 — это 31 ГБ RAM. Google выпустили open-source Rust-библиотеку которая меняет это соотношение. TurboVec использует TurboQuant — квантайзер которому не нужно обучение: · Нормализация вектора · Случайный поворот · Разбивка на бакеты через предвычисленную математику Фиксированный пайплайн который работает на любых данных без калибровки под конкретный датасет. Никакого managed сервиса который трогает ваши векторы. Работает с любой open embedding моделью. Получаете полностью air-gapped retrieval стек с Python биндингами. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 080
5	PCA видит паттерны которых нет и пропускает те что есть Статья поднимает важный вопрос который многие игнорируют: простейший метод не всегда лучший. PCA — один из самых популярных методов снижения размерности. Но у него есть системная проблема: он оптимизирует под дисперсию, а не под структуру данных. ⚠️ Три сценария где PCA ошибается Данные гауссовы → PCA работает идеально, всё хорошо. Данные — смесь гауссиан → PCA «видит» измерения которых нет. Проблема в ограничении ортогональности. Данные нелинейно структурированы (например, динозавр из точек) → PCA не находит реальную структуру (1D-многообразие), зато находит «структуру» которой нет. 🎵 Phantom oscillations Особенно коварный случай: если данные плавно меняются во времени (что почти всегда верно в реальном мире), PCA извлекает осциллирующие компоненты. Не потому что они есть в данных — а потому что PCA применён к гладким сигналам. Это называется phantom oscillations. 🔧 Что делать Альтернативы которые снимают ограничения PCA: · ICA — убирает ограничение гауссовости · NMF — убирает отрицательные значения, даёт parts-based представление · Isomap, UMAP — работают с нелинейными многообразиями · jPCA, GPFA — для временных рядов с динамикой Но осторожно: более сложные модели тоже могут галлюцинировать. jPCA находит ротационную динамику даже там где её нет. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	978
6	18 докладов, мастер-классы и нетворкинг: «Урбан ML» уже 2 августа Если давно хотели выбраться на крупный Data Science-митап — хороший повод. На «Урбан ML» обсудят рекомендательные системы, NLP, антифрод и агентные системы. Среди спикеров — эксперты MTS Web Services, ВТБ, Wildberries, «Звук», Альфа-Банка и других компаний. После докладов — мастер-классы, общение, спортивные активности и афтепати. Участие бесплатное по регистрации (на площадку необходимо взять с собой паспорт или права): ссылка 📍 Москва, офлайн 🗓 2 августа, 11:00-21:00 (первый доклад в 12:00)	1 062
7	Git для дата сайнтиста: не только commit и push Большинство DS знают базовые команды. Но несколько паттернов реально меняют качество работы с кодом. 🔀 merge vs rebase — в чём разница Когда нужно влить изменения из main в свою ветку: git pull origin main --no-rebase # merge: создаёт merge commit git pull origin main --rebase # rebase: кладёт ваши коммиты поверх main Rebase даёт чистую линейную историю — но осторожно если ветку используют другие. ↩️ revert vs reset — когда что git revert <commit-hash> # создаёт новый коммит который отменяет изменения git reset <commit-hash> # удаляет коммиты из истории (деструктивно) Для командной работы — revert. reset только если история ещё не запушена. 📋 Что всегда должно быть в .gitignore data/ # датасеты — не версионировать в git .env # ключи и credentials venv/ .vscode/ __pycache__/ *.pyc Для версионирования данных — DVC поверх Git. ✅ pre-commit — форматирование до коммита # .pre-commit-config.yaml repos: - repo: https://github.com/astral-sh/ruff-pre-commit hooks: - id: ruff - repo: https://github.com/psf/black hooks: - id: black Ruff + Black запускаются автоматически перед каждым коммитом. Ревьюер фокусируется на логике, не на форматировании. Правила которые реально помогают · Маленькие коммиты с одной целью — легче ревертить и ревьюить · Описательные названия веток: encode-categorical-columns вместо fix · Никаких данных и секретов в репо 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	993
8	🤢 Чем больше разработчиков в команде начинают пользоваться Claude Code, тем заметнее одна проблема: кодовая база перестаёт выглядеть как работа одной команды. Где-то есть тесты, где-то их забыли. Где-то агент следует архитектуре проекта, где-то предлагает решение, которое с ней не сочетается. ⚠️ И это не проблема Claude Code. Он просто следует тому контексту, который получает от каждого разработчика. Сегодня покажем, как передать AI инженерный контекст команды и не превратить его внедрение в ещё один источник хаоса. 🗓 23 июля, 19:00 МСК Бесплатно. 60 минут доклада + 30 минут вопросов. 🔗 Занять место на вебинаре и разобраться, почему так происходит 🏃‍♀️ Proglib Academy	738
9	Хороший разбор для тех, кто уже использует Claude Code в команде или только собирается его внедрять 🔥	919
10	balance: библиотека для коррекции смещённых выборок Классическая проблема в DS: есть данные опроса, но респонденты не репрезентативны — молодые отвечают чаще, богатые меньше. Как делать выводы о всей популяции? balance решает именно это. Библиотека присваивает каждому респонденту вес — сколько людей из целевой популяции он представляет. Как работает: from balance import load_data, Sample target_df, sample_df = load_data() sample = Sample.from_frame(sample_df, outcome_columns=["happiness"]) target = Sample.from_frame(target_df) sample_with_target = sample.set_target(target) adjusted = sample_with_target.adjust() print(adjusted.summary()) # Covar ASMD reduction: 62.3% # ASMD: 0.335 → 0.126 ASMD (Absolute Standardized Mean Difference) — основная метрика качества балансировки. Чем ниже, тем лучше. 📊 Методы взвешивания · IPW — логистическая регрессия с L1 регуляризацией · CBPS — Covariate Balancing Propensity Score · Post-stratification · Raking 📊 Когда использовать · Анализ опросов с non-response bias · Observational studies (treated vs untreated) · Любые данные с selection bias pip install balance 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	995
11	⚡️ Fine-tune Gemma 4 на ноутбуке Тонкая настройка LLM больше не требует серьёзного железа. Gemma 4 через Unsloth можно дообучить на базовой GPU или даже в бесплатном Google Colab. Что нужно · Gemma 4 2B → 8 ГБ VRAM (бесплатный Colab T4) · Gemma 4 4B → ~10 ГБ VRAM через LoRA · Для большинства практических задач этого достаточно Модели мультимодальные — одинаковый стек для: · текстовых задач · vision задач · аудио задач Ссылка на ноутбук 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 245
12	5 техник fine-tuning LLM Инфографика по популярным методам тонкой настройки больших языковых моделей. · Full Fine-tuning — все 100% параметров · LoRA — только ~1.3% параметров · LoRA-FA — ещё меньше, ~0.5% · QLoRA — LoRA поверх 4-битной модели (140 ГБ → 35 ГБ) · TinyLoRA — буквально единицы параметров Смотрите инфографику выше 👆 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 300
13	😸 Каждый разработчик подходит к задаче со своим опытом: помнит прошлые решения, знает ограничения проекта и понимает, какой код команда пропустит на ревью. Для человека это естественная часть работы. У Claude Code этого контекста по умолчанию нет — только задача и инструкции, которые ему дали. Поэтому в большой команде недостаточно просто выбрать хорошую модель. ❗️ Нужно ещё объяснить ей, как у вас устроена разработка: какие подходы приняты, что обязательно проверять и по каким правилам принимать решения. 🗓 23 июля в 19:00 МСК поговорим об этом на бесплатном вебинаре с Алексеем Жиряковым — он Executive Director в Сбере, руководит GenAI Data Platform, и с этой проблемой сталкивался не раз 🔥 Покажет живое демо, разберём, как встроить AI в процесс разработки так, чтобы он реально помогал, а не добавлял ещё один повод для споров на ревью. 🔗 Занять место на вебинаре 🏃‍♀️ Proglib Academy	1 026
14	✏️ Если вы уже работаете с Claude Code, Cursor или Copilot, этот вебинар будет особенно полезен. Разберут, как превратить AI из инструмента для отдельных задач в часть инженерного процесса ⬇️	1 113
15	🧑‍💻 Учиться агентной разработке — у тех, кто уже внедряет её в бигтехе Курс «ИИ для разработчиков» ведут практики из ведущих российских IT-компаний 🔥 🔵 Они прошли путь от первых экспериментов с AI до рабочих процессов, в которых агенты помогают команде писать код, готовить PR и быстрее доводить задачи до продакшена. В ближайшее время познакомим вас с каждым преподавателем. Программа курса — по ссылке 🎹 🏃‍♀️ Proglib Academy	931
16	📍 Курс — это не только темы и домашние задания Во многом его ценность определяет опыт тех, кто его разрабатывает и ведёт. Об этом как раз новый пост Proglib Academy 🔥	1 103
17	Оценка качества LLM — шпаргалка по метрикам и методам Как понять что модель работает хорошо? Единой метрики нет — зависит от задачи. 📊 Автоматические метрики 🔤 Для генерации текста: · BLEU — совпадение n-грамм с эталоном. Быстро, но плохо коррелирует с качеством · ROUGE — полнота n-грамм. Чаще используется для суммаризации · BERTScore — семантическое сходство через эмбеддинги. Лучше BLEU/ROUGE · METEOR — учитывает синонимы и морфологию. Лучше для перевода 📐 Для RAG и QA: · Faithfulness — насколько ответ соответствует контексту (не галлюцинирует) · Answer Relevance — насколько ответ релевантен вопросу · Context Recall — насколько полно использован контекст · Context Precision — насколько точно выбраны релевантные куски Инструменты: RAGAS, TruLens 🤖 LLM-as-Judge Используете сильную модель (GPT-4, Claude) чтобы оценить ответ слабой. Самый гибкий метод: Оцени ответ по шкале 1-5: · Точность (фактическая корректность) · Полнота (покрытие вопроса) · Релевантность (соответствие запросу) · Стиль (читаемость и тон) · Плюсы: гибко, понимает нюансы · Минусы: дорого, bias к похожим на себя ответам, не детерминировано 👥 Human evaluation · Попарное сравнение (A vs B) — надёжнее абсолютных оценок · Оценка по чеклисту критериев · Crowdsourcing через Toloka, MTurk Золотой стандарт, но дорого и медленно. 🏆 Бенчмарки · MMLU — знания по 57 областям · HumanEval / EvalPlus — генерация кода · MT-Bench — многоходовые диалоги · HELM — комплексная оценка по многим задачам · LiveBench — обновляется, минимизирует data contamination ✅ Когда что использовать · Разработка → автоматические метрики + LLM-as-Judge (быстро и дёшево) · До продакшена → human evaluation на репрезентативном сете · В продакшене → мониторинг через LLM-Judge + сбор user feedback · Для публикации/сравнения → стандартные бенчмарки 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 260
18	🔧 Градиент, Якобиан, Гессиан: математика под каждой обучаемой моделью Три слова которые выглядят пугающе. На деле — три способа измерить изменение. 📐 Градиент ∇f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает вектор частных производных первого порядка Отвечает на вопрос: «В каком направлении f растёт быстрее всего?» Именно поэтому градиент в центре оптимизации. Градиентный спуск идёт в противоположном направлении — потому что градиент указывает вверх по склону. Backpropagation — это эффективное вычисление градиентов во время обучения. 📊 Якобиан J_F Принимает векторную функцию F : ℝⁿ → ℝᵐ Возвращает матрицу m × n частных производных первого порядка Отвечает на вопрос: «Как каждый выход меняется с каждым входом?» Встречается в: анализе чувствительности, автодифференцировании, смене переменных. Простая связь с AD: — Forward-mode AD использует произведения Якобиан-вектор — Reverse-mode AD (backprop) использует произведения вектор-Якобиан 📈 Гессиан H_f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает матрицу n × n частных производных второго порядка Отвечает на вопрос: «Как меняется сам градиент?» Гессиан измеряет кривизну. В критической точке: — Гессиан положительно определён → локальный минимум — Гессиан отрицательно определён → локальный максимум — Гессиан неопределён → седловая точка Чистая ментальная модель Градиент = производные одного выхода → направление Якобиан = производные многих выходов → чувствительность Гессиан = производные второго порядка → кривизна И простая связь: Гессиан — это Якобиан градиента. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 335
19	Коллеги, привет! Меня зовут Василий Леоненко, я кандидат физико-математических наук, занимаюсь вычислительной эпидемиологией и моделированием живых систем. Я люблю предсказывать и прогнозировать. Люблю, когда модели интерпретируемы, а прогнозы понятны и однозначны. Поэтому я всегда предпочитал строгие математические законы и дифференциальные уравнения. Но жизнь меня заставила изменить свою точку зрения. В понедельник 20 июля я хочу рассказать о том, почему машинное обучение — полезная штука и почему оно часто бывает эффективнее, чем классическое моделирование. Почему «черные ящики», которые базируются на огромном количестве непонятных данных и делают какие-то неверифицируемые выводы, вдруг оказались так востребованы. Обсудим: • в чем отличие математических моделей, статистических моделей, ML и Deep learning • когда и что из них выгодно применить (а может всё невыгодно!) • как не испугаться кучи методов и каков достаточный минимум для работы Приходите немного разобраться в математике, пообщаться и подискутировать! Записаться: https://s.salebot.pro/r/model_1 ❗️Если у вас не работает ссылка выше, то регистрируйтесь тут: https://agency.blastim.ru/pythonandml#leonenko	883
20	Machine Learning Systems — бесплатный учебник от Harvard «Мир спешит строить AI-системы. Но не проектирует их.» — именно с этого начинается учебник. ML Systems от Harvard — полный курс по инженерии AI-систем: от основ deep learning до распределённого обучения, оптимизации моделей и деплоя на реальном железе. В 2026 выйдет в MIT Press. 🔗 Ссылка на учебник 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 261

Barcha postlarni ko‘rish