Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

الذهاب إلى القناة على Telegram

Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

إظهار المزيد

الشبكة:Книги для программистов روسيا36 196 التكنولوجيات والتطبيقات7 084...

📈 نظرة تحليلية على قناة تيليجرام Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

تُعد قناة Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) في القطاع اللغوي الروسية لاعباً نشطاً. يضم المجتمع حالياً 18 422 مشتركاً، محتلاً المرتبة 7 084 في فئة التكنولوجيات والتطبيقات والمرتبة 36 196 في منطقة روسيا.

📊 مؤشرات الجمهور والحراك

منذ تأسيسه في невідомо، حقق المشروع نمواً سريعاً وجمع 18 422 مشتركاً.

بحسب آخر البيانات بتاريخ 26 يوليو, 2026، تحافظ القناة على نشاط مستقر. خلال آخر 30 يوماً تغيّر عدد الأعضاء بمقدار -38، وفي آخر 24 ساعة بمقدار 3، مع بقاء الوصول العام مرتفعاً.

حالة التحقق: غير موثّقة
معدل التفاعل (ER): يبلغ متوسط تفاعل الجمهور 6.72‎%. وخلال أول 24 ساعة من النشر يحصد المحتوى عادةً 3.76‎% من ردود الفعل نسبةً إلى إجمالي المشتركين.
وصول المنشورات: يحصل كل منشور على متوسط 1 237 مشاهدة. وخلال اليوم الأول يجمع عادةً 693 مشاهدة.
التفاعلات والاستجابة: يتفاعل الجمهور بانتظام؛ متوسط التفاعلات لكل منشور يبلغ 5.
الاهتمامات الموضوعية: يركز المحتوى على مواضيع رئيسية مثل сайентиста, llm, буст, навигация, openai.

📝 الوصف وسياسة المحتوى

يصف المؤلف القناة بأنها مساحة للتعبير عن الآراء الذاتية:
“Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”

بفضل وتيرة التحديث المرتفعة (أحدث البيانات بتاريخ 27 يوليو, 2026) تحافظ القناة على حداثتها ومستوى وصول مرتفع. وتُظهر التحليلات تفاعلاً نشطاً من الجمهور، ما يجعلها نقطة تأثير مهمة ضمن فئة التكنولوجيات والتطبيقات.

18 422

المشتركون

+324 ساعات

+17 أيام

-3830 أيام

1 237

عرض المشاهدات

~ 69324 ساعات

~ 84348 ساعات

6.72%

معدل المشاركة

~ 2

المشاركات في اليوم

Ads index

beta

جاري تحميل البيانات...

القنوات المماثلة

77.8K

Библиотека программиста

37.7K

Библиотека питониста | Python, Django, Flask

25.9K

hahacker_news

19.9K

Data Science | Machinelearning [ru]

1.4K

Финансовая Лаборатория

قنوات أخرى

الإشارات الواردة والصادرة

---

جذب المشتركين

يوليو '26

+72

في 0 قنوات

يونيو '26

+97

في 2 قنوات

Get PRO

مايو '26

+142

في 1 قنوات

Get PRO

أبريل '26

+106

في 0 قنوات

Get PRO

مارس '26

+329

في 4 قنوات

Get PRO

فبراير '26

+154

في 5 قنوات

Get PRO

يناير '26

+212

في 4 قنوات

Get PRO

ديسمبر '25

+211

في 3 قنوات

Get PRO

نوفمبر '25

+101

في 1 قنوات

Get PRO

أكتوبر '25

+148

في 5 قنوات

Get PRO

سبتمبر '25

+105

في 2 قنوات

Get PRO

أغسطس '25

+103

في 4 قنوات

Get PRO

يوليو '25

+171

في 2 قنوات

Get PRO

يونيو '25

+185

في 42 قنوات

Get PRO

مايو '25

+319

في 6 قنوات

Get PRO

أبريل '25

+206

في 18 قنوات

Get PRO

مارس '25

+247

في 53 قنوات

Get PRO

فبراير '25

+236

في 36 قنوات

Get PRO

يناير '25

+180

في 41 قنوات

Get PRO

ديسمبر '24

+212

في 42 قنوات

Get PRO

نوفمبر '24

+217

في 52 قنوات

Get PRO

أكتوبر '24

+224

في 43 قنوات

Get PRO

سبتمبر '24

+249

في 38 قنوات

Get PRO

أغسطس '24

+269

في 37 قنوات

Get PRO

يوليو '24

+197

في 37 قنوات

Get PRO

يونيو '24

+257

في 31 قنوات

Get PRO

مايو '24

+429

في 38 قنوات

Get PRO

أبريل '24

+339

في 38 قنوات

Get PRO

مارس '24

+437

في 32 قنوات

Get PRO

فبراير '24

+426

في 32 قنوات

Get PRO

يناير '24

+473

في 28 قنوات

Get PRO

ديسمبر '23

+604

في 34 قنوات

Get PRO

نوفمبر '23

+289

في 13 قنوات

Get PRO

أكتوبر '23

+462

في 22 قنوات

Get PRO

سبتمبر '23

+631

في 0 قنوات

Get PRO

أغسطس '23

+488

في 0 قنوات

Get PRO

يوليو '23

+420

في 0 قنوات

Get PRO

يونيو '23

+329

في 0 قنوات

Get PRO

مايو '23

+433

في 0 قنوات

Get PRO

أبريل '23

+224

في 0 قنوات

Get PRO

مارس '23

+712

في 0 قنوات

Get PRO

فبراير '23

+249

في 0 قنوات

Get PRO

يناير '23

+260

في 0 قنوات

Get PRO

ديسمبر '22

+292

في 0 قنوات

Get PRO

نوفمبر '22

+407

في 0 قنوات

Get PRO

أكتوبر '22

+172

في 0 قنوات

Get PRO

سبتمبر '22

+209

في 0 قنوات

Get PRO

أغسطس '22

+287

في 0 قنوات

Get PRO

يوليو '22

+352

في 0 قنوات

Get PRO

يونيو '22

+407

في 0 قنوات

Get PRO

مايو '22

+166

في 0 قنوات

Get PRO

أبريل '22

+215

في 0 قنوات

Get PRO

مارس '22

+225

في 0 قنوات

Get PRO

فبراير '22

+129

في 0 قنوات

Get PRO

يناير '22

+250

في 0 قنوات

Get PRO

ديسمبر '21

+203

في 0 قنوات

Get PRO

نوفمبر '21

+253

في 0 قنوات

Get PRO

أكتوبر '21

+237

في 0 قنوات

Get PRO

سبتمبر '21

+208

في 0 قنوات

Get PRO

أغسطس '21

+297

في 0 قنوات

Get PRO

يوليو '21

+312

في 0 قنوات

Get PRO

يونيو '21

+288

في 0 قنوات

Get PRO

مايو '21

+446

في 0 قنوات

Get PRO

أبريل '21

+446

في 0 قنوات

Get PRO

مارس '21

+429

في 0 قنوات

Get PRO

فبراير '21

+396

في 0 قنوات

Get PRO

يناير '21

+351

في 0 قنوات

Get PRO

ديسمبر '20

+12 450

في 0 قنوات

التاريخ	نمو المشتركين	الإشارات	القنوات
27 يوليو	+2
26 يوليو	+4
25 يوليو	+1
24 يوليو	0
23 يوليو	+2
22 يوليو	+3
21 يوليو	+10
20 يوليو	+5
19 يوليو	0
18 يوليو	+2
17 يوليو	+1
16 يوليو	+3
15 يوليو	+2
14 يوليو	+3
13 يوليو	+3
12 يوليو	+5
11 يوليو	+5
10 يوليو	+4
09 يوليو	+6
08 يوليو	+1
07 يوليو	+1
06 يوليو	+1
05 يوليو	+1
04 يوليو	+2
03 يوليو	+3
02 يوليو	+1
01 يوليو	+1

منشورات القناة

📚 Книга: Machine Learning with Neural Networks Bernhard Mehlig, профессор физики University of Gothenburg, написал учебник по нейросетям с уклоном в математику и теорию. Доступна бесплатная версия без упражнений. Охватывает всё от сетей Хопфилда и машин Больцмана до CNN, RNN и обучения с подкреплением. Хорошо подходит если хотите понять теоретическую основу, а не только научиться пользоваться PyTorch. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

2	😳 Documentation Driven Development звучит как ещё один модный термин. Пока не попробуешь объяснить свой проект AI. Агент работает только с тем контекстом, который ему дали. Если документация неполная или устарела, он начинает додумывать — отсюда появляется неверный код. 🔘 На курсе «ИИ для разработчиков» эту тему разбирает Арсений Харланов. Он покажет, как подготовить документацию и контекст, чтобы агент понимал архитектуру проекта, ограничения и связи между компонентами. Также разберём, как выбирать модель под задачу: Claude, DeepSeek, Qwen и другие ✏️ Впереди 7 недель работы со своим репозиторием. Вебинары проходят вживую и остаются в записи. Стартуем 31 августа. До конца июля можно присоединиться по ранней цене, а доступ к материалам останется бессрочным 😀 🔗 Посмотреть, что будет на курсе 🏃‍♀️ Proglib Academy	520
3	😏 Документация давно перестала быть формальностью. Особенно когда проект нужно объяснить кому-то ещё 👇	765
4	🎯 TurboVec: 31 ГБ эмбеддингов в 4 ГБ без обучения Хранение векторов для RAG быстро съедает память. 10 миллионов документов в float32 — это 31 ГБ RAM. Google выпустили open-source Rust-библиотеку которая меняет это соотношение. TurboVec использует TurboQuant — квантайзер которому не нужно обучение: · Нормализация вектора · Случайный поворот · Разбивка на бакеты через предвычисленную математику Фиксированный пайплайн который работает на любых данных без калибровки под конкретный датасет. Никакого managed сервиса который трогает ваши векторы. Работает с любой open embedding моделью. Получаете полностью air-gapped retrieval стек с Python биндингами. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 080
5	PCA видит паттерны которых нет и пропускает те что есть Статья поднимает важный вопрос который многие игнорируют: простейший метод не всегда лучший. PCA — один из самых популярных методов снижения размерности. Но у него есть системная проблема: он оптимизирует под дисперсию, а не под структуру данных. ⚠️ Три сценария где PCA ошибается Данные гауссовы → PCA работает идеально, всё хорошо. Данные — смесь гауссиан → PCA «видит» измерения которых нет. Проблема в ограничении ортогональности. Данные нелинейно структурированы (например, динозавр из точек) → PCA не находит реальную структуру (1D-многообразие), зато находит «структуру» которой нет. 🎵 Phantom oscillations Особенно коварный случай: если данные плавно меняются во времени (что почти всегда верно в реальном мире), PCA извлекает осциллирующие компоненты. Не потому что они есть в данных — а потому что PCA применён к гладким сигналам. Это называется phantom oscillations. 🔧 Что делать Альтернативы которые снимают ограничения PCA: · ICA — убирает ограничение гауссовости · NMF — убирает отрицательные значения, даёт parts-based представление · Isomap, UMAP — работают с нелинейными многообразиями · jPCA, GPFA — для временных рядов с динамикой Но осторожно: более сложные модели тоже могут галлюцинировать. jPCA находит ротационную динамику даже там где её нет. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	978
6	18 докладов, мастер-классы и нетворкинг: «Урбан ML» уже 2 августа Если давно хотели выбраться на крупный Data Science-митап — хороший повод. На «Урбан ML» обсудят рекомендательные системы, NLP, антифрод и агентные системы. Среди спикеров — эксперты MTS Web Services, ВТБ, Wildberries, «Звук», Альфа-Банка и других компаний. После докладов — мастер-классы, общение, спортивные активности и афтепати. Участие бесплатное по регистрации (на площадку необходимо взять с собой паспорт или права): ссылка 📍 Москва, офлайн 🗓 2 августа, 11:00-21:00 (первый доклад в 12:00)	1 062
7	Git для дата сайнтиста: не только commit и push Большинство DS знают базовые команды. Но несколько паттернов реально меняют качество работы с кодом. 🔀 merge vs rebase — в чём разница Когда нужно влить изменения из main в свою ветку: git pull origin main --no-rebase # merge: создаёт merge commit git pull origin main --rebase # rebase: кладёт ваши коммиты поверх main Rebase даёт чистую линейную историю — но осторожно если ветку используют другие. ↩️ revert vs reset — когда что git revert <commit-hash> # создаёт новый коммит который отменяет изменения git reset <commit-hash> # удаляет коммиты из истории (деструктивно) Для командной работы — revert. reset только если история ещё не запушена. 📋 Что всегда должно быть в .gitignore data/ # датасеты — не версионировать в git .env # ключи и credentials venv/ .vscode/ __pycache__/ *.pyc Для версионирования данных — DVC поверх Git. ✅ pre-commit — форматирование до коммита # .pre-commit-config.yaml repos: - repo: https://github.com/astral-sh/ruff-pre-commit hooks: - id: ruff - repo: https://github.com/psf/black hooks: - id: black Ruff + Black запускаются автоматически перед каждым коммитом. Ревьюер фокусируется на логике, не на форматировании. Правила которые реально помогают · Маленькие коммиты с одной целью — легче ревертить и ревьюить · Описательные названия веток: encode-categorical-columns вместо fix · Никаких данных и секретов в репо 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	993
8	🤢 Чем больше разработчиков в команде начинают пользоваться Claude Code, тем заметнее одна проблема: кодовая база перестаёт выглядеть как работа одной команды. Где-то есть тесты, где-то их забыли. Где-то агент следует архитектуре проекта, где-то предлагает решение, которое с ней не сочетается. ⚠️ И это не проблема Claude Code. Он просто следует тому контексту, который получает от каждого разработчика. Сегодня покажем, как передать AI инженерный контекст команды и не превратить его внедрение в ещё один источник хаоса. 🗓 23 июля, 19:00 МСК Бесплатно. 60 минут доклада + 30 минут вопросов. 🔗 Занять место на вебинаре и разобраться, почему так происходит 🏃‍♀️ Proglib Academy	738
9	Хороший разбор для тех, кто уже использует Claude Code в команде или только собирается его внедрять 🔥	919
10	balance: библиотека для коррекции смещённых выборок Классическая проблема в DS: есть данные опроса, но респонденты не репрезентативны — молодые отвечают чаще, богатые меньше. Как делать выводы о всей популяции? balance решает именно это. Библиотека присваивает каждому респонденту вес — сколько людей из целевой популяции он представляет. Как работает: from balance import load_data, Sample target_df, sample_df = load_data() sample = Sample.from_frame(sample_df, outcome_columns=["happiness"]) target = Sample.from_frame(target_df) sample_with_target = sample.set_target(target) adjusted = sample_with_target.adjust() print(adjusted.summary()) # Covar ASMD reduction: 62.3% # ASMD: 0.335 → 0.126 ASMD (Absolute Standardized Mean Difference) — основная метрика качества балансировки. Чем ниже, тем лучше. 📊 Методы взвешивания · IPW — логистическая регрессия с L1 регуляризацией · CBPS — Covariate Balancing Propensity Score · Post-stratification · Raking 📊 Когда использовать · Анализ опросов с non-response bias · Observational studies (treated vs untreated) · Любые данные с selection bias pip install balance 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	995
11	⚡️ Fine-tune Gemma 4 на ноутбуке Тонкая настройка LLM больше не требует серьёзного железа. Gemma 4 через Unsloth можно дообучить на базовой GPU или даже в бесплатном Google Colab. Что нужно · Gemma 4 2B → 8 ГБ VRAM (бесплатный Colab T4) · Gemma 4 4B → ~10 ГБ VRAM через LoRA · Для большинства практических задач этого достаточно Модели мультимодальные — одинаковый стек для: · текстовых задач · vision задач · аудио задач Ссылка на ноутбук 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 245
12	5 техник fine-tuning LLM Инфографика по популярным методам тонкой настройки больших языковых моделей. · Full Fine-tuning — все 100% параметров · LoRA — только ~1.3% параметров · LoRA-FA — ещё меньше, ~0.5% · QLoRA — LoRA поверх 4-битной модели (140 ГБ → 35 ГБ) · TinyLoRA — буквально единицы параметров Смотрите инфографику выше 👆 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 300
13	😸 Каждый разработчик подходит к задаче со своим опытом: помнит прошлые решения, знает ограничения проекта и понимает, какой код команда пропустит на ревью. Для человека это естественная часть работы. У Claude Code этого контекста по умолчанию нет — только задача и инструкции, которые ему дали. Поэтому в большой команде недостаточно просто выбрать хорошую модель. ❗️ Нужно ещё объяснить ей, как у вас устроена разработка: какие подходы приняты, что обязательно проверять и по каким правилам принимать решения. 🗓 23 июля в 19:00 МСК поговорим об этом на бесплатном вебинаре с Алексеем Жиряковым — он Executive Director в Сбере, руководит GenAI Data Platform, и с этой проблемой сталкивался не раз 🔥 Покажет живое демо, разберём, как встроить AI в процесс разработки так, чтобы он реально помогал, а не добавлял ещё один повод для споров на ревью. 🔗 Занять место на вебинаре 🏃‍♀️ Proglib Academy	1 026
14	✏️ Если вы уже работаете с Claude Code, Cursor или Copilot, этот вебинар будет особенно полезен. Разберут, как превратить AI из инструмента для отдельных задач в часть инженерного процесса ⬇️	1 113
15	🧑‍💻 Учиться агентной разработке — у тех, кто уже внедряет её в бигтехе Курс «ИИ для разработчиков» ведут практики из ведущих российских IT-компаний 🔥 🔵 Они прошли путь от первых экспериментов с AI до рабочих процессов, в которых агенты помогают команде писать код, готовить PR и быстрее доводить задачи до продакшена. В ближайшее время познакомим вас с каждым преподавателем. Программа курса — по ссылке 🎹 🏃‍♀️ Proglib Academy	931
16	📍 Курс — это не только темы и домашние задания Во многом его ценность определяет опыт тех, кто его разрабатывает и ведёт. Об этом как раз новый пост Proglib Academy 🔥	1 103
17	Оценка качества LLM — шпаргалка по метрикам и методам Как понять что модель работает хорошо? Единой метрики нет — зависит от задачи. 📊 Автоматические метрики 🔤 Для генерации текста: · BLEU — совпадение n-грамм с эталоном. Быстро, но плохо коррелирует с качеством · ROUGE — полнота n-грамм. Чаще используется для суммаризации · BERTScore — семантическое сходство через эмбеддинги. Лучше BLEU/ROUGE · METEOR — учитывает синонимы и морфологию. Лучше для перевода 📐 Для RAG и QA: · Faithfulness — насколько ответ соответствует контексту (не галлюцинирует) · Answer Relevance — насколько ответ релевантен вопросу · Context Recall — насколько полно использован контекст · Context Precision — насколько точно выбраны релевантные куски Инструменты: RAGAS, TruLens 🤖 LLM-as-Judge Используете сильную модель (GPT-4, Claude) чтобы оценить ответ слабой. Самый гибкий метод: Оцени ответ по шкале 1-5: · Точность (фактическая корректность) · Полнота (покрытие вопроса) · Релевантность (соответствие запросу) · Стиль (читаемость и тон) · Плюсы: гибко, понимает нюансы · Минусы: дорого, bias к похожим на себя ответам, не детерминировано 👥 Human evaluation · Попарное сравнение (A vs B) — надёжнее абсолютных оценок · Оценка по чеклисту критериев · Crowdsourcing через Toloka, MTurk Золотой стандарт, но дорого и медленно. 🏆 Бенчмарки · MMLU — знания по 57 областям · HumanEval / EvalPlus — генерация кода · MT-Bench — многоходовые диалоги · HELM — комплексная оценка по многим задачам · LiveBench — обновляется, минимизирует data contamination ✅ Когда что использовать · Разработка → автоматические метрики + LLM-as-Judge (быстро и дёшево) · До продакшена → human evaluation на репрезентативном сете · В продакшене → мониторинг через LLM-Judge + сбор user feedback · Для публикации/сравнения → стандартные бенчмарки 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 260
18	🔧 Градиент, Якобиан, Гессиан: математика под каждой обучаемой моделью Три слова которые выглядят пугающе. На деле — три способа измерить изменение. 📐 Градиент ∇f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает вектор частных производных первого порядка Отвечает на вопрос: «В каком направлении f растёт быстрее всего?» Именно поэтому градиент в центре оптимизации. Градиентный спуск идёт в противоположном направлении — потому что градиент указывает вверх по склону. Backpropagation — это эффективное вычисление градиентов во время обучения. 📊 Якобиан J_F Принимает векторную функцию F : ℝⁿ → ℝᵐ Возвращает матрицу m × n частных производных первого порядка Отвечает на вопрос: «Как каждый выход меняется с каждым входом?» Встречается в: анализе чувствительности, автодифференцировании, смене переменных. Простая связь с AD: — Forward-mode AD использует произведения Якобиан-вектор — Reverse-mode AD (backprop) использует произведения вектор-Якобиан 📈 Гессиан H_f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает матрицу n × n частных производных второго порядка Отвечает на вопрос: «Как меняется сам градиент?» Гессиан измеряет кривизну. В критической точке: — Гессиан положительно определён → локальный минимум — Гессиан отрицательно определён → локальный максимум — Гессиан неопределён → седловая точка Чистая ментальная модель Градиент = производные одного выхода → направление Якобиан = производные многих выходов → чувствительность Гессиан = производные второго порядка → кривизна И простая связь: Гессиан — это Якобиан градиента. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 335
19	Коллеги, привет! Меня зовут Василий Леоненко, я кандидат физико-математических наук, занимаюсь вычислительной эпидемиологией и моделированием живых систем. Я люблю предсказывать и прогнозировать. Люблю, когда модели интерпретируемы, а прогнозы понятны и однозначны. Поэтому я всегда предпочитал строгие математические законы и дифференциальные уравнения. Но жизнь меня заставила изменить свою точку зрения. В понедельник 20 июля я хочу рассказать о том, почему машинное обучение — полезная штука и почему оно часто бывает эффективнее, чем классическое моделирование. Почему «черные ящики», которые базируются на огромном количестве непонятных данных и делают какие-то неверифицируемые выводы, вдруг оказались так востребованы. Обсудим: • в чем отличие математических моделей, статистических моделей, ML и Deep learning • когда и что из них выгодно применить (а может всё невыгодно!) • как не испугаться кучи методов и каков достаточный минимум для работы Приходите немного разобраться в математике, пообщаться и подискутировать! Записаться: https://s.salebot.pro/r/model_1 ❗️Если у вас не работает ссылка выше, то регистрируйтесь тут: https://agency.blastim.ru/pythonandml#leonenko	883
20	Machine Learning Systems — бесплатный учебник от Harvard «Мир спешит строить AI-системы. Но не проектирует их.» — именно с этого начинается учебник. ML Systems от Harvard — полный курс по инженерии AI-систем: от основ deep learning до распределённого обучения, оптимизации моделей и деплоя на реальном железе. В 2026 выйдет в MIT Press. 🔗 Ссылка на учебник 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 261

عرض جميع المنشورات