Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Ir al canal en Telegram

Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Red:Книги для программистов Rusia36 196 Tecnologías y Aplicaciones7 084...

📈 Análisis del canal de Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

El canal Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) en el segmento lingüístico de Ruso es un actor destacado. Actualmente la comunidad reúne a 18 422 suscriptores, ocupando la posición 7 084 en la categoría Tecnologías y Aplicaciones y el puesto 36 196 en la región Rusia.

📊 Métricas de audiencia y dinámica

Desde su creación el невідомо, el proyecto ha mostrado un crecimiento acelerado, reuniendo a 18 422 suscriptores.

Según los últimos datos del 26 julio, 2026, el canal mantiene una actividad estable. En los últimos 30 días la variación de miembros fue de -38, y en las últimas 24 horas de 3, conservando un alto alcance.

Estado de verificación: No verificado
Tasa de interacción (ER): El promedio de interacción de la audiencia es 6.72%. Durante las primeras 24 horas tras publicar, el contenido suele obtener 3.76% de reacciones respecto al total de suscriptores.
Alcance de las publicaciones: Cada publicación recibe en promedio 1 237 visualizaciones. En el primer día suele acumular 693 visualizaciones.
Reacciones e interacción: La audiencia responde de forma activa: el promedio de reacciones por publicación es 5.
Intereses temáticos: El contenido se centra en temas clave como сайентиста, llm, буст, навигация, openai.

📝 Descripción y política de contenido

El autor describe el recurso como un espacio para expresar opiniones subjetivas:
“Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”

Gracias a la alta frecuencia de actualizaciones (últimos datos recibidos el 27 julio, 2026), el canal mantiene la vigencia y un amplio alcance. La analítica demuestra que la audiencia interactúa activamente con el contenido, lo que lo convierte en un punto de referencia dentro de la categoría Tecnologías y Aplicaciones.

18 422

Suscriptores

+324 horas

+17 días

-3830 días

1 237

Visitas de la publicación

~ 69324 horas

~ 84348 horas

6.72%

Tasa de compromiso

~ 2

Mensajes por día

Ads index

beta

Carga de datos en curso...

Canales Similares

77.8K

Библиотека программиста

37.7K

Библиотека питониста | Python, Django, Flask

25.9K

hahacker_news

19.9K

Data Science | Machinelearning [ru]

1.4K

Финансовая Лаборатория

Más canales

Menciones Entrantes y Salientes

---

Atraer Suscriptores

julio '26

+72

en 0 canales

junio '26

+97

en 2 canales

Get PRO

mayo '26

+142

en 1 canales

Get PRO

abril '26

+106

en 0 canales

Get PRO

marzo '26

+329

en 4 canales

Get PRO

febrero '26

+154

en 5 canales

Get PRO

enero '26

+212

en 4 canales

Get PRO

diciembre '25

+211

en 3 canales

Get PRO

noviembre '25

+101

en 1 canales

Get PRO

octubre '25

+148

en 5 canales

Get PRO

septiembre '25

+105

en 2 canales

Get PRO

agosto '25

+103

en 4 canales

Get PRO

julio '25

+171

en 2 canales

Get PRO

junio '25

+185

en 42 canales

Get PRO

mayo '25

+319

en 6 canales

Get PRO

abril '25

+206

en 18 canales

Get PRO

marzo '25

+247

en 53 canales

Get PRO

febrero '25

+236

en 36 canales

Get PRO

enero '25

+180

en 41 canales

Get PRO

diciembre '24

+212

en 42 canales

Get PRO

noviembre '24

+217

en 52 canales

Get PRO

octubre '24

+224

en 43 canales

Get PRO

septiembre '24

+249

en 38 canales

Get PRO

agosto '24

+269

en 37 canales

Get PRO

julio '24

+197

en 37 canales

Get PRO

junio '24

+257

en 31 canales

Get PRO

mayo '24

+429

en 38 canales

Get PRO

abril '24

+339

en 38 canales

Get PRO

marzo '24

+437

en 32 canales

Get PRO

febrero '24

+426

en 32 canales

Get PRO

enero '24

+473

en 28 canales

Get PRO

diciembre '23

+604

en 34 canales

Get PRO

noviembre '23

+289

en 13 canales

Get PRO

octubre '23

+462

en 22 canales

Get PRO

septiembre '23

+631

en 0 canales

Get PRO

agosto '23

+488

en 0 canales

Get PRO

julio '23

+420

en 0 canales

Get PRO

junio '23

+329

en 0 canales

Get PRO

mayo '23

+433

en 0 canales

Get PRO

abril '23

+224

en 0 canales

Get PRO

marzo '23

+712

en 0 canales

Get PRO

febrero '23

+249

en 0 canales

Get PRO

enero '23

+260

en 0 canales

Get PRO

diciembre '22

+292

en 0 canales

Get PRO

noviembre '22

+407

en 0 canales

Get PRO

octubre '22

+172

en 0 canales

Get PRO

septiembre '22

+209

en 0 canales

Get PRO

agosto '22

+287

en 0 canales

Get PRO

julio '22

+352

en 0 canales

Get PRO

junio '22

+407

en 0 canales

Get PRO

mayo '22

+166

en 0 canales

Get PRO

abril '22

+215

en 0 canales

Get PRO

marzo '22

+225

en 0 canales

Get PRO

febrero '22

+129

en 0 canales

Get PRO

enero '22

+250

en 0 canales

Get PRO

diciembre '21

+203

en 0 canales

Get PRO

noviembre '21

+253

en 0 canales

Get PRO

octubre '21

+237

en 0 canales

Get PRO

septiembre '21

+208

en 0 canales

Get PRO

agosto '21

+297

en 0 canales

Get PRO

julio '21

+312

en 0 canales

Get PRO

junio '21

+288

en 0 canales

Get PRO

mayo '21

+446

en 0 canales

Get PRO

abril '21

+446

en 0 canales

Get PRO

marzo '21

+429

en 0 canales

Get PRO

febrero '21

+396

en 0 canales

Get PRO

enero '21

+351

en 0 canales

Get PRO

diciembre '20

+12 450

en 0 canales

Fecha	Crecimiento de Suscriptores	Menciones	Canales
27 julio	+2
26 julio	+4
25 julio	+1
24 julio	0
23 julio	+2
22 julio	+3
21 julio	+10
20 julio	+5
19 julio	0
18 julio	+2
17 julio	+1
16 julio	+3
15 julio	+2
14 julio	+3
13 julio	+3
12 julio	+5
11 julio	+5
10 julio	+4
09 julio	+6
08 julio	+1
07 julio	+1
06 julio	+1
05 julio	+1
04 julio	+2
03 julio	+3
02 julio	+1
01 julio	+1

Publicaciones del Canal

📚 Книга: Machine Learning with Neural Networks Bernhard Mehlig, профессор физики University of Gothenburg, написал учебник по нейросетям с уклоном в математику и теорию. Доступна бесплатная версия без упражнений. Охватывает всё от сетей Хопфилда и машин Больцмана до CNN, RNN и обучения с подкреплением. Хорошо подходит если хотите понять теоретическую основу, а не только научиться пользоваться PyTorch. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

2	😳 Documentation Driven Development звучит как ещё один модный термин. Пока не попробуешь объяснить свой проект AI. Агент работает только с тем контекстом, который ему дали. Если документация неполная или устарела, он начинает додумывать — отсюда появляется неверный код. 🔘 На курсе «ИИ для разработчиков» эту тему разбирает Арсений Харланов. Он покажет, как подготовить документацию и контекст, чтобы агент понимал архитектуру проекта, ограничения и связи между компонентами. Также разберём, как выбирать модель под задачу: Claude, DeepSeek, Qwen и другие ✏️ Впереди 7 недель работы со своим репозиторием. Вебинары проходят вживую и остаются в записи. Стартуем 31 августа. До конца июля можно присоединиться по ранней цене, а доступ к материалам останется бессрочным 😀 🔗 Посмотреть, что будет на курсе 🏃‍♀️ Proglib Academy	520
3	😏 Документация давно перестала быть формальностью. Особенно когда проект нужно объяснить кому-то ещё 👇	765
4	🎯 TurboVec: 31 ГБ эмбеддингов в 4 ГБ без обучения Хранение векторов для RAG быстро съедает память. 10 миллионов документов в float32 — это 31 ГБ RAM. Google выпустили open-source Rust-библиотеку которая меняет это соотношение. TurboVec использует TurboQuant — квантайзер которому не нужно обучение: · Нормализация вектора · Случайный поворот · Разбивка на бакеты через предвычисленную математику Фиксированный пайплайн который работает на любых данных без калибровки под конкретный датасет. Никакого managed сервиса который трогает ваши векторы. Работает с любой open embedding моделью. Получаете полностью air-gapped retrieval стек с Python биндингами. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 080
5	PCA видит паттерны которых нет и пропускает те что есть Статья поднимает важный вопрос который многие игнорируют: простейший метод не всегда лучший. PCA — один из самых популярных методов снижения размерности. Но у него есть системная проблема: он оптимизирует под дисперсию, а не под структуру данных. ⚠️ Три сценария где PCA ошибается Данные гауссовы → PCA работает идеально, всё хорошо. Данные — смесь гауссиан → PCA «видит» измерения которых нет. Проблема в ограничении ортогональности. Данные нелинейно структурированы (например, динозавр из точек) → PCA не находит реальную структуру (1D-многообразие), зато находит «структуру» которой нет. 🎵 Phantom oscillations Особенно коварный случай: если данные плавно меняются во времени (что почти всегда верно в реальном мире), PCA извлекает осциллирующие компоненты. Не потому что они есть в данных — а потому что PCA применён к гладким сигналам. Это называется phantom oscillations. 🔧 Что делать Альтернативы которые снимают ограничения PCA: · ICA — убирает ограничение гауссовости · NMF — убирает отрицательные значения, даёт parts-based представление · Isomap, UMAP — работают с нелинейными многообразиями · jPCA, GPFA — для временных рядов с динамикой Но осторожно: более сложные модели тоже могут галлюцинировать. jPCA находит ротационную динамику даже там где её нет. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	978
6	18 докладов, мастер-классы и нетворкинг: «Урбан ML» уже 2 августа Если давно хотели выбраться на крупный Data Science-митап — хороший повод. На «Урбан ML» обсудят рекомендательные системы, NLP, антифрод и агентные системы. Среди спикеров — эксперты MTS Web Services, ВТБ, Wildberries, «Звук», Альфа-Банка и других компаний. После докладов — мастер-классы, общение, спортивные активности и афтепати. Участие бесплатное по регистрации (на площадку необходимо взять с собой паспорт или права): ссылка 📍 Москва, офлайн 🗓 2 августа, 11:00-21:00 (первый доклад в 12:00)	1 062
7	Git для дата сайнтиста: не только commit и push Большинство DS знают базовые команды. Но несколько паттернов реально меняют качество работы с кодом. 🔀 merge vs rebase — в чём разница Когда нужно влить изменения из main в свою ветку: git pull origin main --no-rebase # merge: создаёт merge commit git pull origin main --rebase # rebase: кладёт ваши коммиты поверх main Rebase даёт чистую линейную историю — но осторожно если ветку используют другие. ↩️ revert vs reset — когда что git revert <commit-hash> # создаёт новый коммит который отменяет изменения git reset <commit-hash> # удаляет коммиты из истории (деструктивно) Для командной работы — revert. reset только если история ещё не запушена. 📋 Что всегда должно быть в .gitignore data/ # датасеты — не версионировать в git .env # ключи и credentials venv/ .vscode/ __pycache__/ *.pyc Для версионирования данных — DVC поверх Git. ✅ pre-commit — форматирование до коммита # .pre-commit-config.yaml repos: - repo: https://github.com/astral-sh/ruff-pre-commit hooks: - id: ruff - repo: https://github.com/psf/black hooks: - id: black Ruff + Black запускаются автоматически перед каждым коммитом. Ревьюер фокусируется на логике, не на форматировании. Правила которые реально помогают · Маленькие коммиты с одной целью — легче ревертить и ревьюить · Описательные названия веток: encode-categorical-columns вместо fix · Никаких данных и секретов в репо 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	993
8	🤢 Чем больше разработчиков в команде начинают пользоваться Claude Code, тем заметнее одна проблема: кодовая база перестаёт выглядеть как работа одной команды. Где-то есть тесты, где-то их забыли. Где-то агент следует архитектуре проекта, где-то предлагает решение, которое с ней не сочетается. ⚠️ И это не проблема Claude Code. Он просто следует тому контексту, который получает от каждого разработчика. Сегодня покажем, как передать AI инженерный контекст команды и не превратить его внедрение в ещё один источник хаоса. 🗓 23 июля, 19:00 МСК Бесплатно. 60 минут доклада + 30 минут вопросов. 🔗 Занять место на вебинаре и разобраться, почему так происходит 🏃‍♀️ Proglib Academy	738
9	Хороший разбор для тех, кто уже использует Claude Code в команде или только собирается его внедрять 🔥	919
10	balance: библиотека для коррекции смещённых выборок Классическая проблема в DS: есть данные опроса, но респонденты не репрезентативны — молодые отвечают чаще, богатые меньше. Как делать выводы о всей популяции? balance решает именно это. Библиотека присваивает каждому респонденту вес — сколько людей из целевой популяции он представляет. Как работает: from balance import load_data, Sample target_df, sample_df = load_data() sample = Sample.from_frame(sample_df, outcome_columns=["happiness"]) target = Sample.from_frame(target_df) sample_with_target = sample.set_target(target) adjusted = sample_with_target.adjust() print(adjusted.summary()) # Covar ASMD reduction: 62.3% # ASMD: 0.335 → 0.126 ASMD (Absolute Standardized Mean Difference) — основная метрика качества балансировки. Чем ниже, тем лучше. 📊 Методы взвешивания · IPW — логистическая регрессия с L1 регуляризацией · CBPS — Covariate Balancing Propensity Score · Post-stratification · Raking 📊 Когда использовать · Анализ опросов с non-response bias · Observational studies (treated vs untreated) · Любые данные с selection bias pip install balance 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	995
11	⚡️ Fine-tune Gemma 4 на ноутбуке Тонкая настройка LLM больше не требует серьёзного железа. Gemma 4 через Unsloth можно дообучить на базовой GPU или даже в бесплатном Google Colab. Что нужно · Gemma 4 2B → 8 ГБ VRAM (бесплатный Colab T4) · Gemma 4 4B → ~10 ГБ VRAM через LoRA · Для большинства практических задач этого достаточно Модели мультимодальные — одинаковый стек для: · текстовых задач · vision задач · аудио задач Ссылка на ноутбук 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 245
12	5 техник fine-tuning LLM Инфографика по популярным методам тонкой настройки больших языковых моделей. · Full Fine-tuning — все 100% параметров · LoRA — только ~1.3% параметров · LoRA-FA — ещё меньше, ~0.5% · QLoRA — LoRA поверх 4-битной модели (140 ГБ → 35 ГБ) · TinyLoRA — буквально единицы параметров Смотрите инфографику выше 👆 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 300
13	😸 Каждый разработчик подходит к задаче со своим опытом: помнит прошлые решения, знает ограничения проекта и понимает, какой код команда пропустит на ревью. Для человека это естественная часть работы. У Claude Code этого контекста по умолчанию нет — только задача и инструкции, которые ему дали. Поэтому в большой команде недостаточно просто выбрать хорошую модель. ❗️ Нужно ещё объяснить ей, как у вас устроена разработка: какие подходы приняты, что обязательно проверять и по каким правилам принимать решения. 🗓 23 июля в 19:00 МСК поговорим об этом на бесплатном вебинаре с Алексеем Жиряковым — он Executive Director в Сбере, руководит GenAI Data Platform, и с этой проблемой сталкивался не раз 🔥 Покажет живое демо, разберём, как встроить AI в процесс разработки так, чтобы он реально помогал, а не добавлял ещё один повод для споров на ревью. 🔗 Занять место на вебинаре 🏃‍♀️ Proglib Academy	1 026
14	✏️ Если вы уже работаете с Claude Code, Cursor или Copilot, этот вебинар будет особенно полезен. Разберут, как превратить AI из инструмента для отдельных задач в часть инженерного процесса ⬇️	1 113
15	🧑‍💻 Учиться агентной разработке — у тех, кто уже внедряет её в бигтехе Курс «ИИ для разработчиков» ведут практики из ведущих российских IT-компаний 🔥 🔵 Они прошли путь от первых экспериментов с AI до рабочих процессов, в которых агенты помогают команде писать код, готовить PR и быстрее доводить задачи до продакшена. В ближайшее время познакомим вас с каждым преподавателем. Программа курса — по ссылке 🎹 🏃‍♀️ Proglib Academy	931
16	📍 Курс — это не только темы и домашние задания Во многом его ценность определяет опыт тех, кто его разрабатывает и ведёт. Об этом как раз новый пост Proglib Academy 🔥	1 103
17	Оценка качества LLM — шпаргалка по метрикам и методам Как понять что модель работает хорошо? Единой метрики нет — зависит от задачи. 📊 Автоматические метрики 🔤 Для генерации текста: · BLEU — совпадение n-грамм с эталоном. Быстро, но плохо коррелирует с качеством · ROUGE — полнота n-грамм. Чаще используется для суммаризации · BERTScore — семантическое сходство через эмбеддинги. Лучше BLEU/ROUGE · METEOR — учитывает синонимы и морфологию. Лучше для перевода 📐 Для RAG и QA: · Faithfulness — насколько ответ соответствует контексту (не галлюцинирует) · Answer Relevance — насколько ответ релевантен вопросу · Context Recall — насколько полно использован контекст · Context Precision — насколько точно выбраны релевантные куски Инструменты: RAGAS, TruLens 🤖 LLM-as-Judge Используете сильную модель (GPT-4, Claude) чтобы оценить ответ слабой. Самый гибкий метод: Оцени ответ по шкале 1-5: · Точность (фактическая корректность) · Полнота (покрытие вопроса) · Релевантность (соответствие запросу) · Стиль (читаемость и тон) · Плюсы: гибко, понимает нюансы · Минусы: дорого, bias к похожим на себя ответам, не детерминировано 👥 Human evaluation · Попарное сравнение (A vs B) — надёжнее абсолютных оценок · Оценка по чеклисту критериев · Crowdsourcing через Toloka, MTurk Золотой стандарт, но дорого и медленно. 🏆 Бенчмарки · MMLU — знания по 57 областям · HumanEval / EvalPlus — генерация кода · MT-Bench — многоходовые диалоги · HELM — комплексная оценка по многим задачам · LiveBench — обновляется, минимизирует data contamination ✅ Когда что использовать · Разработка → автоматические метрики + LLM-as-Judge (быстро и дёшево) · До продакшена → human evaluation на репрезентативном сете · В продакшене → мониторинг через LLM-Judge + сбор user feedback · Для публикации/сравнения → стандартные бенчмарки 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 260
18	🔧 Градиент, Якобиан, Гессиан: математика под каждой обучаемой моделью Три слова которые выглядят пугающе. На деле — три способа измерить изменение. 📐 Градиент ∇f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает вектор частных производных первого порядка Отвечает на вопрос: «В каком направлении f растёт быстрее всего?» Именно поэтому градиент в центре оптимизации. Градиентный спуск идёт в противоположном направлении — потому что градиент указывает вверх по склону. Backpropagation — это эффективное вычисление градиентов во время обучения. 📊 Якобиан J_F Принимает векторную функцию F : ℝⁿ → ℝᵐ Возвращает матрицу m × n частных производных первого порядка Отвечает на вопрос: «Как каждый выход меняется с каждым входом?» Встречается в: анализе чувствительности, автодифференцировании, смене переменных. Простая связь с AD: — Forward-mode AD использует произведения Якобиан-вектор — Reverse-mode AD (backprop) использует произведения вектор-Якобиан 📈 Гессиан H_f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает матрицу n × n частных производных второго порядка Отвечает на вопрос: «Как меняется сам градиент?» Гессиан измеряет кривизну. В критической точке: — Гессиан положительно определён → локальный минимум — Гессиан отрицательно определён → локальный максимум — Гессиан неопределён → седловая точка Чистая ментальная модель Градиент = производные одного выхода → направление Якобиан = производные многих выходов → чувствительность Гессиан = производные второго порядка → кривизна И простая связь: Гессиан — это Якобиан градиента. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 335
19	Коллеги, привет! Меня зовут Василий Леоненко, я кандидат физико-математических наук, занимаюсь вычислительной эпидемиологией и моделированием живых систем. Я люблю предсказывать и прогнозировать. Люблю, когда модели интерпретируемы, а прогнозы понятны и однозначны. Поэтому я всегда предпочитал строгие математические законы и дифференциальные уравнения. Но жизнь меня заставила изменить свою точку зрения. В понедельник 20 июля я хочу рассказать о том, почему машинное обучение — полезная штука и почему оно часто бывает эффективнее, чем классическое моделирование. Почему «черные ящики», которые базируются на огромном количестве непонятных данных и делают какие-то неверифицируемые выводы, вдруг оказались так востребованы. Обсудим: • в чем отличие математических моделей, статистических моделей, ML и Deep learning • когда и что из них выгодно применить (а может всё невыгодно!) • как не испугаться кучи методов и каков достаточный минимум для работы Приходите немного разобраться в математике, пообщаться и подискутировать! Записаться: https://s.salebot.pro/r/model_1 ❗️Если у вас не работает ссылка выше, то регистрируйтесь тут: https://agency.blastim.ru/pythonandml#leonenko	883
20	Machine Learning Systems — бесплатный учебник от Harvard «Мир спешит строить AI-системы. Но не проектирует их.» — именно с этого начинается учебник. ML Systems от Harvard — полный курс по инженерии AI-систем: от основ deep learning до распределённого обучения, оптимизации моделей и деплоя на реальном железе. В 2026 выйдет в MIT Press. 🔗 Ссылка на учебник 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст	1 261

Ver todas las publicaciones