Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Open in Telegram

Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Network:Книги для программистов Russia36 196 Technologies & Applications7 084...

📈 Analytical overview of Telegram channel Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Channel Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение (@dsproglib) in the Russian language segment is an active participant. Currently, the community unites 18 422 subscribers, ranking 7 084 in the Technologies & Applications category and 36 196 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 18 422 subscribers.

According to the latest data from 26 July, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by -38 over the last 30 days and by 3 over the last 24 hours, overall reach remains high.

Verification status: Not verified
Engagement rate (ER): The average audience engagement rate is 6.72%. Within the first 24 hours after publication, content typically collects 3.76% reactions from the total number of subscribers.
Post reach: On average, each post receives 1 237 views. Within the first day, a publication typically gains 693 views.
Reactions and interaction: The audience actively supports content: the average number of reactions per post is 5.
Thematic interests: Content is focused on key topics such as сайентиста, llm, буст, навигация, openai.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
“Все самое полезное для дата сайентиста в одном канале. Учиться у нас: clc.to/6qVHgg По рекламе: @proglib_adv Для обратной связи: @proglibrary_feeedback_bot РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9”

Thanks to the high frequency of updates (latest data received on 27 July, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

18 422

Subscribers

+324 hours

+17 days

-3830 days

1 237

Post views

~ 69324 hours

~ 84348 hours

6.72%

Engagement rate

~ 2

Posts per day

Ads index

beta

Posts Archive

18 422

📚 Книга: Machine Learning with Neural Networks Bernhard Mehlig, профессор физики University of Gothenburg, написал учебник по нейросетям с уклоном в математику и теорию. Доступна бесплатная версия без упражнений. Охватывает всё от сетей Хопфилда и машин Больцмана до CNN, RNN и обучения с подкреплением. Хорошо подходит если хотите понять теоретическую основу, а не только научиться пользоваться PyTorch. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

Repost from Proglib.academy | IT-курсы

😳 Documentation Driven Development звучит как ещё один модный термин. Пока не попробуешь объяснить свой проект AI. Агент работает только с тем контекстом, который ему дали. Если документация неполная или устарела, он начинает додумывать — отсюда появляется неверный код. 🔘 На курсе «ИИ для разработчиков» эту тему разбирает Арсений Харланов. Он покажет, как подготовить документацию и контекст, чтобы агент понимал архитектуру проекта, ограничения и связи между компонентами. Также разберём, как выбирать модель под задачу: Claude, DeepSeek, Qwen и другие ✏️

Впереди 7 недель работы со своим репозиторием. Вебинары проходят вживую и остаются в записи.

Стартуем 31 августа. До конца июля можно присоединиться по ранней цене, а доступ к материалам останется бессрочным 😀 🔗 Посмотреть, что будет на курсе 🏃‍♀️ Proglib Academy

18 422

😏 Документация давно перестала быть формальностью. Особенно когда проект нужно объяснить кому-то ещё 👇

18 422

🎯 TurboVec: 31 ГБ эмбеддингов в 4 ГБ без обучения Хранение векторов для RAG быстро съедает память. 10 миллионов документов в float32 — это 31 ГБ RAM. Google выпустили open-source Rust-библиотеку которая меняет это соотношение. TurboVec использует TurboQuant — квантайзер которому не нужно обучение: · Нормализация вектора · Случайный поворот · Разбивка на бакеты через предвычисленную математику Фиксированный пайплайн который работает на любых данных без калибровки под конкретный датасет. Никакого managed сервиса который трогает ваши векторы. Работает с любой open embedding моделью. Получаете полностью air-gapped retrieval стек с Python биндингами. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

PCA видит паттерны которых нет и пропускает те что есть Статья поднимает важный вопрос который многие игнорируют: простейший метод не всегда лучший. PCA — один из самых популярных методов снижения размерности. Но у него есть системная проблема: он оптимизирует под дисперсию, а не под структуру данных. ⚠️ Три сценария где PCA ошибается Данные гауссовы → PCA работает идеально, всё хорошо. Данные — смесь гауссиан → PCA «видит» измерения которых нет. Проблема в ограничении ортогональности. Данные нелинейно структурированы (например, динозавр из точек) → PCA не находит реальную структуру (1D-многообразие), зато находит «структуру» которой нет. 🎵 Phantom oscillations Особенно коварный случай: если данные плавно меняются во времени (что почти всегда верно в реальном мире), PCA извлекает осциллирующие компоненты. Не потому что они есть в данных — а потому что PCA применён к гладким сигналам. Это называется phantom oscillations. 🔧 Что делать Альтернативы которые снимают ограничения PCA: · ICA — убирает ограничение гауссовости · NMF — убирает отрицательные значения, даёт parts-based представление · Isomap, UMAP — работают с нелинейными многообразиями · jPCA, GPFA — для временных рядов с динамикой Но осторожно: более сложные модели тоже могут галлюцинировать. jPCA находит ротационную динамику даже там где её нет. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

18 докладов, мастер-классы и нетворкинг: «Урбан ML» уже 2 августа Если давно хотели выбраться на крупный Data Science-митап — хороший повод. На «Урбан ML» обсудят рекомендательные системы, NLP, антифрод и агентные системы. Среди спикеров — эксперты MTS Web Services, ВТБ, Wildberries, «Звук», Альфа-Банка и других компаний. После докладов — мастер-классы, общение, спортивные активности и афтепати. Участие бесплатное по регистрации (на площадку необходимо взять с собой паспорт или права): ссылка 📍 Москва, офлайн 🗓 2 августа, 11:00-21:00 (первый доклад в 12:00)

18 422

Git для дата сайнтиста: не только commit и push Большинство DS знают базовые команды. Но несколько паттернов реально меняют качество работы с кодом. 🔀 merge vs rebase — в чём разница Когда нужно влить изменения из main в свою ветку:


git pull origin main --no-rebase   # merge: создаёт merge commit
git pull origin main --rebase      # rebase: кладёт ваши коммиты поверх main

Rebase даёт чистую линейную историю — но осторожно если ветку используют другие. ↩️ revert vs reset — когда что

git revert <commit-hash>   # создаёт новый коммит который отменяет изменения
git reset <commit-hash>    # удаляет коммиты из истории (деструктивно)

Для командной работы — revert. reset только если история ещё не запушена. 📋 Что всегда должно быть в .gitignore

data/          # датасеты — не версионировать в git
.env           # ключи и credentials
venv/
.vscode/
__pycache__/
*.pyc

Для версионирования данных — DVC поверх Git. ✅ pre-commit — форматирование до коммита


# .pre-commit-config.yaml
repos:
  - repo: https://github.com/astral-sh/ruff-pre-commit
    hooks:
      - id: ruff
  - repo: https://github.com/psf/black
    hooks:
      - id: black

Ruff + Black запускаются автоматически перед каждым коммитом. Ревьюер фокусируется на логике, не на форматировании. Правила которые реально помогают · Маленькие коммиты с одной целью — легче ревертить и ревьюить · Описательные названия веток: encode-categorical-columns вместо fix · Никаких данных и секретов в репо 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

Repost from Proglib.academy | IT-курсы

🤢 Чем больше разработчиков в команде начинают пользоваться Claude Code, тем заметнее одна проблема: кодовая база перестаёт выглядеть как работа одной команды. Где-то есть тесты, где-то их забыли. Где-то агент следует архитектуре проекта, где-то предлагает решение, которое с ней не сочетается. ⚠️ И это не проблема Claude Code. Он просто следует тому контексту, который получает от каждого разработчика. Сегодня покажем, как передать AI инженерный контекст команды и не превратить его внедрение в ещё один источник хаоса. 🗓 23 июля, 19:00 МСК Бесплатно. 60 минут доклада + 30 минут вопросов. 🔗 Занять место на вебинаре и разобраться, почему так происходит 🏃‍♀️ Proglib Academy

18 422

Хороший разбор для тех, кто уже использует Claude Code в команде или только собирается его внедрять 🔥

18 422

balance: библиотека для коррекции смещённых выборок Классическая проблема в DS: есть данные опроса, но респонденты не репрезентативны — молодые отвечают чаще, богатые меньше. Как делать выводы о всей популяции? balance решает именно это. Библиотека присваивает каждому респонденту вес — сколько людей из целевой популяции он представляет. Как работает:


from balance import load_data, Sample

target_df, sample_df = load_data()

sample = Sample.from_frame(sample_df, outcome_columns=["happiness"])
target = Sample.from_frame(target_df)

sample_with_target = sample.set_target(target)
adjusted = sample_with_target.adjust()

print(adjusted.summary())
# Covar ASMD reduction: 62.3%
# ASMD: 0.335 → 0.126

ASMD (Absolute Standardized Mean Difference) — основная метрика качества балансировки. Чем ниже, тем лучше. 📊 Методы взвешивания · IPW — логистическая регрессия с L1 регуляризацией · CBPS — Covariate Balancing Propensity Score · Post-stratification · Raking 📊 Когда использовать · Анализ опросов с non-response bias · Observational studies (treated vs untreated) · Любые данные с selection bias


pip install balance

📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

⚡️ Fine-tune Gemma 4 на ноутбуке Тонкая настройка LLM больше не требует серьёзного железа. Gemma 4 через Unsloth можно дообучить на базовой GPU или даже в бесплатном Google Colab. Что нужно · Gemma 4 2B → 8 ГБ VRAM (бесплатный Colab T4) · Gemma 4 4B → ~10 ГБ VRAM через LoRA · Для большинства практических задач этого достаточно Модели мультимодальные — одинаковый стек для: · текстовых задач · vision задач · аудио задач Ссылка на ноутбук 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

5 техник fine-tuning LLM Инфографика по популярным методам тонкой настройки больших языковых моделей. · Full Fine-tuning — все 100% параметров · LoRA — только ~1.3% параметров · LoRA-FA — ещё меньше, ~0.5% · QLoRA — LoRA поверх 4-битной модели (140 ГБ → 35 ГБ) · TinyLoRA — буквально единицы параметров Смотрите инфографику выше 👆 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

Repost from Proglib.academy | IT-курсы

😸 Каждый разработчик подходит к задаче со своим опытом: помнит прошлые решения, знает ограничения проекта и понимает, какой код команда пропустит на ревью. Для человека это естественная часть работы. У Claude Code этого контекста по умолчанию нет — только задача и инструкции, которые ему дали.

Поэтому в большой команде недостаточно просто выбрать хорошую модель. ❗️ Нужно ещё объяснить ей, как у вас устроена разработка: какие подходы приняты, что обязательно проверять и по каким правилам принимать решения.

🗓 23 июля в 19:00 МСК поговорим об этом на бесплатном вебинаре с Алексеем Жиряковым — он Executive Director в Сбере, руководит GenAI Data Platform, и с этой проблемой сталкивался не раз 🔥 Покажет живое демо, разберём, как встроить AI в процесс разработки так, чтобы он реально помогал, а не добавлял ещё один повод для споров на ревью. 🔗 Занять место на вебинаре 🏃‍♀️ Proglib Academy

18 422

✏️ Если вы уже работаете с Claude Code, Cursor или Copilot, этот вебинар будет особенно полезен. Разберут, как превратить AI из инструмента для отдельных задач в часть инженерного процесса ⬇️

18 422

Repost from Proglib.academy | IT-курсы

🧑‍💻 Учиться агентной разработке — у тех, кто уже внедряет её в бигтехе Курс «ИИ для разработчиков» ведут практики из ведущих российских IT-компаний 🔥 🔵 Они прошли путь от первых экспериментов с AI до рабочих процессов, в которых агенты помогают команде писать код, готовить PR и быстрее доводить задачи до продакшена. В ближайшее время познакомим вас с каждым преподавателем. Программа курса — по ссылке 🎹 🏃‍♀️ Proglib Academy

18 422

📍 Курс — это не только темы и домашние задания Во многом его ценность определяет опыт тех, кто его разрабатывает и ведёт. Об этом как раз новый пост Proglib Academy 🔥

18 422

Оценка качества LLM — шпаргалка по метрикам и методам Как понять что модель работает хорошо? Единой метрики нет — зависит от задачи. 📊 Автоматические метрики 🔤 Для генерации текста: · BLEU — совпадение n-грамм с эталоном. Быстро, но плохо коррелирует с качеством · ROUGE — полнота n-грамм. Чаще используется для суммаризации · BERTScore — семантическое сходство через эмбеддинги. Лучше BLEU/ROUGE · METEOR — учитывает синонимы и морфологию. Лучше для перевода 📐 Для RAG и QA: · Faithfulness — насколько ответ соответствует контексту (не галлюцинирует) · Answer Relevance — насколько ответ релевантен вопросу · Context Recall — насколько полно использован контекст · Context Precision — насколько точно выбраны релевантные куски Инструменты: RAGAS, TruLens 🤖 LLM-as-Judge Используете сильную модель (GPT-4, Claude) чтобы оценить ответ слабой. Самый гибкий метод:

Оцени ответ по шкале 1-5:
· Точность (фактическая корректность)
· Полнота (покрытие вопроса)
· Релевантность (соответствие запросу)
· Стиль (читаемость и тон)

· Плюсы: гибко, понимает нюансы · Минусы: дорого, bias к похожим на себя ответам, не детерминировано 👥 Human evaluation · Попарное сравнение (A vs B) — надёжнее абсолютных оценок · Оценка по чеклисту критериев · Crowdsourcing через Toloka, MTurk Золотой стандарт, но дорого и медленно. 🏆 Бенчмарки · MMLU — знания по 57 областям · HumanEval / EvalPlus — генерация кода · MT-Bench — многоходовые диалоги · HELM — комплексная оценка по многим задачам · LiveBench — обновляется, минимизирует data contamination ✅ Когда что использовать · Разработка → автоматические метрики + LLM-as-Judge (быстро и дёшево) · До продакшена → human evaluation на репрезентативном сете · В продакшене → мониторинг через LLM-Judge + сбор user feedback · Для публикации/сравнения → стандартные бенчмарки 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

🔧 Градиент, Якобиан, Гессиан: математика под каждой обучаемой моделью Три слова которые выглядят пугающе. На деле — три способа измерить изменение. 📐 Градиент ∇f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает вектор частных производных первого порядка Отвечает на вопрос: «В каком направлении f растёт быстрее всего?» Именно поэтому градиент в центре оптимизации. Градиентный спуск идёт в противоположном направлении — потому что градиент указывает вверх по склону. Backpropagation — это эффективное вычисление градиентов во время обучения. 📊 Якобиан J_F Принимает векторную функцию F : ℝⁿ → ℝᵐ Возвращает матрицу m × n частных производных первого порядка Отвечает на вопрос: «Как каждый выход меняется с каждым входом?» Встречается в: анализе чувствительности, автодифференцировании, смене переменных. Простая связь с AD: — Forward-mode AD использует произведения Якобиан-вектор — Reverse-mode AD (backprop) использует произведения вектор-Якобиан 📈 Гессиан H_f Принимает скалярную функцию f : ℝⁿ → ℝ Возвращает матрицу n × n частных производных второго порядка Отвечает на вопрос: «Как меняется сам градиент?» Гессиан измеряет кривизну. В критической точке: — Гессиан положительно определён → локальный минимум — Гессиан отрицательно определён → локальный максимум — Гессиан неопределён → седловая точка Чистая ментальная модель Градиент = производные одного выхода → направление Якобиан = производные многих выходов → чувствительность Гессиан = производные второго порядка → кривизна И простая связь: Гессиан — это Якобиан градиента. 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст

18 422

Коллеги, привет! Меня зовут Василий Леоненко, я кандидат физико-математических наук, занимаюсь вычислительной эпидемиологией и моделированием живых систем. Я люблю предсказывать и прогнозировать. Люблю, когда модели интерпретируемы, а прогнозы понятны и однозначны. Поэтому я всегда предпочитал строгие математические законы и дифференциальные уравнения. Но жизнь меня заставила изменить свою точку зрения. В понедельник 20 июля я хочу рассказать о том, почему машинное обучение — полезная штука и почему оно часто бывает эффективнее, чем классическое моделирование. Почему «черные ящики», которые базируются на огромном количестве непонятных данных и делают какие-то неверифицируемые выводы, вдруг оказались так востребованы. Обсудим: • в чем отличие математических моделей, статистических моделей, ML и Deep learning • когда и что из них выгодно применить (а может всё невыгодно!) • как не испугаться кучи методов и каков достаточный минимум для работы Приходите немного разобраться в математике, пообщаться и подискутировать! Записаться: https://s.salebot.pro/r/model_1 ❗️Если у вас не работает ссылка выше, то регистрируйтесь тут: https://agency.blastim.ru/pythonandml#leonenko

18 422

Machine Learning Systems — бесплатный учебник от Harvard «Мир спешит строить AI-системы. Но не проектирует их.» — именно с этого начинается учебник. ML Systems от Harvard — полный курс по инженерии AI-систем: от основ deep learning до распределённого обучения, оптимизации моделей и деплоя на реальном железе. В 2026 выйдет в MIT Press. 🔗 Ссылка на учебник 📍 Навигация: Вакансии • Задачи • Собесы Библиотека дата-сайентиста #буст