Библиотека собеса по Data Science | вопросы с собеседований

Kanalga Telegram’da o‘tish

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Ko'proq ko'rsatish

Tarmoq:Книги для программистов Rossiya124 749 Karyera6 909

4 489

Obunachilar

+524 soatlar

+47 kunlar

+4030 kunlar

531

Post ko'rishlar

~ 27724 soatlar

~ 34648 soatlar

11.83%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

4 491

❓ Что такое мультиколлинеарность и почему она опасна для регрессионных моделей Мультиколлинеарность — это ситуация, когда два или более признака сильно коррелируют между собой. Последствия: — Коэффициенты модели становятся нестабильными и трудно интерпретируемыми. — Стандартные ошибки увеличиваются, снижается статистическая значимость признаков. — Модель хуже обобщается на новые данные. Решения: — Удалить один из коррелирующих признаков. — Применять регуляризацию (Ridge/Lasso). — Использовать методы снижения размерности (PCA).

4 491

💬 В чём разница между LIME и SHAP с точки зрения стабильности объяснений и теоретической основы Обе методики дают локальные объяснения, но: SHAP — основан на теории кооперативных игр и гарантирует согласованность и аддитивность. Если вклад признака растёт во всех возможных комбинациях признаков, его значение SHAP не уменьшится. Это даёт более стабильные объяснения между запусками, но требует больше вычислительных ресурсов. LIME — использует локальную линейную аппроксимацию и создаёт объяснение на основе случайной выборки точек вокруг объекта. Из-за случайности результат может меняться между запусками, зато метод проще и быстрее. Итог: SHAP — стабильнее и теоретически обоснованнее, LIME — быстрее и проще. 🐸 Библиотека собеса по Data Science

4 491

🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда Многие сразу хотят свою Midjourney, но в итоге получают только выгорание. Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты». Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному. 👉 Начните правильно Берёте курс «ML для старта» до конца недели — Python в подарок. ❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы. А какой самый сложный проект вы брались делать в самом начале? 🫢

4 491

❓ У вас есть набор данных с пропущенными значениями. Как вы подходите к их обработке? Сначала анализируем, какие данные пропущены и почему (MCAR, MAR, MNAR). 📌 Если пропусков мало, можно удалять строки или колонки. 📌 Если много — импутация: среднее/медиана для числовых, мода для категориальных, или более сложные методы (KNN, MICE). 📌 Для моделей, чувствительных к пропускам (например, деревья), можно оставить NaN как отдельную категорию. 📌 Важно не искажать распределение данных и фиксировать шаги для воспроизводимости. 🐸 Библиотека собеса по Data Science

4 491

❓Как учитывать стоимость ошибок в классификации, если мы опираемся на AUC и ROC-кривые ROC-кривые и AUC оценивают, насколько хорошо модель ранжирует положительные объекты выше отрицательных, но не учитывают, что цена ложноположительных и ложноотрицательных ошибок может сильно отличаться. В задачах с высокими ставками — от поиска мошенничества до медицинской диагностики — важно адаптировать подход: 🔎 Использовать матрицу стоимости или кастомную функцию потерь, чтобы сильнее наказывать определённые ошибки. 🔎 Выбирать порог не для максимизации TPR/FPR, а для минимизации ожидаемой стоимости ошибок. 🔎 Считать дополнительные метрики, например, cost-weighted accuracy или Weighted Error Rate, которые учитывают специфику домена. Главная ошибка — слепо ориентироваться на AUC: модель с лучшим AUC может оказаться хуже на реальном пороге, где критична стоимость ошибок. 🐸 Библиотека собеса по Data Science

4 491

📺 Хватит коллекционировать туториалы! Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas. Знания без системы — это просто «шум». Они не превращаются в навыки и проекты. Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио. И да, чтобы старт был ещё проще — при покупке курса по ML вы получаете курс по Python в подарок 👉 Превратите «шум» в навык А вы сталкивались с «информационной кашей»? Как выбирались? 👇

4 491

❓Какова связь между масштабированием и PCA PCA чувствителен к масштабу признаков — признаки с большей дисперсией будут сильнее влиять на главные компоненты. Поэтому перед применением PCA обычно выполняют масштабирование или стандартизацию: вычитают среднее и делят на стандартное отклонение каждого признака. Это позволяет избежать ситуации, когда признаки с большим масштабом непропорционально влияют на результат, и сосредоточиться на выявлении реальных зависимостей в данных. Библиотека собеса по Data Science

4 491

👇 Как выявлять и обрабатывать концептуальный дрейф (concept drift) в потоковых данных Когда распределение входных данных или целевой переменной меняется со временем, модель начинает деградировать. Чтобы минимизировать ущерб: ➡️ Мониторинг статистик — отслеживать метрики качества и распределения признаков, использовать тесты вроде K-S или PSI. ➡️ Скользящее окно обучения — хранить только последние N наблюдений и регулярно дообучать модель. ➡️ Адаптивные алгоритмы — применять модели, которые сами подстраиваются под новые данные (например, online gradient descent или адаптивные леса). ➡️ Гибридные ансамбли — совмещать несколько моделей с разными “возрастами” данных, постепенно замещая устаревшие. Библиотека собеса по Data Science

4 491

👉 Как интегрировать несупервизорные или self-supervised сигналы в потоковой обработке данных, если метки приходят с задержкой или доступны частично В таких условиях модель не должна простаивать, пока ждёт разметку — можно использовать несколько стратегий: ✅ Self-supervised задачи — для текста (маскированное предсказание токенов) или изображений (контрастивное обучение) модель может подстраиваться к новым распределениям данных без явных меток, постепенно улучшая представления. ✅ Буферизация с дообучением — хранить необмеченные данные, частично дообучать модель на self-supervised или старых размеченных данных, а после получения меток выполнять полное обновление. ✅ Инкрементальное кластеризование — алгоритмы вроде online k-means или потоковых версий DBSCAN позволяют отслеживать появление новых кластеров (концепт-дрифт) и адаптировать модель ещё до появления меток. Библиотека собеса по Data Science

4 491

🧐 Зоопарк моделей в ML: с чего начать? Открываешь статью по машинному обучению — и в тебя летят слова: трансформеры, бустинги, SVM, регрессии. Кажется, придётся учить всё это, иначе в ML не пустят. Хорошая новость: 90% задач можно закрыть 2–3 классическими методами. Разберёшь их — уже сможешь собирать работающие проекты. А хайповые названия подождут. Важно: не распыляйся на всё подряд. Начни с базового — это фундамент, на котором держится остальное. 👉 Успей попасть на курс «ML для старта в Data Science»

4 491

❓Как можно встроить экспертные знания о задаче в Bayesian-подход к тюнингу гиперпараметров В Bayesian optimization доменные знания можно внедрить через задание информативных априорных распределений и стартовых точек: 🟠 Ограничение диапазонов — если известно, что в вашей области обучения эффективные learning rate находятся в узком интервале, априор можно задать не равномерным, а суженным (например, log-uniform в пределах, где вы ожидаете хорошие результаты). 🟠 Warm-start — добавить в начальный набор экспериментов уже успешные конфигурации, чтобы модель-заместитель сразу получила полезную информацию о ландшафте гиперпараметров. 🟠 Специализированная модель-заместитель — вместо стандартного Gaussian Process использовать модель, отражающую корреляции между гиперпараметрами (например, объединяя родственные типы регуляризации в иерархию). 💡 Подводный камень: чрезмерно «узкие» или слишком уверенные априоры могут зафиксировать поиск в локальном оптимуме. Даже с сильными предположениями полезно сохранять некоторую степень случайного исследования пространства. Библиотека собеса по Data Science

4 491

💡 Как связаны ошибки первого и второго рода с precision, recall и ROC-кривой Ошибки первого рода (ложноположительные) и второго рода (ложноотрицательные) напрямую отражаются в метриках: ➡️ Recall (чувствительность) — показывает, какую долю настоящих положительных случаев модель нашла. Повышая recall, мы уменьшаем ошибки второго рода, но можем увеличить ошибки первого рода — то есть начать «ловить» ложные срабатывания. ➡️ Precision (точность) — показывает, какую долю из предсказанных положительных случаев действительно являются таковыми. Чем выше precision, тем меньше ошибок первого рода. ➡️ ROC-кривая отображает компромисс между True Positive Rate (Recall) и False Positive Rate (ошибка первого рода) при разных порогах. Она помогает выбрать рабочую точку модели в зависимости от цены каждой из ошибок. 📌 Важно: выбор между precision и recall зависит от задачи. В медицине критичнее не пропустить заболевание (минимизировать ошибку второго рода), а в спаме — не ошибаться с лишними срабатываниями (ошибки первого рода). Библиотека собеса по Data Science

4 491

🫣 Боитесь математики в ML? Думаете, для этого нужно вспоминать университетские интегралы и решать сложные уравнения? У нас хорошая новость: машинное обучение — это в первую очередь инженерная практика, а не математическая олимпиада. Здесь важнее понимать суть, а не выводить формулы. Именно на таком подходе — через логику, интуицию и наглядные примеры — и построен наш курс «ML для старта в Data Science», где мы объясняем всё на пальцах, без боли и зубрёжки. Регистрируйтесь, пока есть свободные места 😉

4 491

🆕 Зачем анализировать не только финальные предсказания модели, но и её промежуточные представления (features, embeddings) Промежуточные представления дают понимание того, как именно модель «видит» данные. Иногда модель может давать правильные предсказания, но по неправильным причинам — например, полагаясь на артефакты или коррелирующие, но не причинно значимые признаки. Анализ внутренних слоёв, embeddings и attention-механизмов позволяет выявить такие ложные зависимости до того, как они станут проблемой в продакшене. Кроме того, визуализация или кластеризация представлений может подсказать новые инсайты о данных: скрытые сегменты, шум, смещения. Это особенно ценно при работе с «чёрными ящиками» вроде глубоких нейросетей — заглянуть внутрь, чтобы понять, что модель действительно «учится», а не просто запоминает. Библиотека собеса по Data Science

4 491

😊 Почему важно учитывать «cost asymmetry» при обучении модели, даже если метрики хорошие Во многих прикладных задачах цена разных ошибок неравнозначна. Например, в задаче обнаружения мошенничества ложноположительное срабатывание может раздражать клиента, но ложное отрицание — стоит компании денег. Даже если модель показывает хорошие значения precision, recall или F1, они могут не отражать реального ущерба. Без учёта бизнес-контекста модель может быть «хорошей» в метриках и при этом вредной на практике. Поэтому при проектировании и оценке моделей важно не просто гнаться за числовыми показателями, а внедрять логику, которая соответствует реальной стоимости ошибок. Библиотека собеса по Data Science

4 491

🤔 Зачем вообще понимать, как работает ML? Сейчас многие просто запускают модельку в sklearn — и радуются точности 0.92.

Вроде всё работает… но почему? А когда сломается — что делать?

Машинное обучение — это система, которую можно понять. Если знаешь, что делает градиентный спуск, зачем нужен бустинг и как дерево принимает решения — ты не просто «запускаешь», ты управляешь моделью. 👉 Мы сделали курс, чтобы в это было реально въехать: — без сложных формул; — с интуитивными объяснениями; — от простого к сложному. Если хочешь перейти от «гуглю код» к «понимаю, как это работает» — ты по адресу! ❗Стартуем в сентябре — бронируй место на курсе уже сейчас

4 491

➡️ Почему модель может демонстрировать высокое качество на offline-валидации, но всё равно проваливаться в A/B-тесте Одна из частых причин — разрыв между тем, что измеряется в offline-метрике, и реальной бизнес-целью. Например, модель может хорошо предсказывать вероятность клика, но при этом ухудшать пользовательский опыт или уменьшать выручку, если неправильно влияет на поведение системы в целом. Также A/B-тест чувствителен к особенностям внедрения: может меняться порядок рекомендаций, контекст показа, или даже то, как пользователи взаимодействуют с продуктом, что невозможно учесть в offline-оценке. Кроме того, в offline-е модель часто тестируется на исторических данных, в то время как A/B работает с живыми пользователями, в динамике. Поэтому расхождение между offline и online — это не ошибка, а естественное проявление того, что модель — это часть более широкой системы. Библиотека собеса по Data Science

4 491

❓ Как вы поймёте, что модель недостаточно сложна для вашей задачи, если при этом нет явных признаков недообучения по метрикам Обычно недообучение проявляется через низкие метрики на тренировке и валидации. Но бывает, что метрики неплохие, а модель не захватывает важные зависимости. Это может быть критично, особенно если: ✅ Плохая способность к обобщению на сложные случаи — Например, модель уверенно справляется с типовыми примерами, но ошибается на edge cases, редких или более сложных подгруппах данных. ✅ Ошибки сконцентрированы в важной подвыборке — Например, модель плохо работает на новых регионах, продуктах или временных периодах. ✅ Сильная зависимость от простых фичей — Даже при высокой точности, если модель полагается только на "легкие" корреляции (например, средние значения), она может игнорировать тонкие сигналы. ✅ Модель плохо обучается на добавленных сложных признаках — Если после добавления нетривиальных фич метрики почти не растут, возможно, архитектура модели не позволяет использовать их эффективно. ✅ Анализ ошибок вручную — Просмотр ошибок показывает систематические промахи в логике, а не шум. Библиотека собеса по Data Science

4 491

👉 Как бы вы поступили, если ваша модель показывает хорошие метрики, но бизнес-цель при этом не улучшается Возможные причины и действия: Неверные метрики: может быть, оптимизируется surrogate-метрика (например, ROC AUC), которая слабо коррелирует с бизнес-результатом. → Перейти к метрикам, отражающим бизнес (uplift, ROI, precision@top-K). Неправильная точка принятия решения: модель даёт предсказания, но downstream-система их игнорирует или использует неправильно. → Проверить интеграцию: как именно модель влияет на решение. Неверная целевая функция: возможно, модель обучена на задачу, которая не связана напрямую с целью (например, клик ≠ покупка). → Пересмотреть target или изменить бизнес-логику. Эффект на поведение: модель меняет поведение пользователей так, что в итоге это ухудшает метрику (например, слишком агрессивная рекомендация вызывает отток). → Провести A/B-тест и анализ пост-эффектов. Библиотека собеса по Data Science

4 491

📈 Как вы будете оценивать качество модели, если у вас нет доступных «истинных» меток в продакшене Это реальная проблема во многих продуктах — например, в рекомендательных системах, предсказаниях отмен заказов, финансовом скоринге и т.п. Возможные подходы: ▶️ Делayed feedback: использовать метки, которые появляются с задержкой. Всё равно сохраняем предсказания и «догоняем» оценку позже. ▶️ Прокси-метрики: если нет ground truth, можно использовать поведенческие сигналы — например, клик или отказ (proxy for relevance). ▶️ Shadow-модель: запускать модель параллельно с текущей системой и сравнивать предсказания, без воздействия на пользователя. ▶️ A/B-тестирование: запускать часть трафика на новую модель и измерять бизнес-метрики (конверсии, выручку и т.д.). ▶️ Сравнение распределений: можно следить за prediction drift — если распределение выходов резко отличается от обучающего, это может быть сигналом о деградации. ▶️ Модель доверия: обучить вторую модель, которая предсказывает вероятность ошибки основной — своего рода safety layer. Библиотека собеса по Data Science