Библиотека собеса по Data Science | вопросы с собеседований

Kanalga Telegram’da o‘tish

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Ko'proq ko'rsatish

Tarmoq:Книги для программистов Rossiya124 163 Karyera6 888

4 483

Obunachilar

+124 soatlar

+67 kunlar

+3430 kunlar

554

Post ko'rishlar

~ 26124 soatlar

~ 33148 soatlar

12.34%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

4 482

Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?

Anonymous voting

4 482

Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?

Anonymous voting

4 482

🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40% Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎 🔥 Курсы со скидкой 40% до конца ноября: 🐍 Python 📐 Математика 🤖 AI 🔢 Алгоритмы и структуры Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈

4 482

Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️

Anonymous voting

4 482

Почему AUC-ROC не всегда подходит для многоклассовых задач без модификаций?

Anonymous voting

4 482

Как обычно определяется сходимость алгоритма K-Means?

Anonymous voting

4 482

Зачем добавляют skip connections в глубокие нейросети?

Anonymous voting

4 482

Что измеряет Gini impurity в узле дерева?

Anonymous voting

4 482

🔥 Когда стоит использовать pruning (обрезку дерева) вместо early stopping Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping). 🔤 Post-pruning: Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов. 🔤 Pre-pruning: Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое. 🐸 Библиотека собеса по Data Science

4 482

↪️ Существуют ли методы построения доверительного интервала для точности без предположений о распределении Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок: Непараметрический бутстреп: ➡️ Многократно выбираем выборки из тестового набора с возвращением. ➡️ Для каждой выборки вычисляем точность. ➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям. 🐸 Библиотека собеса по Data Science

4 482

❓Какова роль скорректированного (R^2) в выявлении переобучения линейной модели Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации. Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель. Интерпретация для обнаружения переобучения: 🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели. 🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение. Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков. 🐸 Библиотека собеса по Data Science

4 482

😎 Что такое сопряжённые априоры (conjugate priors) в байесовском выводе Сопряжённые априоры — это такие априорные распределения, которые при комбинировании с конкретной функцией правдоподобия дают апостериорное распределение того же семейства, что и априорное. Это делает байесовское обновление аналитически простым и позволяет получить закрытые формы постериора без численных методов. Примеры: 🔛 Beta–Binomial: если вероятность успеха в биномиальном распределении имеет Beta-априор, то постериор тоже будет Beta. 🔛 Normal–Normal: если параметр среднего в нормальном распределении имеет нормальный априор, постериор остаётся нормальным. 🔛 Gamma–Poisson: если интенсивность (rate) Пуассона имеет Gamma-априор, то постериор также Gamma. 🐸 Библиотека собеса по Data Science

4 482

🎃 Чем отличаются bagging, boosting и stacking в контексте глубоких нейронных сетей ✔️ Bagging (Bootstrap Aggregating): Тренирует несколько моделей на разных случайных подвыборках данных и усредняет или объединяет их предсказания. В нейросетях аналогом может быть обучение с разными аугментациями данных или случайной инициализацией весов. Это снижает переобучение и повышает стабильность. ✔️ Boosting: Обучает модели последовательно — каждая новая модель старается исправить ошибки предыдущей. В глубоких сетях встречается реже, но идеи boosting можно реализовать через специальные функции потерь или адаптивные схемы обучения. ✔️ Stacking: Использует предсказания нескольких базовых моделей как входы для метамодели (второго уровня), которая учится оптимально комбинировать эти выходы. В deep learning это можно реализовать с помощью второй нейросети, обученной на выходах нескольких базовых моделей (ensemble blending). 🐸 Библиотека собеса по Data Science

4 482

✨ Halloween Special — последний день магии! 👻 Успевай сегодня купить курсы со скидкой 40%! А также участвуй в розыгрыше MacBook Pro 14 💻 После полуночи останется только тыква 🎃 🔮 Открой портал и выбери курс

4 482

👩‍🏫Как выбирать между разными метриками нечистоты (impurity metrics) при построении деревьев решений Популярные варианты: Gini impurity и энтропия (information gain). Сравнение: 🧬 Gini impurity быстрее вычисляется и часто даёт похожие разбиения, но иногда слегка предпочитает разделения, изолирующие наиболее частый класс. 🧬 Entropy / Information gain отражает уменьшение неопределённости после разбиения, теоретически более «информативна», но вычисляется медленнее. Выбор на практике: часто метрики дают схожие результаты, поэтому решение зависит от скорости обучения, размеров данных и поведения конкретного датасета. Экспериментальная проверка с кросс-валидацией может помочь определить лучший вариант для вашей задачи. 🐸 Библиотека собеса по Data Science

4 482

😐 Могут ли эмбеддинги ухудшиться при недостаточной регуляризации во время обучения Да. Эмбеддинги, как и любые параметры модели, могут переобучиться или потерять смысловую структуру, если данных мало или регуляризация отсутствует. Векторы могут разрастаться по величине без отражения полезных отношений между токенами. Способы защиты: 👆 Применение weight decay или dropout в последующих слоях (или даже на самих эмбеддингах). 👆 Early stopping при начале переобучения. 👆 Контроль соотношения размера матрицы эмбеддингов и объёма данных: слишком большая матрица при малом датасете может приводить к запоминанию конкретных примеров вместо выучивания обобщённых представлений. Регуляризация и мониторинг обучения помогают поддерживать эмбеддинги информативными и обобщающими. 🐸 Библиотека собеса по Data Science

4 482

⚡️ Механизм запущен, часики тикают Прямо сейчас кто-то уже купил курс со скидкой 40%, открыл первый урок и уже на пути к MacBook Pro 14. А ты всё ещё читаешь этот пост... ⏰ Дедлайны не ждут: 31 октября — скидка 40% сгорает 15 ноября — розыгрыш MacBook 🎯 Правила участия: → купить любой курс до 31 октября → отучиться 2 недели → написать #розыгрыш куратору 🕊️ Не упусти свой шанс

4 482

😉 Может ли комбинация нескольких методов калибровки дать лучшие результаты, чем один метод Теоретически можно попытаться комбинировать методы калибровки, например, применив temperature scaling к логитам, а затем подавая полученные вероятности на изотоническую регрессию. 🔛 Однако такие цепочки часто приводят к переобучению, особенно если размер валидационного набора недостаточен для поддержки нескольких трансформаций. 🔛 Некоторые методы калибровки, например изотоническая регрессия, уже достаточно гибки, чтобы корректно преобразовать вероятности. Добавление дополнительного слоя калибровки редко даёт заметный выигрыш, а лишь усложняет систему. 🐸 Библиотека собеса по Data Science

4 482

➡️ Как условие Липшица помогает выбрать шаг при градиентном спуске Если градиент функции является L-Липшицевым, то есть его изменение не превышает ( L \cdot |x - y| ), то можно показать, что выбор шага ( \eta \leq 1/L ) гарантирует устойчивую сходимость для выпуклых задач. Интуитивно это означает: ✔️ Если шаг слишком большой, можно “перепрыгнуть” через минимум. ✔️ Если шаг не больше ( 1/L ), движение вдоль антиградиента будет достаточно плавным, чтобы не вызвать расходимости. В невыпуклых задачах это условие также полезно — оно помогает избежать слишком резких шагов, обеспечивая более стабильное обучение, даже если глобальной сходимости гарантировать нельзя. 💡 Итого: знание константы Липшица ( L ) даёт теоретически обоснованный верхний предел для шага обучения ( \eta ), что помогает сделать градиентный спуск устойчивым. 🐸 Библиотека собеса по Data Science

4 482

Как можно систематически подобрать ядро и его гиперпараметры для SVM Обычно это делается с помощью кросс-валидации и перебора возможных комбинаций гиперпараметров: ➡️ Выбор типа ядра: пробуют несколько вариантов — линейное, полиномиальное, RBF (радиальное), сигмоидное и др. ➡️ Настройка гиперпараметров: ✔️ Для полиномиального ядра варьируют степень (degree) и коэффициент смещения (coef0). ✔️ Для RBF подбирают параметр gamma (определяет “радиус влияния”) и штраф C. Методы подбора: ➡️ Grid Search: полный перебор заданных диапазонов параметров. ➡️ Random Search: случайные комбинации — быстрее, часто достаточно эффективно. ➡️ Bayesian Optimization: умный поиск с использованием вероятностных моделей, который быстрее находит хорошие параметры. 🐸 Библиотека собеса по Data Science