ru
Feedback
Библиотека собеса по Data Science | вопросы с собеседований

Библиотека собеса по Data Science | вопросы с собеседований

Открыть в Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Больше
4 488
Подписчики
+524 часа
+47 дней
+4030 день
Архив постов
Почему применение стандартного PCA напрямую к временным рядам может потерять критическую информацию?
Anonymous voting

Почему две модели с одинаковой AUC могут иметь радикально разное качество при фиксированном пороге?
Anonymous voting

Почему boosting может ухудшать устойчивость к шумным меткам?
Anonymous voting

Почему избыточный pre-pruning может ухудшить способность дерева разделять данные на важных малых подгруппах?
Anonymous voting

Почему дрейф данных может улучшить общую метрику, но ухудшить fairness?
Anonymous voting

Почему средняя AUC по схемам One-vs-One может быть выше, чем One-vs-Rest, даже при тех же данных?
Anonymous voting

Почему добавление слишком большого momentum-параметра β в стохастическом градиенте может ухудшить обучение при очень шумных данных?
Anonymous voting

📊 Задача с собеседования Имеются данные о продажах за последние 12 месяцев. Требуется оценить наличие линейной зависимости м
📊 Задача с собеседования
Имеются данные о продажах за последние 12 месяцев. Требуется оценить наличие линейной зависимости между количеством заключённых сделок и объёмом выручки, а также построить прогноз выручки при достижении 150 сделок.
Если не понимаете с какой стороны подступиться к задаче, то пора подтянуть математику. 🎓 Именно этому посвящен курс экспресс-курс «Математика для Data Science» от Proglib Academy: — работа с векторами и матрицами; — линейная регрессия и метод наименьших квадратов; — вероятности, распределения, статистика; — и многое другое. ⏳ Старт: 4 декабря 🔥 Скидка: 40% до конца ноября 👉 Подключиться к курсу

Почему комбинация методов калибровки (например, Temperature Scaling + Isotonic Regression) может ухудшить итоговую калибровку?
Anonymous voting

Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?
Anonymous voting

Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?
Anonymous voting

🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40% Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пр
🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40% Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎 🔥 Курсы со скидкой 40% до конца ноября: 🐍 Python 📐 Математика 🤖 AI 🔢 Алгоритмы и структуры Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈

Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️
Anonymous voting

Почему AUC-ROC не всегда подходит для многоклассовых задач без модификаций?
Anonymous voting

Как обычно определяется сходимость алгоритма K-Means?
Anonymous voting

Зачем добавляют skip connections в глубокие нейросети?
Anonymous voting

Что измеряет Gini impurity в узле дерева?
Anonymous voting

🔥 Когда стоит использовать pruning (обрезку дерева) вместо early stopping Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping). 🔤 Post-pruning: Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов. 🔤 Pre-pruning: Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое. 🐸 Библиотека собеса по Data Science

↪️ Существуют ли методы построения доверительного интервала для точности без предположений о распределении Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок: Непараметрический бутстреп: ➡️ Многократно выбираем выборки из тестового набора с возвращением. ➡️ Для каждой выборки вычисляем точность. ➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям. 🐸 Библиотека собеса по Data Science

Какова роль скорректированного (R^2) в выявлении переобучения линейной модели Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации. Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель. Интерпретация для обнаружения переобучения: 🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели. 🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение. Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков. 🐸 Библиотека собеса по Data Science