Библиотека собеса по Data Science | вопросы с собеседований
前往频道在 Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
显示更多4 488
订阅者
+524 小时
+47 天
+4030 天
帖子存档
Почему применение стандартного PCA напрямую к временным рядам может потерять критическую информацию?
Почему две модели с одинаковой AUC могут иметь радикально разное качество при фиксированном пороге?
Почему boosting может ухудшать устойчивость к шумным меткам?
Почему избыточный pre-pruning может ухудшить способность дерева разделять данные на важных малых подгруппах?
Почему дрейф данных может улучшить общую метрику, но ухудшить fairness?
Почему средняя AUC по схемам One-vs-One может быть выше, чем One-vs-Rest, даже при тех же данных?
Почему добавление слишком большого momentum-параметра β в стохастическом градиенте может ухудшить обучение при очень шумных данных?
📊 Задача с собеседования
Имеются данные о продажах за последние 12 месяцев. Требуется оценить наличие линейной зависимости между количеством заключённых сделок и объёмом выручки, а также построить прогноз выручки при достижении 150 сделок.Если не понимаете с какой стороны подступиться к задаче, то пора подтянуть математику. 🎓 Именно этому посвящен курс экспресс-курс «Математика для Data Science» от Proglib Academy: — работа с векторами и матрицами; — линейная регрессия и метод наименьших квадратов; — вероятности, распределения, статистика; — и многое другое. ⏳ Старт: 4 декабря 🔥 Скидка: 40% до конца ноября 👉 Подключиться к курсу
Почему комбинация методов калибровки (например, Temperature Scaling + Isotonic Regression) может ухудшить итоговую калибровку?
Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?
Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?
🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40%
Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎
🔥 Курсы со скидкой 40% до конца ноября:
🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры
Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈
Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️
Почему AUC-ROC не всегда подходит для многоклассовых задач без модификаций?
Как обычно определяется сходимость алгоритма K-Means?
Зачем добавляют skip connections в глубокие нейросети?
Что измеряет Gini impurity в узле дерева?
🔥 Когда стоит использовать pruning (обрезку дерева) вместо early stopping
Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).
🔤 Post-pruning:
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.
🔤 Pre-pruning:
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.
🐸 Библиотека собеса по Data Science
↪️ Существуют ли методы построения доверительного интервала для точности без предположений о распределении
Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:
Непараметрический бутстреп:
➡️ Многократно выбираем выборки из тестового набора с возвращением.
➡️ Для каждой выборки вычисляем точность.
➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям.
🐸 Библиотека собеса по Data Science
❓Какова роль скорректированного (R^2) в выявлении переобучения линейной модели
Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.
Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.
Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.
Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.
🐸 Библиотека собеса по Data Science
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
