ch
Feedback
Библиотека собеса по Data Science | вопросы с собеседований

Библиотека собеса по Data Science | вопросы с собеседований

前往频道在 Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

显示更多
4 488
订阅者
+524 小时
+47
+4030
帖子存档
Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким. Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Anonymous voting

В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?
Anonymous voting

Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки. Какой вид регуляризации вам следует использовать?
Anonymous voting

Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN. Какое изменение, скорее всего, поможет стабилизировать процесс?
Anonymous voting

Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5. Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Anonymous voting

Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings. Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?
Anonymous voting

Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой. Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Anonymous voting

Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах». Как наличие этих признаков скажется на вашей модели?
Anonymous voting

Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?
Anonymous voting

При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?
Anonymous voting

Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?
Anonymous voting

В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?
Anonymous voting

Какую функцию потерь нельзя использовать для задачи классификации напрямую?
Anonymous voting

Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено. Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?
Anonymous voting

Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023). Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?
Anonymous voting

WANTED: DS-ИНТЕРВЬЮЕР Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет други
WANTED: DS-ИНТЕРВЬЮЕР Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить Machine Learning и статистику по полочкам. Приметы: — является профи в Python и математической статистике; — знает, какие вопросы реально задают на собеседованиях в бигтех; — умеет объяснять сложные модели без потери смысла; — хочет стать узнаваемым лицом в DS-комьюнити. Что мы предлагаем: — гонорар за разработку учебных материалов; — прокачка личного бренда на большую аудиторию; — сотрудничество с командой Proglib Academy. Явка с повинной P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.

Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально. Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?
Anonymous voting

Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения. Какая техника является наиболее простым способом борьбы с этой проблемой?
Anonymous voting

Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает. Что произошло?
Anonymous voting