Библиотека собеса по Data Science | вопросы с собеседований
رفتن به کانال در Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
نمایش بیشتر4 488
مشترکین
+524 ساعت
+47 روز
+4030 روز
آرشیو پست ها
Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким.
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?
Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки.
Какой вид регуляризации вам следует использовать?
Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN.
Какое изменение, скорее всего, поможет стабилизировать процесс?
Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5.
Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings.
Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?
Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.
Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».
Как наличие этих признаков скажется на вашей модели?
Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?
При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?
Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?
В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?
Какую функцию потерь нельзя использовать для задачи классификации напрямую?
Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено.
Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?
Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023).
Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?
WANTED: DS-ИНТЕРВЬЮЕР
Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить
Machine Learning и статистику по полочкам.
Приметы:
— является профи в Python и математической статистике;
— знает, какие вопросы реально задают на собеседованиях в бигтех;
— умеет объяснять сложные модели без потери смысла;
— хочет стать узнаваемым лицом в DS-комьюнити.
Что мы предлагаем:
— гонорар за разработку учебных материалов;
— прокачка личного бренда на большую аудиторию;
— сотрудничество с командой Proglib Academy.
Явка с повинной
P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.
Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?
Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.
Какая техника является наиболее простым способом борьбы с этой проблемой?
Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.
Что произошло?
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
