Библиотека собеса по Data Science | вопросы с собеседований - Estadísticas y analítica del canal de Telegram @ds_interview

4 474

Представь, что ты строишь модель предсказания спроса на доставку еды. У тебя есть столбец с датой заказа: 2026-02-16 19:30:00. Если ты оставишь его в таком виде, модель ничего не поймет. Какое преобразование этого признака принесет пользу для модели?

Anonymous voting

4 474

Что рекомендуется использовать вместо std::bind в современном C++?

Anonymous voting

4 474

Самый популярный метод — K-Fold. Однако есть ситуация, когда обычный K-Fold нельзя использовать. О каком типе данных идет речь?

Anonymous voting

4 474

У тебя есть датасет, где на 1000 «хороших» примеров приходится всего 10 «плохих». Тебе нужно обучить классификатор. Какой метод генерации новых данных (Oversampling) создаёт синтетические примеры редкого класса, а не просто дублирует существующие?

Anonymous voting

4 474

Ты создаешь рек-ную систему для статей. Ты хочешь понять, насколько статья А похожа на Б по смыслу. Для этого ты превращаешь тексты в векторы. Какую метрику используют, чтобы измерить «близость» векторов, если важно направление интересов пользователя?

Anonymous voting

4 474

Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие методы синтаксического анализа текста могут быть использованы для обнаружения именных групп (noun phrases), глагольных групп (verb phrases), а также для определения подлежащего (subject) и дополнения (object) в NLP?

Anonymous voting

4 474

Представь, что мы используем агломеративный подход. В начале каждая точка — это отдельный кластер. Затем алгоритм попарно объединяет близкие точки в группы, пока всё не превратится в один кластер. Как называется график, который визуализирует этот процес?

Anonymous voting

4 474

В отличие от K-means, где мы заранее задаем K, в DBSCAN мы задаем «правила соседства»: радиус поиска и минимальное количество соседей. Как DBSCAN поступает с точкой, у которой в радиусе слишком мало соседей, и она не является соседом «плотной» группы?

Anonymous voting

4 474

K-means работает итеративно: сначала он ставит случайные точки (центроиды), а затем двигает их, пока они не окажутся в центрах своих групп. На каждом шаге происходят две вещи. Какая из них описывает процесс обновления координат центроида?

Anonymous voting

4 474

Представь, что у тебя есть облако точек в 2D (два признака: рост и вес), которое вытянуто вдоль одной линии. Ты хочешь сжать эти данные в 1D, чтобы не потерять структуру данных. Как PCA выбирает направление для этой новой оси (первой главной компоненты)?

Anonymous voting

4 474

Представь, что ты обучаешь модель предсказывать стоимость квартир. Первое дерево предсказало 10 млн ₽, а реальная цена — 12 млн ₽. Ошибка (остаток) составила 2 млн ₽. Что будет делать второе дерево в алгоритме градиентного бустинга?

Anonymous voting

4 474

«Расскажите про ваш опыт с Agentic RAG» — стандартный вопрос собеседования Рынок DS в 2026 году требует большего, чем знание torch и pandas. Компании ищут инженеров, умеющих строить автономные системы, способные решать задачи без участия человека. На курсе мы даём то, что требуют на позициях Senior AI Engineer. Мы разбираем реальные задачи: как оценивать качество генерации (LLM-as-a-Judge), как строить мультиагентные системы и выводить это в прод. Темы для вашего резюме: — Orchestration: LangGraph, LangChain. — Retrieval: Hybrid Search, Reranking, GraphRAG. — Fine-tuning: адаптация моделей под специфику агента. — Evaluation: метрики качества для генеративных моделей. Подготовиться к собеседованиям нового уровня

4 474

Ты обучаешь лин.регрессию на данных с огромным количеством признаков, многие из них бесполезны. Нужно, чтобы модель не просто уменьшила веса плохих признаков, а полностью занулила их, выполнив автоматический отбор. Какой тип регуляризации нужно выбрать?

Anonymous voting

4 474

Ты обучаешь лин.регрессию на данных с огромным количеством признаков, многие из них бесполезны. Нужно, чтобы модель не просто уменьшила веса плохих признаков, а полностью занулила их, выполнив автоматический отбор. Какой тип регуляризации нужно выбрать?

Anonymous voting

4 474

Хард-скилл, который будут спрашивать в 2026 году Умение обучить модель — база. Умение завернуть её в автономного агента, работающего с инструментами — конкурентное преимущество. Курс «Разработка ИИ-агентов» уже стартовал. Что прокачаем: — построение RAG-систем с векторными БД; — оркестрацию через LangGraph; — понимание агентной архитектуры и ReAct. Первая лекция доступна бесплатно. Отличный шанс подтянуть теорию для собеседований. Записаться Смотреть лекцию

4 474

Ты строишь модель, предсказывающую, вернет ли клиент банковский кредит. В твоем наборе данных есть признак «Сумма выплаченных процентов». На обучении модель показывает идеальный результат. Почему этот признак является классическим примером Target Leakage?

Anonymous voting

4 474

Вы обучили модель градиентного бустинга предсказывать вероятность поломки. Она показывает отличный ROC-AUC, но бизнес жалуется: модель выдает 0.8, а в реальности поломка происходит в 40%. Какой инструмент позволяет визуально оценить это несоответствие?

Anonymous voting

4 474

Проблема A/B-тестов — дисперсия. Пользователи разные: кто-то всегда тратит много, кто-то мало. CUPED использует данные о пользователях, собранные до начала теста. Каким образом он уменьшает дисперсию?

Anonymous voting

4 474

Вы проводите тест в online-магазине. В тест группу случайно попал оптовый закупщик, который купил товара на 1000000₽, в то время как обычный чек — 2000₽. Это завысило среднее в группе. Какой метод наиболее корректен для снижения влияния таких выбросов?

Anonymous voting

4 474

Ты планируешь A/B-тест. Чтобы убедиться, что твой калькулятор p-value и система сплитования корректны, ты запускаешь A/A-тест: делишь трафик на 2 группы, но обеим показываешь одинаковый вариант сайта. Что является признаком проблемы при анализе A/A-теста?

Anonymous voting