Библиотека собеса по Data Science | вопросы с собеседований - آمار و تحلیل کانال تلگرام @ds_interview

4 483

Как функция LogLoss наказывает модель, если реальный ответ равен y=1, а модель предсказала вероятность y=0.001?

Anonymous voting

4 483

Какую именно математическую трансформацию выполняет сигмоида над выходом линейной комбинации признаков?

Anonymous voting

4 483

Иерархические методы строят дерево кластеризации снизу вверх. Какую практическую пользу несет в себе визуализация этого процесса — Дендрограмма — для дата-сайентиста при исследовании структуры данных?

Anonymous voting

4 483

С какой фундаментальной проблемой столкнется K-Means, если реальные кластеры в данных имеют форму вытянутых эллипсов, полумесяцев или вложенных друг в друга колец?

Anonymous voting

4 483

В русскоязычной и международной DS-литературе часто разделяют термины Блендинг и Стекинг, хотя их математическая суть близка. В чем заключается организационное отличие Блендинга от классического Стекинга с точки зрения разбиения данных?

Anonymous voting

4 483

Repost from Proglib.academy | IT-курсы

+6

⚡️ Главные ИИ-новости недели: от громкого трансфера Карпати до бесплатного ChatGPT для целой страны 1. Андрей Карпати перешел в Anthropic. 2. Anthropic впервые обогнала OpenAI по бизнес-адопции: 34.4% и 32.3% соответственно. (см. 2) 3. Codex теперь доступен в мобильном приложении ChatGPT 4. xAI запустила Grok Build — CLI-агент для кодинга с субагентами, plan-режимом, headless и ACP. Пока бета, только для SuperGrok Heavy. (см. 4) 5. Cursor выпустил модель Composer 2.5 (на основе Kimi K2.5): стоит в 10 раз дешевле и работает на уровне Opus 4.7. (см. 5) 6. Google релизнула модель Gemini 3.5 Flash Модель Gemini 3.5 Flash, которая обходит Gemini 3.1 Pro на агентских и кодинговых бенчмарках при 4-кратной скорости вывода. Вместе с ней появился персональный агент Gemini Spark, работающий круглосуточно, а 3.5 Pro ожидается в следующем месяце. (см. 6) 7. Alibaba выпустила Qwen 3.7 Max Preview (заняла 13 место в Text Arena) и Plus Preview (16 место в Vision Arena). (см. 7) 8. Moonshot AI выпустила Kimi WebBridge Расширение для браузера, которое дает агенту доступ к вашим учетным записям, файлам cookie и авторизованным сессиям, чтобы он мог сам кликать, скроллить и заполнять формы от вашего имени на любых сайтах. 9. Мальта договорилась с OpenAI и раздает всем своим гражданам годовую подписку ChatGPT Plus 📬 Понравился дайджест? Это лишь 20% от того, что мы отправляем нашим подписчикам каждую субботу. 👉 Подписаться на еженедельную ИИ-рассылку

4 483

В простом ансамбле (Voting) мы можем просто усреднить предсказания трех моделей. В стекинге же мы строим двухслойную архитектуру: базовые модели (Level 0) и мета-модель (Level 1). Что именно подается на вход мета-модели во время обучения и инференса?

Anonymous voting

4 483

Библиотека CatBoost завоевала огромную популярность в DS. Какую уникальную математическую фичу использует CatBoost под капотом, чтобы кодировать категории?

Anonymous voting

4 483

Классический метод OneHotEncoder превращает колонку «Страна» в набор бинарных колонок (0 или 1) для каждой страны. В каком случае использование One-Hot Encoding станет катастрофой для модели случайного леса (Random Forest) или градиентного бустинга?

Anonymous voting

4 483

Вы прогнозируете ежедневный спрос на товары. У вас есть выбор между двумя метриками для оптимизации: MAE и RMSE.Как именно математическая разница между этими метриками влияет на то, какую модель вы получите в итоге?

Anonymous voting

4 483

Ты строишь модель, которая предсказывает вероятность дефекта детали на заводе по фотографиям. В датасете есть много фотографий одной и той же детали с разных ракурсов. Какой тип валидации нужно выбрать?

Anonymous voting

4 483

Вы получили в тесте p-value=0.03 при выбранном уровне значимости α=0.05. Вы отклоняете нулевую гипотезу (H0 ). Какое определение p-value является единственно верным с точки зрения математической статистики?

Anonymous voting

4 483

Вы провели A/B-тест нового дизайна кнопки и хотите сравнить средний чек в двух группах. Вы собираетесь использовать классический независимый t-test. Какое из следующих условий является обязательным для того, чтобы его результаты были корректными?

Anonymous voting

4 483

Одно из фундаментальных свойств значений SHAP — это свойство аддитивности (или эффективности). Что математически гарантирует это свойство при анализе предсказания?

Anonymous voting

4 483

Иногда сам факт того, что данные отсутствуют — это важный сигнал (например, отсутствие данных о кредитной истории у молодого заемщика). Какую простую технику стоит применить, чтобы модель «узнала», что значение было пропущено, даже если мы его заполнили?

Anonymous voting

4 483

Для поиска аномалий часто используют правило «трех сигм» (3σ) или межквартильный размах (IQR). Почему метод IQR (метод «усов» в Boxplot) обычно считается более надежным для детекции выбросов в реальных бизнес-данных, чем Z-score?

Anonymous voting

4 483

🔥 Знакомьтесь с экспертом Proglib.academy: Эмиль Сатаев Эмиль — эксперт с 8-летним опытом в разработке, который специализируется на внедрении LLM и агентных подходов в реальные коммерческие сервисы. Он точно знает, как проектировать архитектуру так, чтобы ИИ-функции работали стабильно в связке с внешними системами. 🏃‍♀️ Уже 14 мая Эмиль проведет открытый вебинар! Обсудим самую «больную» тему: «Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало». 🗓 Когда: 14 мая в 19:00 (Мск) Почему Эмиля стоит послушать: 🟣 8+ лет в разработке (Backend и Frontend)

Прошел путь от фулстека до Backend Platform Developer в SMIT.Studio.

🟣 Международный исследовательский опыт

Работал исследователем в Институте ИИ НИУ ВШЭ и в Национальном университете Сингапура (NUS).

🟣 Преподаватель-практик

Ведет семинары в НИУ ВШЭ, в том числе по проектированию и разработке агентских систем.

🟣 Мастер интеграции AI в Backend

Его главная суперсила — умение правильно встраивать LLM через API, выстраивать workflow и агентную логику в сложных распределенных системах.

🔗 Зарегистрироваться на вебинар

4 483

Прежде чем заполнять пропуски средним или медианой, важно понять природу их появления.В каком из этих случаев простое заполнение пропуска средним значением (Mean Imputation) приведет к серьезному смещению и неверным выводам модели?

Anonymous voting

4 483

Существует метод измерения важности признаков через перемешивание (Permutation Importance). Каким образом этот метод определяет, насколько важен конкретный признак для модели (любой, даже «черного ящика»)?

Anonymous voting

4 483

🗓 14 мая в 19:00 (Мск) встречаемся в онлайне. Тема: Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало. В кружке выше Эмиль Сатаев рассказал, какие именно проблемы с LLM в проде будем разбирать. Что в программе:

- Разберем реальные кейсы стартапов и ограничения LLM. - Обсудим рабочие архитектуры: RAG, human-in-the-loop, контроль качества. - Ответим на ваши вопросы и разберем кейсы участников.

🎁 Бонусы: в конце вебинара подарим промокод на скидку 10.000 ₽ на курсы и разыграем подписки на полезные AI-сервисы. 👉 Зарегистрироваться на вебинар