Библиотека собеса по Data Science | вопросы с собеседований

前往频道在 Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

显示更多

网络:Книги для программистов 俄罗斯124 749 职业6 909

4 489

订阅者

+524 小时

+47 天

+4030 天

531

帖子浏览量

~ 27724 小时

~ 34648 小时

11.83%

参与率

~ 1

每日帖子数

Ads index

beta

帖子存档

4 491

Вы получили в тесте p-value=0.03 при выбранном уровне значимости α=0.05. Вы отклоняете нулевую гипотезу (H0 ). Какое определение p-value является единственно верным с точки зрения математической статистики?

Anonymous voting

4 491

Вы провели A/B-тест нового дизайна кнопки и хотите сравнить средний чек в двух группах. Вы собираетесь использовать классический независимый t-test. Какое из следующих условий является обязательным для того, чтобы его результаты были корректными?

Anonymous voting

4 491

Одно из фундаментальных свойств значений SHAP — это свойство аддитивности (или эффективности). Что математически гарантирует это свойство при анализе предсказания?

Anonymous voting

4 491

Иногда сам факт того, что данные отсутствуют — это важный сигнал (например, отсутствие данных о кредитной истории у молодого заемщика). Какую простую технику стоит применить, чтобы модель «узнала», что значение было пропущено, даже если мы его заполнили?

Anonymous voting

4 491

Для поиска аномалий часто используют правило «трех сигм» (3σ) или межквартильный размах (IQR). Почему метод IQR (метод «усов» в Boxplot) обычно считается более надежным для детекции выбросов в реальных бизнес-данных, чем Z-score?

Anonymous voting

4 491

🔥 Знакомьтесь с экспертом Proglib.academy: Эмиль Сатаев Эмиль — эксперт с 8-летним опытом в разработке, который специализируется на внедрении LLM и агентных подходов в реальные коммерческие сервисы. Он точно знает, как проектировать архитектуру так, чтобы ИИ-функции работали стабильно в связке с внешними системами. 🏃‍♀️ Уже 14 мая Эмиль проведет открытый вебинар! Обсудим самую «больную» тему: «Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало». 🗓 Когда: 14 мая в 19:00 (Мск) Почему Эмиля стоит послушать: 🟣 8+ лет в разработке (Backend и Frontend)

Прошел путь от фулстека до Backend Platform Developer в SMIT.Studio.

🟣 Международный исследовательский опыт

Работал исследователем в Институте ИИ НИУ ВШЭ и в Национальном университете Сингапура (NUS).

🟣 Преподаватель-практик

Ведет семинары в НИУ ВШЭ, в том числе по проектированию и разработке агентских систем.

🟣 Мастер интеграции AI в Backend

Его главная суперсила — умение правильно встраивать LLM через API, выстраивать workflow и агентную логику в сложных распределенных системах.

🔗 Зарегистрироваться на вебинар

4 491

Прежде чем заполнять пропуски средним или медианой, важно понять природу их появления.В каком из этих случаев простое заполнение пропуска средним значением (Mean Imputation) приведет к серьезному смещению и неверным выводам модели?

Anonymous voting

4 491

Существует метод измерения важности признаков через перемешивание (Permutation Importance). Каким образом этот метод определяет, насколько важен конкретный признак для модели (любой, даже «черного ящика»)?

Anonymous voting

4 491

🗓 14 мая в 19:00 (Мск) встречаемся в онлайне. Тема: Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало. В кружке выше Эмиль Сатаев рассказал, какие именно проблемы с LLM в проде будем разбирать. Что в программе:

- Разберем реальные кейсы стартапов и ограничения LLM. - Обсудим рабочие архитектуры: RAG, human-in-the-loop, контроль качества. - Ответим на ваши вопросы и разберем кейсы участников.

🎁 Бонусы: в конце вебинара подарим промокод на скидку 10.000 ₽ на курсы и разыграем подписки на полезные AI-сервисы. 👉 Зарегистрироваться на вебинар

4 491

视频消息00:40

4 491

Представь, что ты строишь линейную регрессию. У тебя есть два признака: «Общая площадь квартиры» и «Количество квадратных метров жилой площади». Они коррелируют на 0.98.К какому опасному математическому эффекту это приведет при интерпретации весов модели?

Anonymous voting

4 491

Когда мы подаем картинку в LLM (например, в GPT-4o или Gemini 1.5), модель не видит её как единый файл. Каким образом изображение «разрезается» для обработки трансформером?

Anonymous voting

4 491

При обучении детекторов объектов мы не можем использовать простую MSE для рамок. Используется метрика IoU. Что именно измеряет IoU и почему это критично для оценки точности детектора?

Anonymous voting

4 491

🦾 Почему ваши AI-продукты на базе LLM ломаются (и как это чинить)? Выкатили ИИ-фичу в прод, а она галлюцинирует, падает или выдает мусор? Приглашаем на открытый вебинар, где разберем реальную боль внедрения LLM-агентов и научимся делать так, чтобы «всё работало». 🗓 Когда: 14 мая в 19:00 МСК ⏱️ Формат: 60 минут мяса + 30 минут ответов на ваши вопросы 🧑🏻‍💻 Кто вещает: Эмиль Сатаев — Backend Platform Developer (8+ лет в разработке). Человек, который своими руками внедряет LLM и агентные системы в реальные коммерческие сервисы. 🎁 Главный бонус для онлайна: Только участникам прямого эфира подарим уникальный промокод на скидку 10.000 ₽ на большой курс AgentOps. 👉 Занять место на вебинаре

4 491

YOLOv11 и последующие версии радикально отличаются от классических методов детекции (как R-CNN). Какое архитектурное решение делает YOLO такой быстрой, что она может работать на мобильных процессорах в реальном времени?

Anonymous voting

4 491

Какие именно точки в датасете становятся «опорными векторами» после обучения SVM?

Anonymous voting

4 491

В маркетинге часто используют PSM, чтобы оценить эффект акции, если мы не проводили честный A/B тест. Зачем нам нужно предсказывать вероятность получения скидки (Propensity Score) для каждого клиента, прежде чем сравнивать их покупки?

Anonymous voting

4 491

Современный DS-тренд 2025–2026 годов — поиск «плоских» минимумов (flat minima). Почему плоский минимум функции потерь считается более предпочтительным для финальной модели, чем глубокий и узкий («острый») минимум?

Anonymous voting

4 491

Какая особенность алгоритмов с инерцией (Momentum), таких как Adam или RMSProp, помогает им преодолевать седловые точки быстрее, чем обычному SGD?

Anonymous voting

4 491

В отличие от первых моделей (DDPM), Stable Diffusion работает не с самими пикселями напрямую, а в «латентном пространстве». Какое преимущество дает переход от работы с пикселями к работе с сжатыми латентными представлениями (через VAE)?

Anonymous voting