Библиотека собеса по Data Science | вопросы с собеседований
前往频道在 Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
显示更多4 489
订阅者
+524 小时
+47 天
+4030 天
帖子存档
Вы получили в тесте p-value=0.03 при выбранном уровне значимости α=0.05. Вы отклоняете нулевую гипотезу (H0 ).
Какое определение p-value является единственно верным с точки зрения математической статистики?
Вы провели A/B-тест нового дизайна кнопки и хотите сравнить средний чек в двух группах. Вы собираетесь использовать классический независимый t-test. Какое из следующих условий является обязательным для того, чтобы его результаты были корректными?
Одно из фундаментальных свойств значений SHAP — это свойство аддитивности (или эффективности).
Что математически гарантирует это свойство при анализе предсказания?
Иногда сам факт того, что данные отсутствуют — это важный сигнал (например, отсутствие данных о кредитной истории у молодого заемщика).
Какую простую технику стоит применить, чтобы модель «узнала», что значение было пропущено, даже если мы его заполнили?
Для поиска аномалий часто используют правило «трех сигм» (3σ) или межквартильный размах (IQR).
Почему метод IQR (метод «усов» в Boxplot) обычно считается более надежным для детекции выбросов в реальных бизнес-данных, чем Z-score?
🔥 Знакомьтесь с экспертом Proglib.academy: Эмиль Сатаев
Эмиль — эксперт с 8-летним опытом в разработке, который специализируется на внедрении LLM и агентных подходов в реальные коммерческие сервисы. Он точно знает, как проектировать архитектуру так, чтобы ИИ-функции работали стабильно в связке с внешними системами.
🏃♀️ Уже 14 мая Эмиль проведет открытый вебинар!
Обсудим самую «больную» тему: «Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало».
🗓 Когда: 14 мая в 19:00 (Мск)
Почему Эмиля стоит послушать:
🟣 8+ лет в разработке (Backend и Frontend)
Прошел путь от фулстека до Backend Platform Developer в SMIT.Studio.🟣 Международный исследовательский опыт
Работал исследователем в Институте ИИ НИУ ВШЭ и в Национальном университете Сингапура (NUS).🟣 Преподаватель-практик
Ведет семинары в НИУ ВШЭ, в том числе по проектированию и разработке агентских систем.🟣 Мастер интеграции AI в Backend
Его главная суперсила — умение правильно встраивать LLM через API, выстраивать workflow и агентную логику в сложных распределенных системах.🔗 Зарегистрироваться на вебинар
Прежде чем заполнять пропуски средним или медианой, важно понять природу их появления.В каком из этих случаев простое заполнение пропуска средним значением (Mean Imputation) приведет к серьезному смещению и неверным выводам модели?
Существует метод измерения важности признаков через перемешивание (Permutation Importance).
Каким образом этот метод определяет, насколько важен конкретный признак для модели (любой, даже «черного ящика»)?
🗓 14 мая в 19:00 (Мск) встречаемся в онлайне.
Тема: Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало.
В кружке выше Эмиль Сатаев рассказал, какие именно проблемы с LLM в проде будем разбирать.
Что в программе:
- Разберем реальные кейсы стартапов и ограничения LLM. - Обсудим рабочие архитектуры: RAG, human-in-the-loop, контроль качества. - Ответим на ваши вопросы и разберем кейсы участников.🎁 Бонусы: в конце вебинара подарим промокод на скидку 10.000 ₽ на курсы и разыграем подписки на полезные AI-сервисы. 👉 Зарегистрироваться на вебинар
Представь, что ты строишь линейную регрессию. У тебя есть два признака: «Общая площадь квартиры» и «Количество квадратных метров жилой площади». Они коррелируют на 0.98.К какому опасному математическому эффекту это приведет при интерпретации весов модели?
Когда мы подаем картинку в LLM (например, в GPT-4o или Gemini 1.5), модель не видит её как единый файл.
Каким образом изображение «разрезается» для обработки трансформером?
При обучении детекторов объектов мы не можем использовать простую MSE для рамок. Используется метрика IoU.
Что именно измеряет IoU и почему это критично для оценки точности детектора?
🦾 Почему ваши AI-продукты на базе LLM ломаются (и как это чинить)?
Выкатили ИИ-фичу в прод, а она галлюцинирует, падает или выдает мусор? Приглашаем на открытый вебинар, где разберем реальную боль внедрения LLM-агентов и научимся делать так, чтобы «всё работало».
🗓 Когда: 14 мая в 19:00 МСК
⏱️ Формат: 60 минут мяса + 30 минут ответов на ваши вопросы
🧑🏻💻 Кто вещает: Эмиль Сатаев — Backend Platform Developer (8+ лет в разработке). Человек, который своими руками внедряет LLM и агентные системы в реальные коммерческие сервисы.
🎁 Главный бонус для онлайна:
Только участникам прямого эфира подарим уникальный промокод на скидку 10.000 ₽ на большой курс AgentOps.
👉 Занять место на вебинаре
YOLOv11 и последующие версии радикально отличаются от классических методов детекции (как R-CNN).
Какое архитектурное решение делает YOLO такой быстрой, что она может работать на мобильных процессорах в реальном времени?
Какие именно точки в датасете становятся «опорными векторами» после обучения SVM?
В маркетинге часто используют PSM, чтобы оценить эффект акции, если мы не проводили честный A/B тест.
Зачем нам нужно предсказывать вероятность получения скидки (Propensity Score) для каждого клиента, прежде чем сравнивать их покупки?
Современный DS-тренд 2025–2026 годов — поиск «плоских» минимумов (flat minima).
Почему плоский минимум функции потерь считается более предпочтительным для финальной модели, чем глубокий и узкий («острый») минимум?
Какая особенность алгоритмов с инерцией (Momentum), таких как Adam или RMSProp, помогает им преодолевать седловые точки быстрее, чем обычному SGD?
В отличие от первых моделей (DDPM), Stable Diffusion работает не с самими пикселями напрямую, а в «латентном пространстве».
Какое преимущество дает переход от работы с пикселями к работе с сжатыми латентными представлениями (через VAE)?
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
