Библиотека собеса по Data Science | вопросы с собеседований - Estadísticas y analítica del canal de Telegram @ds_interview

4 476

В Байесовском подходе мы ищем Апостериорное распределение по формуле Байеса. За что именно отвечает «Априорное распределение» (Prior) в процессе обучения модели?

Anonymous voting

4 476

В крупных компаниях используют Feature Store (например, Feast или Hopsworks). Какую главную проблему при переходе от обучения (Offline) к работе в реальном времени (Online) решает эта инфраструктура?

Anonymous voting

4 476

Git плохо справляется с хранением тяжелых датасетов в несколько терабайт. Инструменты вроде DVC решают эту проблему. Каким образом DVC позволяет версионировать данные, сохраняя при этом легковесность Git-репозитория?

Anonymous voting

4 476

Модель предсказания спроса начала ошибаться. Распределение входных признаков сильно изменилось по сравнению с обучающей выборкой, хотя сама логика поведения людей осталась прежней. Как называется этот тип деградации модели и какое действие требуется?

Anonymous voting

4 476

При генерации текста (Inference) мы часто настраиваем параметр Temperature (T). Как математически параметр T влияет на распределение вероятностей следующего токена и на итоговый результат?

Anonymous voting

4 476

BERT — это «энкодер», а GPT — «декодер». Это определяет способ их обучения. В чем заключается ключевое различие в механизме внимания (Attention) при обучении GPT по сравнению с BERT?

Anonymous voting

4 476

PCA проецирует данные на новые оси (главные компоненты). Каким критерием руководствуется PCA при выборе первой главной компоненты (PC1)?

Anonymous voting

4 476

Вы используете стандартный feature_importance_ из Random Forest (на основе Gini impurity). В чем заключается главная опасность доверия этому методу при наличии высококоррелированных признаков?

Anonymous voting

4 476

LIME (Local Interpretable Model-agnostic Explanations) LIME часто используется для объяснения «черных ящиков». Каким образом LIME строит объяснение для конкретного примера (строки данных)?

Anonymous voting

4 476

🤖 Ваш ИИ-агент съедает бюджет на токены и падает при сбоях API? Пора переходить на новый уровень. Открыли продажи курса по AgentOps — управлению ИИ-агентами в рабочих процессах. Рынок требует инженеров, которые умеют: • Контролировать метрики и качество ответов; • Эффективно работать с RAG-архитектурой; • Строить системы, готовые к реальным нагрузкам. Обучение займет 6-12 недель под руководством практиков с опытом в AI и Data Science в крупных IT-компаниях, таких как Яндекс, Сбер, МТС, Huawei, Raft и др. 🎁 Можно подождать, пока про AgentOps начнут говорить все. Или зайти сейчас — НА 30% ДЕШЕВЛЕ!

Работа с AI начинается с систем. Системы — с AgentOps.

🔥 Забрать скидку и изучить программу.

4 476

Метод SHAP основан на теории игр и вычисляет вклад каждого признака в итоговое предсказание.Что именно представляет собой «значение Шепли» (Shapley value) для конкретного признака в отдельном предсказании?

Anonymous voting

4 476

🏃‍♀️ Мы собрали бесплатный мега-гайд по ии-агентам 👇 Выкатили большую серию постов, которая ЛЕГКО ЗАМЕНИТ ПАРОЧКУ ПЛАТНЫХ КУРСОВ на рынке. В первой части постов навалили жесткой базы, чтобы вправить мозги на место. Во второй дали конкретные инструменты, фреймворки и пошаговые инструкции, что нужно кодить прямо сейчас. Часть 1. Введение, юзкейсы и реальность Разбираемся с терминами, снимаем розовые очки и смотрим, где ИИ реально приносит бабки, а где только жжет нервы: 1. «Так что вообще считается AI-агентом?» 2. «Где тут бот, а где уже AI-агент?» 3. «Не надо пихать AI-агента в каждую задачу» 4. «Что уже можно спокойно делать через AI-агентов?» 5. «А что через AI-агентов пока лучше не трогать?» Часть 2. Изнанка, ошибки и архитектура Как всё это устроено под капотом, чтобы не слить бюджет и не наломать дров на старте: 6. «Можно ли просто сесть вечером и собрать себе AI-агента?» 7. «С чего вообще начать, если хочется попробовать AI-агентов» 8. «Почему AI-агент может внезапно начать творить дичь» 9. «Где AI-агенты реально экономят время, а где только добавляют возни» 10. «Почему они жрут столько денег?» Часть 3. Хардкорная практика (Что делать руками) Хватит теории. Открываем ноут, запускаем Cursor и делаем нормальные, отказоустойчивые системы: 11. «Почему одного промпта мало?» 12. «Почему AI-агенту мало просто “дать доступ к данным”» 13. «Если не следить за AI-агентом, он быстро начинает жить своей жизнью» 14. «Собрать демку легко. Но как же сделать нормально» 15. «Как сделать, чтобы это не развалилось через неделю?» 👍 Сохраняйте пост в избранное, чтобы не потерять.

4 476

Метод Hyperband (или ASHA) часто используется для настройки нейросетей. Какая ключевая идея позволяет Hyperband работать в разы быстрее, чем обычный перебор?

Anonymous voting

4 476

Вы строите модель предсказания оттока клиентов. Один из признаков — «Среднее количество звонков в поддержку за последние 3 месяца». В данных есть клиенты, которые ушли месяц назад. Почему использование этого признака — это утечка данных (leakage)?

Anonymous voting

4 476

Многие компании переходят от обычного векторного поиска к GraphRAG. В какой ситуации GraphRAG покажет значительно лучший результат, чем обычный поиск по сходству векторов (Top-K Retrieval)?

Anonymous voting

4 476

Основной принцип работы GNN — это итеративное обновление состояния узла на основе информации от его соседей. Какая операция агрегации информации от соседних узлов является наиболее устойчивой к изменению порядка соседей?

Anonymous voting

4 476

В моделях отбора кандидатов часто используют структуру Two-Tower. Одна «башня» обрабатывает данные пользователя, другая — данные контента (фильма/товара). Какая математическая операция чаще всего выполняется в самом конце над векторами этих двух башен?

Anonymous voting

4 476

Алгоритм замечает, что тебе нравятся видео про котиков, и начинает показывать только их. Через неделю ты больше не видишь ничего другого. Какой метод используется в RecSys для борьбы с этой проблемой, чтобы «подмешивать» пользователю новый контент?

Anonymous voting

4 476

Метрика MAPE (Mean Absolute Percentage Error) очень популярна в бизнесе, потому что выражается в процентах. В каком случае использование MAPE даст крайне искаженный или математически неопределенный результат?

Anonymous voting

4 476

Алгоритмы вроде YOLO часто выдают несколько bounding boxes вокруг одного и того же объекта с разной степенью уверенности. Для очистки используется Non-Maximum Suppression. На основе какого показателя NMS решает, что две рамки относятся к одному объекту?

Anonymous voting