uz
Feedback
Data Science | Вопросы собесов

Data Science | Вопросы собесов

Kanalga Telegram’da o‘tish
4 939
Obunachilar
Ma'lumot yo'q24 soatlar
-37 kunlar
-2630 kunlar
Obunachilarni jalb qilish
Iyun '26
Iyun '26
+22
0 kanalda
May '26
+32
0 kanalda
Get PRO
Aprel '26
+55
0 kanalda
Get PRO
Mart '26
+58
0 kanalda
Get PRO
Fevral '26
+115
0 kanalda
Get PRO
Yanvar '26
+100
0 kanalda
Get PRO
Dekabr '25
+62
0 kanalda
Get PRO
Noyabr '25
+110
0 kanalda
Get PRO
Oktabr '25
+132
1 kanalda
Get PRO
Sentabr '25
+75
0 kanalda
Get PRO
Avgust '25
+82
0 kanalda
Get PRO
Iyul '25
+125
0 kanalda
Get PRO
Iyun '25
+127
0 kanalda
Get PRO
May '25
+124
1 kanalda
Get PRO
Aprel '25
+166
0 kanalda
Get PRO
Mart '25
+598
5 kanalda
Get PRO
Fevral '25
+332
4 kanalda
Get PRO
Yanvar '25
+201
53 kanalda
Get PRO
Dekabr '24
+120
0 kanalda
Get PRO
Noyabr '24
+162
1 kanalda
Get PRO
Oktabr '24
+310
40 kanalda
Get PRO
Sentabr '24
+408
249 kanalda
Get PRO
Avgust '24
+181
1 kanalda
Get PRO
Iyul '24
+342
54 kanalda
Get PRO
Iyun '24
+924
244 kanalda
Get PRO
May '24
+999
191 kanalda
Get PRO
Aprel '24
+689
23 kanalda
Sana
Obunachilarni jalb qilish
Esdaliklar
Kanallar
15 Iyun0
14 Iyun+1
13 Iyun+1
12 Iyun0
11 Iyun+2
10 Iyun0
09 Iyun+2
08 Iyun+3
07 Iyun+1
06 Iyun+1
05 Iyun+1
04 Iyun+2
03 Iyun+2
02 Iyun+5
01 Iyun+1
Kanal postlari
🤔 Какие проблемы могут возникнуть при прогнозе LTV на полгода вперед? Основные проблемы при прогнозе LTV (Lifetime Value) на длительный срок включают в себя высокую неопределённость в поведении пользователей, изменение рыночных условий и устаревание данных. Кроме того, прогнозы могут быть неточными из-за сезонных изменений или новых факторов, которые не были учтены в модели. Также возможна недостаточность данных для точного прогнозирования поведения пользователей на долгий срок. Модели могут переоценивать или недооценивать реальные значения LTV. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

2
🤔 Расскажи о квантизации Квантизация (Quantization) — это процесс приближенного представления данных или параметров модели с меньшей разрядностью (например, перевод 32-битных чисел в 8-битные). Это уменьшает размер модели и ускоряет вычисления, особенно на мобильных устройствах и встраиваемых системах. 🚩Зачем нужна квантизация? 🟠Снижение потребления памяти уменьшает размер модели, что важно для мобильных устройств. 🟠Ускорение вычислений операции с меньшими разрядностями выполняются быстрее. 🟠Оптимизация для аппаратного обеспечения некоторые процессоры (например, TPU, NPU) лучше работают с низкоразрядными числами. 🚩Виды квантизации 🟠Посттренировочная квантизация (Post-Training Quantization, PTQ) Производится после обучения модели. Преобразует веса и (иногда) активации в более низкую разрядность. import tensorflow as tf # Загружаем обученную модель model = tf.keras.models.load_model("model.h5") # Создаём конвертер для TFLite converter = tf.lite.TFLiteConverter.from_keras_model(model) converter.optimizations = [tf.lite.Optimize.DEFAULT] # Включаем квантизацию tflite_model = converter.convert() # Сохраняем сжатую модель with open("model_quantized.tflite", "wb") as f: f.write(tflite_model) 🟠Квантизация во время обучения (Quantization-Aware Training, QAT) Модель учится с учетом квантизации, что позволяет адаптировать веса. import torch import torchvision.models as models from torch.quantization import quantize_dynamic # Загружаем модель model = models.resnet18(pretrained=True) model.eval() # Применяем квантизацию quantized_model = quantize_dynamic(model, {torch.nn.Linear}, dtype=torch.qint8) # Сохраняем модель torch.save(quantized_model.state_dict(), "resnet18_quantized.pth") Ставь 👍 и забирай 📚 Базу знаний
197
3
🤔 Что такое мультиколлинеарность? Это ситуация, когда признаки сильно коррелируют друг с другом. - Это вызывает нестабильность линейных моделей, так как коэффициенты могут становиться большими и неинтерпретируемыми. - Решения: удаление зависимых признаков, PCA, L1-регуляризация (Lasso). Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
236
4
Не грузится? Понимаем. Бесплатный мессенджер для вашей компании - Битрикс24. Личные и групповые чаты, видеозвонки, каналы и н
Не грузится? Понимаем. Бесплатный мессенджер для вашей компании - Битрикс24. Личные и групповые чаты, видеозвонки, каналы и нейросеть. Всё привычно и удобно. Можно перенести рабочие чаты и файлы из Telegram в Битрикс24. Начните работать на бесплатном тарифе уже сейчас. Узнать больше #реклама 16+ bitrix24.ru О рекламодателе
250
5
🤔 Что такое ROC/AUC? Это инструменты для оценки качества бинарных классификаторов. Они помогают визуально и количественно оценить, насколько хорошо модель разделяет два класса. 🚩Что такое ROC-кривая Это график, показывающий соотношение между истинно положительными и ложноположительными срабатываниями классификатора при различных порогах классификации. 🟠Истинно положительные срабатывания (True Positive Rate, TPR) Доля правильно предсказанных положительных примеров из всех положительных примеров (также называется чувствительность или recall). \text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}} 🟠Ложноположительные срабатывания (False Positive Rate, FPR) Доля неправильно предсказанных положительных примеров из всех отрицательных примеров. \text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}} 🚩Построение Строится путем изменения порога классификации модели от 0 до 1 и вычисления TPR и FPR для каждого значения порога. График строится с FPR по оси X и TPR по оси Y. 🚩Что такое AUC Это площадь под ROC-кривой. Значение AUC варьируется от 0 до 1 и интерпретируется следующим образом: 🟠AUC = 0.5 Модель не лучше случайного угадывания. 🟠AUC < 0.5 Модель хуже случайного угадывания (что редко случается в практике). 🟠AUC > 0.5 Модель лучше случайного угадывания. 🟠AUC = 1 Идеальная модель. Пример import numpy as np import matplotlib.pyplot as plt from sklearn.metrics import roc_curve, roc_auc_score # Пример данных y_true = [0, 0, 1, 1] # Истинные значения y_scores = [0.1, 0.4, 0.35, 0.8] # Предсказанные вероятности # Вычисление ROC-кривой fpr, tpr, thresholds = roc_curve(y_true, y_scores) roc_auc = roc_auc_score(y_true, y_scores) # Построение графика plt.figure() plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC-кривая (AUC = {roc_auc:.2f})') plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.0]) plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('ROC-кривая') plt.legend(loc="lower right") plt.show() Ставь 👍 и забирай 📚 Базу знаний
227
6
Хочешь начать карьеру в ИТ на оплачиваемой стажировке? Присоединяйся к ИТ-лагерю Т1 для студентов вузов технических и ИТ-спец
Хочешь начать карьеру в ИТ на оплачиваемой стажировке? Присоединяйся к ИТ-лагерю Т1 для студентов вузов технических и ИТ-специальностей. Теперь в обновлённом формате: ещё больше практики, доступ к платформам Т1, а участие — оплачивается и оформляется как стажировка. За 2,5 месяца вместе с проектной командой ты пройдешь полный цикл создания ИТ-продукта: от идеи до разработки прототипа и финальной защиты. Превратить идею в проект помогут мастер-классы, общение с экспертами и погружение в процессы Т1. Направления подготовки: ✅ ручное тестирование; ✅ прикладное администрирование (DevOps); ✅ системный анализ; ✅ фронтенд-разработка (React); ✅ бэкэнд-разработка (Java). Подай заявку до 30 июня! Старт — в июле. Узнать больше #реклама 16+ career.t1.ru О рекламодателе
224
7
🤔 Какая скорость поиска в хэш-таблице Скорость поиска в хэш-таблице (например, HashMap) в среднем составляет O(1), так как ключи напрямую отображаются в индекс с помощью хэш-функции. В худшем случае, при коллизиях, время поиска может увеличиваться до O(n), если хэш-таблица не оптимизирована или используется неэффективная стратегия разрешения коллизий. Однако в большинстве случаев эффективные хэш-функции и методы обработки коллизий поддерживают близкую к O(1) скорость. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
243
8
🤔 Как работает деревянный регрессор? Это статистическая модель, используемая для прогнозирования количественного ответа (непрерывной переменной), основанного на одной или нескольких предикторных переменных (факторах). Метод основан на серии вопросов, которые разделяют данные на более мелкие группы, и каждый раздел строится таким образом, чтобы он был как можно более однородным в отношении ответа. 🚩Как оно работает 🟠Выбор признака для разделения На каждом этапе дерево решений выбирает лучший признак и пороговое значение для разделения данных на две группы. "Лучший" означает минимизацию внутригрупповой дисперсии ответов, что делает группы как можно более однородными по ответу. 🟠Рекурсивное разбиение Этот процесс повторяется для каждой полученной подгруппы до тех пор, пока не будет достигнут критерий остановки, такой как максимальная глубина дерева, минимальное количество точек в листе или минимальное улучшение в однородности. 🟠Прогнозирование После построения дерева прогноз для новых данных делается путем прохождения по дереву до листа, соответствующего значениям признаков этого наблюдения. Прогнозируемое значение — это среднее значение ответов в листе. import numpy as np from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error # Генерация данных X = np.linspace(0, 10, 100).reshape(-1, 1) y = np.sin(X).ravel() + np.random.normal(0, 0.1, 100) # sin(x) с шумом # Разделение данных на обучающую и тестовую выборки X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Создание и обучение модели regressor = DecisionTreeRegressor(max_depth=5) regressor.fit(X_train, y_train) # Предсказание и оценка y_pred = regressor.predict(X_test) mse = mean_squared_error(y_test, y_pred) print("MSE:", mse) Ставь 👍 и забирай 📚 Базу знаний
282
9
🤔 За что мэп штрафует больше: за перепрогноз или недопрогноз? MAP (Mean Average Precision) больше штрафует за недопрогноз (упущенные релевантные элементы), так как метрика ориентирована на точность в верхней части ранжированного списка. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
299
10
🤔 Почему считается, что случайный лес не переобучается? Считается, что случайный лес не склонен к переобучению, потому что он усредняет предсказания большого количества деревьев решений, каждое из которых обучается на случайной подвыборке данных и случайных признаках. Этот процесс помогает уменьшить влияние отдельных переобученных деревьев на финальное предсказание. В результате модель становится более устойчивой к ошибкам и шуму в данных. Кроме того, случайный лес не сильно зависит от малозначимых признаков, так как случайные выборки уменьшают их влияние. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
353
11
🤔 В чем разница между метрикой качества и функцией потери при обучении? Метрика качества оценивает, насколько хорошо модель работает, сравнивая её предсказания с реальными данными (например, Accuracy, Precision, ROC AUC). Функция потери измеряет ошибку модели и используется во время обучения для минимизации этой ошибки (например, MSE, Cross-Entropy). Метрика качества часто применяется на тестовых данных, а функция потери — на этапе оптимизации модели Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
396
12
Как усилить вовлечение коллег в корпоративное обучение 📚Сотрудники включают обучающие вебинары фоном, пролистывают курсы и п
Как усилить вовлечение коллег в корпоративное обучение 📚Сотрудники включают обучающие вебинары фоном, пролистывают курсы и проходят тесты с помощью ИИ? 18 июня на вебинаре эксперты МТС Линк и ProctorEdu разберут, как выстроить онлайн-обучение с контролем знаний, вовлечением слушателей и достоверной проверкой результатов. ✅Вы узнаете, как: • организовать эффективное асинхронное обучение с использованием ИИ; • заменить «говорящую голову» на более вовлекающие форматы; • контролировать использование ИИ, переключение на другие вкладки и смартфоны для прохождения тестирований; • использовать онлайн-оценки для управленческих и кадровых решений. 💻 Вебинар будет полезен: — директорам по персоналу; — менеджерам по обучению и развитию сотрудников; — руководителям корпоративных университетов. Регистрируйтесь по ссылке Зарегистрироваться #реклама 16+ my.mts-link.ru О рекламодателе
287
13
🤔 При свёртке картинки HxW матрицей 3x3, что получится в итоге? Результирующий размер изображения будет (H−2)×(W−2)(H-2) \times (W-2), если не использовать дополнение, так как свёртка "обрезает" края. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
459
14
Аренда VPS/VDS-сервера. Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес.
Аренда VPS/VDS-сервера. Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес. Преимущества аренды: - Выделенные ресурсы без переплаты; - KVM-виртуализация; - Быстрые NVMe SSD; - Соответствие 152-ФЗ, PCI DSS; - Бесплатная защита от DDoS; - Управление через панель, API и Terraform; - Техподдержка 24/7. Запустите сервер за несколько минут! Попробовать #реклама 16+ selectel.ru О рекламодателе
310
15
🤔 Как оценивать эффективность работы рекомендательных моделей? Используются метрики: 1. Precision@K и Recall@K для точности и полноты рекомендаций. 2. NDCG для оценки релевантности на основе позиций элементов. 3. Coverage — доля уникальных рекомендованных элементов. 4. Оценка на основе A/B-тестов или пользовательских метрик, таких как удержание. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
491
16
🤔 В чем различия между методами apply и applymap? В pandas `apply` используется для применения функции вдоль оси DataFrame (по строкам или столбцам), в то время как `applymap` применяется к каждому элементу DataFrame индивидуально. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
506
17
🤔 Как градиент бустинг регрессор работает? Градиент бустинг регрессор строит множество слабых моделей, таких как деревья решений, и комбинирует их для улучшения предсказаний. Модели обучаются последовательно, каждая новая модель пытается скорректировать ошибки предыдущих. На каждом шаге модель минимизирует ошибку, используя градиент функции потерь для обновления предсказаний. Этот процесс продолжается до тех пор, пока не будет достигнута определенная точность или не исчерпаны ресурсы. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
534
18
🤔 Чему равно p-value для выброса? Это вероятность получить значение настолько же экстремальное, как наблюдаемое, при условии, что оно принадлежит общему распределению. Чем меньше p-value, тем выше вероятность, что точка — выброс. Значение зависит от метода (Grubbs, Dixon, Z-score и др.). Обычно, если p < 0.05, точка может считаться выбросом. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
558
19
🤔 Что значит AUC <0.5? Что с ним делать? AUC (Area Under the Curve) — это площадь под ROC-кривой, которая измеряет, насколько хорошо модель классифицирует объекты. AUC = 1.0 → идеальная модель (отлично различает классы). AUC = 0.5 → модель не лучше случайного угадывания. AUC < 0.5 → модель предсказывает хуже, чем случайное угадывание. Если AUC < 0.5, это означает, что модель инвертирует классы: когда она уверена, что объект относится к положительному классу, на самом деле он отрицательный, и наоборот. 🚩Что делать? 🟠Проверить, не перепутаны ли метки классов Иногда в данных метки классов (0 и 1) могут быть инверсированы. Попробуйте изменить 0 на 1 и наоборот, а затем пересчитать AUC. 🟠Инвертировать предсказания Если модель действительно "перепутала" предсказания, можно просто изменить знак вероятностей: y_pred_inverted = 1 - y_pred 🟠Проверить ошибки в данных Возможно, есть ошибки в признаках, модель обучается на шуме или неправильных данных. 🟠Переобучить модель с другими параметрами Попробуйте изменить гиперпараметры или использовать другую модель. Ставь 👍 и забирай 📚 Базу знаний
597
20
🤔 Как работает MSE? MSE (Mean Squared Error) — это метрика, используемая для оценки качества модели регрессии, которая измеряет среднее квадратичное отклонение предсказанных значений от фактических. Она рассчитывается как среднее арифметическое квадратов разности между предсказанными и реальными значениями: `MSE = (1/n) * Σ(actual - predicted)^2`, где n — количество наблюдений. MSE чувствительна к большим ошибкам, так как квадраты отклонений увеличивают вес крупных ошибок. Цель модели — минимизировать MSE, чтобы предсказания были как можно ближе к фактическим значениям. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
532