fa
Feedback
Data Science | Вопросы собесов

Data Science | Вопросы собесов

رفتن به کانال در Telegram
4 944
مشترکین
-124 ساعت
-47 روز
-2030 روز
جذب مشترکین
ژوئن '26
ژوئن '26
+16
در 0 کانال‌ها
مه '26
+32
در 0 کانال‌ها
Get PRO
آوریل '26
+55
در 0 کانال‌ها
Get PRO
مارس '26
+58
در 0 کانال‌ها
Get PRO
فوریه '26
+115
در 0 کانال‌ها
Get PRO
ژانویه '26
+100
در 0 کانال‌ها
Get PRO
دسامبر '25
+62
در 0 کانال‌ها
Get PRO
نوامبر '25
+110
در 0 کانال‌ها
Get PRO
اکتبر '25
+132
در 1 کانال‌ها
Get PRO
سپتامبر '25
+75
در 0 کانال‌ها
Get PRO
اوت '25
+82
در 0 کانال‌ها
Get PRO
ژوئیه '25
+125
در 0 کانال‌ها
Get PRO
ژوئن '25
+127
در 0 کانال‌ها
Get PRO
مه '25
+124
در 1 کانال‌ها
Get PRO
آوریل '25
+166
در 0 کانال‌ها
Get PRO
مارس '25
+598
در 5 کانال‌ها
Get PRO
فوریه '25
+332
در 4 کانال‌ها
Get PRO
ژانویه '25
+201
در 53 کانال‌ها
Get PRO
دسامبر '24
+120
در 0 کانال‌ها
Get PRO
نوامبر '24
+162
در 1 کانال‌ها
Get PRO
اکتبر '24
+310
در 40 کانال‌ها
Get PRO
سپتامبر '24
+408
در 249 کانال‌ها
Get PRO
اوت '24
+181
در 1 کانال‌ها
Get PRO
ژوئیه '24
+342
در 54 کانال‌ها
Get PRO
ژوئن '24
+924
در 244 کانال‌ها
Get PRO
مه '24
+999
در 191 کانال‌ها
Get PRO
آوریل '24
+689
در 23 کانال‌ها
تاریخ
رشد مشترکین
اشارات
کانال‌ها
08 ژوئن+3
07 ژوئن+1
06 ژوئن+1
05 ژوئن+1
04 ژوئن+2
03 ژوئن+2
02 ژوئن+5
01 ژوئن+1
پست‌های کانال
🤔 При свёртке картинки HxW матрицей 3x3, что получится в итоге? Результирующий размер изображения будет (H−2)×(W−2)(H-2) \times (W-2), если не использовать дополнение, так как свёртка "обрезает" края. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

2
Аренда VPS/VDS-сервера. Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес.
Аренда VPS/VDS-сервера. Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес. Преимущества аренды: - Выделенные ресурсы без переплаты; - KVM-виртуализация; - Быстрые NVMe SSD; - Соответствие 152-ФЗ, PCI DSS; - Бесплатная защита от DDoS; - Управление через панель, API и Terraform; - Техподдержка 24/7. Запустите сервер за несколько минут! Попробовать #реклама 16+ selectel.ru О рекламодателе
256
3
🤔 Как оценивать эффективность работы рекомендательных моделей? Используются метрики: 1. Precision@K и Recall@K для точности и полноты рекомендаций. 2. NDCG для оценки релевантности на основе позиций элементов. 3. Coverage — доля уникальных рекомендованных элементов. 4. Оценка на основе A/B-тестов или пользовательских метрик, таких как удержание. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
284
4
🤔 В чем различия между методами apply и applymap? В pandas `apply` используется для применения функции вдоль оси DataFrame (по строкам или столбцам), в то время как `applymap` применяется к каждому элементу DataFrame индивидуально. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
329
5
🤔 Как градиент бустинг регрессор работает? Градиент бустинг регрессор строит множество слабых моделей, таких как деревья решений, и комбинирует их для улучшения предсказаний. Модели обучаются последовательно, каждая новая модель пытается скорректировать ошибки предыдущих. На каждом шаге модель минимизирует ошибку, используя градиент функции потерь для обновления предсказаний. Этот процесс продолжается до тех пор, пока не будет достигнута определенная точность или не исчерпаны ресурсы. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
359
6
🤔 Чему равно p-value для выброса? Это вероятность получить значение настолько же экстремальное, как наблюдаемое, при условии, что оно принадлежит общему распределению. Чем меньше p-value, тем выше вероятность, что точка — выброс. Значение зависит от метода (Grubbs, Dixon, Z-score и др.). Обычно, если p < 0.05, точка может считаться выбросом. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
430
7
🤔 Что значит AUC <0.5? Что с ним делать? AUC (Area Under the Curve) — это площадь под ROC-кривой, которая измеряет, насколько хорошо модель классифицирует объекты. AUC = 1.0 → идеальная модель (отлично различает классы). AUC = 0.5 → модель не лучше случайного угадывания. AUC < 0.5 → модель предсказывает хуже, чем случайное угадывание. Если AUC < 0.5, это означает, что модель инвертирует классы: когда она уверена, что объект относится к положительному классу, на самом деле он отрицательный, и наоборот. 🚩Что делать? 🟠Проверить, не перепутаны ли метки классов Иногда в данных метки классов (0 и 1) могут быть инверсированы. Попробуйте изменить 0 на 1 и наоборот, а затем пересчитать AUC. 🟠Инвертировать предсказания Если модель действительно "перепутала" предсказания, можно просто изменить знак вероятностей: y_pred_inverted = 1 - y_pred 🟠Проверить ошибки в данных Возможно, есть ошибки в признаках, модель обучается на шуме или неправильных данных. 🟠Переобучить модель с другими параметрами Попробуйте изменить гиперпараметры или использовать другую модель. Ставь 👍 и забирай 📚 Базу знаний
471
8
🤔 Как работает MSE? MSE (Mean Squared Error) — это метрика, используемая для оценки качества модели регрессии, которая измеряет среднее квадратичное отклонение предсказанных значений от фактических. Она рассчитывается как среднее арифметическое квадратов разности между предсказанными и реальными значениями: `MSE = (1/n) * Σ(actual - predicted)^2`, где n — количество наблюдений. MSE чувствительна к большим ошибкам, так как квадраты отклонений увеличивают вес крупных ошибок. Цель модели — минимизировать MSE, чтобы предсказания были как можно ближе к фактическим значениям. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
436
9
🤔 В чем преимущество медианы над средним? Медиана менее чувствительна к выбросам, чем среднее (mean): - Среднее (Mean) – учитывает все значения, поэтому искажается выбросами. - Медиана (Median) – просто находит центральное значение в упорядоченном ряду, игнорируя крайние выбросы. Медиана особенно полезна при распределении доходов, цен, длительностей и других данных с выбросами. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
440
10
👨👨👨👨👨👨👨👨👨👨 Каналы с IT вакансиями и стажировками Подписывайся и забирай свой оффер 🤘 1. Стажировки и вакансии по Р
👨👨👨👨👨👨👨👨👨👨 Каналы с IT вакансиями и стажировками Подписывайся и забирай свой оффер 🤘 1. Стажировки и вакансии по России и миру 2. IT вакансии по СНГ 3. IT стажировки по СНГ 4. ИИ-ассистент для автооткликов 5. DIGITAL и IT стажировки и вакансии 6. IT стажировки в топовых компаниях мира 7. Удалённые IT вакансии и стажировки 8. Python вакансии и стажировки 9. БИГТЕХ вакансии и стажировки 10. Design вакансии и стажировки 11. QA вакансии и стажировки 12. Junior вакансии и стажировки 13. Frontend вакансии и вопросы собесов 14. Вакансии и стажировки для аналитиков 15. Вакансии в русских стартапах за границей 16. Вакансии и стажировки для DevOps 17. Вакансии, которых нет на ХХ.РУ
438
11
🤔 Как считается метрика IoU? Метрика IoU (Intersection over Union) используется для оценки качества совпадения предсказанной области с истинной областью в задачах сегментации или обнаружения объектов. Она вычисляется как отношение площади пересечения двух областей (предсказанной и истинной) к площади их объединения. 🚩Пример расчета IoU 🟠Предсказанная область: допустим, у нас есть предсказанный прямоугольник с координатами \((x_1, y_1, x_2, y_2)\). 🟠Истинная область: истинный прямоугольник с координатами \((x_1', y_1', x_2', y_2')\). 🚩Выполнение расчета пересечения и объединения: 1⃣Найти координаты пересекающегося прямоугольника: \(\text{left} = \max(x_1, x_1')\) \(\text{right} = \min(x_2, x_2')\) \(\text{top} = \max(y_1, y_1')\) \(\text{bottom} = \min(y_2, y_2')\) 2⃣Рассчитать площадь пересечения: \(\text{Площадь пересечения} = \max(0, \text{right} - \text{left}) \times \max(0, \text{bottom} - \text{top})\) 3⃣Рассчитать площадь объединения: \(\text{Площадь объединения} = \text{Площадь предсказанной области} + \text{Площадь истинной области} - \text{Площадь пересечения}\) def calculate_iou(box1, box2): """ Вычисляет IoU для двух прямоугольников. box1 и box2 — это списки или кортежи, содержащие координаты прямоугольника в формате (x1, y1, x2, y2) """ x1, y1, x2, y2 = box1 x1_prime, y1_prime, x2_prime, y2_prime = box2 # Вычисляем координаты пересекающейся области xi1 = max(x1, x1_prime) yi1 = max(y1, y1_prime) xi2 = min(x2, x2_prime) yi2 = min(y2, y2_prime) # Вычисляем площадь пересечения inter_width = max(0, xi2 - xi1) inter_height = max(0, yi2 - yi1) inter_area = inter_width * inter_height # Вычисляем площади обоих прямоугольников box1_area = (x2 - x1) * (y2 - y1) box2_area = (x2_prime - x1_prime) * (y2_prime - y1_prime) # Вычисляем площадь объединения union_area = box1_area + box2_area - inter_area # Вычисляем IoU iou = inter_area / union_area return iou # Пример использования box1 = (1, 1, 3, 3) box2 = (2, 2, 4, 4) print(f"IoU: {calculate_iou(box1, box2)}") Ставь 👍 и забирай 📚 Базу знаний
372
12
🤔 Почему в нейронных сетях нельзя инициализировать веса нулями? 1. Симметричность: При инициализации весов нулями все нейроны в слое начинают обучение одинаково, что делает их идентичными. 2. Отсутствие обучения: Градиенты для всех нейронов слоя будут одинаковыми, из-за чего они не смогут различаться и обучаться. 3. Решение: Инициализация случайными значениями разрывает симметрию, позволяя нейронам обучаться независимо друг от друга. Стандартные методы, такие как He или Xavier инициализация, обеспечивают оптимальный начальный размах весов. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
382
13
🤔 В чём отличия RoBERTa от BERT? Это улучшенная версия модели BERT (Bidirectional Encoder Representations from Transformers), созданная с целью повышения её производительности за счёт модификации процесса обучения. Оба алгоритма основаны на архитектуре трансформеров и применяются для задач обработки естественного языка (NLP), таких как классификация текста, вопрос-ответные системы и другие. Основные отличия между RoBERTa и BERT заключаются в подходе к обучению. 🚩Основные отличия RoBERTa от BERT 🟠Масштаб и объём данных для обучения BERT: Обучался на двух корпусах текстов: Wikipedia (2,5 млрд слов) и BookCorpus (800 млн слов). RoBERTa: Использует значительно больший объём данных (~160 ГБ), включая: Common Crawl News; OpenWebText; Stories от BooksCorpus и других источников. 🟠Оптимизация задачи маскированного моделирования языка (MLM) BERT: Маскирует 15% токенов во входных данных и использует эту фиксированную маскировку на протяжении всей эпохи обучения. RoBERTa: Применяет динамическую маскировку токенов, где токены маскируются случайно на каждой итерации. 🟠Исключение задачи NSP (Next Sentence Prediction) BERT: Обучается на задаче NSP, где модель предсказывает, идут ли два предложения подряд. RoBERTa: Убрала задачу NSP, так как эксперименты показали, что она незначительно влияет на производительность. 🟠Размер батча и количество шагов BERT: Использует меньшие размеры батча (до 256) и обучался 1 млн шагов. RoBERTa: Увеличивает размер батча до 8,000 и обучается 500,000 шагов. 🟠Использование гиперпараметров RoBERTa уделяет больше внимания точной настройке гиперпараметров, таких как скорость обучения и размеры батча. 🚩Результаты и преимущества RoBERTa RoBERTa демонстрирует лучшую производительность на многих бенчмарках, таких как GLUE, SQuAD и RACE, в сравнении с BERT. Она более эффективна при больших вычислительных ресурсах и данных. 🚩Пример применения RoBERTa from transformers import RobertaTokenizer, RobertaForSequenceClassification import torch # Загрузка токенайзера и модели RoBERTa tokenizer = RobertaTokenizer.from_pretrained("roberta-base") model = RobertaForSequenceClassification.from_pretrained("roberta-base") # Входной текст text = "RoBERTa is an optimized version of BERT." # Токенизация inputs = tokenizer(text, return_tensors="pt") # Предсказание outputs = model(**inputs) logits = outputs.logits print("Logits:", logits) Ставь 👍 и забирай 📚 Базу знаний
431
14
Получи грант до 1,35 млн руб. на обучение в магистратуре Хочешь развиваться в сфере ИТ и получить фундаментальные знания с пр
Получи грант до 1,35 млн руб. на обучение в магистратуре Хочешь развиваться в сфере ИТ и получить фундаментальные знания с практикой? Поступай в магистратуру Центрального университета! — 4 офлайн программы по востребованным направлениям ИТ — 2 онлайн-программы: машинное обучение и продуктовый менеджмент — 550 грантов до 75% — Вечерние занятия и учеба по выходным — удобно совмещать с работой — Обучение по модели STEM-образования: на стыке науки, технологий и бизнеса — Возможность стажировок и трудоустройства в ведущих компаниях — Государственный диплом за 2 года Магистратура в Центральном университете — это современный подход к образованию, сильный преподавательский состав и актуальные кейсы от индустрии. Оставляй заявку на грант уже сейчас! Зарегистрироваться #реклама 16+ cu.ru О рекламодателе
344
15
🤔 Как работает градиентный бустинг регрессор? Это ансамблевый метод, который комбинирует множество слабых моделей (обычно деревьев решений) для улучшения качества предсказаний: 1. Первая модель предсказывает исходные данные, а остатки ошибок передаются следующей. 2. Каждое новое дерево обучается на ошибках предыдущих, уменьшая отклонения. 3. Градиентный спуск минимизирует ошибку, выбирая оптимальные веса. 4. Итоговое предсказание – это взвешенная сумма предсказаний всех деревьев. Градиентный бустинг хорошо работает с нелинейными зависимостями и устойчив к выбросам. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний
435
16
🤔 Как в столбце найти медиану,не используя функцию median? 💬 Спрашивают в 14% собеседований Чтобы найти медиану в столбце данных без использования встроенной функции median, можно использовать сортировку и вычисление медианы вручную. Давайте рассмотрим этот процесс шаг за шагом. 🚩Пошаговое объяснение: 🟠Сбор данных: Изначально у нас есть набор данных, который мы представим в виде списка. 🟠Сортировка данных: Мы сортируем этот список по возрастанию. 🟠Определение длины списка: Вычисляем количество элементов в списке. 🟠Поиск медианы: Если количество элементов нечетное, медианой будет центральный элемент отсортированного списка. Если количество элементов четное, медианой будет среднее значение двух центральных элементов отсортированного списка. 🤔 Пример кода на Python: # Пример данных data = [2.3, 5.1, 7.4, 2.9, 6.5, 4.8, 3.1, 5.7, 8.2, 3.4] 🟠Сортировка данных sorted_data = sorted(data) 🟠Определение длины списка n = len(sorted_data) 🟠Поиск медианы if n % 2 == 1: # Нечетное количество элементов median = sorted_data[n // 2] else: # Четное количество элементов mid1 = sorted_data[n // 2 - 1] mid2 = sorted_data[n // 2] median = (mid1 + mid2) / 2 print(f"Медиана: {median}") Объяснение кода: 🟠Сортировка данных: Мы используем функцию sorted() для сортировки данных по возрастанию. 🟠Определение длины списка: Переменная n хранит количество элементов в отсортированном списке. 🟠Поиск медианы: - Если n нечетное (определяется с помощью n % 2 == 1), медианой является центральный элемент, который находится на позиции n // 2. - Если n четное, медианой является среднее значение двух центральных элементов. Эти элементы находятся на позициях n // 2 - 1 и n // 2. Ставь 👍 и забирай 📚 Базу знаний
478
17
Оценивать влияние медийной рекламы стало проще Теперь исследование Target Lift может учитывать не только веб-конверсии, но и
Оценивать влияние медийной рекламы стало проще Теперь исследование Target Lift может учитывать не только веб-конверсии, но и in-app события (заказы, заявки и другие действия в приложении) после контакта с медийной рекламой. ⚡Это особенно полезно для бизнесов, где приложение — один из ключевых каналов взаимодействия с аудиторией. По результатам тестов, у таких бизнесов количество исследований со статистически значимыми приростами увеличивается на 60% по сравнению с результатами, которые они получали при анализе только веб-трафика. Для настройки можно использовать AppMetrica, Adjust или AppsFlyer. При использовании Adjust или AppsFlyer важно настроить передачу данных по всем рекламным источникам, чтобы корректно учитывать post-view конверсии и получать более полную аналитику. Подробнее в статье Перейти на сайт #реклама 16+ yandex.ru О рекламодателе
207
18
ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее к
ИИ в аналитике — новый стандарт для бизнеса Сегодня компании, внедряющие ИИ в аналитику, получают решения и инсайты быстрее конкурентов. Те, кто остаётся на старых подходах, теряют скорость и преимущество. Аналитика с искусственным интеллектом становится новым стандартом рынка — и те, кто не объединит бизнес-аналитику и ИИ сейчас, рискуют остаться за бортом. 3 июня Visiology проведёт бесплатный онлайн-эфир о том, как ИИ ускоряет работу с данными, сокращает ручную отчётность и помогает получать ответы без долгой подготовки. Обсудим: — ИИ-помощников для аналитики и поиска закономерностей; — автоматизацию отчётности; — как быстрее находить ответы в данных; и многое другое. Эфир полезен аналитикам, ИТ-командам и руководителям. Мероприятие уже скоро — успейте зарегистрироваться.
209
19
Аренда VPS/VDS-сервера. Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес.
Аренда VPS/VDS-сервера. Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес. Преимущества аренды: - Выделенные ресурсы без переплаты; - KVM-виртуализация; - Быстрые NVMe SSD; - Соответствие 152-ФЗ, PCI DSS; - Бесплатная защита от DDoS; - Управление через панель, API и Terraform; - Техподдержка 24/7. Запустите сервер за несколько минут! Попробовать #реклама 16+ selectel.ru О рекламодателе
0
20
Кажется, аналитика подошла к моменту больших изменений. Ещё недавно подготовка отчётов занимала дни: данные собирались вручну
Кажется, аналитика подошла к моменту больших изменений. Ещё недавно подготовка отчётов занимала дни: данные собирались вручную, цифры перепроверялись, а бизнес слишком долго ждал ответы. Сейчас искусственный интеллект меняет сам подход к работе с данными — делает аналитику быстрее, проще и доступнее. 3 июня Visiology проведёт большой онлайн-эфир Cortex LIVE о новом поколении аналитики. На бесплатном онлайн-эфире покажут: — как ускорить получение аналитики — как сократить объём ручной работы — как быстрее находить ответы для бизнеса — как компании уже меняют подход к работе с данными Без сложной теории — только реальные примеры и практические сценарии. Если вы работаете с аналитикой, отчётностью или управлением, этот эфир точно стоит посмотреть. Регистрируйтесь!
0