Data Science | Вопросы собесов
Открыть в Telegram
Cайт easyoffer.ru Реклама @easyoffer_adv ВП @easyoffer_vp Тесты t.me/+Kn2WW6VoGrZkNzky Вакансии t.me/+Ir52wMvyEgo5YWIy
Больше4 940
Подписчики
Нет данных24 часа
-57 дней
-2630 день
Загрузка данных...
Похожие каналы
Облако тегов
Входящие и исходящие упоминания
---
---
---
---
---
---
Привлечение подписчиков
июнь '26
июнь '26
+20
в 0 каналах
май '26
+32
в 0 каналах
Get PRO
апрель '26
+55
в 0 каналах
Get PRO
март '26
+58
в 0 каналах
Get PRO
февраль '26
+115
в 0 каналах
Get PRO
январь '26
+100
в 0 каналах
Get PRO
декабрь '25
+62
в 0 каналах
Get PRO
ноябрь '25
+110
в 0 каналах
Get PRO
октябрь '25
+132
в 1 каналах
Get PRO
сентябрь '25
+75
в 0 каналах
Get PRO
август '25
+82
в 0 каналах
Get PRO
июль '25
+125
в 0 каналах
Get PRO
июнь '25
+127
в 0 каналах
Get PRO
май '25
+124
в 1 каналах
Get PRO
апрель '25
+166
в 0 каналах
Get PRO
март '25
+598
в 5 каналах
Get PRO
февраль '25
+332
в 4 каналах
Get PRO
январь '25
+201
в 53 каналах
Get PRO
декабрь '24
+120
в 0 каналах
Get PRO
ноябрь '24
+162
в 1 каналах
Get PRO
октябрь '24
+310
в 40 каналах
Get PRO
сентябрь '24
+408
в 249 каналах
Get PRO
август '24
+181
в 1 каналах
Get PRO
июль '24
+342
в 54 каналах
Get PRO
июнь '24
+924
в 244 каналах
Get PRO
май '24
+999
в 191 каналах
Get PRO
апрель '24
+689
в 23 каналах
| Дата | Привлечение подписчиков | Упоминания | Каналы | |
| 12 июня | 0 | |||
| 11 июня | +2 | |||
| 10 июня | 0 | |||
| 09 июня | +2 | |||
| 08 июня | +3 | |||
| 07 июня | +1 | |||
| 06 июня | +1 | |||
| 05 июня | +1 | |||
| 04 июня | +2 | |||
| 03 июня | +2 | |||
| 02 июня | +5 | |||
| 01 июня | +1 |
Посты канала
Хочешь начать карьеру в ИТ на оплачиваемой стажировке?
Присоединяйся к ИТ-лагерю Т1 для студентов вузов технических и ИТ-специальностей. Теперь в обновлённом формате: ещё больше практики, доступ к платформам Т1, а участие — оплачивается и оформляется как стажировка.
За 2,5 месяца вместе с проектной командой ты пройдешь полный цикл создания ИТ-продукта: от идеи до разработки прототипа и финальной защиты. Превратить идею в проект помогут мастер-классы, общение с экспертами и погружение в процессы Т1.
Направления подготовки:
✅ ручное тестирование;
✅ прикладное администрирование (DevOps);
✅ системный анализ;
✅ фронтенд-разработка (React);
✅ бэкэнд-разработка (Java).
Подай заявку до 30 июня! Старт — в июле.
Узнать больше
#реклама 16+
career.t1.ru
О рекламодателе
| 2 | 🤔 Какая скорость поиска в хэш-таблице
Скорость поиска в хэш-таблице (например, HashMap) в среднем составляет O(1), так как ключи напрямую отображаются в индекс с помощью хэш-функции. В худшем случае, при коллизиях, время поиска может увеличиваться до O(n), если хэш-таблица не оптимизирована или используется неэффективная стратегия разрешения коллизий. Однако в большинстве случаев эффективные хэш-функции и методы обработки коллизий поддерживают близкую к O(1) скорость.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 162 |
| 3 | 🤔 Как работает деревянный регрессор?
Это статистическая модель, используемая для прогнозирования количественного ответа (непрерывной переменной), основанного на одной или нескольких предикторных переменных (факторах). Метод основан на серии вопросов, которые разделяют данные на более мелкие группы, и каждый раздел строится таким образом, чтобы он был как можно более однородным в отношении ответа.
🚩Как оно работает
🟠Выбор признака для разделения
На каждом этапе дерево решений выбирает лучший признак и пороговое значение для разделения данных на две группы. "Лучший" означает минимизацию внутригрупповой дисперсии ответов, что делает группы как можно более однородными по ответу.
🟠Рекурсивное разбиение
Этот процесс повторяется для каждой полученной подгруппы до тех пор, пока не будет достигнут критерий остановки, такой как максимальная глубина дерева, минимальное количество точек в листе или минимальное улучшение в однородности.
🟠Прогнозирование
После построения дерева прогноз для новых данных делается путем прохождения по дереву до листа, соответствующего значениям признаков этого наблюдения. Прогнозируемое значение — это среднее значение ответов в листе.
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
# Генерация данных
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = np.sin(X).ravel() + np.random.normal(0, 0.1, 100) # sin(x) с шумом
# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Создание и обучение модели
regressor = DecisionTreeRegressor(max_depth=5)
regressor.fit(X_train, y_train)
# Предсказание и оценка
y_pred = regressor.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)
Ставь 👍 и забирай 📚 Базу знаний | 208 |
| 4 | 🤔 За что мэп штрафует больше: за перепрогноз или недопрогноз?
MAP (Mean Average Precision) больше штрафует за недопрогноз (упущенные релевантные элементы), так как метрика ориентирована на точность в верхней части ранжированного списка.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 240 |
| 5 | 🤔 Почему считается, что случайный лес не переобучается?
Считается, что случайный лес не склонен к переобучению, потому что он усредняет предсказания большого количества деревьев решений, каждое из которых обучается на случайной подвыборке данных и случайных признаках. Этот процесс помогает уменьшить влияние отдельных переобученных деревьев на финальное предсказание. В результате модель становится более устойчивой к ошибкам и шуму в данных. Кроме того, случайный лес не сильно зависит от малозначимых признаков, так как случайные выборки уменьшают их влияние.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 295 |
| 6 | 🤔 В чем разница между метрикой качества и функцией потери при обучении?
Метрика качества оценивает, насколько хорошо модель работает, сравнивая её предсказания с реальными данными (например, Accuracy, Precision, ROC AUC). Функция потери измеряет ошибку модели и используется во время обучения для минимизации этой ошибки (например, MSE, Cross-Entropy). Метрика качества часто применяется на тестовых данных, а функция потери — на этапе оптимизации модели
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 340 |
| 7 | Как усилить вовлечение коллег в корпоративное обучение
📚Сотрудники включают обучающие вебинары фоном, пролистывают курсы и проходят тесты с помощью ИИ?
18 июня на вебинаре эксперты МТС Линк и ProctorEdu разберут, как выстроить онлайн-обучение с контролем знаний, вовлечением слушателей и достоверной проверкой результатов.
✅Вы узнаете, как:
• организовать эффективное асинхронное обучение с использованием ИИ;
• заменить «говорящую голову» на более вовлекающие форматы;
• контролировать использование ИИ, переключение на другие вкладки и смартфоны для прохождения тестирований;
• использовать онлайн-оценки для управленческих и кадровых решений.
💻 Вебинар будет полезен:
— директорам по персоналу;
— менеджерам по обучению и развитию сотрудников;
— руководителям корпоративных университетов.
Регистрируйтесь по ссылке
Зарегистрироваться
#реклама 16+
my.mts-link.ru
О рекламодателе | 287 |
| 8 | 🤔 При свёртке картинки HxW матрицей 3x3, что получится в итоге?
Результирующий размер изображения будет (H−2)×(W−2)(H-2) \times (W-2), если не использовать дополнение, так как свёртка "обрезает" края.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 409 |
| 9 | Аренда VPS/VDS-сервера.
Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес.
Преимущества аренды:
- Выделенные ресурсы без переплаты;
- KVM-виртуализация;
- Быстрые NVMe SSD;
- Соответствие 152-ФЗ, PCI DSS;
- Бесплатная защита от DDoS;
- Управление через панель, API и Terraform;
- Техподдержка 24/7.
Запустите сервер за несколько минут!
Попробовать
#реклама 16+
selectel.ru
О рекламодателе | 310 |
| 10 | 🤔 Как оценивать эффективность работы рекомендательных моделей?
Используются метрики:
1. Precision@K и Recall@K для точности и полноты рекомендаций.
2. NDCG для оценки релевантности на основе позиций элементов.
3. Coverage — доля уникальных рекомендованных элементов.
4. Оценка на основе A/B-тестов или пользовательских метрик, таких как удержание.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 449 |
| 11 | 🤔 В чем различия между методами apply и applymap?
В pandas `apply` используется для применения функции вдоль оси DataFrame (по строкам или столбцам), в то время как `applymap` применяется к каждому элементу DataFrame индивидуально.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 479 |
| 12 | 🤔 Как градиент бустинг регрессор работает?
Градиент бустинг регрессор строит множество слабых моделей, таких как деревья решений, и комбинирует их для улучшения предсказаний. Модели обучаются последовательно, каждая новая модель пытается скорректировать ошибки предыдущих. На каждом шаге модель минимизирует ошибку, используя градиент функции потерь для обновления предсказаний. Этот процесс продолжается до тех пор, пока не будет достигнута определенная точность или не исчерпаны ресурсы.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 467 |
| 13 | 🤔 Чему равно p-value для выброса?
Это вероятность получить значение настолько же экстремальное, как наблюдаемое, при условии, что оно принадлежит общему распределению.
Чем меньше p-value, тем выше вероятность, что точка — выброс.
Значение зависит от метода (Grubbs, Dixon, Z-score и др.). Обычно, если p < 0.05, точка может считаться выбросом.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 507 |
| 14 | 🤔 Что значит AUC <0.5? Что с ним делать?
AUC (Area Under the Curve) — это площадь под ROC-кривой, которая измеряет, насколько хорошо модель классифицирует объекты.
AUC = 1.0 → идеальная модель (отлично различает классы).
AUC = 0.5 → модель не лучше случайного угадывания.
AUC < 0.5 → модель предсказывает хуже, чем случайное угадывание.
Если AUC < 0.5, это означает, что модель инвертирует классы: когда она уверена, что объект относится к положительному классу, на самом деле он отрицательный, и наоборот.
🚩Что делать?
🟠Проверить, не перепутаны ли метки классов
Иногда в данных метки классов (0 и 1) могут быть инверсированы. Попробуйте изменить 0 на 1 и наоборот, а затем пересчитать AUC.
🟠Инвертировать предсказания
Если модель действительно "перепутала" предсказания, можно просто изменить знак вероятностей:
y_pred_inverted = 1 - y_pred
🟠Проверить ошибки в данных
Возможно, есть ошибки в признаках, модель обучается на шуме или неправильных данных.
🟠Переобучить модель с другими параметрами
Попробуйте изменить гиперпараметры или использовать другую модель.
Ставь 👍 и забирай 📚 Базу знаний | 548 |
| 15 | 🤔 Как работает MSE?
MSE (Mean Squared Error) — это метрика, используемая для оценки качества модели регрессии, которая измеряет среднее квадратичное отклонение предсказанных значений от фактических. Она рассчитывается как среднее арифметическое квадратов разности между предсказанными и реальными значениями: `MSE = (1/n) * Σ(actual - predicted)^2`, где n — количество наблюдений. MSE чувствительна к большим ошибкам, так как квадраты отклонений увеличивают вес крупных ошибок. Цель модели — минимизировать MSE, чтобы предсказания были как можно ближе к фактическим значениям.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 471 |
| 16 | 🤔 В чем преимущество медианы над средним?
Медиана менее чувствительна к выбросам, чем среднее (mean):
- Среднее (Mean) – учитывает все значения, поэтому искажается выбросами.
- Медиана (Median) – просто находит центральное значение в упорядоченном ряду, игнорируя крайние выбросы.
Медиана особенно полезна при распределении доходов, цен, длительностей и других данных с выбросами.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 496 |
| 17 | 👨👨👨👨👨👨👨👨👨👨
Каналы с IT вакансиями
и стажировками
Подписывайся и забирай свой оффер 🤘
1. Стажировки и вакансии по России и миру
2. IT вакансии по СНГ
3. IT стажировки по СНГ
4. ИИ-ассистент для автооткликов
5. DIGITAL и IT стажировки и вакансии
6. IT стажировки в топовых компаниях мира
7. Удалённые IT вакансии и стажировки
8. Python вакансии и стажировки
9. БИГТЕХ вакансии и стажировки
10. Design вакансии и стажировки
11. QA вакансии и стажировки
12. Junior вакансии и стажировки
13. Frontend вакансии и вопросы собесов
14. Вакансии и стажировки для аналитиков
15. Вакансии в русских стартапах за границей
16. Вакансии и стажировки для DevOps
17. Вакансии, которых нет на ХХ.РУ | 508 |
| 18 | 🤔 Как считается метрика IoU?
Метрика IoU (Intersection over Union) используется для оценки качества совпадения предсказанной области с истинной областью в задачах сегментации или обнаружения объектов. Она вычисляется как отношение площади пересечения двух областей (предсказанной и истинной) к площади их объединения.
🚩Пример расчета IoU
🟠Предсказанная область:
допустим, у нас есть предсказанный прямоугольник с координатами \((x_1, y_1, x_2, y_2)\).
🟠Истинная область:
истинный прямоугольник с координатами \((x_1', y_1', x_2', y_2')\).
🚩Выполнение расчета пересечения и объединения:
1⃣Найти координаты пересекающегося прямоугольника:
\(\text{left} = \max(x_1, x_1')\)
\(\text{right} = \min(x_2, x_2')\)
\(\text{top} = \max(y_1, y_1')\)
\(\text{bottom} = \min(y_2, y_2')\)
2⃣Рассчитать площадь пересечения:
\(\text{Площадь пересечения} = \max(0, \text{right} - \text{left}) \times \max(0, \text{bottom} - \text{top})\)
3⃣Рассчитать площадь объединения:
\(\text{Площадь объединения} = \text{Площадь предсказанной области} + \text{Площадь истинной области} - \text{Площадь пересечения}\)
def calculate_iou(box1, box2):
"""
Вычисляет IoU для двух прямоугольников.
box1 и box2 — это списки или кортежи, содержащие координаты прямоугольника в формате (x1, y1, x2, y2)
"""
x1, y1, x2, y2 = box1
x1_prime, y1_prime, x2_prime, y2_prime = box2
# Вычисляем координаты пересекающейся области
xi1 = max(x1, x1_prime)
yi1 = max(y1, y1_prime)
xi2 = min(x2, x2_prime)
yi2 = min(y2, y2_prime)
# Вычисляем площадь пересечения
inter_width = max(0, xi2 - xi1)
inter_height = max(0, yi2 - yi1)
inter_area = inter_width * inter_height
# Вычисляем площади обоих прямоугольников
box1_area = (x2 - x1) * (y2 - y1)
box2_area = (x2_prime - x1_prime) * (y2_prime - y1_prime)
# Вычисляем площадь объединения
union_area = box1_area + box2_area - inter_area
# Вычисляем IoU
iou = inter_area / union_area
return iou
# Пример использования
box1 = (1, 1, 3, 3)
box2 = (2, 2, 4, 4)
print(f"IoU: {calculate_iou(box1, box2)}")
Ставь 👍 и забирай 📚 Базу знаний | 458 |
| 19 | 🤔 Почему в нейронных сетях нельзя инициализировать веса нулями?
1. Симметричность: При инициализации весов нулями все нейроны в слое начинают обучение одинаково, что делает их идентичными.
2. Отсутствие обучения: Градиенты для всех нейронов слоя будут одинаковыми, из-за чего они не смогут различаться и обучаться.
3. Решение: Инициализация случайными значениями разрывает симметрию, позволяя нейронам обучаться независимо друг от друга.
Стандартные методы, такие как He или Xavier инициализация, обеспечивают оптимальный начальный размах весов.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚 Базу знаний | 454 |
| 20 | 🤔 В чём отличия RoBERTa от BERT?
Это улучшенная версия модели BERT (Bidirectional Encoder Representations from Transformers), созданная с целью повышения её производительности за счёт модификации процесса обучения. Оба алгоритма основаны на архитектуре трансформеров и применяются для задач обработки естественного языка (NLP), таких как классификация текста, вопрос-ответные системы и другие. Основные отличия между RoBERTa и BERT заключаются в подходе к обучению.
🚩Основные отличия RoBERTa от BERT
🟠Масштаб и объём данных для обучения
BERT: Обучался на двух корпусах текстов: Wikipedia (2,5 млрд слов) и BookCorpus (800 млн слов).
RoBERTa: Использует значительно больший объём данных (~160 ГБ), включая:
Common Crawl News;
OpenWebText;
Stories от BooksCorpus и других источников.
🟠Оптимизация задачи маскированного моделирования языка (MLM)
BERT: Маскирует 15% токенов во входных данных и использует эту фиксированную маскировку на протяжении всей эпохи обучения.
RoBERTa: Применяет динамическую маскировку токенов, где токены маскируются случайно на каждой итерации.
🟠Исключение задачи NSP (Next Sentence Prediction)
BERT: Обучается на задаче NSP, где модель предсказывает, идут ли два предложения подряд.
RoBERTa: Убрала задачу NSP, так как эксперименты показали, что она незначительно влияет на производительность.
🟠Размер батча и количество шагов
BERT: Использует меньшие размеры батча (до 256) и обучался 1 млн шагов.
RoBERTa: Увеличивает размер батча до 8,000 и обучается 500,000 шагов.
🟠Использование гиперпараметров
RoBERTa уделяет больше внимания точной настройке гиперпараметров, таких как скорость обучения и размеры батча.
🚩Результаты и преимущества RoBERTa
RoBERTa демонстрирует лучшую производительность на многих бенчмарках, таких как GLUE, SQuAD и RACE, в сравнении с BERT.
Она более эффективна при больших вычислительных ресурсах и данных.
🚩Пример применения RoBERTa
from transformers import RobertaTokenizer, RobertaForSequenceClassification
import torch
# Загрузка токенайзера и модели RoBERTa
tokenizer = RobertaTokenizer.from_pretrained("roberta-base")
model = RobertaForSequenceClassification.from_pretrained("roberta-base")
# Входной текст
text = "RoBERTa is an optimized version of BERT."
# Токенизация
inputs = tokenizer(text, return_tensors="pt")
# Предсказание
outputs = model(**inputs)
logits = outputs.logits
print("Logits:", logits)
Ставь 👍 и забирай 📚 Базу знаний | 477 |
Уже доступно! Исследование Telegram 2025 — ключевые инсайты года 
