Data Science | Вопросы собесов

Открыть в Telegram

Сайт: https://easyoffer.ru/ Все каналы: t.me/+xGeAw6ckJ4liYzQy Контакт для рекламы: @easyoffer_adv

Больше

Сеть:easyoffer Россия114 829 Технологии и приложения19 130

4 924

Подписчики

-124 часа

-57 дней

-2330 день

353

Просмотры поста

~ 20524 часа

~ 23548 часов

7.17%

Коэффициент вовлеченности

~ 2

Постов в день

Ads index

beta

Архив постов

4 924

🤔 Что известно про оконные функции? Это SQL-функции, выполняющиеся по окну строк, но не сворачивающие их в одно значение. - Используются с OVER(). - Примеры: ROW_NUMBER(), RANK(), LEAD(), LAG(), SUM() OVER(), AVG() OVER(). Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

4 924

Директ возвращает 10% бюджета за рекламу в мессенджерах Запускайте кампании в Telegram и МАКС с 1 июня по 31 августа — получайте кешбэк 10%. Его можно потратить на новые кампании. 💰 Как получить кешбэк: — Заполните форму: укажите логин в Директе и что продвигаете (сайт или канал); — Запустите рекламу в МАКС, Telegram или сразу на двух площадках с оплатой за клики; — В сентябре начислим кешбэк. Получить предложение #реклама yandex.ru О рекламодателе

4 924

🤔 Как бороться с переобучением? Это ситуация, когда модель машинного обучения хорошо работает на обучающих данных, но плохо обобщает результаты на новых, неизвестных данных. Это может привести к тому, что модель будет улавливать случайные шумы и детали в данных, которые не имеют отношения к реальным закономерностям. 🟠Сбор большего объема данных Расширение обучающего датасета может помочь модели лучше обобщать, так как это дает модели возможность учиться на более разнообразных примерах. 🟠Уменьшение сложности модели Простые модели обычно менее склонны к переобучению. Это можно сделать несколькими способами: Уменьшение числа параметров модели. Использование моделей с меньшей глубиной или меньшим числом слоев в случае нейронных сетей. Ограничение максимальной глубины деревьев в ансамблевых методах, таких как случайный лес. 🟠Регуляризация Регуляризация ограничивает сложность модели путем добавления штрафа за слишком большие значения параметров модели. Самые распространенные виды регуляризации: L1 регуляризация (Lasso), которая добавляет штраф, равный абсолютному значению коэффициентов. L2 регуляризация (Ridge), которая добавляет штраф, равный квадрату коэффициентов. 🟠Использование валидационных данных Валидационный набор данных используется для оценки модели в процессе обучения, позволяя отслеживать и контролировать переобучение. Это помогает настроить параметры модели и остановить обучение до начала переобучения. 🟠Кросс-валидация Кросс-валидация, особенно k-fold кросс-валидация, позволяет оценить способность модели к обобщению на разных подмножествах данных. Это помогает избежать ситуации, когда случайное разделение данных влияет на производительность модели. 🟠Ранняя остановка (Early Stopping) В процессе обучения, особенно при использовании итеративных методов, таких как обучение нейронных сетей, можно прекратить обучение, как только ошибка на валидационном наборе начинает расти, даже если ошибка на обучающем наборе продолжает уменьшаться. 🟠Удаление избыточных признаков Иногда переобучение происходит из-за слишком большого количества неинформативных или избыточных признаков. Отбор признаков может помочь уменьшить размерность данных и снизить риск переобучения. 🟠Ансамблевые методы Использование ансамблевых методов, таких как Бэггинг (Bagging) и Бустинг (Boosting), может помочь улучшить обобщающую способность модели, так как они комбинируют предсказания нескольких моделей.

from sklearn.linear_model import Ridge
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

X, y = make_regression(n_samples=1000, n_features=20, noise=0.1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = Ridge(alpha=1.0)
model.fit(X_train, y_train)

Ставь 👍 и забирай 📚 Базу знаний

4 924

МТС Линк. Оборудование для ВКС и переговорных комнат Быстрая настройка по формату: презентация, мозговой штурм, совещание. Гарантированная конфиденциальность мероприятий. Ускоренное принятие решений и сбор участников в разных часовых поясах. МТС Линк — оборудование и ПО для переговорных комнат под ключ: ✅ Интерактивные панели и экраны ✅ Камеры, микрофоны и спикерфоны ✅ Акустические системы и терминалы Готовые комплекты для залов любого размера: от компактных до очень больших. Тест оборудования 2 недели бесплатно. ⚡ Получите консультацию бесплатно Получить консультацию #реклама 16+ mts-link.ru О рекламодателе

4 924

🤔 В каких случаях логистическая регрессия на задачах классификации будет работать лучше, чем случайный лес? Логистическая регрессия может работать лучше, чем случайный лес, когда данные линейно разделимы или когда модель должна быть интерпретируемой. Логистическая регрессия проще и менее склонна к переобучению, особенно на небольших и чистых наборах данных. Случайный лес может давать более сложные предсказания, но при этом быть менее интерпретируемым. В задачах, где важна простота и скорость работы модели, логистическая регрессия может быть предпочтительнее. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

4 924

IT-магистратура ИТМО, МИФИ в партнёрстве с Яндексом Освойте высокооплачиваемую IT-профессию. Актуальные программы ИТМО и МФТИ 2026 года, диплом гособразца, много практики от Яндекса. Гибкий график, обучение полностью онлайн, господдержка оплаты, отсрочка от армии Узнать больше #реклама 16+ practicum.yandex.ru О рекламодателе

4 924

🤔 Что пытается сделать рекомендательная модель? Рекомендательная модель стремится предоставить персонализированные рекомендации пользователям на основе их предыдущих интересов, взаимодействий и предпочтений. Цель этих моделей — улучшить пользовательский опыт, предлагая контент или товары, которые максимально соответствуют индивидуальным запросам и вкусам каждого пользователя. 🚩Как это работает и для чего это нужно? 🟠Повышение удовлетворенности пользователя Рекомендательные системы помогают пользователям находить интересующие их продукты или услуги без долгих поисков, что повышает их удовлетворенность и вероятность дополнительных покупок. 🟠Увеличение продаж Предоставление релевантных рекомендаций может стимулировать дополнительные покупки или просмотры, так как пользователи могут узнать о товарах или услугах, которые они могли не рассмотреть самостоятельно. 🟠Эффективное управление ассортиментом Рекомендательные системы могут анализировать большие объемы данных для выявления тенденций и предпочтений, что помогает компаниям оптимизировать свой ассортимент и управлять запасами. 🟠Персонализация В эпоху цифровизации персонализация становится ключевым фактором в привлечении и удержании клиентов. Рекомендательные системы предоставляют уникальные предложения и контент, который отвечает личным интересам каждого пользователя. Ставь 👍 и забирай 📚 Базу знаний

4 924

АЙТИШНИКИ, ХВАТИТ сливать время на прилизанные новости и бесполезные курсы Проект «ИИнтеллигенция» стал главным каналом для тех, кто использует нейросети на уровне разработки, автоматизации и опенсорса, а не просто балуется в чатах. Здесь собирают только то, что реально экономит человеко-часы и работает в проде. 🎓 Готовые ИИ-сервисы, промпты и ИИ-агенты для автоматизации рутины 📚 Разборы полезных ИИ-инструментов, локальных LLM и опенсорс-репозиториев 🛠 Практические кейсы, гайды по деплою моделей и интеграции ИИ в пайплайны ⚡️ Технические ИТ-новости без маркетинговой воды и душных отчетов Обучение и прокачка в реальном времени: работа с API (Claude, GPT), локалки (Ollama, vLLM), автоматизация кода, опенсорс-утилиты, AI-агенты и др. Ценишь время и работаешь с ИИ, подпишись: @clucai

4 924

Запустите рекламу в телеграм-каналах через Яндекс Директ Перфоманс-реклама в мессенджере продолжает работать: • Таргетинг по тематикам и регионам • Умный подбор каналов • Гибкие модели оплаты (CPC и CPV) Яндекс Директ знает, как привлечь целевую аудиторию 💰👌 Попробовать #реклама yandex.ru О рекламодателе

4 924

🤔 Что такое map оценка? MAP (Mean Average Precision) — это метрика, используемая для оценки качества ранжирования в задачах, где важен порядок релевантных результатов. Она вычисляется как среднее значение Average Precision (AP) для нескольких запросов, где AP измеряет точность на каждой позиции релевантного элемента. MAP часто применяется в системах поиска и рекомендаций для оценки точности ранжированных ответов. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

4 924

Получите 400 рублей на счет мобильного телефона Выберите Яндекс Поиск в настройках браузера, ищите в нём — и они ваши! Узнать больше #реклама 16+ portal.yandex.ru О рекламодателе

4 924

🤔 Сколько слоёв многослойного перцептрона с линейной функцией активации понадобится для приближения полинома третьей степени? Многослойный перцептрон (MLP) с линейными функциями активации, независимо от числа слоев, не способен аппроксимировать полином третьей степени или любую другую нелинейную функцию. 🚩Линейные функции активации Имеет вид

 f(x) = x

Когда используется линейная функция активации в многослойном перцептроне, каждая следующая линейная комбинация входных данных остается линейной. Независимо от количества слоев, итоговая функция будет просто линейной комбинацией входных данных. Если рассматривать MLP с линейной активацией, то каждый слой \( l \) вычисляется как

\mathbf{z}^{(l)} = \mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)}

🚩Полиномиальные функции Полином третьей степени имеет вид

f(x) = a_3 x^3 + a_2 x^2 + a_1 x + a_0

🚩Необходимость нелинейной активации Для аппроксимации полинома третьей степени необходимо использовать нелинейные функции активации, такие как: Сигмоида (\(\sigma(x) = \frac{1}{1 + e^{-x}}\)) ReLU (Rectified Linear Unit, \( \text{ReLU}(x) = \max(0, x) \)) Тангенс гиперболический (\(\tanh(x)\)) Использование нелинейных функций активации позволяет многослойному перцептрону моделировать сложные функции, включая полиномы более высокой степени.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neural_network import MLPRegressor

# Генерация данных
np.random.seed(42)
X = np.linspace(-2, 2, 100).reshape(-1, 1)
y = 3*X**3 - 2*X**2 + X + 1 + np.random.normal(0, 0.2, X.shape)

# Обучение MLP
mlp = MLPRegressor(hidden_layer_sizes=(100, 100), activation='relu', max_iter=10000, random_state=42)
mlp.fit(X, y.ravel())

# Предсказания
y_pred = mlp.predict(X)

# Визуализация
plt.scatter(X, y, color='blue', label='Original data')
plt.plot(X, y_pred, color='red', label='MLP prediction')
plt.legend()
plt.show()

Ставь 👍 и забирай 📚 Базу знаний

4 924

Kaspersky Premium со скидкой до 28% Покупайте Kaspersky Premium со скидкой до 28% и получайте гарантированные ценные подарки от партнёров, а также возможность участовать в розыгрыше путешествия. Узнать больше #реклама 16+ kaspersky.ru О рекламодателе

4 924

🤔 Как обучаются линейные модели? Линейные модели обучаются путём нахождения оптимальных весов, которые минимизируют функцию потери, обычно через градиентный спуск. В случае простых моделей (например, линейной регрессии) может быть использовано аналитическое решение (метод наименьших квадратов). При больших данных или сложных задачах применяется итеративный подход для более эффективной оптимизации. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

4 924

🤔 В чем отличия между чар и варчар? Типы данных CHAR и VARCHAR используются для хранения символьных (текстовых) данных, но они работают по-разному и предназначены для разных сценариев использования. 🚩Основные отличия 🟠Хранение CHAR: Это фиксированный тип размера, что означает, что выделяемое пространство для каждой строки одинаково, независимо от фактической длины хранимой строки. Если строка короче заявленной длины, оставшееся пространство заполняется специальными символами (обычно пробелами). Например, если вы определяете столбец как CHAR(10) и сохраняете строку "abc", она будет храниться как "abc " (с добавлением семи пробелов). VARCHAR: Это переменный тип размера. VARCHAR требует только столько места, сколько необходимо для хранения символов, плюс дополнительное место для хранения информации о длине строки. Если столбец определён как VARCHAR(10) и вы сохраняете строку "abc", она будет занимать только место, необходимое для хранения трёх символов и длины. 🟠Производительность CHAR: Быстрее при выполнении операций, потому что все значения фиксированной длины, что упрощает вычисление позиций данных в памяти. Хорошо подходит для данных, размер которых известен и стабилен, например, некоторые идентификаторы, коды стран, коды состояний. VARCHAR: Может быть медленнее CHAR из-за дополнительных затрат на обработку переменной длины, но это зависит от сценария и системы управления базой данных. Лучше подходит для текстовых данных, длина которых может сильно варьироваться, например, имена, адреса электронной почты. 🟠Использование памяти CHAR: Может неэффективно использовать пространство, если данные значительно короче максимальной длины. VARCHAR: Эффективнее использует память, когда данные значительно короче максимально допустимой длины. 🟠Советы по использованию Используйте CHAR, если длина данных всегда одинакова. Используйте VARCHAR, если длина данных может значительно отличаться.

CREATE TABLE example (
  fixed_char CHAR(10),
  variable_char VARCHAR(10)
);

INSERT INTO example (fixed_char, variable_char) VALUES ('text', 'text');

SELECT LENGTH(fixed_char), LENGTH(variable_char) FROM example;

Ставь 👍 и забирай 📚 Базу знаний

4 924

Аренда VPS/VDS-сервера. Виртуальные выделенные серверы в дата-центрах уровня Tier III — 7 готовых конфигураций от 200 ₽/мес. Преимущества аренды: - Выделенные ресурсы без переплаты; - KVM-виртуализация; - Быстрые NVMe SSD; - Соответствие 152-ФЗ, PCI DSS; - Бесплатная защита от DDoS; - Управление через панель, API и Terraform; - Техподдержка 24/7. Запустите сервер за несколько минут! Попробовать #реклама 16+ selectel.ru О рекламодателе

4 924

🤔 Какие подходы понижения размерности известны? Основные подходы понижения размерности включают метод главных компонент (PCA), сингулярное разложение (SVD), t-SNE и UMAP. PCA снижает размерность данных, находя новые оси, которые объясняют наибольшую дисперсию данных. t-SNE и UMAP используются для визуализации данных в пространстве низкой размерности, сохраняя их топологическую структуру. Эти методы позволяют уменьшить количество признаков при сохранении важной информации. Ставь 👍 если знал ответ, 🔥 если нет Забирай 📚 Базу знаний

4 924

Магистратура ИТМО для фронтенд и бэкенд разработчиков Выберите язык программирования и уровень. Регулируемая нагрузка. Эксперты Яндекса учат. Реальные кейсы. Государственный диплом. Оставьте заявку Узнать больше #реклама 16+ practicum.yandex.ru О рекламодателе

4 924

🤔 Чем отличается having от where? Ключевые отличия между операторами HAVING и WHERE заключаются в их использовании и моменте применения при обработке запроса: 🟠Момент применения WHERE: Фильтрует строки до того, как будут выполнены группировка или агрегирование. Это означает, что WHERE ограничивает записи, которые войдут в последующий процесс агрегации или будут доступны для дальнейших операций в запросе. HAVING: Применяется после выполнения группировки и агрегации. HAVING используется для фильтрации агрегированных результатов, которые возвращаются оператором GROUP BY. Таким образом, HAVING может использовать результаты агрегатных функций для фильтрации групп данных. 🟠Типы данных для фильтрации WHERE: Может использовать только те колонки, которые физически присутствуют в таблице. WHERE не может фильтровать результаты агрегатных функций, так как он действует до их применения. HAVING: Может использовать агрегатные функции, такие как SUM(), AVG(), MAX(), COUNT() и т.д., что позволяет фильтровать данные на основе результатов этих функций после группировки. 🟠Возможности использования WHERE: Обычно используется в большинстве SQL запросов для фильтрации записей перед выполнением операций, таких как выборка, агрегирование или группировка. Это основной инструмент для уменьшения набора данных до агрегации. HAVING: Основное использование HAVING — это уточнение результатов, полученных с помощью агрегации в комбинации с GROUP BY. Это более специализированный инструмент, который полезен в отчетах и анализе данных, где нужно работать с агрегированными суммами, средними значениями или другими агрегатами. Представим, что у нас есть таблица orders с полями customer_id, order_date, и amount. Мы хотим выбрать клиентов, которые совершили заказы на общую сумму более 500 долларов, но только те заказы, которые были сделаны в 2021 году.

SELECT customer_id, SUM(amount) AS total_amount
FROM orders
WHERE order_date BETWEEN '2021-01-01' AND '2021-12-31'
GROUP BY customer_id
HAVING SUM(amount) > 500;

Ставь 👍 и забирай 📚 Базу знаний

4 924

Чек-лист для банков и ТЭК: Запуск корпоративного ИИ Данные не покинут периметр, а первые ИИ-агенты заработают за 14 дней. В практическом руководстве разобрали, почему облака не подходят регулируемым отраслям, и сравнили 3 пути: самостоятельная сборка, ПАК или облако. Вы узнаете: как гарантировать суверенность и пройти проверки регуляторов, скрытые затраты облачных сервисов, точный расчёт TCO на 3 года и реальные кейсы банков и ТЭК. Внутри: матрица решений, чек-лист готовности и Excel-калькулятор. Скачайте руководство и запустите ИИ без CAPEX и санкционных рисков. Скачать #реклама 16+ t1-ai.ru О рекламодателе