Data Science | Вопросы собесов
Разбираем вопросы с собеседований на Data Scientist. Сайт: easyoffer.ru Реклама: @easyoffer_adv
نمایش بیشتر2 551
مشترکین
-124 ساعت
+947 روز
+86430 روز
- مشترکین
- پوشش پست
- ER - نسبت تعامل
در حال بارگیری داده...
معدل نمو المشتركين
در حال بارگیری داده...
🤔 Какой метод не относится к обучению без учителя?Anonymous voting
- K-means
- PCA
- Logistic Regression
- DBSCAN
Какие оконные функции известны ?
Спросят с вероятностью 14%
Оконные функции предоставляют мощные возможности для выполнения сложных расчетов над подмножеством строк, которые определены в рамках "окна", относящегося к текущей строке в результате запроса. Вот некоторые из основных и часто используемых оконных функций:
1️⃣Функции ранжирования
Эти функции присваивают ранг каждой строке в рамках определенного раздела данных.
✅ROW_NUMBER(): Возвращает уникальный номер каждой строки, начиная с 1, в порядке, указанном в
ORDER BY
внутри оконной спецификации.
✅RANK(): Присваивает ранг каждой строке, одинаковые значения получают одинаковый ранг, при этом следующий за теми же значениями ранг будет увеличен на количество повторений.
✅DENSE_RANK(): Похоже на RANK
, но ранги увеличиваются на 1 между группами и не пропускаются значения (например, 1, 2, 2, 3).
2️⃣Функции смещения
Эти функции предоставляют доступ к данным в строках, находящихся на определенном расстоянии от текущей строки.
✅LAG(value, offset, default): Возвращает значение столбца из строки, находящейся на offset
позиций перед текущей строкой. Если такой строки нет, возвращается default
.
✅LEAD(value, offset, default): Возвращает значение столбца из строки, находящейся на offset
позиций после текущей строки. Если такой строки нет, возвращается default
.
3️⃣Статистические функции
Эти функции используются для вычисления статистического ранга относительно других строк в окне.
✅PERCENT_RANK(): Возвращает процентное положение текущей строки в группе, где самая первая строка имеет значение 0.
✅CUME_DIST(): Возвращает кумулятивный дистрибутив текущей строки в группе.
4️⃣Агрегатные функции
Могут быть применены в контексте оконных функций для выполнения вычислений в пределах определенного окна.
✅SUM(value): Возвращает сумму значений столбца в окне.
✅AVG(value): Возвращает среднее значение столбца в окне.
✅MIN(value) и MAX(value): Возвращают минимальное и максимальное значение столбца в окне.
✅COUNT(value): Возвращает количество значений в окне.
SELECT
employee_id,
department_id,
salary,
AVG(salary) OVER (PARTITION BY department_id ORDER BY salary) AS avg_salary
FROM
employees;
Этот запрос вычисляет среднюю зарплату в пределах каждого отдела, используя AVG
как оконную функцию.
Оконные функции позволяют проводить сложные вычисления над группой строк (окном), которые связаны с текущей строкой. Это очень полезно для аналитики, где нужно сохранить оригинальные данные и при этом получить агрегированную информацию, такую как средняя зарплата по отделу, ранжирование данных или смещение данных для временных рядов.
👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент
🔐 База собесов | 🔐 База тестовых🤔 Что такое "Gradient Descent"?Anonymous voting
- Метод восстановления данных
- Алгоритм оптимизации
- Метод классификации
- Техника кластеризации
В чем разница K-means и KNN ?
Спросят с вероятностью 14%
K-means (кластеризация K-средних) и KNN (метод k-ближайших соседей). Эти методы принадлежат к различным категориям машинного обучения и имеют разные области применения. Давайте рассмотрим каждый из них подробнее и выясним, в чем заключается их основное отличие.
K-means (K-средних)
Это алгоритм кластеризации, который используется для группировки данных на основе их характеристик. Целью K-means является разделение n наблюдений на k кластеров таким образом, чтобы каждое наблюдение принадлежало кластеру с ближайшим средним значением.
Особенности:
✅Неконтролируемое обучение: Не использует метки ответов; вместо этого он группирует данные на основе их взаимного сходства.
✅Инициализация и итерации: Алгоритм начинает с случайной инициализации центров кластеров и итеративно обновляет их, минимизируя сумму квадратов расстояний между точками данных и соответствующими центрами кластеров.
✅Применение: Часто используется для сегментации рынка, организации компьютерных кластеров, классификации документов и в других задачах, где требуется структурирование больших объемов данных.
KNN (K-ближайших соседей)
Это алгоритм для классификации и регрессии, который предсказывает свойства нового случая на основе k ближайших к нему точек в обучающем наборе данных.
Особенности:
✅Контролируемое обучение: Использует известные метки данных для предсказания меток новых данных.
✅Ленивое обучение: Не строит явную модель данных, а выполняет вычисления непосредственно во время классификации, что делает его относительно медленным для больших датасетов.
✅Параметр k: Выбор числа k ближайших соседей может существенно повлиять на результаты классификации или регрессии.
✅Применение: Используется в рекомендательных системах, для классификации изображений и видео, в медицинских исследованиях и т.д.
Основные отличия
✅Цели алгоритмов: K-means группирует данные на основе их сходства, в то время как KNN используется для предсказания свойств новых данных на основе свойств его соседей.
✅Тип обучения: K-means является алгоритмом неконтролируемого обучения, тогда как KNN — контролируемым.
✅Вычислительная сложность: K-means выполняет значительные вычисления в процессе обучения для настройки центров кластеров, в то время как KNN требует вычислений во время предсказания, что делает его медленным при классификации новых данных, особенно если обучающий набор большой.
Эти два метода показывают различные подходы в машинном обучении и могут быть выбраны в зависимости от конкретной задачи и характеристик данных.
👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент
🔐 База собесов | 🔐 База тестовых
👍 3❤ 2
Photo unavailableShow in Telegram
⚡️В сети начали находить курсы и книги известных онлайн школ в открытом доступе
Вот отсортированная база с тонной материала(постепенно пополняется):
🔗 БАЗА (3385 видео):
(343 видео, 87 книги) — Java
(176 видео, 32 книги) — Git
(293 видео, 63 книги) — C#
(352 видео, 89 книги) — С++
(167 видео, 53 книги) — PHP
(227 видео, 83 книги) — SQL
(163 видео, 29 книги) — Linux
(363 видео, 122 книги) — Python
(415 видео, 168 книги) — Frontend
(143 видео, 33 книги) — Flask
(167 видео, 43 книги) — Django
(197 видео, 49 книги) — Разработка ботов
(137 видео, 93 книги) — Data Science
(113 видео, 82 книги) — GameDev
(129 видео, 73 книги) — QA
Скачивать ничего не нужно — все выложили в Telegram и на YouTube с доступом по ссылке
🤔 2
🤔 Какой метод не используется для уменьшения размерности?Anonymous voting
- PCA
- Lasso
- t-SNE
- MDS
🤔 4👍 1
Что можешь сказать про оконные функции ?
Спросят с вероятностью 14%
Оконные функции предоставляют мощные возможности для выполнения различных расчётных операций с использованием данных, охватывающих определённый диапазон строк, которые связаны с текущей строкой. Эти функции называются "оконными", потому что оперируют "окном" строк, ограниченным в соответствии с определёнными условиями. Оконные функции особенно полезны при выполнении агрегаций, при которых нужно сохранить детализацию данных, что обычно недостижимо с помощью обычных агрегатных функций (
SUM
, COUNT
, AVG
и т.д.), применяемых в группировках.
Ключевые аспекты:
1️⃣Определение окна: Окно определяется с помощью конструкции OVER
, которая может включать в себя:
✅Порядок следования строк (ORDER BY
).
✅Разбиение на группы или партиции (PARTITION BY
).
✅Ограничения окна (ROWS
или RANGE
), определяющие начальную и конечную точки окна относительно текущей строки.
2️⃣Типы оконных функций:
✅Агрегатные функции: SUM
, AVG
, MIN
, MAX
, COUNT
и т.д., которые обычно используются для агрегации данных в рамках окна.
✅Функции ранжирования: ROW_NUMBER
, RANK
, DENSE_RANK
, эти функции присваивают уникальные или повторяющиеся номера строкам в зависимости от их значений по определённым полям.
✅Функции смещения: LEAD
, LAG
, позволяют получить значение из строки, расположенной на определённое количество позиций до или после текущей строки в рамках окна.
✅Статистические и аналитические функции: например, PERCENT_RANK
, CUME_DIST
.
Рассмотрим простой пример, который показывает использование оконной функции для расчёта скользящего среднего:
SELECT
date,
sales,
AVG(sales) OVER (ORDER BY date ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING) AS moving_average
FROM
sales_data;
Этот запрос вычисляет скользящее среднее продаж (sales
) за три дня: за предыдущий, текущий и следующий день.
Преимущества использования:
✅Гибкость: Оконные функции позволяют выполнять сложные вычисления и аналитику без необходимости разбивать запросы на множество частей или использования сложных подзапросов.
✅Эффективность: Выполнение агрегаций и аналитики без потери уровня детализации данных в исходной таблице.
Оконные функции — это как магический инструмент, который позволяет смотреть на группу данных сквозь "окно" и делать различные вычисления, не смешивая данные из разных "окон". Это очень удобно для анализа трендов, расчёта агрегатов и других сложных задач, связанных с данными.
👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент
🔐 База собесов | 🔐 База тестовых👍 5🔥 3❤ 1
🤔 Что описывает метрика RMSE в машинном обучении?Anonymous voting
- Среднее отклонение
- Корень из среднеквадратичной ошибки
- Точность модели
- Валидность кросс-проверки
🔥 1
В чем разница между методом джиэмэм и камином ?
Спросят с вероятностью 14%
Похоже, что под "джиэмэм" вы имеете в виду GMM (Gaussian Mixture Model), который представляет собой модель смеси Гауссовых распределений. "Камин" в вашем запросе, вероятно, относится к K-means, методу кластеризации K-средних. Оба эти метода применяются для кластеризации данных, но они основываются на разных принципах и используются для различных целей в анализе данных.
GMM (Gaussian Mixture Model, Модель смеси Гауссовых распределений)
Это вероятностная модель, которая предполагает, что данные порождены смешением нескольких Гауссовых распределений, каждое из которых представляет кластер. Ключевые особенности GMM:
✅Вероятностный подход: В отличие от K-means, он не просто присваивает точку к ближайшему кластеру, а оценивает вероятность принадлежности каждой точки к каждому кластеру.
✅Гибкость в формах кластеров: Кластеры в нем могут иметь различные формы и размеры благодаря использованию ковариационных матриц, что позволяет моделировать более сложные структуры данных.
✅Алгоритм оптимизации: Для оценки параметров он чаще всего используется алгоритм EM (Expectation-Maximization), который итеративно пытается максимизировать правдоподобие данных относительно предполагаемых параметров смеси.
K-means (Кластеризация K-средних)
Это метод векторной квантизации, который используется для разделения набора данных на K кластеров, минимизируя суммарное внутрикластерное вариационное расстояние. Особенности:
✅Невероятностный, итеративный подход: Итеративно минимизирует сумму квадратов расстояний от каждой точки данных до ближайшего центра кластера.
✅Равные формы кластеров: Предполагает, что кластеры имеют схожую форму (сферическую), что может не всегда соответствовать реальному распределению данных.
✅Простота и вычислительная эффективность: Обычно быстрее и проще в реализации, чем GMM, но он также более ограничен в отношении моделирования различий между кластерами.
Сравнение:
1⃣Гибкость модели: GMM обеспечивает большую гибкость за счёт моделирования эллиптических кластеров с разными размерами и формами, в то время как K-means эффективен в случаях, когда кластеры более однородны и сферически.
2⃣Результаты кластеризации: GMM предоставляет мягкую кластеризацию, позволяя точкам иметь степень принадлежности к разным кластерам, в то время как K-means присваивает каждую точку ровно одному кластеру.
3⃣Вычислительная сложность: GMM требует больше вычислительных ресурсов и времени для сходимости из-за использования EM-алгоритма, в то время как K-means обычно работает быстрее.
Выбор между GMM и K-means зависит от специфики задачи, структуры данных и требуемой точности результатов. GMM предпочтителен, когда данные сложно устроены или когда необходима вероятностная интерпретация кластеров. K-means лучше использовать для более простых или очень больших наборов данных, где важна вычислительная эффективность.
👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент
🔐 База собесов | 🔐 База тестовых
👍 2❤ 1
00:06
Video unavailableShow in Telegram
👩💻 Data Sciene - блог ведущего дата саентиста, работающего с данными в Uber.
Здесь разoбраны практические задачи по работе с данными с собеседований крупнейших компаний.
С этим каналом вы пройдете путь от -"гугл, что такое датафрейм", до высокооплачиваемого Аналитика данных.
Еще мы собрали целый кладезь полезных материалов для всех, кто любит и изучает Анализ Данных.
Это первоисточник всего, что появляется в платных курсах и остальных ресурсах. Стоит подписаться: @data_analysis_ml
31532d7d378053de3b8bf23c6e7bfae3.mp41.09 KB
👍 4❤ 2🔥 2
🔥 Начать учиться
یک طرح متفاوت انتخاب کنید
طرح فعلی شما تنها برای 5 کانال تجزیه و تحلیل را مجاز می کند. برای بیشتر، لطفا یک طرح دیگر انتخاب کنید.