cookie

ما از کوکی‌ها برای بهبود تجربه مرور شما استفاده می‌کنیم. با کلیک کردن بر روی «پذیرش همه»، شما با استفاده از کوکی‌ها موافقت می‌کنید.

avatar

Data Science | Вопросы собесов

Разбираем вопросы с собеседований на Data Scientist. Сайт: easyoffer.ru Реклама: @easyoffer_adv

نمایش بیشتر
avatarNetwork:easyofferروسيا136 243روسی146 921دسته بندی مشخص نشده است
پست‌های تبلیغاتی
2 551
مشترکین
-124 ساعت
+947 روز
+86430 روز

در حال بارگیری داده...

معدل نمو المشتركين

در حال بارگیری داده...

🤔 Какой метод не относится к обучению без учителя?Anonymous voting
  • K-means
  • PCA
  • Logistic Regression
  • DBSCAN
0 votes
Какие оконные функции известны ? Спросят с вероятностью 14% Оконные функции предоставляют мощные возможности для выполнения сложных расчетов над подмножеством строк, которые определены в рамках "окна", относящегося к текущей строке в результате запроса. Вот некоторые из основных и часто используемых оконных функций: 1️⃣Функции ранжирования Эти функции присваивают ранг каждой строке в рамках определенного раздела данных. ✅ROW_NUMBER(): Возвращает уникальный номер каждой строки, начиная с 1, в порядке, указанном в ORDER BY внутри оконной спецификации. ✅RANK(): Присваивает ранг каждой строке, одинаковые значения получают одинаковый ранг, при этом следующий за теми же значениями ранг будет увеличен на количество повторений. ✅DENSE_RANK(): Похоже на RANK, но ранги увеличиваются на 1 между группами и не пропускаются значения (например, 1, 2, 2, 3). 2️⃣Функции смещения Эти функции предоставляют доступ к данным в строках, находящихся на определенном расстоянии от текущей строки. ✅LAG(value, offset, default): Возвращает значение столбца из строки, находящейся на offset позиций перед текущей строкой. Если такой строки нет, возвращается default. ✅LEAD(value, offset, default): Возвращает значение столбца из строки, находящейся на offset позиций после текущей строки. Если такой строки нет, возвращается default. 3️⃣Статистические функции Эти функции используются для вычисления статистического ранга относительно других строк в окне. ✅PERCENT_RANK(): Возвращает процентное положение текущей строки в группе, где самая первая строка имеет значение 0. ✅CUME_DIST(): Возвращает кумулятивный дистрибутив текущей строки в группе. 4️⃣Агрегатные функции Могут быть применены в контексте оконных функций для выполнения вычислений в пределах определенного окна. ✅SUM(value): Возвращает сумму значений столбца в окне. ✅AVG(value): Возвращает среднее значение столбца в окне. ✅MIN(value) и MAX(value): Возвращают минимальное и максимальное значение столбца в окне. ✅COUNT(value): Возвращает количество значений в окне.
SELECT
  employee_id,
  department_id,
  salary,
  AVG(salary) OVER (PARTITION BY department_id ORDER BY salary) AS avg_salary
FROM
  employees;
Этот запрос вычисляет среднюю зарплату в пределах каждого отдела, используя AVG как оконную функцию. Оконные функции позволяют проводить сложные вычисления над группой строк (окном), которые связаны с текущей строкой. Это очень полезно для аналитики, где нужно сохранить оригинальные данные и при этом получить агрегированную информацию, такую как средняя зарплата по отделу, ранжирование данных или смещение данных для временных рядов. 👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент 🔐 База собесов | 🔐 База тестовых
نمایش همه...
🤔 Что такое "Gradient Descent"?Anonymous voting
  • Метод восстановления данных
  • Алгоритм оптимизации
  • Метод классификации
  • Техника кластеризации
0 votes
В чем разница K-means и KNN ? Спросят с вероятностью 14% K-means (кластеризация K-средних) и KNN (метод k-ближайших соседей). Эти методы принадлежат к различным категориям машинного обучения и имеют разные области применения. Давайте рассмотрим каждый из них подробнее и выясним, в чем заключается их основное отличие. K-means (K-средних) Это алгоритм кластеризации, который используется для группировки данных на основе их характеристик. Целью K-means является разделение n наблюдений на k кластеров таким образом, чтобы каждое наблюдение принадлежало кластеру с ближайшим средним значением. Особенности: ✅Неконтролируемое обучение: Не использует метки ответов; вместо этого он группирует данные на основе их взаимного сходства. ✅Инициализация и итерации: Алгоритм начинает с случайной инициализации центров кластеров и итеративно обновляет их, минимизируя сумму квадратов расстояний между точками данных и соответствующими центрами кластеров. ✅Применение: Часто используется для сегментации рынка, организации компьютерных кластеров, классификации документов и в других задачах, где требуется структурирование больших объемов данных. KNN (K-ближайших соседей) Это алгоритм для классификации и регрессии, который предсказывает свойства нового случая на основе k ближайших к нему точек в обучающем наборе данных. Особенности: ✅Контролируемое обучение: Использует известные метки данных для предсказания меток новых данных. ✅Ленивое обучение: Не строит явную модель данных, а выполняет вычисления непосредственно во время классификации, что делает его относительно медленным для больших датасетов. ✅Параметр k: Выбор числа k ближайших соседей может существенно повлиять на результаты классификации или регрессии. ✅Применение: Используется в рекомендательных системах, для классификации изображений и видео, в медицинских исследованиях и т.д. Основные отличия ✅Цели алгоритмов: K-means группирует данные на основе их сходства, в то время как KNN используется для предсказания свойств новых данных на основе свойств его соседей. ✅Тип обучения: K-means является алгоритмом неконтролируемого обучения, тогда как KNN — контролируемым. ✅Вычислительная сложность: K-means выполняет значительные вычисления в процессе обучения для настройки центров кластеров, в то время как KNN требует вычислений во время предсказания, что делает его медленным при классификации новых данных, особенно если обучающий набор большой. Эти два метода показывают различные подходы в машинном обучении и могут быть выбраны в зависимости от конкретной задачи и характеристик данных. 👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент 🔐 База собесов | 🔐 База тестовых
نمایش همه...
👍 3 2
Photo unavailableShow in Telegram
⚡️В сети начали находить курсы и книги известных онлайн школ в открытом доступе Вот отсортированная база с тонной материала(постепенно пополняется): 🔗 БАЗА (3385 видео): (343 видео, 87 книги) — Java (176 видео, 32 книги) — Git (293 видео, 63 книги) — C# (352 видео, 89 книги) — С++ (167 видео, 53 книги) — PHP (227 видео, 83 книги) — SQL (163 видео, 29 книги) — Linux (363 видео, 122 книги) — Python (415 видео, 168 книги) — Frontend (143 видео, 33 книги) — Flask (167 видео, 43 книги) — Django (197 видео, 49 книги) — Разработка ботов (137 видео, 93 книги) — Data Science (113 видео, 82 книги) — GameDev (129 видео, 73 книги) — QA Скачивать ничего не нужно — все выложили в Telegram и на YouTube с доступом по ссылке
نمایش همه...
🤔 2
🤔 Какой метод не используется для уменьшения размерности?Anonymous voting
  • PCA
  • Lasso
  • t-SNE
  • MDS
0 votes
🤔 4👍 1
Что можешь сказать про оконные функции ? Спросят с вероятностью 14% Оконные функции предоставляют мощные возможности для выполнения различных расчётных операций с использованием данных, охватывающих определённый диапазон строк, которые связаны с текущей строкой. Эти функции называются "оконными", потому что оперируют "окном" строк, ограниченным в соответствии с определёнными условиями. Оконные функции особенно полезны при выполнении агрегаций, при которых нужно сохранить детализацию данных, что обычно недостижимо с помощью обычных агрегатных функций (SUM, COUNT, AVG и т.д.), применяемых в группировках. Ключевые аспекты: 1️⃣Определение окна: Окно определяется с помощью конструкции OVER, которая может включать в себя: ✅Порядок следования строк (ORDER BY). ✅Разбиение на группы или партиции (PARTITION BY). ✅Ограничения окна (ROWS или RANGE), определяющие начальную и конечную точки окна относительно текущей строки. 2️⃣Типы оконных функций: ✅Агрегатные функции: SUM, AVG, MIN, MAX, COUNT и т.д., которые обычно используются для агрегации данных в рамках окна. ✅Функции ранжирования: ROW_NUMBER, RANK, DENSE_RANK, эти функции присваивают уникальные или повторяющиеся номера строкам в зависимости от их значений по определённым полям. ✅Функции смещения: LEAD, LAG, позволяют получить значение из строки, расположенной на определённое количество позиций до или после текущей строки в рамках окна. ✅Статистические и аналитические функции: например, PERCENT_RANK, CUME_DIST. Рассмотрим простой пример, который показывает использование оконной функции для расчёта скользящего среднего:
SELECT
  date,
  sales,
  AVG(sales) OVER (ORDER BY date ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING) AS moving_average
FROM
  sales_data;
Этот запрос вычисляет скользящее среднее продаж (sales) за три дня: за предыдущий, текущий и следующий день. Преимущества использования:Гибкость: Оконные функции позволяют выполнять сложные вычисления и аналитику без необходимости разбивать запросы на множество частей или использования сложных подзапросов. ✅Эффективность: Выполнение агрегаций и аналитики без потери уровня детализации данных в исходной таблице. Оконные функции — это как магический инструмент, который позволяет смотреть на группу данных сквозь "окно" и делать различные вычисления, не смешивая данные из разных "окон". Это очень удобно для анализа трендов, расчёта агрегатов и других сложных задач, связанных с данными. 👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент 🔐 База собесов | 🔐 База тестовых
نمایش همه...
👍 5🔥 3 1
🤔 Что описывает метрика RMSE в машинном обучении?Anonymous voting
  • Среднее отклонение
  • Корень из среднеквадратичной ошибки
  • Точность модели
  • Валидность кросс-проверки
0 votes
🔥 1
В чем разница между методом джиэмэм и камином ? Спросят с вероятностью 14% Похоже, что под "джиэмэм" вы имеете в виду GMM (Gaussian Mixture Model), который представляет собой модель смеси Гауссовых распределений. "Камин" в вашем запросе, вероятно, относится к K-means, методу кластеризации K-средних. Оба эти метода применяются для кластеризации данных, но они основываются на разных принципах и используются для различных целей в анализе данных. GMM (Gaussian Mixture Model, Модель смеси Гауссовых распределений) Это вероятностная модель, которая предполагает, что данные порождены смешением нескольких Гауссовых распределений, каждое из которых представляет кластер. Ключевые особенности GMM: ✅Вероятностный подход: В отличие от K-means, он не просто присваивает точку к ближайшему кластеру, а оценивает вероятность принадлежности каждой точки к каждому кластеру. ✅Гибкость в формах кластеров: Кластеры в нем могут иметь различные формы и размеры благодаря использованию ковариационных матриц, что позволяет моделировать более сложные структуры данных. ✅Алгоритм оптимизации: Для оценки параметров он чаще всего используется алгоритм EM (Expectation-Maximization), который итеративно пытается максимизировать правдоподобие данных относительно предполагаемых параметров смеси. K-means (Кластеризация K-средних) Это метод векторной квантизации, который используется для разделения набора данных на K кластеров, минимизируя суммарное внутрикластерное вариационное расстояние. Особенности: ✅Невероятностный, итеративный подход: Итеративно минимизирует сумму квадратов расстояний от каждой точки данных до ближайшего центра кластера. ✅Равные формы кластеров: Предполагает, что кластеры имеют схожую форму (сферическую), что может не всегда соответствовать реальному распределению данных. ✅Простота и вычислительная эффективность: Обычно быстрее и проще в реализации, чем GMM, но он также более ограничен в отношении моделирования различий между кластерами. Сравнение: 1⃣Гибкость модели: GMM обеспечивает большую гибкость за счёт моделирования эллиптических кластеров с разными размерами и формами, в то время как K-means эффективен в случаях, когда кластеры более однородны и сферически. 2⃣Результаты кластеризации: GMM предоставляет мягкую кластеризацию, позволяя точкам иметь степень принадлежности к разным кластерам, в то время как K-means присваивает каждую точку ровно одному кластеру. 3⃣Вычислительная сложность: GMM требует больше вычислительных ресурсов и времени для сходимости из-за использования EM-алгоритма, в то время как K-means обычно работает быстрее. Выбор между GMM и K-means зависит от специфики задачи, структуры данных и требуемой точности результатов. GMM предпочтителен, когда данные сложно устроены или когда необходима вероятностная интерпретация кластеров. K-means лучше использовать для более простых или очень больших наборов данных, где важна вычислительная эффективность. 👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент 🔐 База собесов | 🔐 База тестовых
نمایش همه...
👍 2 1
00:06
Video unavailableShow in Telegram
👩‍💻 Data Sciene - блог ведущего дата саентиста, работающего с данными в Uber. Здесь разoбраны практические задачи по работе с данными с собеседований крупнейших компаний. С этим каналом вы пройдете путь от -"гугл, что такое датафрейм", до высокооплачиваемого Аналитика данных. Еще мы собрали целый кладезь полезных материалов для всех, кто любит и изучает Анализ Данных. Это первоисточник всего, что появляется в платных курсах и остальных ресурсах. Стоит подписаться: @data_analysis_ml
نمایش همه...
31532d7d378053de3b8bf23c6e7bfae3.mp41.09 KB
👍 4 2🔥 2
🔥 Начать учиться
یک طرح متفاوت انتخاب کنید

طرح فعلی شما تنها برای 5 کانال تجزیه و تحلیل را مجاز می کند. برای بیشتر، لطفا یک طرح دیگر انتخاب کنید.