Библиотека собеса по Data Science | вопросы с собеседований

Open in Telegram

Вопросы с собеседований по Data Science и ответы на них. Учиться у нас: clc.to/GjjbkQ По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Network:Книги для программистов Russia123 404 Career6 853

4 489

Subscribers

+124 hours

+17 days

+2030 days

530

Post views

~ 25424 hours

~ 31548 hours

11.81%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

4 489

Самые полезные каналы для программистов в одной подборке! Сохраняйте себе, чтобы не потерять 💾 🔥Для всех Библиотека программиста — новости, статьи, досуг, фундаментальные темы Книги для программистов IT-мемы Proglib Academy — тут мы рассказываем про обучение и курсы 🐘PHP Библиотека пхпшника Вакансии по PHP, Symfony, Laravel Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по PHP — код, квизы и тесты 🐍Python Библиотека питониста Вакансии по питону, Django, Flask Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Python — код, квизы и тесты ☕Java Библиотека джависта — полезные статьи по Java, новости и обучающие материалы Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Java — код, квизы и тесты Вакансии для java-разработчиков 👾Data Science Библиотека Data Science — полезные статьи, новости и обучающие материалы Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Data Science — код, квизы и тесты Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту 🦫Go Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Go — код, квизы и тесты Вакансии по Go 🧠C++ Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++ Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по C++ — код, квизы и тесты Вакансии по C++ 💻Другие профильные каналы Библиотека фронтендера Библиотека шарписта Библиотека мобильного разработчика Библиотека хакера Библиотека devops’a Библиотека тестировщика 💼Каналы с вакансиями Вакансии по фронтенду, джаваскрипт, React, Angular, Vue Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel Вакансии по DevOps & SRE Вакансии для мобильных разработчиков Вакансии по QA тестированию InfoSec Jobs — вакансии по информационной безопасности 📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈 🤖Также у нас есть боты: Бот с IT-вакансиями Бот с мероприятиями в сфере IT Мы в других соцсетях: 🔸VK 🔸YouTube 🔸Дзен 🔸Facebook 🔸Instagram

4 489

Что такое dropout? Почему это полезно? Как это работает? Dropout — это метод, который на каждом этапе обучения отключает каждый нейрон с определенной вероятностью p. Таким образом, на каждой итерации мы обучаем только 1-p нейронов, что заставляет сеть не полагаться только на подмножество нейронов для представления признаков. Это приводит к регуляризирующим эффектам, которые контролируются гиперпараметром p.

4 489

В чем разница между случайным лесом и повышением градиента? Функция «Случайные леса» строит каждое дерево независимо, а функция «Усиление градиента» строит по одному дереву за раз. Случайные леса объединяют результаты в конце процесса (путем усреднения или «правил большинства»), тогда как повышение градиента объединяет результаты по ходу процесса.

4 489

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом. Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций. Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах. 👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

4 489

Как выглядит регуляризация L2 в линейной модели? Регуляризация L2 добавляет к нашей функции стоимости штраф, который равен сумме квадратов коэффициентов модели, умноженных на лямбда-гиперпараметр. Этот метод гарантирует, что коэффициенты близки к нулю, и широко используется в случаях, когда у нас есть много функций, которые могут коррелировать друг с другом.

4 489

Что такое bag of words? Как мы можем использовать его для классификации текста? ‍ Это представление текста, описывающее появление слов в документе. Порядок или структура слов не учитываются. Для классификации текста мы смотрим на гистограмму слов в тексте и рассматриваем каждое количество слов как признак.

4 489

Что такое ROC-кривая? Когда её использовать? ROC означает «Receiver Operating Characteristics». Схематическое изображение, показывающее контраст между истинно положительными показателями и ложноположительными. Она используется, когда нам нужно предсказать вероятность двоичного результата.

4 489

Когда бы вы использовали Adam, а когда SGD? Adam имеет тенденцию сходиться быстрее, тогда как SGD часто сходится к более оптимальным решениям.

4 489

Как узнать, сколько деревьев нам нужно в случайном лесу? Количество деревьев в случайном лесу обрабатывается n_estimators, а случайный лес уменьшает переобучение за счет увеличения количества деревьев. Не существует фиксированного эмпирического правила для определения количества деревьев в случайном лесу, оно довольно точно настраивается с учетом данных, обычно начиная с возведения в квадрат количества признаков (n), присутствующих в данных, с последующей настройкой, пока мы не получим получить оптимальные результаты.

4 489

Что такое регуляризация? Зачем нам это нужно? Регуляризация используется для уменьшения переобучения в моделях машинного обучения. Это помогает моделям хорошо обобщать и делать их устойчивыми к выбросам и шуму в данных.

4 489

Каковы основные параметры модели дерева решений? ✍️ максимальная глубина дерева ✍️ минимальные выборки на листовой узел ✍️ критерий примеси

4 489

Что, если мы установим все веса нейронной сети равными 0? Если все веса нейронной сети установлены равными нулю, выходные данные каждого соединения будут одинаковыми (W*x = 0). Это означает, что градиенты, которые возвращаются к каждому соединению в слое, одинаковы. То есть все связи/веса изучают одно и то же, и модель никогда не сойдется.

4 489

Что такое N-граммы? Как мы можем их использовать? Функция разбиения на последовательные последовательности слов называется n-граммами. Его можно использовать для определения N наиболее часто встречающихся слов (как часто за словом X следует слово Y) в данном предложении.

4 489

Чем файл .pyc отличается от файла .py? Хотя оба файла содержат байт-код, .pyc — это скомпилированная версия файла Python. Он имеет независимый от платформы байт-код. Следовательно, мы можем выполнить его на любой платформе, поддерживающей формат .pyc. Python автоматически генерирует его для повышения производительности (с точки зрения времени загрузки, а не скорости).

4 489

Что выведет код сверху?

Anonymous voting

4 489

Как работает LambdaMART? 1. Построение деревьев LambdaMART: LambdaMART использует деревья решений, которые предсказывают релевантность объектов (например, веб-страниц или товаров). Для каждого объекта есть целевая переменная - его реальный ранг или релевантность. 2. Вычисление функции потерь LambdaMART: Функция потерь оценивает, насколько хорошо предсказанные ранги соответствуют реальным рангам. Она учитывает веса (lambdas), которые определяют важность каждого объекта. 3. Градиентный бустинг для деревьев LambdaMART: LambdaMART использует градиентный бустинг для обучения последовательности деревьев. Каждое дерево строится для улучшения текущего ранжирования. 4. Ансамбль деревьев LambdaMART: После обучения деревьев они объединяются в ансамбль. Каждое дерево представляет собой слабый ранжировщик, но ансамбль улучшает ранжирование. 5. Предсказание рангов: Для новых объектов LambdaMART предсказывает их ранги, используя ансамбль деревьев. Это помогает определить порядок объектов в результатах поиска или рекомендациях, учитывая их релевантность.

4 489

В чем отличие стохастического градиентного спуска от обычного? Стандартный градиентный спуск (Gradient Descent) и стохастический градиентный спуск (Stochastic Gradient Descent или SGD) - это два важных метода оптимизации в машинном обучении. Они отличаются в том, как обновляют параметры модели в процессе обучения. • Градиентный спуск обновляет параметры модели на основе градиента, вычисленного на всем обучающем наборе. • Стохастический градиентный спуск (SGD) обновляет параметры, используя случайные образцы из обучающего набора, делая обучение быстрее, но более шумным.

4 489

В чем отличие глобального пулинга от локального? Отличие глобального пулинга от локального заключается в том, что размер окна всегда равняется длине входной последовательности. Если подают последовательность другой длины, то размер окна подстраиваться под неё.

4 489

Что такое квантизация и бинаризация модели и в чем между ними разница? Квантизация и бинаризация модели - это методы снижения объема памяти и вычислительной сложности нейронных сетей, путем уменьшения точности представления весов и активаций модели. Вот как они работают: Квантизация модели: • Идея: Квантизация заключается в уменьшении точности чисел, используемых для представления весов и активаций модели. Вместо хранения и вычисления чисел с плавающей запятой, мы используем целочисленные числа с ограниченным числом бит. • Пример: Вместо хранения числа с плавающей запятой 0.753218, мы можем использовать квантованное значение, например, 8-битное целое число 155. • Плюсы: Квантизация снижает объем памяти и требования к вычислительным ресурсам, что особенно полезно для встраиваемых систем и мобильных устройств. • Минусы: Это может привести к некоторой потере точности, так как мы снижаем разрешение чисел. Бинаризация модели: • Идея: Бинаризация идет еще дальше и заключается в том, чтобы представлять веса и активации как бинарные (0 или 1) значения. Вместо вещественных чисел используются биты. Это делает модель еще более компактной. • Пример: Вместо числа с плавающей запятой можно использовать всего два значения: 0 и 1. • Плюсы: Бинаризация дает значительное снижение объема памяти и требований к вычислительным ресурсам. Она подходит для задач, где крайне ограничены ресурсы. • Минусы: Бинаризация может привести к еще большей потере точности, и сложные модели могут стать непригодными для задач с высокими требованиями к точности. Оба метода, квантизация и бинаризация, имеют свои компромиссы между размером модели и ее производительностью. Их выбор зависит от конкретных потребностей приложения и доступных ресурсов.