Библиотека собеса по Data Science | вопросы с собеседований

Відкрити в Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Сітка:Книги для программистов Росія124 556 Кар'єра6 903

4 489

Підписники

Немає даних24 години

+77 днів

+4230 день

537

Перегляди допису

~ 27424 години

~ 34148 годин

11.96%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

4 487

Что такое TF-IDF? TF-IDF (Term Frequency-Inverse Document Frequency) — это статистическая мера, используемая для оценки значимости слова в документе относительно всех других документов в коллекции или корпусе. TF-IDF сочетает два значения: 🔷 TF (Частота слова) Это число, показывающее, сколько раз слово встречается в документе. Чем чаще, тем слово важнее в контексте этого документа. 🔷 IDF (Обратная частота документа) Это мера, которая уменьшает вес слов, часто встречающихся во всём корпусе документов. Чем реже слово встречается во всём корпусе, тем больше его вклад в IDF. Значение TF-IDF рассчитывается как произведение TF и IDF. На основе TF-IDF значений слов можно построить векторы документов. #NLP

4 487

Какой из перечисленных алгоритмов может быть использован для заполнения пропущенных значений как категориальных, так и непрерывных переменных?

Anonymous voting

4 487

$🎭 Bytemask \\ Bytemask — плагин Gradle для Android, который маскирует секретные строки приложения в исходном коде, затрудняя$

🎭 Bytemask \\ Bytemask — плагин Gradle для Android, который маскирует секретные строки приложения в исходном коде, затрудняя их извлечение с помощью реверс-инжиниринга. Он шифрует строки во время компиляции с помощью ключа подписи приложения и расшифровывает во время выполнения. Ссылка на Github #полезное #библиотека

4 487

Напишите функцию для вычисления евклидова расстояния Вот две точки для примера:

plot1 = [1,3]
plot2 = [2,5]

Решение:

def euclidean_dist(point1, point2):
    return ((point1[0] - point2[0])**2 + (point1[1] - point2[1])**2)**0.5

point1, point2 = [1, 3], [2, 5]
print(euclidean_dist(point1, point2)) # -> 2.23606797749979

#python #программирование

4 487

Каковы главные преимущества архитектуры Transformer? Будем опираться на статью Attention is all you need, в которой впервые описали архитектуру Transformers. ▪️Использование механизма внимания Это позволяет моделировать зависимости между элементами последовательности независимо от расстояния между ними. Такой подход помогает модели лучше учитывать контекст. ▪️Параллелизация обучения Благодаря отказу от рекуррентной архитектуры, Transformer позволяет параллелизовать вычисления. Это достигается за счёт использования mulithead механизма внимания, который обрабатывает все элементы последовательности одновременно. ▪️Универсальность Transformer показала высокую эффективность не только в задачах машинного перевода, но и в других. Это говорит о её хорошей способности к обобщению на разные типы задач. #глубокое_обучение

4 487

Что вы знаете о координатном спуске? Внимание, не нужно путать это с градиентным спуском. Хотя оба являются методами оптимизации и позволяют минимизировать функцию. Различие заключается в том, что координатному спуску не нужно вычислять градиенты целевой функции. Вместо этого он последовательно обновляет значения одной переменной за раз, фиксируя остальные. Это позволяет методу координатного спуска быть простым в реализации. В общем случае алгоритм выглядит так: ▫️Проводится инициализация некоторым значением x_0 ▫️Затем фиксируются значения всех переменных кроме x_i, — так получается одномерная функция f(x_i). Проводится одномерная оптимизация по переменной x_i любым методом одномерной оптимизации. Если выполнен критерий останова, то возвращается текущее значение x. Это повторяется для i=1…n. #машинное_обучение

4 487

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом. Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций. Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах. 👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

4 487

Что вы знаете о проблемах взрывающегося и затухающего градиента? ▪️Взрывающийся градиент Эта проблема возникает, когда градиенты функции потерь начинают расти экспоненциально во время обучения. В результате это приводит к тому, что веса становятся огромными и приходят в NaN. Конечно, сеть с такими параметрами не может моделировать зависимости корректно. Почему это происходит? Если говорить о математических причинах, то это случается, когда произведение частных производных функции активации и весов на каждом слое превышает единицу. Если матрица весов W имеет большое собственное значение, то при умножении этого значения на градиенты потерь происходит экспоненциальный рост величины градиентов. ▪️Исчезающий градиент Это проблема, обратная предыдущей. Градиенты функции потерь наоборот становятся слишком маленькими, близкими к нулю, и веса нейросети в принципе перестают обновляться. При таких условиях качество работы модели не растёт. Почему это происходит? Исчезающий градиент возникает, когда произведение частных производных функции активации и весов на каждом слое меньше единицы. В этом случае градиенты уменьшаются экспоненциально по мере прохождения через каждый слой сети. В конечном итоге, градиенты становятся настолько малыми, что обновления весов практически не происходят. #машинное_обучение

4 487

Хардкорный курс по математике для тех, кто правда любит математику! Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/61c44272 Что вас ждет: – Вводный урок от CPO курса – Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск – Практические задания для закрепления материала и ссылки на дополнительные материалы. ⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/61c44272

4 487

Как быть с категориальными предикторами при построении линейной регрессии? Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной. ▫️ Номинальная. У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие. ▫️ Порядковая. Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно. #машинное_обучение

4 487

✍️Библиотека программиста» находится в поиске автора оригинальных статей Кто нужен? ● Энтузиасты (джуны и выше), которые держат руку на пульсе, читают помимо книг зарубежные техноблоги ● Энтузиасты, которым есть что сказать Тематика ● DevOps ● В четырех случаях из пяти вы предлагаете тему статьи Объем ● От 7 до 15 тыс. знаков без учета кода ● 2-3 статьи в месяц Оплата ● 8к руб. за статью ● Работаем с самозанятыми (компенсируем налог), ИП Я пишу «так себе», что делать? Чтобы написать статью, которую не стыдно опубликовать, достаточно овладеть инфостилем. У нас есть бесплатный курс для начинающих копирайтеров «Статьи для IT: как объяснять и распространять значимые идеи». Время прохождения курса: 1-2 недели. ✉️Пишите на hello@proglib.io

4 487

Proglib запускает канал Азбука айтишника Подписывайтесь на наш новый канал про айти для неайтишников — для совсем новичков и тех, кто постоянно взаимодействует с айтишниками. У нас есть рубрики: ⭐ База — в ней рассказываем про термины из IT простым языком ⭐ Проект — объясняем, из чего состоят айтишные проекты и сколько они могут стоить ⭐ Психология айтишника — тут говорим про софт-скиллы, особенности работы и взаимодействия 👉Подписывайтесь!

4 487

Repost from Proglib.academy | IT-курсы

⭐ 13 ресурсов, чтобы выучить математику Некоторые разработчики утверждают, что математика не обязательна, в то время как другие считают, что без её фундаментальных знаний невозможно стать программистом. Если вас мучает ее математическое незнание, то скорее читайте нашу статью. 🔗 Статья Чтобы лучше разбираться в математике, прикрепляем наш курс: 🔵 Математика для Data Science

4 487

Самые полезные каналы для программистов в одной подборке! Сохраняйте себе, чтобы не потерять 💾 🔥Для всех Библиотека программиста — новости, статьи, досуг, фундаментальные темы Книги для программистов IT-мемы Proglib Academy — тут мы рассказываем про обучение и курсы 🤖Про нейросети Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка Библиотека нейротекста | ChatGPT, Gemini, Bing Библиотека нейровидео | Sora AI, Runway ML, дипфейки Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion #️⃣C# Книги для шарпистов | C#, .NET, F# Библиотека шарписта — полезные статьи, новости и обучающие материалы по C# Библиотека задач по C# — код, квизы и тесты Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel ☁️DevOps Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps Вакансии по DevOps & SRE Библиотека задач по DevOps — код, квизы и тесты Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования 🐘PHP Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP Вакансии по PHP, Symfony, Laravel Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по PHP — код, квизы и тесты 🐍Python Библиотека питониста — полезные статьи, новости и обучающие материалы по Python Вакансии по питону, Django, Flask Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Python — код, квизы и тесты ☕Java Книги для джавистов | Java Библиотека джависта — полезные статьи по Java, новости и обучающие материалы Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Java — код, квизы и тесты Вакансии для java-разработчиков 👾Data Science Книги для дата сайентистов | Data Science Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Data Science — код, квизы и тесты Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту 🦫Go Книги для Go разработчиков Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по Go — код, квизы и тесты Вакансии по Go 🧠C++ Книги для C/C++ разработчиков Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++ Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования Библиотека задач по C++ — код, квизы и тесты Вакансии по C++ 💻Другие каналы Библиотека фронтендера Библиотека мобильного разработчика Библиотека хакера Библиотека тестировщика Вакансии по фронтенду, джаваскрипт, React, Angular, Vue Вакансии для мобильных разработчиков Вакансии по QA тестированию InfoSec Jobs — вакансии по информационной безопасности 📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈 Также у нас есть боты: Бот с IT-вакансиями Бот с мероприятиями в сфере IT Мы в других соцсетях: 🔸VK 🔸YouTube 🔸Дзен 🔸Facebook * 🔸Instagram * * Организация Meta запрещена на территории РФ

4 487

Что такое прунинг (pruning) дерева решений? Прунинг ещё могут называть усечением или редукцией. Это процесс упрощения структуры уже построенного дерева путём удаления некоторых вершин. Как правило, удаляются вершины, которые вносят минимальный вклад в точность модели. То есть сначала дерево строится жадно без ограничений, а затем проводится усечение. Необходимо добиться того, чтобы итоговое качество упало не сильно, но дерево начало подходить под условия регуляризации. Качество стоит измерять на отдельной, отложенной выборке. Для чего это делается? При жадном построении алгоритм часто создаёт дерево, которое полностью учитывает обучающие данные, включая шум. Это может привести к переобучению, когда модель теряет способность хорошо обобщать на новых данных. #машинное_обучение

4 487

👀Что из этого сгенерировала нейросеть? Подписывайтесь на наш новый канал про нейросети для создания изображений, там есть: 🌸Новые нейросети и инструменты, например, вот модель генерирует картинки по наброску 🌸Промты для разных задач 🌸Лайфхаки по использованию нейросетей 👉Подписывайтесь!

4 487

Что называют шумом в данных? Шум в данных — это присутствие случайных или нерелевантных вариаций значения какого-либо признака, которые не отражают взаимосвязь этого признака с таргетом. Причинами шума в данных могут быть: ▫️ошибки измерения; ▫️аномалии; ▫️человеческий фактор. Наличие в данных шума — проблема для алгоритмов машинного обучения. Шум может стать причиной переобучения, ведь модель будет подстраиваться под нерелевантные вариации признака, и, как только ей покажут тестовые, не зашумленные данные, начнёт плохо работать. Для устранения шума можно использовать разные техники, например регуляризацию, отбор признаков и методы очистки данных. #машинное_обучение

4 487

Объясните, почему Случайный лес (Random Forest) моделирует нелинейные зависимости? Случайный лес — это ансамблевый метод машинного обучения, который строит множество решающих деревьев и объединяет их прогнозы для получения более точных результатов. При построении Random Forest не делается никаких предположений о линейности данных. И сам алгоритм не предполагает использования таких предположений. Например, один и тот же признак может быть использован несколько раз с различными критериями деления и на разных уровнях дерева. Кроме того, каждое дерево в Случайном лесе строится на основе случайного подмножества данных. Это приводит к тому, что разные деревья моделируют разные аспекты зависимостей. #машинное_обучение

4 487

🎮Новый канал по разработке игр Мы наконец-то запустили канал по разработке игр — теперь все самое важное и полезное из мира геймдева можно узнать в одном месте. 👉Подписаться