Библиотека собеса по Data Science | вопросы с собеседований
Відкрити в Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
Показати більше4 489
Підписники
Немає даних24 години
+77 днів
+4230 день
Архів дописів
Что такое TF-IDF?
TF-IDF (Term Frequency-Inverse Document Frequency) — это статистическая мера, используемая для оценки значимости слова в документе относительно всех других документов в коллекции или корпусе. TF-IDF сочетает два значения:
🔷 TF (Частота слова)
Это число, показывающее, сколько раз слово встречается в документе. Чем чаще, тем слово важнее в контексте этого документа.
🔷 IDF (Обратная частота документа)
Это мера, которая уменьшает вес слов, часто встречающихся во всём корпусе документов. Чем реже слово встречается во всём корпусе, тем больше его вклад в IDF.
Значение TF-IDF рассчитывается как произведение TF и IDF. На основе TF-IDF значений слов можно построить векторы документов.
#NLP
Какой из перечисленных алгоритмов может быть использован для заполнения пропущенных значений как категориальных, так и непрерывных переменных?
🎭 Bytemask \\
Bytemask — плагин Gradle для Android, который маскирует секретные строки приложения в исходном коде, затрудняя их извлечение с помощью реверс-инжиниринга. Он шифрует строки во время компиляции с помощью ключа подписи приложения и расшифровывает во время выполнения.
Ссылка на Github
#полезное #библиотека
Напишите функцию для вычисления евклидова расстояния
Вот две точки для примера:
plot1 = [1,3] plot2 = [2,5]Решение:
def euclidean_dist(point1, point2):
return ((point1[0] - point2[0])**2 + (point1[1] - point2[1])**2)**0.5
point1, point2 = [1, 3], [2, 5]
print(euclidean_dist(point1, point2)) # -> 2.23606797749979
#python
#программированиеКаковы главные преимущества архитектуры Transformer?
Будем опираться на статью Attention is all you need, в которой впервые описали архитектуру Transformers.
▪️Использование механизма внимания
Это позволяет моделировать зависимости между элементами последовательности независимо от расстояния между ними. Такой подход помогает модели лучше учитывать контекст.
▪️Параллелизация обучения
Благодаря отказу от рекуррентной архитектуры, Transformer позволяет параллелизовать вычисления. Это достигается за счёт использования mulithead механизма внимания, который обрабатывает все элементы последовательности одновременно.
▪️Универсальность
Transformer показала высокую эффективность не только в задачах машинного перевода, но и в других. Это говорит о её хорошей способности к обобщению на разные типы задач.
#глубокое_обучение
Что вы знаете о координатном спуске?
Внимание, не нужно путать это с градиентным спуском. Хотя оба являются методами оптимизации и позволяют минимизировать функцию.
Различие заключается в том, что координатному спуску не нужно вычислять градиенты целевой функции. Вместо этого он последовательно обновляет значения одной переменной за раз, фиксируя остальные. Это позволяет методу координатного спуска быть простым в реализации.
В общем случае алгоритм выглядит так:
▫️Проводится инициализация некоторым значением x_0
▫️Затем фиксируются значения всех переменных кроме x_i, — так получается одномерная функция f(x_i). Проводится одномерная оптимизация по переменной x_i любым методом одномерной оптимизации. Если выполнен критерий останова, то возвращается текущее значение x. Это повторяется для i=1…n.
#машинное_обучение
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Что вы знаете о проблемах взрывающегося и затухающего градиента?
▪️Взрывающийся градиент
Эта проблема возникает, когда градиенты функции потерь начинают расти экспоненциально во время обучения. В результате это приводит к тому, что веса становятся огромными и приходят в NaN. Конечно, сеть с такими параметрами не может моделировать зависимости корректно.
Почему это происходит?
Если говорить о математических причинах, то это случается, когда произведение частных производных функции активации и весов на каждом слое превышает единицу. Если матрица весов W имеет большое собственное значение, то при умножении этого значения на градиенты потерь происходит экспоненциальный рост величины градиентов.
▪️Исчезающий градиент
Это проблема, обратная предыдущей. Градиенты функции потерь наоборот становятся слишком маленькими, близкими к нулю, и веса нейросети в принципе перестают обновляться. При таких условиях качество работы модели не растёт.
Почему это происходит?
Исчезающий градиент возникает, когда произведение частных производных функции активации и весов на каждом слое меньше единицы. В этом случае градиенты уменьшаются экспоненциально по мере прохождения через каждый слой сети. В конечном итоге, градиенты становятся настолько малыми, что обновления весов практически не происходят.
#машинное_обучение
Хардкорный курс по математике для тех, кто правда любит математику!
Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/61c44272
Что вас ждет:
– Вводный урок от CPO курса
– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск
– Практические задания для закрепления материала и ссылки на дополнительные материалы.
⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/61c44272
Как быть с категориальными предикторами при построении линейной регрессии?
Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.
▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.
▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.
#машинное_обучение
✍️Библиотека программиста» находится в поиске автора оригинальных статей
Кто нужен?
● Энтузиасты (джуны и выше), которые держат руку на пульсе, читают помимо книг зарубежные техноблоги
● Энтузиасты, которым есть что сказать
Тематика
● DevOps
● В четырех случаях из пяти вы предлагаете тему статьи
Объем
● От 7 до 15 тыс. знаков без учета кода
● 2-3 статьи в месяц
Оплата
● 8к руб. за статью
● Работаем с самозанятыми (компенсируем налог), ИП
Я пишу «так себе», что делать?
Чтобы написать статью, которую не стыдно опубликовать, достаточно овладеть инфостилем. У нас есть бесплатный курс для начинающих копирайтеров «Статьи для IT: как объяснять и распространять значимые идеи». Время прохождения курса: 1-2 недели.
✉️Пишите на hello@proglib.io
Proglib запускает канал Азбука айтишника
Подписывайтесь на наш новый канал про айти для неайтишников — для совсем новичков и тех, кто постоянно взаимодействует с айтишниками.
У нас есть рубрики:
⭐ База — в ней рассказываем про термины из IT простым языком
⭐ Проект — объясняем, из чего состоят айтишные проекты и сколько они могут стоить
⭐ Психология айтишника — тут говорим про софт-скиллы, особенности работы и взаимодействия
👉Подписывайтесь!
Repost from Proglib.academy | IT-курсы
⭐ 13 ресурсов, чтобы выучить математику
Некоторые разработчики утверждают, что математика не обязательна, в то время как другие считают, что без её фундаментальных знаний невозможно стать программистом. Если вас мучает ее математическое незнание, то скорее читайте нашу статью.
🔗 Статья
Чтобы лучше разбираться в математике, прикрепляем наш курс:
🔵 Математика для Data Science
Proglib запускает канал Азбука айтишника
Подписывайтесь на наш новый канал про айти для неайтишников — для совсем новичков и тех, кто постоянно взаимодействует с айтишниками.
У нас есть рубрики:
⭐ База — в ней рассказываем про термины из IT простым языком
⭐ Проект — объясняем, из чего состоят айтишные проекты и сколько они могут стоить
⭐ Психология айтишника — тут говорим про софт-скиллы, особенности работы и взаимодействия
👉Подписывайтесь!
Самые полезные каналы для программистов в одной подборке!
Сохраняйте себе, чтобы не потерять 💾
🔥Для всех
Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion
#️⃣C#
Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel
☁️DevOps
Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
🐘PHP
Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты
🐍Python
Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты
☕Java
Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков
👾Data Science
Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту
🦫Go
Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go
🧠C++
Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++
💻Другие каналы
Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT
Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *
* Организация Meta запрещена на территории РФ
Что такое прунинг (pruning) дерева решений?
Прунинг ещё могут называть усечением или редукцией. Это процесс упрощения структуры уже построенного дерева путём удаления некоторых вершин.
Как правило, удаляются вершины, которые вносят минимальный вклад в точность модели. То есть сначала дерево строится жадно без ограничений, а затем проводится усечение. Необходимо добиться того, чтобы итоговое качество упало не сильно, но дерево начало подходить под условия регуляризации. Качество стоит измерять на отдельной, отложенной выборке.
Для чего это делается? При жадном построении алгоритм часто создаёт дерево, которое полностью учитывает обучающие данные, включая шум. Это может привести к переобучению, когда модель теряет способность хорошо обобщать на новых данных.
#машинное_обучение
👀Что из этого сгенерировала нейросеть?
Подписывайтесь на наш новый канал про нейросети для создания изображений, там есть:
🌸Новые нейросети и инструменты, например, вот модель генерирует картинки по наброску
🌸Промты для разных задач
🌸Лайфхаки по использованию нейросетей
👉Подписывайтесь!
Что называют шумом в данных?
Шум в данных — это присутствие случайных или нерелевантных вариаций значения какого-либо признака, которые не отражают взаимосвязь этого признака с таргетом. Причинами шума в данных могут быть:
▫️ошибки измерения;
▫️аномалии;
▫️человеческий фактор.
Наличие в данных шума — проблема для алгоритмов машинного обучения. Шум может стать причиной переобучения, ведь модель будет подстраиваться под нерелевантные вариации признака, и, как только ей покажут тестовые, не зашумленные данные, начнёт плохо работать.
Для устранения шума можно использовать разные техники, например регуляризацию, отбор признаков и методы очистки данных.
#машинное_обучение
Объясните, почему Случайный лес (Random Forest) моделирует нелинейные зависимости?
Случайный лес — это ансамблевый метод машинного обучения, который строит множество решающих деревьев и объединяет их прогнозы для получения более точных результатов. При построении Random Forest не делается никаких предположений о линейности данных. И сам алгоритм не предполагает использования таких предположений.
Например, один и тот же признак может быть использован несколько раз с различными критериями деления и на разных уровнях дерева. Кроме того, каждое дерево в Случайном лесе строится на основе случайного подмножества данных. Это приводит к тому, что разные деревья моделируют разные аспекты зависимостей.
#машинное_обучение
🎮Новый канал по разработке игр
Мы наконец-то запустили канал по разработке игр — теперь все самое важное и полезное из мира геймдева можно узнать в одном месте.
👉Подписаться
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
