Библиотека собеса по Data Science | вопросы с собеседований

Открыть в Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Больше

Сеть:Книги для программистов Россия124 627 Карьера6 905

4 490

Подписчики

+324 часа

+87 дней

+4230 день

533

Просмотры поста

~ 27624 часа

~ 34448 часов

11.87%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

4 490

Почему в глубоких нейросетях используют функции активации, такие как ReLU, вместо линейных Если в каждой нейронной связи использовать только линейные преобразования, вся сеть сводится к одной линейной функции, независимо от количества слоев. Это делает нейросеть неспособной моделировать сложные нелинейные зависимости. 🔹 ReLU (Rectified Linear Unit) и другие нелинейные функции помогают сети изучать сложные представления и разделять данные в многомерном пространстве.

4 490

Ответ:

Anonymous voting

4 490

Правда или Ложь: высокий информационный выигрыш при разбиении ухудшает точность модели (дерева решений)? Ответ: ✅ Правда. Хотя высокий информационный выигрыш означает значительное уменьшение неопределенности, он также может привести к переобучению. В этом случае дерево слишком точно подстраивается под обучающую выборку, теряя способность обобщать закономерности на новых данных.

4 490

Как классическая классификация ML помогает в реальном мире 🤖 Классификация в ML — это метод обучения, в котором модель обучается на размеченных данных и предсказывает, к какому классу относится новый объект. ✅ Фильтрация спама – чтобы в почте оставалось только важное. ✅ Рекомендации фильмов – Netflix знает, что ты любишь! ✅ Кредитный скоринг – банки решают, дать ли тебе займ. ✅ Предсказание мэтчей – как на нашем вебинаре по speed dating. 14 февраля мы разберём на практике задачу классификации: - Как выбрать оптимальные признаки - Что делать с несбалансированными данными - Как интерпретировать результаты модели 🔥 Если уже работаешь с ML или только начинающий программист – приходи на наш вебинар, в котором мы разберем «как предсказывать мэтч на speed dating» . Приходи!

4 490

Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐳 DeepSeek-R1 — очередной значительный шаг в развитии ИИ. Для сообщества ML-разработчиков и исследователей этот релиз важен по двум причинам: 👉 Это модель с открытыми весами, имеющая уменьшенные, дистиллированные версии. 👉 Она использует и анализирует метод обучения, который позволяет воспроизвести модель рассуждений, подобную OpenAI o1. Разберемся, как происходило обучение DeepSeek-R1: https://proglib.io/sh/SwVUWXrFN3

4 490

Какая функция потерь используется в процессе обучения сети на изображении В процессе обучения используется комбинированная функция потерь, которая представляет собой взвешенное среднее из: 🔹 Style loss (потеря стиля) — оценивает, насколько хорошо сгенерированное изображение соответствует стилю эталонного изображения. 🔹 Content loss (потеря содержимого) — следит за тем, чтобы сгенерированное изображение сохраняло ключевые структуры оригинального контента.

4 490

Почему глубокие нейросети могут переобучаться, даже если количество данных огромное 🔹 Избыточная параметризация — современные нейросети содержат миллионы (или даже миллиарды) параметров, что позволяет им запоминать данные вместо обобщения. 🔹 Коррелированные признаки — если данные содержат мало информативных или избыточных признаков, модель может подстроиться под шум, а не выделить полезные закономерности. 🔹 Смещение в данных — если тренировочные данные недостаточно разнообразны или не представляют реальный мир, сеть может слишком хорошо подстроиться под них, но плохо работать на новых примерах. 🔹 Отсутствие регуляризации — методы вроде L1/L2-регуляризации, dropout и batch normalization помогают бороться с переобучением, но если они не используются, сеть может переобучиться даже на больших данных.

4 490

🔥 Самые нужные каналы для Data Scientist, чтобы расти в доходе 💸 • Data Science | Вопросы собесов • Data Science | Вакансии с удаленкой • Data Science | Тесты Подпишись, чтобы не потерять ☝️ Реклама. ИП Кивайко Алексей Викторович, ИНН 532121460552. Erid 2VtzqvcUCjn

4 490

Почему модель, обученная с L1-регуляризацией, может приводить к более интерпретируемым результатам по сравнению с L2-регуляризацией? 🔹 L1-регуляризация (Lasso) добавляет к функции потерь сумму модулей весов, что способствует обнулению некоторых из них. Это приводит к разреженности модели — многие параметры становятся нулевыми, оставляя только значимые признаки. В результате модель становится проще и легче интерпретируется. 🔹 L2-регуляризация (Ridge) добавляет сумму квадратов весов, но не зануляет их, а только уменьшает. Это делает модель более устойчивой к шуму, но не позволяет выявить наименее значимые признаки. 📌 L1-регуляризация действует как механизм автоматического отбора признаков, что упрощает интерпретацию модели. L2, в свою очередь, помогает сглаживать веса, но не делает модель разреженной.

4 490

Swipe right or swipe left Что делать, если твои мэтчи в жизни не такие точные, как твой код? Спокойно, 14 февраля в 19:00 по МСК мы разберём, как ML анализирует speed dating и предсказывает match. 📌 Мы возьмем реальные данные со speed dating. 📌 Обучим модель, которая скажет: match или swipe left. 📌 Разберём, какие признаки реально важны (спойлер: работа в IT — не прям гарантия успеха (наши маркетологи подтверждают 😥). 💡 Приходи, если хочешь прокачать свой Python, ML и, возможно, станешь идеальной парой, как самый стильные форсы. 👉 Записаться

4 490

Repost from Proglib.academy | IT-курсы

🔥 Какие навыки нужны Data Scientist'у и как их освоить Чтобы стать успешным Data Scientist и уверенно чувствовать себя на рынке труда, важно владеть широким спектром навыков. ➡️ Что внутри статьи: ▪️ Книги, курсы и статьи, чтобы прокачать каждый навык. ▪️ Бесплатные материалы для быстрого старта. ▪️ Задачи для практики. 🔗 Читать статью 🔵 А чтобы подготовиться к собесам для Data Science, забирайте наш курс «Алгоритмы и структуры данных»

4 490

Какой метод лучше оценивает неопределенность модели: deep ensembles или Monte-Carlo (MC) dropout Deep ensembles чаще дают более точную оценку неопределенности, особенно на данных вне распределения (OOD). Ключевые различия: ✔️ Deep ensembles — обучают несколько независимых моделей и усредняют их предсказания. Это улучшает устойчивость к OOD-данным и повышает точность вероятностных оценок. ✔️ MC-dropout — использует дропаут во время инференса для моделирования неопределенности, что дешевле вычислительно, но менее эффективно в сложных сценариях.

4 490

В чем разница между Grid Search и Random Search в оптимизации гиперпараметров ▪️ Grid Search — метод, при котором пользователь заранее задает набор возможных значений для каждого гиперпараметра. Затем алгоритм перебирает все возможные комбинации этих значений. ✅ Гарантированно находит лучшее значение среди заданных. 🚫 Число комбинаций растет экспоненциально с увеличением числа параметров, что делает метод медленным. ▪️ Random Search — метод, который случайным образом выбирает точки в пространстве гиперпараметров. ✅ Быстрее, так как не нужно проверять все комбинации. Иногда случайный поиск находит лучшие параметры, чем Grid Search. 🚫 Не гарантирует, что будут рассмотрены все возможные хорошие комбинации.

4 490

📢 Ты уже пробовал пройти AI-собеседование? Если нет, вот ещё одно напоминание от нас 🤗 Сейчас на рынке много вакансий, но как найти ту самую, которая идеально подойдёт тебе по навыкам, условиям и зарплате? ✅ Просто загрузи своё резюме ✅ Пройди интервью с нейро-рекрутером от Сбера (всего 15 минут!) ✅ Получай лучшие предложения без бесконечных звонков и ожидания откликов 💡 Алгоритмы анализируют твой опыт и подбирают вакансии, которые подходят на 98% — так что ты точно не потратишь время зря. Работа мечты может быть на расстоянии одного клика. Попробуешь? 😉 🔗 https://clc.to/GkOTTA

4 490

Какой метод ансамблирования здесь применяется?

Anonymous voting

4 490

➕ Какой ансамблевый метод используется На изображении показана схема, в которой модели x1, x2...xk называются базовыми обучающими моделями (Base Learners), а над ними находится дополнительный уровень — x3 Generalizer. Ответ: На изображении показан первый этап метода Stacking. ✔️ Фаза 0: Несколько базовых моделей (Base Learners) делают предсказания. ✔️ Фаза 1: Генерализатор (Generalizer) обучается на предсказаниях базовых моделей, чтобы улучшить результат.

4 490

Как работает моментум и какую роль играет экспоненциальное затухание в правиле обновления градиентного спуска ✅ Моментум учитывает прошлые градиенты, создавая эффект ускорения за счет скользящего среднего. Это приводит к экспоненциальному затуханию старых градиентов, снижая колебания и стабилизируя обновления весов. ✅ Такой подход ускоряет обучение, помогая модели быстрее сходиться и уменьшая количество эпох, необходимых для достижения оптимума.

4 490

Что такое valid convolution в нейросетях Если при convolution не используется padding, значит, это valid convolution. В этом случае фильтр скользит только по тем позициям, где полностью помещается на входные данные, а выходной тензор получается меньше исходного. Такой метод экономит вычисления, но «съедает» границы данных. Поэтому иногда используют same convolution, добавляя padding, чтобы сохранить размер.

4 490

👀 Какие три наиболее часто используемые меры для оптимального разбиения атрибутов в дереве решений 1. Энтропия: позволяет измерить степень неопределённости или «разнородности» данных. 2. Индекс Джини (Gini impurity): оценивает вероятность того, что случайно выбранный элемент будет классифицирован неправильно. 3. Ошибка классификации: простая метрика, показывающая долю неверных классификаций в узле. Какой метод выбрать ✅ Энтропия и индекс Gini чаще используются, так как они чувствительнее к изменениям в распределении данных. ✅ Ошибка классификации проще, но менее информативна для построения дерева решений.

4 490

Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗺️ Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы В 2025 году профессия ИИ-разработчика остается одной из самых востребованных и перспективных. 👀 Как начать свой путь в этой увлекательной, но сложной области? Мы собрали подробную дорожную карту и полезные ресурсы, которые помогут вам шаг за шагом освоить ключевые навыки и технологии.