Библиотека собеса по Data Science | вопросы с собеседований

Ir al canal en Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Red:Книги для программистов Rusia124 749 Carrera profesional6 909

4 489

Suscriptores

+524 horas

+47 días

+4030 días

531

Visitas de la publicación

~ 27724 horas

~ 34648 horas

11.83%

Tasa de compromiso

~ 1

Mensajes por día

Ads index

beta

Archivo de publicaciones

4 490

🎮 КВЕСТОВАЯ ЛИНИЯ: «Путь Data Scientist'а» ⮕ Твой стартовый набор искателя данных:

Python — твое легендарное оружие (урон по багам +∞) Математика — твой базовый интеллект (влияет на понимание алгоритмов) Машинное обучение — твое дерево навыков (открывает новые способности)

⚡️ АКТИВЕН ВРЕМЕННЫЙ БАФФ: «Щедрость наставника» Эффект: –30% к цене полного набора ДСника Было: 121.800 ₽ → Стало: 84.900 ₽ ☞ Что ждет тебя в этом квесте

— Получение артефактов: портфолио проектов и сертификаты— Прокачка от новичка до Senior Data Scientist— Босс-файты с реальными задачами из индустрии— Доступ к гильдии единомышленников

📎 Забрать бафф Рассрочки: 3 мес | 6 мес | 12 мес

4 490

В чём разница между статическими эмбеддингами (Word2Vec, GloVe) и контекстными (BERT, GPT) Статические эмбеддинги (Word2Vec, GloVe, FastText): ➡️ Каждое слово в словаре имеет один фиксированный вектор. ➡️ Например, слово bank будет иметь одно представление вне зависимости от того, идёт речь о «банке» как учреждении или «берегe реки». ➡️ Просты и быстры, но не учитывают многозначность. Контекстные эмбеддинги (BERT, GPT): ➡️ Вектор для слова зависит от его окружения. ➡️ Одно и то же bank в разных предложениях получит разные представления. ➡️ Лучше справляются с полисемией и передают более тонкий смысл. ➡️ Часто значительно повышают качество в downstream-задачах (классификация, QA, NER и др.). 🐸 Библиотека собеса по Data Science

4 490

🚩 Почему для задач классификации часто используют стратифицированную кросс-валидацию Стратификация гарантирует, что в каждом фолде сохраняются пропорции классов, близкие к исходному датасету. Это особенно важно при дисбалансе классов. 👉 Пример: если в выборке 90% отрицательного класса и 10% положительного, обычная (нестратифицированная) разбивка может создать фолд почти без положительных примеров. В итоге: ✅ модель получает искажённый сигнал, ✅ метрики становятся нестабильными, ✅ иногда обучение даже невозможно (например, при отсутствии класса в фолде). Стратификация снижает эти риски и делает оценки качества более надёжными и воспроизводимыми. 🐸 Библиотека собеса по Data Science

4 490

😎 Сколько баллов набрали вы? Голосуйте, какой у вас уровень разработчика: 😁 — 5-12 баллов (стажер) 👍 — 13-25 баллов (джуниор) ⚡️ — 26-40 баллов (джуниор+) 👏 — 41-60 баллов (миддл) 🔥 — 61-80 баллов (миддл+) 🎉 — 81-100 баллов (сеньор) 🤩 — 100+ баллов (тимлид) Но вот в чем прикол — опытный разработчик набирает баллы не случайными косяками, а осознанными решениями. 👉 Научим, как быстро прокачаться от стажера до сеньора

4 490

Переворачиваем календарь — а там скидки, которые уже закончились. Но мы их вернули на последний день 🤔 До 00:00 третьего сентября (цены как до 1 сентября): ▪️ Математика для Data Science — 35.199 ₽ вместо 44.900 ₽ ▪️ Алгоритмы и структуры данных — 31.669 ₽ вместо 39.900 ₽ ▪️ Основы IT — 14.994 ₽ вместо 19.900 ₽ ▪️ Архитектуры и шаблоны — 24.890 ₽ вместо 32.900 ₽ ▪️ Python — 24.990 ₽ вместо 32.900 ₽ ▪️ ML для Data Science — 34.000 ₽ вместо 44. 000 ₽ ▪️ AI-агенты — 49.000 ₽ вместо 59.000 ₽ 👉 Хватаем скидки из прошлого P.S. Машину времени одолжили у дяди Миши

4 490

👇 Как выбрать количество компонент при применении PCA При отборе компонент часто используют метрику explained variance ratio — долю объяснённой дисперсии. Пример:

explained_variance_ratios = np.cumsum(pca.explained_variance_ratio_)

Обычно выбирают минимальное число компонент, при котором накопленная доля дисперсии превышает порог (например, 0.95). Но важно учитывать контекст: — Для задач с жёсткими ограничениями по памяти/вычислениям можно взять меньше компонент. — В чувствительных приложениях (например, медицина) иногда сохраняют больше компонент, чтобы минимизировать потерю информации. 📌 Вывод: выбор количества компонент — компромисс между точностью (сохранение информации) и эффективностью (скорость и ресурсы). 🐸 Библиотека собеса по Data Science

4 490

📍 Как справляться с дисбалансом классов в небольшой целевой выборке при использовании transfer learning Дисбаланс классов часто становится проблемой, особенно если маленький датасет значительно перекошен по классам. В transfer learning эта ситуация усугубляется, так как предобученная модель могла учиться на более сбалансированных данных (например, ImageNet). ✅ Методы решения 🔎 Сэмплинг: увеличивать количество примеров меньшинства (oversampling) или уменьшать большинства (undersampling). Важно дополнять oversampling аугментацией, чтобы избежать переобучения. 🔎 Взвешенные функции потерь: например, указывать вес классов в cross-entropy обратно пропорционально их частоте. 🔎 Тонкая настройка слоёв: иногда стоит дообучать не только “голову”, но и более глубокие слои, чтобы сеть лучше подстроилась под редкие классы. 🔎 Focal loss: акцентирует внимание на сложных примерах и помогает усилить сигнал от меньшинства. 🐸 Библиотека собеса по Data Science

4 490

➡️ Как физически интерпретировать состояния cell state и hidden state в LSTM ✅ Hidden state (hₜ) — это «рабочее состояние» сети, её краткосрочная память. Оно используется для текущих вычислений и передаётся на следующие слои или на выход. Можно считать его тем, что LSTM «показывает наружу» в данный момент времени. ✅ Cell state (cₜ) — это «внутренняя память» или долгосрочное хранилище. Она течёт через последовательность шагов почти напрямую, изменяясь только там, где сработают управляющие ворота (input/forget). Это позволяет LSTM аккумулировать и сохранять важную информацию на протяжении длительных интервалов. Интуитивно: cₜ — долгосрочные знания, которые сеть старается не потерять; hₜ — краткосрочные представления, которые нужны здесь и сейчас для предсказаний. 🐸 Библиотека собеса по Data Science

4 490

👉 Чем отличается алгоритм EM от градиентных методов при максимизации правдоподобия 🔹 Градиентный спуск — Работает напрямую с градиентом лог-правдоподобия. — Требует подбора шага обучения и других гиперпараметров (например, momentum). — Универсален, но чувствителен к настройкам. 🔹 Алгоритм EM (Expectation–Maximization) — Вместо прямого градиентного шага чередует E-шаг (оценка скрытых переменных) и M-шаг (максимизация по параметрам). — Для моделей вроде GMM или HMM шаги часто имеют аналитическое решение, что делает обновления более “прямыми” и устойчивыми. — Каждая итерация гарантированно не уменьшает значение функции правдоподобия. 🔹 Общие моменты — Оба метода могут застрять в локальных максимумах (особенно при плохой инициализации). — EM часто быстрее сходится для задач со скрытыми переменными, тогда как градиентные методы универсальнее и применимы даже там, где M-шаг не имеет закрытой формы. 🐸 Библиотека собеса по Data Science

4 490

ПОСЛЕДНИЙ ДЕНЬ❗ КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️ — ML за 34к вместо 44к + Python в подарок — Математика → второй доступ в подарок — Ранний доступ к AI-агентам с 15 сентября — И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ 👉 Proglib Academy

4 490

🦾 Что делать, если датасет очень маленький — как правильно использовать k-fold кросс-валидацию Кросс-валидация особенно полезна в условиях дефицита данных, так как позволяет максимально использовать выборку. Но при очень маленьком датасете есть нюансы: 1️⃣ Leave-One-Out (LOOCV) Когда данных меньше ~100, часто используют leave-one-out. В этом случае на каждом шаге модель обучается на всех объектах, кроме одного, а этот единственный объект идёт в тест. Так данные используются максимально, но метрика может иметь высокую дисперсию. 2️⃣ Риск переобучения на фолды При многократной настройке гиперпараметров под одни и те же фолды легко подстроиться под шум или особенности отдельных примеров. Поэтому, если возможно, держите отдельный hold-out набор. 3️⃣ Высокая чувствительность к отдельным объектам В малых данных каждый пример сильно влияет на метрику. Один выброс может кардинально исказить результат. Чтобы снизить случайные колебания, иногда повторяют кросс-валидацию с разными сидами и усредняют метрики. Практические советы: 🚩 По возможности собрать больше данных. 🚩 Использовать осмысленное data augmentation (для картинок, текста, звука). 🚩 Включать знания предметной области (например, ограничения на модель). 🚩 Рассматривать байесовские методы, которые могут учитывать априорные знания. 🐸 Библиотека собеса по Data Science

4 490

🤓 «Сначала выучу Python идеально, а потом пойду в ML» Звучит логично, но на практике — ловушка. Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно. В итоге — месяцы зубрёжки, а до ML руки так и не доходят. На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач. ⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда: — ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок, — два в одном: оплатите курс по математике и получите второй доступ в подарок, — и главное: можно купить все курсы до подорожания. 👉 ML для старта в Data Science А для будущих Data Scientist’ов у нас ещё: — Базовые модели ML и приложения — Математика для Data Science — AI-агенты для DS-специалистов (2-й поток скоро)

4 490

⏰ Осталось 48 часов! Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября. ⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным. 👉 Забрать место

4 490

💬 Можно ли делать отбор признаков на всём датасете до разделения на train и test Нет, так делать не рекомендуется. Если отбор признаков выполняется на всём датасете, информация из теста «просачивается» в обучение → возникает data leakage, а итоговые метрики оказываются слишком оптимистичными. Правильный подход: ➡️ Сначала разделяем данные на train / test (и при необходимости на фолды для кросс-валидации). ➡️ На train выполняем отбор признаков (RFE, фильтры, встроенные методы). ➡️ Обучаем модель на этих же данных. ➡️ Валидируем на validation/test, где признаки выбираются так же через пайплайн. 👌 После кросс-валидации фиксируем пайплайн и переобучаем на всём train, затем оцениваем на hold-out test. 🐸 Библиотека собеса по Data Science

4 490

💱 Что делать, если основной бизнес-метрик не совпадает со стандартными ML-метриками, из-за чего модель в проде кажется «недоработанной» Частая ошибка — оптимизировать модель по ML-метрикам (AUC, accuracy) на этапе разработки, а в продакшене обнаружить, что реальный успех измеряется бизнес-KPI (конверсия, доход, удержание пользователей). В итоге модель может показывать отличные офлайн-результаты, но не влиять на бизнес. Как решать: ✅ С самого начала синхронизировать ML-метрики с бизнес-целями. ✅ Если бизнес-метрика сложная, разложить её на проксими-триггеры, которые можно оптимизировать офлайн. ✅ Проверять корреляцию ML-метрик с бизнес-результатами через A/B-тесты. ✅ Учитывать внешние факторы: маркетинговые кампании, сезонность, изменения интерфейса — они могут «перекрывать» эффект модели. Если хочется научиться строить ML-модели так, чтобы они работали не только «в тетрадке», но и в бизнесе: — AI-агенты для DS-специалистов — ML для старта в Data Science 🐸 Библиотека собеса по Data Science

4 490

📢 Какой сетап идеально подойдёт для разработки AI-агента? Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите. ❤️ — 1 👍 — 2 ⚡️ — 3 👏 — 4 🔥 — 5 🎉 — 6 😁 — 7 😍 — 8 🤩 — 9 Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь. 👉 Научим, как строить агентов, которые кодят с тобой

4 490

☁️ Как наличие label noise (шум в разметке) влияет на форму ROC-кривой и надёжность AUC Если положительные объекты иногда промаркированы как отрицательные (и наоборот), это снижает видимую производительность модели: ▶️ ROC-кривая становится менее отчётливой: даже идеальный классификатор «ошибается» на перевёрнутых метках. ▶️ Кривая смещается вниз (снижается TPR) или вправо (растёт FPR), что уменьшает AUC. ▶️ При сильном шуме в положительном классе растёт число ложных отрицаний, а в отрицательном — ложных срабатываний, что может создавать «провалы» на кривой. Если интересно глубже разобраться, как метрики ведут себя при шумных данных и как строить более надёжные модели: — AI-агенты для DS-специалистов — ML для старта в Data Science 🐸 Библиотека собеса по Data Science

4 490

🔎 Есть ли особенности подбора гиперпараметров для параметрических и непараметрических моделей, кроме стандартной кросс-валидации Обе группы моделей требуют внимательного подхода к гиперпараметрам, но непараметрические методы часто более чувствительны к их выбору и могут потребовать продвинутых стратегий поиска. 🧮 Параметрические модели: — Настраиваются регуляризация (например, λ в Ridge/Lasso), архитектура нейросетей, степень полинома и т.д. — Важно учитывать взаимодействие гиперпараметров: глубина сети, learning rate, регуляризация. — Обычно меньше гиперпараметров, чем у сложных непараметрических методов, но у глубоких сетей их может быть много. 🌲 Непараметрические модели: — Настройка может включать: размер соседства в kNN, ширину ядра в KDE, глубину дерева в Random Forest и др. — Каждый гиперпараметр сильно влияет на комплексность модели и баланс bias/variance. — Иногда требуется grid search или Bayesian optimization, особенно при большом гиперпараметрическом пространстве. ➡️ На больших датасетах кросс-валидация может быть слишком дорогой — используют приближённые или онлайн методы. ➡️ Риск переобучения на валидационном наборе при переборе множества конфигураций особенно актуален для гибких непараметрических моделей. 🐸 Библиотека собеса по Data Science

4 490

❗ Так, владелец макбука. Хватит позировать в кофейне. Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой. Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно. ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё. 🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно. 👉 Апгрейд от «вайба» до «оффера» тут

4 490

🫥 Какие признаки могут указывать на то, что модель застряла в saddle point Плато в loss не всегда значит минимум; анализ кривизны и наблюдение за динамикой обучения помогают распознать saddle points. ➡️ Плато в loss: функция потерь почти не меняется на протяжении многих итераций. ➡️ Анализ кривизны: если посмотреть на Гессиан или приблизительные вторые производные, можно заметить направления с отрицательной кривизной, где градиент ещё не ноль. ➡️ Резкий спад при адаптивных методах: использование momentum или адаптивного learning rate может внезапно снизить loss после долгого плато — это значит, что модель была в saddle region, а не в настоящем минимуме. 🐸 Библиотека собеса по Data Science