Библиотека собеса по Data Science | вопросы с собеседований

Відкрити в Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Сітка:Книги для программистов Росія124 749 Кар'єра6 909

4 489

Підписники

+524 години

+47 днів

+4030 день

531

Перегляди допису

~ 27724 години

~ 34648 годин

11.83%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

4 491

➡️ В вашей задаче класс «положительный» встречается крайне редко. Модель даёт 99% accuracy — но приносит ноль пользы. Это ситуация дисбаланса классов, и такая высокая accuracy — иллюзия: модель просто всегда предсказывает «отрицательный» класс. Важно: ➡️ Перейти к метрикам, чувствительным к редкому классу: F1, precision/recall, ROC AUC, PR AUC. ➡️ Попробовать балансировку: undersampling/oversampling, генерация данных (например, SMOTE). ➡️ Использовать взвешенные лоссы или кастомные метрики, чтобы усилить «наказание» за ошибки на редком классе. ➡️ Рассмотреть другой подход — например, не классификацию, а ранжирование, если цель — находить top-N полезных примеров. ➡️ Проконсультироваться с бизнесом: возможно, важна high precision, а recall можно жертвовать — или наоборот. Библиотека собеса по Data Science

4 491

👉 В вашей задаче данные поступают постепенно, а разметка появляется с задержкой. Как организовать обучение модели в таких условиях Это ситуация с отложенной обратной связью — типична для рекомендательных систем, финтеха, healthtech и других отраслей. Тут важно: 🔎 Буферизовать метки: хранить все входные данные и их предсказания, чтобы при появлении метки — привязать её к нужному входу. 🔎Обучать с лагом: ввести обучающий цикл, который использует только старые (полностью размеченные) данные. 🔎Использовать псевдоразметку или онлайн-сигналы: если задержка критична, можно временно использовать прокси-метки или слабые сигналы. 🔎Контролировать data leakage: при любой задержке легко по ошибке обучиться на будущих данных. 🔎 Оценка через holdback-стратегии: часть данных можно специально не использовать для обучения, чтобы позже протестировать модель на будущем. Такой подход ближе к stream learning или delayed feedback learning — важен там, где модель взаимодействует с миром, а не просто классифицирует CSV. Библиотека собеса по Data Science

4 491

❌ Почему модель может работать хуже после удаления «казалось бы бесполезных» признаков Потому что даже признаки, которые по отдельности кажутся слабыми или нерелевантными, могут играть ключевую роль в комбинации с другими. Это называется взаимодействие признаков (feature interaction). Модель может улавливать сложные зависимости между группами признаков, и удаление одного может «сломать» эту структуру. Кроме того, признаки могут нести косвенную информацию: например, случайный ID клиента может коррелировать со временем регистрации, а значит — с поколением пользователей или сезоном. Даже если это кажется «шумихой», модель может использовать это как полезный сигнал. Это одна из причин, почему автоматическая отборка признаков — не всегда безопасна, и почему важно анализировать модель целостно, а не только по значимости отдельных фичей. Библиотека собеса по Data Science

4 491

🗂 Почему важно учитывать порядок признаков в табличных данных, даже если большинство моделей вроде бы инвариантны к нему Хотя многие алгоритмы (например, деревья решений) действительно не чувствительны к порядку колонок, сам порядок может влиять на всё, что вокруг модели: — на предобработку (например, при стандартизации пакетами или сохранении схемы); — на обратную совместимость при обновлении моделей; — на работу в продакшене, где порядок может нарушиться при сериализации/десериализации. Более того, некоторые модели (особенно нейронные сети для табличных данных) могут использовать позиционную информацию, особенно если данные подаются как последовательность. А при autoML или feature selection шаги могут зависеть от начального порядка, если нет явной нормализации. Библиотека собеса по Data Science

4 491

🔗 В чём ключевое отличие между предобучением self-supervised и supervised моделей, если обе используют один и тот же датасет Разница не в данных, а в цели задачи (proxy task). Supervised-модель учится напрямую предсказывать метки — например, класс объекта. А self-supervised модель создаёт искусственную задачу (например, предсказать пропущенное слово или порядок кадров в видео), которая не требует ручной разметки. ➡️ Это позволяет модели выучить общие представления (features), которые полезны и для других задач. Важно, что self-supervised обучение часто извлекает более структурированные и универсальные признаки, потому что не фиксируется на конкретной метке, а вынуждена «понимать» контекст и структуру входа. ➡️ На практике это даёт мощную и масштабируемую альтернативу ручной разметке — особенно при работе с текстом, изображениями или аудио. Библиотека собеса по Data Science

4 491

❓ Как управлять случайностью в генетических алгоритмах, чтобы обеспечить воспроизводимость результатов Генетические алгоритмы используют случайные процессы — инициализацию, выбор родителей, точки скрещивания и мутации. Это приводит к вариативности результатов. Чтобы повысить воспроизводимость: ➕ Используют контроль начальных условий генератора случайных чисел, чтобы получить повторяемые последовательности в однопоточных запусках. ➕ Ведут детальный лог каждой особи и всех случайных решений, которые привели к её появлению — это помогает восстановить ход поиска. ➕ Проводят несколько независимых запусков с разными начальными условиями и анализируют разброс результатов — так оценивают стабильность алгоритма и параметры настройки. ➕ Помнят, что в многопоточных и распределённых вычислениях точная битовая воспроизводимость невозможна из-за особенностей параллельных операций и вычислений с плавающей точкой. Главное — стремиться к воспроизводимости не в точности битов, а в качестве и поведении алгоритма в целом. Библиотека собеса по Data Science

4 491

🤔 «Начни сразу с нейросетей — зачем тебе логрегрессия?» Это один из худших советов для начинающего ML-разработчика. Зрелость — это понимать, где простого достаточно, а не тянуть трансформеры на любую задачу из-за хайпа. Классика ML — это не допотопная теория, а база (bias/variance, деревья, метрики), без которой не понять Deep Learning. ⚡️ Хотите освоить этот фундамент на реальных задачах? Приходите на наш курс по классическому ML. Только хардкор, только продовые задачи! 📆 Старт — 12 августа. Для первых 10 участников бонус — специальный лонгрид по теме курса, чтобы вы могли начать разбираться уже сейчас. 🎁 Последний день промокода Earlybird на скидку 10.000₽. 👉 Не упустите шанс!

4 491

👉 Зачем оценивать не только точность модели, но и её задержку (latency) и потребление ресурсов Потому что модель — это не только алгоритм, но и часть живой системы, где важно, насколько быстро и стабильно она работает. Даже самая точная модель может быть бесполезной, если отвечает медленно, не помещается в память устройства или «кладёт» сервер под нагрузкой. В реальных приложениях ценность — это баланс между качеством, скоростью и стоимостью. Особенно критично это в мобильных, embedded-устройствах и real-time сервисах. Библиотека собеса по Data Science

4 491

😤 Устал листать туториалы, которые не складываются в картину У тебя в голове уже есть логрегрессии, деревья, метрики и какая-то PCA, но системного понимания всё нет? Пора с этим разобраться! Наш курс по классическому ML: — научит выбирать адекватные модели под задачу — разложит метрики, переобучение и bias по полочкам — покажет, что скрывается за fit/predict, и что с этим делать 🔔 До 27 июля по промокоду Earlybird — минус 10.000₽ P.S. Первые 10 участников получат эксклюзивный лонгрид, чтобы начать изучать тему ещё до старта курса. 👉 Поменяй свою жизнь: старт карьеры в AI — успей до закрытия набора!

4 491

📍 Почему выбор тестовой выборки может сильнее повлиять на выводы о модели, чем архитектура или гиперпараметры Потому что если тестовая выборка не отражает реальные условия, любые выводы о «качестве модели» будут ложными. Даже идеальная модель может провалиться, если тест не покрывает важные кейсы — например, редкие классы, пограничные случаи или будущие изменения среды. В машинном обучении качество модели — это качество вывода о ней, и тестовая выборка — его основа. Это особенно критично в задачах с перекосом классов, изменяющейся средой и высокой ценой ошибки. Библиотека собеса по Data Science

4 491

🔥 Хороший ML-разработчик не начинает с нейросетей На собеседовании по ML System Design кандидату дают задачу «предсказать отток», а он сразу лезет в нейросети. Красиво, модно, дорого. Но профи думает иначе: 💭 Логрегрессия? Градиентный бустинг? 💭 А сколько у нас данных и времени? 💭 Что с интерпретируемостью? Потому что не выбрать адекватную модель — это уже ошибка. Нейросети — это круто. Но без понимания классического ML вы просто «подключаете модельку», а не строите решения. ➡️ На курсе разберём: — линейные модели, деревья, PCA, кластеризацию — метрики, переобучение, bias vs variance — инженерные подводные камни, которые идут сразу после fit() 🎁 Скидка 10 000₽ по промокоду Earlybird, только до 27 июля. А ещё — подарок для первых 10 участников: специальный лонгрид по теме курса, чтобы вы могли начать погружение в материал уже сегодня. 🔗 Успей записаться — и начни карьеру в Data Science уже через 3 месяца!

4 491

❓ Почему важно учитывать поведение пользователей при обучении рекомендательных моделей, даже если метрики кликов растут Потому что модели могут усиливать нежелательные паттерны: подсаживать на бесконечный скролл, закреплять «информационные пузыри» или продвигать токсичный контент, если это даёт больше кликов. Поведение пользователей — не всегда признак того, что им полезно. Модель может подталкивать к действиям, которые в долгосрочной перспективе вредны. Поэтому важно учитывать не только CTR, но и долгосрочное влияние на пользователя и среду. Библиотека собеса по Data Science

4 491

❓ Зачем в машинном обучении изучают и моделируют враждебные воздействия (adversarial attacks), если в реальной жизни никто не «рисует шум» на картинки Adversarial-примеры показывают, насколько модель может быть уязвима: малозаметный шум для человека способен полностью изменить её решение. Это значит, что модель не «понимает» суть, а опирается на хрупкие паттерны. Анализ таких атак помогает выявлять слабые места и делать ИИ более надёжным — особенно там, где ошибка критична: в медицине, транспорте, безопасности. Библиотека собеса по Data Science

4 491

⚡️ Мы запускаем онлайн-курс по машинному обучению для Data Science. Хочешь войти в Data Science, но не знаешь, с чего начать? А может, ты уже в теме, но чувствуешь, что знаний не хватает? Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения. Что внутри: — от линейных моделей и градиентного спуска до бустинга и рекомендательных систем — реальные примеры, практика, задачи и живая менторская поддержка — всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах Ведет курс Мария Жарова: ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy 🎁 По промокоду Earlybird — скидка 10.000 рублей, только до 27 июля. Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас. 👉 Записаться на курс

4 491

⁉️ Хотите узнать, как устроен рабочий процесс в ML и получить базовые навыки работы с данными? 23 июля в 20:00 МСК OTUS проводит открытый урок «ML для начинающих – первые шаги с Jupyter Notebook». Вас ждёт: – Обзор этапов машинного обучения: от подготовки данных до первой модели. – Настройка виртуального окружения для изоляции экспериментов. – Знакомство с Jupyter Notebook: анализ, визуализация, код и Markdown вместе. Этот урок — идеальная отправная точка перед стартом курса «Специализация Machine Learning». Все участники получат скидку на обучение. ➡️ Зарегистрироваться


Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

4 491

⛰ Почему некоторые исследователи считают, что предсказуемость модели может вредить пользовательскому доверию, даже если её точность объективно высока Парадоксально, но если модель ведёт себя слишком «предсказуемо» или «механически», люди могут терять к ней доверие — особенно если они чувствуют, что она не учитывает нюансы ситуации. Это проявляется в системах рекомендаций, медицинских ассистентах и даже чат-ботах. Люди ожидают от ИИ не только точности, но и понимания контекста и эмпатии. Конкретные примеры: ➡️ Медицинские системы: Если пациент видит, что система всегда даёт один и тот же совет независимо от деталей, он решит, что ей нельзя доверять — даже если совет корректный. ➡️ Рекомендательные алгоритмы: Чрезмерно логичные или зацикленные рекомендации (например, «ты посмотрел фильм про космос — вот ещё 50 таких») вызывают раздражение и ощущение, что «модель тупит». ➡️ Диалоговые агенты: Если ответы слишком шаблонны, люди не верят, что модель действительно "понимает". Лучше меньше точности, но больше контекстуальности. Библиотека собеса по Data Science

4 491

🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам. С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас. -40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам) Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам. 📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA

4 491

💻 Почему в распределённых системах обучения нейросетей (например, на десятках GPU) важно следить за синхронизацией градиентов В распределённом обучении модели параллельно обновляются на нескольких устройствах, и если синхронизация градиентов между ними происходит неправильно или с задержками, это может привести к неустойчивому обучению, рассинхронизации весов и даже ухудшению сходимости. Вот что может пойти не так: ➡️ Градиенты отстают во времени Если одна из машин медленнее (straggler), она может прислать устаревшие градиенты. Модель уже изменилась, а она получает запоздалые обновления — возникает эффект «шага назад». ➡️ Асинхронные ошибки и гонки При отсутствии блокировок возможны гонки состояний — разные устройства обновляют веса на основе разной версии параметров, что разрушает стабильность обучения. ➡️ Разный масштаб градиентов Если используется несогласованное масштабирование (например, из-за разных batch size на узлах), градиенты могут складываться некорректно, что влияет на скорость и направление оптимизации. ➡️ Silent divergence Иногда обучение продолжает идти «как будто бы нормально», но модель просто перестаёт чему-либо учиться, потому что синхронизация нарушена — и это трудно отследить без специальных логов. Библиотека собеса по Data Science

4 491

👉 Почему при работе с большими языковыми моделями иногда полезно использовать «температуру» (temperature) в генерации текста Температура — это параметр, который регулирует степень случайности в выборе следующего слова. Изменяя её, можно балансировать между креативностью и предсказуемостью модели. Что даёт изменение температуры: ➡️ Низкая температура (близко к 0) Модель становится более «консервативной», выбирает наиболее вероятные слова. Текст получается более логичным и связным, но может быть скучным и повторяющимся. ➡️ Высокая температура (выше 1) Модель начинает экспериментировать, выбирает менее вероятные слова. Это повышает разнообразие и креативность, но иногда приводит к бессмысленным или нестыковочным фразам. ➡️ Средняя температура (~0.7) Часто используется как компромисс — текст остаётся интересным, но не теряет смысла. Библиотека собеса по Data Science

4 491

🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова. В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️ А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом. 👉 Записывайтесь на курс