Библиотека собеса по Data Science | вопросы с собеседований

4 474

视频消息00:48

4 474

В отличие от GAN, где 2 сети соревнуются, диффузионные модели обучаются на процессе постепенного разрушения данных. В процессе обратной диффузии нейросеть получает на вход сильно зашумленное изображение. Какова задача на каждом микро-шаге этого процесса?

Anonymous voting

4 474

ViT разбивает изображение на патчи и вычисляет внимание между патчами. Если мы увеличим разрешение фото в 2 раза, количество вычислений вырастет в 16 раз. Для решения проблемы был создан Swin Transformer. Какое нововведение позволяет ему работать быстро?

Anonymous voting

4 474

Вы строите корпоративного ассистента, который должен отвечать на вопросы сотрудников по внутренним документам (которые модель никогда не видела при обучении). Вместо Fine-tuning, вы внедряете архитектуру RAG. Как именно работает этот механизм?

Anonymous voting

4 474

Вы хотите дообучить модель Llama 3 на своих личных переписках, чтобы она имитировала ваш стиль общения. Вместо того чтобы менять все веса огромных матриц модели, вы решаете использовать LoRA. В чем заключается этот метод?

Anonymous voting

4 474

«Этот манёвр будет стоить нам 51 год...» — или потерю шанса на Senior-позицию из-за «поплывшей» математики на тех-интервью. В Data Science теоремы и алгоритмы — это фундамент, без которого не построить ни одну серьёзную модель. 19 января в Proglib Academy вырастут цены. Успейте забрать курсы по Math, ML и AI по старой стоимости: — Разработка ИИ-агентов — Математика для разработки AI-моделей — ML для старта в Data Science — Математика для Data Science — Специалист по ИИ — Алгоритмы и структуры данных — Программирование на Python — Основы IT для непрограммистов — Архитектуры и шаблоны проектирования Подготовиться к собеседованиям ⚠️ Стоимость изменится 19 января

4 474

Вы разворачиваете модель уровня Llama 3 или GPT-4 для высоконагруженного чат-бота. При генерации длинных ответов VRAM заканчивается очень быстро, а скорость генерации падает. Для решения этой проблемы используется KV Caching. Что именно она делает?

Anonymous voting

4 474

Представьте, что у вас есть 10 миллионов фотографий из интернета, но нет ни одной метки. Вы используете SimCLR, чтобы научить модель извлекать полезные признаки. Какая функция потерь в одновременно сближает похожие представления и отталкивает разные?

Anonymous voting

4 474

Вы обучаете ViT на маленьком наборе данных (например, 10 000 картинок) и замечаете, что он безнадежно проигрывает старой доброй ResNet той же сложности. Однако на огромном датасете ViT внезапно обходит CNN. В чем основная причина такой динамики?

Anonymous voting

4 474

В оптимизаторе AdamW была введена модификация классического Adam. Какую конкретную проблему она решает при использовании L2-регуляризации?

Anonymous voting

4 474

При использовании Layer Normalization (LN) в архитектуре Transformer, в чем заключается основное преимущество стратегии 'Pre-LN' (нормализация перед блоком Attention/FFN) по сравнению с оригинальной 'Post-LN'?

Anonymous voting

4 474

Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким. Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?

Anonymous voting

4 474

В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?

Anonymous voting

4 474

Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки. Какой вид регуляризации вам следует использовать?

Anonymous voting

4 474

Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN. Какое изменение, скорее всего, поможет стабилизировать процесс?

Anonymous voting

4 474

Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5. Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?

Anonymous voting

4 474

Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings. Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?

Anonymous voting

4 474

Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой. Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?

Anonymous voting

4 474

Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах». Как наличие этих признаков скажется на вашей модели?

Anonymous voting

4 474

Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?

Anonymous voting