Библиотека собеса по Data Science | вопросы с собеседований
前往频道在 Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
显示更多4 488
订阅者
+524 小时
+47 天
+4030 天
帖子存档
При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.
Какое архитектурное решение было разработано для борьбы с этой проблемой?
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене
🔘Pro версия является ТОП-1 опенсорсом в мире (см. модели с лицензиями MIT, Apache 2.0 в лидерборде)
🔘Lite версия (2B параметров) лучше первой версии Sora
🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘Для российских генеративных моделей выход на международную арену — уникальное событие
🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘Open Source Kandinsky 5.0: github и hf
Вы обучаете нейронную сеть и замечаете, что на графике Train Loss сначала стабильно падает, а затем начинает резко колебаться или даже расти. При этом точность перестает улучшаться.
Какое изменение, скорее всего, поможет стабилизировать процесс?
При построении дерева решений (Decision Tree) без ограничений, оно может расти до тех пор, пока в каждом листе не окажется ровно по одному объекту из обучающей выборки. К какому фундаментальному последствию для характеристик модели это приводит?
Вы обучаете модель k-NN на наборе данных, где количество признаков (столбцов) внезапно увеличилось с 10 до 1000, при этом количество строк осталось прежним. Как это практически отразится на работе алгоритма k-NN?
Вопрос с собеседования 2026: «Как вы организуете память в мультиагентной системе?»
Если вы отвечаете «просто передам контекст в промпт», вы, скорее всего, не получите оффер на позицию AI Engineer. Современные системы требуют работы с векторными БД, чекпоинтами в графах и RAG.
Подтяните хард-скиллы на нашем обновленном курсе «Разработка AI-агентов».
Что в программе:
— Паттерн ReAct и архитектура агентов;
— Работа с
LangChain и LangGraph ;
— Инструменты AgentOps для мониторинга.
Практика с код-ревью и дипломный проект, который не стыдно показать на собеседовании.
ЗаписатьсяКакой из методов ансамблирования обычно дает наибольший выигрыш в качестве, если базовые модели сильно различаются по своей архитектуре (например, KNN, SVM и случайный лес)?
При обучении случайного леса (Random Forest) мы используем Out-of-Bag (OOB) ошибку. Что это такое?
При использовании L1-регуляризации (Lasso) в линейных моделях коэффициенты при некоторых признаках становятся строго равными нулю. Какое геометрическое свойство L1-нормы объясняет этот эффект?
Математика — это фильтр на входе
На собеседованиях по DS часто валят не на коде, а на вопросах по линейной алгебре, статам или терверу. Не дай теории стать твоим узким местом.
Уравнение выгоды: 1 + 2.
Берешь три курса, платишь за один (тот, что дороже).
Что усилит резюме:
— Математика для Data Science;
— AI-агенты для DS-специалистов;
— ML для старта.
Обучить свою нейронку
До 31 декабря.
Саппорт: @manager_proglib
При оценке бинарного классификатора была построена Матрица ошибок. Какая метрика рассчитывается как отношение истинно положительных срабатываний ко всем фактически положительным случаям?
Вы разрабатываете рекомендательную систему для нового стримингового сервиса. Какая из перечисленных ниже ситуаций является классическим примером проблемы холодного старта (Cold Start Problem)?
При использовании алгоритма k-ближайших соседей (k-NN) для классификации, какое влияние будет иметь слишком маленькое значение k (например, k=1) на поведение модели?
Вы используете SVM для классификации, но обнаружили, что данные не являются линейно разделимыми в исходном пространстве признаков.
Какая техника позволяет SVM классифицировать нелинейные данные, не увеличивая явно размерность пространства?
Вы строите модель и обнаруживаете, что хотя общая метрика производительности высока, индивидуальные p-значения большинства ваших переменных незначимы, а коэффициенты (weights) модели демонстрируют высокую чувствительность к небольшим изменениям в данных.
Вы обучаете глубокую нейронную сеть, которая показывает 99% точности на обучающей выборке, но всего 70% на тестовой. Какое из следующих действий, скорее всего, поможет снизить переобучение (overfitting), не требуя сбора новых данных?
Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?
Готовитесь к собеседованию в AI?
Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».
Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».
Важный апдейт:
— теперь обучение включает живые вебинары;
— первый прошел, но второй стартует сегодня, 9 декабря;
— это шанс разобрать сложные вопросы с экспертами в прямом эфире.
Что внутри:
— линейная алгебра;
— матанализ;
— теория вероятностей.
Успейте присоединиться к потоку
Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.
Какова наиболее вероятная причина такого поведения?
Вы обучаете модель Логистической регрессии, и она показывает низкую точность как на обучающей, так и на тестовой выборках. Вы решаете добавить L2. Какого результата следует ожидать?
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
