Библиотека собеса по Data Science | вопросы с собеседований
Ir al canal en Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
Mostrar más4 488
Suscriptores
+524 horas
+47 días
+4030 días
Archivo de publicaciones
В RL есть Агент (тот, кто учится), Среда (мир вокруг) и Награда (цель). Главная проблема Агента — это дилемма Exploration vs Exploitation.
В чем она заключается?
📊 Промышленный DS: как пройти интервью на позицию AI-разработчика в 2026 году
Компании больше не ищут «исследователей», им нужны инженеры, способные запустить агентов в прод. В обновлённом курсе мы даём базу по измеримости, метрикам производительности и экономике моделей.
📚 Ключевые темы для подготовки:
— продвинутый
RAG: методы оценки качества поиска и подготовки данных;
— инжиниринг: как выявлять регрессии и настраивать трассировку в реальных системах;
— LangGraph: управление сложными графами и механизмы human-in-the-loop;
— управление ресурсами: детальный расчёт токенов и кэширования.
Забирайте материалы для предварительной подготовки сразу после оплаты и будьте на шаг впереди конкурентов.
⏳ Специальные условия до 28 февраля:
— введите промокод Agent для получения скидки 10 000 рублей**;
— участвуйте в **акции «3 курса по цене 1» — выберите два любых курса в дополнение к основному.
👉 Получить доступ к курсу и подаркамПредставь, что у нейросети есть маленькое «окошко» (фильтр), например, размером 3x3 пикселя. Оно ползает по всей картинке и умножает свои веса на значения пикселей.
Зачем нужен этот процесс, вместо того чтобы подать все пиксели в обычную нейросеть?
Почему джуны-датасайентисты не могут вывести LLM в прод?
На собеседованиях кандидаты отлично рассказывают про эмбеддинги и трансформеры. Но когда их просят спроектировать отказоустойчивую систему, контролировать бюджет на токены или настроить RAG по сканам — они сыпятся.
Мы пересобрали курс по AI-агентам. Фокус смещён с теории на суровый инжиниринг: метрики, предотвращение регрессий и экономику агентов. Это знания, которые сейчас требуют от Middle+ DS.
Что в программе для прокачки:
🔹 промышленный RAG: обработка таблиц, сканов и специализированный поиск;
🔹 архитектура агентов: LangGraph, перемотка времени (time-travel) и контрольные точки;
🔹 контроль затрат: ограничение времени исполнения ресурсов, динамический роутинг;
🔹 интеграции: работа агентов с legacy-интерфейсами и браузером;
🔹 комплаенс: развёртывание LLM-решений с соблюдением 152-ФЗ.
Забирайте скидку 10 000 рублей по промокоду
Agent (до 28 февраля).
Используйте акцию «3 курса по цене 1», чтобы забрать ещё два курса бесплатно.
Подготовиться к реальному продакшнуВаша модель предсказания спроса на куртки стала работать хуже. Вы заметили, что распределение температур в этом году сильно изменилось по сравнению с прошлым. Как называется этот тип деградации?
Как математически изменяется размерность тензора на выходе одного блока Scaled Dot-Product Attention по сравнению с входным тензором (при условии, что d_{model} остается неизменной)?
Вопрос с собеседования: «Как вы обеспечите стабильность AI-агента в проде?»
Если вы начнёте говорить про промпт-инжиниринг, вас не наймут. Правильный ответ включает: метрики, трейсинг, RAG-пайплайны и управление ресурсами. Этому мы учим на обновлённом курсе
«Разработка AI-агентов».
Разбираем на практике:
🔹 Архитектура.
LangGraph, state-management, time-travel отладка.
🔹 RAG. Работа со сложными документами и таблицами.
🔹 Ops. Логирование, мониторинг затрат и качества.
Стартуй сейчас! Материалы доступны сразу после покупки.
🎟 Промокод Agent — скидка 10 000 ₽ (до 28 февраля).
👉 Подготовиться к реальным задачамГлавный секрет трансформеров — механизм Self-Attention (внимания к себе). Представь предложение: «Банк закрыли, потому что он был ограблен».
Как механизм внимания помогает модели понять, к чему относится слово «он»?
На что потратить 3 000 000 рублей?
Именно столько всего заработают победители Data Fusion Contest 2026 — ежегодного соревнования по машинному обучению!
Организаторы соревнования — ИТ-холдинг Т1 и ВТБ.
⚡ Формат — онлайн: участвовать можно из любой точки мира.
В этом году участникам предстоит выполнить три задачи:
☑️ «Страж» — про вычисление подозрительных операций в банке;
☑️ «Киберполка» — про подбор нужных финансовых продуктов из 41 варианта.
☑️ «Герои» — про создание идеальных маршрутов с учетом времени.
📣 Даты проведения соревнования: с 9 февраля по 30 марта 2026 года. Финалисты смогут презентовать свои решения на конференции Data Fusion 2026 в Москве 8-9 апреля. Там же состоится торжественная церемония награждения победителей.
Data Fusion Contest 2026:
🔵 прокачай себя и стань частью комьюнити DS в России;
🔵 попробуй силы в уникальных кейсах, которые выходят за рамки ежедневной рутины;
🔵 получи внушительное денежное вознаграждение.
Ну что, хватит читать — пора действовать ➡ жми на ссылку!
Информация о рекламодателе
Представь, что ты строишь модель предсказания спроса на доставку еды. У тебя есть столбец с датой заказа: 2026-02-16 19:30:00. Если ты оставишь его в таком виде, модель ничего не поймет.
Какое преобразование этого признака принесет пользу для модели?
Что рекомендуется использовать вместо std::bind в современном C++?
Самый популярный метод — K-Fold.
Однако есть ситуация, когда обычный K-Fold нельзя использовать. О каком типе данных идет речь?
У тебя есть датасет, где на 1000 «хороших» примеров приходится всего 10 «плохих». Тебе нужно обучить классификатор. Какой метод генерации новых данных (Oversampling) создаёт синтетические примеры редкого класса, а не просто дублирует существующие?
Ты создаешь рек-ную систему для статей. Ты хочешь понять, насколько статья А похожа на Б по смыслу. Для этого ты превращаешь тексты в векторы.
Какую метрику используют, чтобы измерить «близость» векторов, если важно направление интересов пользователя?
Repost from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Какие методы синтаксического анализа текста могут быть использованы для обнаружения именных групп (noun phrases), глагольных групп (verb phrases), а также для определения подлежащего (subject) и дополнения (object) в NLP?
Представь, что мы используем агломеративный подход. В начале каждая точка — это отдельный кластер. Затем алгоритм попарно объединяет близкие точки в группы, пока всё не превратится в один кластер. Как называется график, который визуализирует этот процес?
В отличие от K-means, где мы заранее задаем K, в DBSCAN мы задаем «правила соседства»: радиус поиска и минимальное количество соседей.
Как DBSCAN поступает с точкой, у которой в радиусе слишком мало соседей, и она не является соседом «плотной» группы?
K-means работает итеративно: сначала он ставит случайные точки (центроиды), а затем двигает их, пока они не окажутся в центрах своих групп.
На каждом шаге происходят две вещи. Какая из них описывает процесс обновления координат центроида?
Представь, что у тебя есть облако точек в 2D (два признака: рост и вес), которое вытянуто вдоль одной линии. Ты хочешь сжать эти данные в 1D, чтобы не потерять структуру данных.
Как PCA выбирает направление для этой новой оси (первой главной компоненты)?
Представь, что ты обучаешь модель предсказывать стоимость квартир. Первое дерево предсказало 10 млн ₽, а реальная цена — 12 млн ₽. Ошибка (остаток) составила 2 млн ₽.
Что будет делать второе дерево в алгоритме градиентного бустинга?
¡Ya disponible! Investigación de Telegram 2025 — los principales insights del año 
