Библиотека собеса по Data Science | вопросы с собеседований
Відкрити в Telegram
Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot
Показати більше4 487
Підписники
-124 години
+27 днів
+3430 день
Архів дописів
🏃♀️ Мы собрали бесплатный мега-гайд по ии-агентам 👇
Выкатили большую серию постов, которая ЛЕГКО ЗАМЕНИТ ПАРОЧКУ ПЛАТНЫХ КУРСОВ на рынке.
В первой части постов навалили жесткой базы, чтобы вправить мозги на место. Во второй дали конкретные инструменты, фреймворки и пошаговые инструкции, что нужно кодить прямо сейчас.
Часть 1. Введение, юзкейсы и реальность
Разбираемся с терминами, снимаем розовые очки и смотрим, где ИИ реально приносит бабки, а где только жжет нервы:
1. «Так что вообще считается AI-агентом?»
2. «Где тут бот, а где уже AI-агент?»
3. «Не надо пихать AI-агента в каждую задачу»
4. «Что уже можно спокойно делать через AI-агентов?»
5. «А что через AI-агентов пока лучше не трогать?»
Часть 2. Изнанка, ошибки и архитектура
Как всё это устроено под капотом, чтобы не слить бюджет и не наломать дров на старте:
6. «Можно ли просто сесть вечером и собрать себе AI-агента?»
7. «С чего вообще начать, если хочется попробовать AI-агентов»
8. «Почему AI-агент может внезапно начать творить дичь»
9. «Где AI-агенты реально экономят время, а где только добавляют возни»
10. «Почему они жрут столько денег?»
Часть 3. Хардкорная практика (Что делать руками)
Хватит теории. Открываем ноут, запускаем Cursor и делаем нормальные, отказоустойчивые системы:
11. «Почему одного промпта мало?»
12. «Почему AI-агенту мало просто “дать доступ к данным”»
13. «Если не следить за AI-агентом, он быстро начинает жить своей жизнью»
14. «Собрать демку легко. Но как же сделать нормально»
15. «Как сделать, чтобы это не развалилось через неделю?»
👍 Сохраняйте пост в избранное, чтобы не потерять.
Метод Hyperband (или ASHA) часто используется для настройки нейросетей.
Какая ключевая идея позволяет Hyperband работать в разы быстрее, чем обычный перебор?
Вы строите модель предсказания оттока клиентов. Один из признаков — «Среднее количество звонков в поддержку за последние 3 месяца». В данных есть клиенты, которые ушли месяц назад.
Почему использование этого признака — это утечка данных (leakage)?
Многие компании переходят от обычного векторного поиска к GraphRAG.
В какой ситуации GraphRAG покажет значительно лучший результат, чем обычный поиск по сходству векторов (Top-K Retrieval)?
Основной принцип работы GNN — это итеративное обновление состояния узла на основе информации от его соседей.
Какая операция агрегации информации от соседних узлов является наиболее устойчивой к изменению порядка соседей?
В моделях отбора кандидатов часто используют структуру Two-Tower. Одна «башня» обрабатывает данные пользователя, другая — данные контента (фильма/товара).
Какая математическая операция чаще всего выполняется в самом конце над векторами этих двух башен?
Алгоритм замечает, что тебе нравятся видео про котиков, и начинает показывать только их. Через неделю ты больше не видишь ничего другого.
Какой метод используется в RecSys для борьбы с этой проблемой, чтобы «подмешивать» пользователю новый контент?
Метрика MAPE (Mean Absolute Percentage Error) очень популярна в бизнесе, потому что выражается в процентах.
В каком случае использование MAPE даст крайне искаженный или математически неопределенный результат?
Алгоритмы вроде YOLO часто выдают несколько bounding boxes вокруг одного и того же объекта с разной степенью уверенности. Для очистки используется Non-Maximum Suppression.
На основе какого показателя NMS решает, что две рамки относятся к одному объекту?
В оригинальной архитектуре ViT к последовательности патчей изображения добавляется специальный обучаемый вектор — [CLS] token.Какую именно роль он играет при классификации всей картинки, в отличие от векторов отдельных патчей?
Вы готовите временные ряды для предсказания курса акций. Вы решили нормализовать данные (Scaling), вычислив среднее и стандартное отклонение по всему имеющемуся датасету перед разбиением на Train и Test.
К какой ошибке в оценке модели это приведет?
При создании Data Lake для обучения моделей почти всегда выбирают Apache Parquet.Какая структурная особенность Parquet делает его на порядки эффективнее для аналитических запросов (например, «посчитать среднюю длину всех постов»)?
Почему практически все современные SOTA-модели используют LR Warmup (постепенное увеличение шага обучения в начале)?
В большинстве современных библиотек (PyTorch, TensorFlow) параметры оптимизатора AdamW отделяют Weight Decay от вычисления градиента.
В чем заключается техническая причина появления AdamW вместо обычного Adam с L2-регуляризацией?
🤖 Освойте продвинутые методы NLP и работайте с LLM на высоком уровне
Хотите разбираться в архитектуре LLM, дообучать модели под свои задачи и применять самые передовые NLP-методы?
Курс «NLP. Advanced» научит вас работать с трансформерными моделями, адаптировать GPT, BERT, LangChain и RAG под реальные бизнес-кейсы, а также развертывать AI-решения.
Вы освоите передовые методики машинного обучения для NLP, получите опыт работы с cutting-edge технологиями и расширите карьерные перспективы.
🔥Подайте заявку на курс уже сегодня и получите специальное предложение в честь дня рождения ОТУС:
+10% к скидкам на сайте по промокоду birthday до 04.04
+5% по промокоду go_qa5
🎁Соберите скидку до 25%
➡️ Оставьте заявку прямо сейчас и получите скидку на обучение: https://clc.to/fNeiMw
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
При обучении классификаторов (включая LLM) часто используют Label Smoothing (размытие меток).
Какую фундаментальную проблему переобучения решает этот метод?
Вы подаете на вход модели изображение панды, но добавляете к нему микроскопический «шум», невидимый для человеческого глаза. Модель с уверенностью 99% говорит, что это «гиббон».
Как называется этот феномен в глубоком обучении?
Модель CLIP от OpenAI стала фундаментом для Stable Diffusion и Midjourney. Как именно она училась понимать связь между картинкой и текстом?
Этот подход считается «золотым стандартом» для автономных агентов.
В чем заключается основная петля цикла ReAct?
😱 Если ваш продукт не умеет отдавать данные в формате, понятном AI-агенту, то вас просто не существует
Скрипт не будет кликать по красивым кнопкам в браузере, он уйдёт к конкуренту с нормальным API. Перестроить архитектуру под машинных клиентов — это уже не хайп, а необходимое условие сохранения конкурентоспособности.
Как адаптировать продукт и не исчезнуть из выдачи:
— интегрировать
MCP и A2A-взаимодействие, чтобы агенты могли вас читать;
— научиться контролировать стоимость (лимиты, кэш, роутинг между моделями);
— настроить AgentOps: трейсинг, логирование и отлов регрессий.
Всё это ждёт вас на обновлённом курсе «Разработка AI-агентов». Мы специально сделали фокус на утилитарном инжиниринге и production-ready решениях.
Кстати, до 29 марта можно забрать курс с большой скидкой, и стоит поторопиться — мест на потоке всё меньше.
Зафиксировать цену и начать деплоить агентов без слива бюджета 👈
Вже доступно! Дослідження Telegram за 2025 — головні інсайти року 
