ch
Feedback
Библиотека собеса по Data Science | вопросы с собеседований

Библиотека собеса по Data Science | вопросы с собеседований

前往频道在 Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

显示更多
4 484
订阅者
+124 小时
+47
+4030
帖子存档
👀 Краткая выжимка нашей имбовой рассылки по ИИ Ниже — небольшая подборка, а если хотите фулл, то подписывайтесь на рассылку
👀 Краткая выжимка нашей имбовой рассылки по ИИ Ниже — небольшая подборка, а если хотите фулл, то подписывайтесь на рассылку 💬 Новости ▫️ Энтузиасты получили доступ к Anthropic Mythos Группа из Discord-канала, искавшая доступ к ещё не вышедшим моделям, угадала URL Mythos по шаблонам URL других моделей Anthropic и через аккаунт стороннего подрядчика получила доступ к инструменту  ▫️ Anthropic тайно устанавливает шпионское ПО при установке Claude Desktop Claude Desktop без спроса прописывает в семь браузеров (Chrome, Brave, Edge, Chromium, Arc, Vivaldi и Opera) Native Messaging bridge, который дает расширению Claude доступ к авторизованным сессиям, DOM и формам за пределами песочницы. Удалить это нельзя — приложение восстанавливает файл с настройками при каждом запуске. ▫️ Три бага, которые сломали Claude Code Сначала снизили режим мышления с high до medium ради скорости, потом словили баг с кешированием, из-за которого модель теряла контекст каждый ход вместо одного раза, а под конец добавили системный промпт с жесткими лимитами на длину ответов — все это вместе выглядело как общая деградация модели, хотя API б 🤖 Инструменты для ИИ Google DESIGN.md — открытый стандарт описания дизайн-систем для UI-агентов designdotmd.directory — каталог DESIGN.md файлов beads — система памяти для агентов swarm-forge — оркестратор агентов, работающих в разных git worktree одного проекта browser-harness — дает агентам полный контроль над браузером agentmako — превращает код в локальную базу знаний и скармливает AI-агентам готовый контекст thonops — cобирает сайт на Next.js, обновляя страницу на лету при любой правке кода и заливая проект на Vercel в пару кликов vibechord — инструмент для запуска нескольких AI-агентов и управления ими из одного места monitorability-evals — открытый датасет от OpenAI для оценки того, насколько хорошо можно отслеживать и контролировать поведение языковых моделей в различных сценариях 🖥 Разбор пяти AI-проектов, набравших тысячи звезд на GitHub: Hermes Agent — самообучающийся ассистент с долгой памятью DeerFlow — мультиагентный фреймворк с изолированными песочницами Multica — аналог Jira для AI-команд Claude Code Game Studios — 48 агентов-коллег для инди-геймдева MarkItDown — конвертер любых документов в Markdown ⚡️ Скиллы ui-skills.com — 12 кураторских скилов для UI Nothing Design Skill — скил для Claude Code по созданию пользовательского интерфейса в дизайн-языке Nothing: монохромный, типографический, индустриальный codex-marketplace.com — каталог плагинов, скилов и хуков для Codex с установкой в одну команду и рейтингом от коммьюнити TBM Recommender — прикручивает к AI-агентам базу рассылки TBM про продукты и менеджмент, вытаскивая релевантные посты через хитрую трехуровневую выборку ради экономии токенов 🔹 Получить консультацию менеджера 🔹 Сайт Академии 🔹 Сайт Proglib 🏃‍♀️ Proglib Academy #буст

Как функция LogLoss наказывает модель, если реальный ответ равен y=1, а модель предсказала вероятность y=0.001?
Anonymous voting

Какую именно математическую трансформацию выполняет сигмоида над выходом линейной комбинации признаков?
Anonymous voting

Иерархические методы строят дерево кластеризации снизу вверх. Какую практическую пользу несет в себе визуализация этого процесса — Дендрограмма — для дата-сайентиста при исследовании структуры данных?
Anonymous voting

С какой фундаментальной проблемой столкнется K-Means, если реальные кластеры в данных имеют форму вытянутых эллипсов, полумесяцев или вложенных друг в друга колец?
Anonymous voting

В русскоязычной и международной DS-литературе часто разделяют термины Блендинг и Стекинг, хотя их математическая суть близка. В чем заключается организационное отличие Блендинга от классического Стекинга с точки зрения разбиения данных?
Anonymous voting

⚡️ Главные ИИ-новости недели: от громкого трансфера Карпати до бесплатного ChatGPT для целой страны 1. Андрей Карпати перешел
+6
⚡️ Главные ИИ-новости недели: от громкого трансфера Карпати до бесплатного ChatGPT для целой страны 1. Андрей Карпати перешел в Anthropic. 2. Anthropic впервые обогнала OpenAI по бизнес-адопции: 34.4% и 32.3% соответственно. (см. 2) 3. Codex теперь доступен в мобильном приложении ChatGPT 4. xAI запустила Grok Build — CLI-агент для кодинга с субагентами, plan-режимом, headless и ACP. Пока бета, только для SuperGrok Heavy. (см. 4) 5. Cursor выпустил модель Composer 2.5 (на основе Kimi K2.5): стоит в 10 раз дешевле и работает на уровне Opus 4.7. (см. 5) 6. Google релизнула модель Gemini 3.5 Flash Модель Gemini 3.5 Flash, которая обходит Gemini 3.1 Pro на агентских и кодинговых бенчмарках при 4-кратной скорости вывода. Вместе с ней появился персональный агент Gemini Spark, работающий круглосуточно, а 3.5 Pro ожидается в следующем месяце. (см. 6) 7. Alibaba выпустила Qwen 3.7 Max Preview (заняла 13 место в Text Arena) и Plus Preview (16 место в Vision Arena). (см. 7) 8. Moonshot AI выпустила Kimi WebBridge Расширение для браузера, которое дает агенту доступ к вашим учетным записям, файлам cookie и авторизованным сессиям, чтобы он мог сам кликать, скроллить и заполнять формы от вашего имени на любых сайтах. 9. Мальта договорилась с OpenAI и раздает всем своим гражданам годовую подписку ChatGPT Plus 📬 Понравился дайджест? Это лишь 20% от того, что мы отправляем нашим подписчикам каждую субботу. 👉 Подписаться на еженедельную ИИ-рассылку

В простом ансамбле (Voting) мы можем просто усреднить предсказания трех моделей. В стекинге же мы строим двухслойную архитектуру: базовые модели (Level 0) и мета-модель (Level 1). Что именно подается на вход мета-модели во время обучения и инференса?
Anonymous voting

Библиотека CatBoost завоевала огромную популярность в DS. Какую уникальную математическую фичу использует CatBoost под капотом, чтобы кодировать категории?
Anonymous voting

Классический метод OneHotEncoder превращает колонку «Страна» в набор бинарных колонок (0 или 1) для каждой страны. В каком случае использование One-Hot Encoding станет катастрофой для модели случайного леса (Random Forest) или градиентного бустинга?
Anonymous voting

Вы прогнозируете ежедневный спрос на товары. У вас есть выбор между двумя метриками для оптимизации: MAE и RMSE.Как именно математическая разница между этими метриками влияет на то, какую модель вы получите в итоге?
Anonymous voting

Ты строишь модель, которая предсказывает вероятность дефекта детали на заводе по фотографиям. В датасете есть много фотографий одной и той же детали с разных ракурсов. Какой тип валидации нужно выбрать?
Anonymous voting

Вы получили в тесте p-value=0.03 при выбранном уровне значимости α=0.05. Вы отклоняете нулевую гипотезу (H0 ). Какое определение p-value является единственно верным с точки зрения математической статистики?
Anonymous voting

Вы провели A/B-тест нового дизайна кнопки и хотите сравнить средний чек в двух группах. Вы собираетесь использовать классический независимый t-test. Какое из следующих условий является обязательным для того, чтобы его результаты были корректными?
Anonymous voting

Одно из фундаментальных свойств значений SHAP — это свойство аддитивности (или эффективности). Что математически гарантирует это свойство при анализе предсказания?
Anonymous voting

Иногда сам факт того, что данные отсутствуют — это важный сигнал (например, отсутствие данных о кредитной истории у молодого заемщика). Какую простую технику стоит применить, чтобы модель «узнала», что значение было пропущено, даже если мы его заполнили?
Anonymous voting

Для поиска аномалий часто используют правило «трех сигм» (3σ) или межквартильный размах (IQR). Почему метод IQR (метод «усов» в Boxplot) обычно считается более надежным для детекции выбросов в реальных бизнес-данных, чем Z-score?
Anonymous voting

🔥 Знакомьтесь с экспертом Proglib.academy: Эмиль Сатаев Эмиль — эксперт с 8-летним опытом в разработке, который специализиру
🔥 Знакомьтесь с экспертом Proglib.academy: Эмиль Сатаев Эмиль — эксперт с 8-летним опытом в разработке, который специализируется на внедрении LLM и агентных подходов в реальные коммерческие сервисы. Он точно знает, как проектировать архитектуру так, чтобы ИИ-функции работали стабильно в связке с внешними системами. 🏃‍♀️ Уже 14 мая Эмиль проведет открытый вебинар! Обсудим самую «больную» тему: «Почему AI-продукты на базе LLM ломаются и как сделать, чтобы работало». 🗓 Когда: 14 мая в 19:00 (Мск) Почему Эмиля стоит послушать: 🟣 8+ лет в разработке (Backend и Frontend)
Прошел путь от фулстека до Backend Platform Developer в SMIT.Studio.
🟣 Международный исследовательский опыт
Работал исследователем в Институте ИИ НИУ ВШЭ и в Национальном университете Сингапура (NUS).
🟣 Преподаватель-практик
Ведет семинары в НИУ ВШЭ, в том числе по проектированию и разработке агентских систем.
🟣 Мастер интеграции AI в Backend
Его главная суперсила — умение правильно встраивать LLM через API, выстраивать workflow и агентную логику в сложных распределенных системах.
🔗 Зарегистрироваться на вебинар

Прежде чем заполнять пропуски средним или медианой, важно понять природу их появления.В каком из этих случаев простое заполнение пропуска средним значением (Mean Imputation) приведет к серьезному смещению и неверным выводам модели?
Anonymous voting

Существует метод измерения важности признаков через перемешивание (Permutation Importance). Каким образом этот метод определяет, насколько важен конкретный признак для модели (любой, даже «черного ящика»)?
Anonymous voting