Библиотека собеса по Data Science | вопросы с собеседований

Open in Telegram

Вопросы с собеседований по Data Science и ответы на них. Курс по Ai-агентам: https://clc.to/9L0Tqg По рекламе: @proglib_adv Учиться у нас: https://proglib.io/w/7dfb7235 Для обратной связи: @proglibrary_feeedback_bot

Network:Книги для программистов Russia124 627 Career6 905

4 490

Subscribers

+324 hours

+87 days

+4230 days

533

Post views

~ 27624 hours

~ 34448 hours

11.87%

Engagement rate

~ 1

Posts per day

Ads index

beta

Posts Archive

4 490

Как работает Retrieval-Augmented Generation (RAG) Процесс RAG включает в себя следующие этапы: 1. Создание индекса: На первом этапе данные обрабатываются: текст делится на токены, создаются эмбеддинги для эффективного поиска. 2. Извлечение информации (Retrieval): Релевантная информация извлекается из базы знаний с помощью таких техник, как поиск по ключевым словам, семантический поиск или поиск на основе графа знаний. 3. Генерация (Generation): На основе извлеченной информации и входного запроса используется языковая модель для генерации текста. Библиотека собеса по Data Science

4 490

Какие типы галлюцинаций бывают в LLM и как их можно минимизировать Существует два основных типа галлюцинаций в больших языковых моделях (LLM): 1. Intrinsic Hallucinations: Модель генерирует текст, который противоречит предоставленному вводу. Это может происходить, когда модель «выдумывает» факты или не следуют контексту. 2. Extrinsic Hallucinations: Модель генерирует текст, который фактически неверен или не подтверждается входными данными. Например, создание неверных статистических данных или ссылок на несуществующие источники. Как уменьшить галлюцинации? 1. Оптимизация стратегии декодирования: Использование таких методов, как beam search или top-k sampling, может помочь улучшить качество вывода, избегая нелогичных или противоречивых утверждений. 2. Генерация с дополнительным поисковым механизмом (retrieval-augmented generation): Этот подход использует внешние базы данных или поисковые системы для получения точной и релевантной информации перед тем, как сгенерировать окончательный ответ, что помогает избежать фактических ошибок. Библиотека собеса по Data Science

4 490

Как развернуть модель XGBoost в продакшн 1. Сериализация модели — сохранение модели с помощью XGBoost, Pickle или Joblib. 2. Загрузка модели — использование соответствующей библиотеки для загрузки модели в продакшн-среду. 3. Выбор платформы — развертывание модели локально, в облаке или в контейнере. 4. Обслуживание модели — настройка API (REST, gRPC) для предоставления предсказаний. Библиотека собеса по Data Science

4 490

Зачем использовать векторную базу данных, если есть пакеты для векторного поиска Векторные пакеты и базы данных решают похожие задачи, но ориентированы на разные сценарии использования. 📌 Ключевые различия: 🔹 Векторные пакеты — подходят для локального поиска на небольших объемах данных, но не обеспечивают долговременное хранение и масштабируемость. 🔹 Векторные базы данных — разработаны для работы с большими объемами данных, поддерживают хранение, быстрый поиск и обработку в распределенной среде. ⚡ Когда что использовать: 🔹 Если данных мало и важна простота — подойдет векторный пакет. 🔹 Если требуется хранение, высокая скорость поиска и масштабируемость — нужна векторная база. Библиотека собеса по Data Science

4 490

Repost from Библиотека питониста | Python, Django, Flask

🐍 Твой Python-код жрёт память? 11 способов это исправить! Высокая производительность и масштабируемость невозможны, если приложение неэффективно расходует RAM. Разберём лучшие техники оптимизации памяти в Python, которые помогут сократить потребление ресурсов и ускорить работу кода. 👉 Читать статью Библиотека питониста

4 490

Как выбрать между ручным и автоматизированным созданием признаков Выбор зависит от количества признаков и уровня знания предметной области. 🔹 Когда лучше использовать ручное создание признаков? ✔ Понимание области исследований и данных. ✔ Количество признаков управляемо. ✔ Важна интерпретируемость модели. 🔹 Когда предпочтительнее автоматизированное создание признаков? ✔️ Ограниченные знания о данных. ✔️ Большие наборы данных с высокой размерностью. ✔️ Дорого разрабатывать признаки вручную. ✔️ Интерпретируемость модели не является ключевым фактором. Библиотека собеса по Data Science

4 490

Какие существуют методы обнаружения выбросов Методы делятся на статистические и плотностные. 📊 Статистические методы: ✓ Правило 3σ — предполагает нормальное распределение, выбросы находятся за границами ±3 стандартных отклонений. ✓ Метод box-plot — выбросы определяются на основе квартилей и 1.5 межквартильного размаха. ✓ Z-оценка — стандартизация данных, точки с высоким Z-score считаются выбросами. 📈 Плотностные методы: ✓ DBSCAN — алгоритм кластеризации, который помечает шумовые точки как выбросы. ✓ LOF (Local Outlier Factor) — анализирует локальную плотность точки и её отличие от соседей. Библиотека собеса по Data Science

4 490

Repost from Proglib.academy | IT-курсы

➕➖ Нужна ли математика программисту Можно ли стать разработчиком, если в школе ненавидел математику? А если наоборот — тащился от алгебры и геометрии, но кодить не умеешь? Эта статья раскладывает всё по полочкам: где без математики никуда, а где можно и без неё. ➡️ Что внутри: ✓ Почему все считают, что программисты — математики ✓ В каких сферах разработки можно вообще не знать математику ✓ Где хватит готовых библиотек, а где придётся разбираться в формулах ✓ Какие области программирования требуют мощного математического бэкграунда ✓ Что делать, если математика — это боль, но хочется освоить ML или Data Science ✓ Топ книг, которые помогут понять и даже полюбить математику 🔵 Чтобы знать математику, забирайте наш курс → «Математика для Data Science» 📎 Читать статью Proglib Academy

4 490

Какие методы выборки чаще всего используются для отбора подмножества из конечной популяции 🔹 Выборка с возвращением — каждый элемент может быть выбран несколько раз. 🔹 Выборка без возвращения — элемент может быть выбран только один раз. 🔹 Стратифицированная выборка — данные делятся на группы (страты), из которых берутся случайные образцы. 🔹 Многоступенчатая выборка — отбор проводится в несколько этапов, последовательно уменьшая выборку. 🔹 Систематическая выборка — отбор элементов через равные интервалы в отсортированном списке. Библиотека собеса по Data Science

4 490

Какие методы сбора данных вам приходилось использовать в работе Некоторые распространенные методы: 🔹 Транзакционные данные — сбор информации с терминалов и платежных систем. 🔹 Веб-скрейпинг — извлечение данных из открытых интернет-источников. 🔹 Логирование пользовательских действий — анализ поведения в приложениях и на сайтах. 🔹 Данные с датчиков — отслеживание параметров работы устройств, автомобилей, IoT-систем. Библиотека собеса по Data Science

4 490

Как можно разбить непрерывные признаки на интервалы на основе распределения данных, и каковы плюсы и минусы такого подхода Один из распространенных методов — разбиение на интервалы по квантилям. Такой способ обеспечивает равномерное распределение наблюдений по группам, но при этом границы интервалов могут быть нецелыми числами, а также метод чувствителен к изменению распределения данных со временем. Библиотека собеса по Data Science

4 490

Вы тоже игнорируете полезные советы и прокачиваетесь по-своему? 😁 Спойлер: ваш способ намного эффективнее, если в нем есть Data Fusion! 🚀 Это ежегодное онлайн-соревнование по анализу данных и машинному обучению для специалистов Data Science от Т1 и ВТБ. Общий призовой фонд — 3 000 000 рублей 🔥 В этом году участников ждут 2 основные задачи: «Label Craft» — про предсказание категории товаров. «4 Cast» — про предсказание динамики платежей на последующие 12 недель. И одна образовательная задача — «Distribution». А ещё будет специальная номинация Companion за лучшие публичные решения, в которой победителей определит жюри, учитывая поддержку со стороны других конкурсантов в чате соревнования. 📆 Даты проведения соревнования: с 13 февраля по 7 апреля 2025 года. ❗️Формат — онлайн: участвовать можно из любой точки мира. Регистрируйся на соревнование прямо сейчас! Информация о рекламодателе

4 490

Почему трансформеры справляются с большими объемами данных лучше, чем рекуррентные нейронные сети Это связано с их возможностями параллельной обработки, лучшим моделированием дальнодействующих зависимостей и устойчивостью к исчезающим и взрывающимся градиентам. Дополнительно, слой нормализации в трансформерах помогает справляться с проблемой взрыва градиента, что делает их еще более надежными для работы с крупными наборами данных. Библиотека собеса по Data Science

4 490

Применение различных конфигураций слоев ввода и вывода в Рекуррентных Нейронных Сетях (RNN) ✔️ One-to-One: • Описание: один вход — один выход. • Пример: классификация изображений. В этой задаче, нейронная сеть получает изображение как вход, а затем генерирует один результат (класс изображения) на выходе. ✔️ One-to-Many: • Описание: один вход — несколько выходов. • Пример: преобразование изображений в текст (image-to-text). Здесь сеть принимает одно изображение как вход и генерирует последовательность выходных данных, например, описание изображения в виде текста. ✔️ Many-to-Many: • Описание: несколько входов — несколько выходов. • Пример: перевод текста (например, машинный перевод). Модель принимает последовательность слов (вход) и генерирует соответствующую последовательность слов на другом языке (выход). Библиотека собеса по Data Science

4 490

4 490

Что такое функции активации и как они различаются по вычислительной сложности, разреженности и поведению градиента Функция активации нейрона определяет выходной сигнал, который определяется входным сигналом или набором входных сигналов. ▪️ Sigmoid Преобразует входы в диапазон 0-1 (бинарная классификация). Проблемы: исчезающие градиенты при экстремальных значениях. Разреженность: низкая. ▪️ Tanh Преобразует входы в диапазон -1 до 1. Проблемы: исчезающие градиенты, но менее выраженные, чем у сигмоиды. Разреженность: средняя. ▪️ ReLU (Rectified Linear Unit) Устанавливает отрицательные значения в 0, оставляя положительные. Проблемы: «умирающий ReLU» — нейроны становятся неактивными. Разреженность: высокая. ▪️ Leaky ReLU Модификация ReLU с малым наклоном для отрицательных значений. Проблемы: «умирающий ReLU» минимизируется. Разреженность: ниже, чем у ReLU. Библиотека собеса по Data Science

4 490

⚙️ Как работает API

Proglib рассказывает базу в формате рилса

4 490

В чем разница между Linear Regression, Random Forest и GBDT? Как их реализовать в распределенных вычислениях 🔹 В чем разница между Linear Regression, Random Forest и GBDT? Linear Regression (LR) — простой и быстрый, но работает только с линейными зависимостями. Random Forest (RF) — устойчив к выбросам и переобучению, но может быть медленным. Gradient Boosting Decision Trees (GBDT) — обеспечивает высокую точность, но требует тонкой настройки и больше времени на обучение. 🔹 Как реализовать эти алгоритмы в распределенных системах? RF — легко распараллеливается, так как деревья строятся независимо. GBDT — сложнее, но можно ускорить построение деревьев в каждой итерации. LR — можно параллелить через parameter server и асинхронные обновления. Библиотека собеса по Data Science

4 490

Какова вероятность распределения количества подбрасываний монеты до первого выпадения орла ✅ Ответ: Количество бросков, необходимых до появления первого орла, подчиняется геометрическому распределению. Библиотека собеса по Data Science

4 490

Как защитить модели от атак в машинном обучении? ✅ Аугментация данных и робастное обучение — добавление случайных шумов в данные для повышения устойчивости модели. ✅ Adversarial Training — специальное обучение модели на данных с атаками, чтобы она их распознавала. ✅ Дифференциальная приватность — техники, предотвращающие утечку информации о тренировочных данных. ✅ Мониторинг аномалий — выявление подозрительных входных данных и реагирование на них. Библиотека собеса по Data Science