Machine learning Interview

Kanalga Telegram’da o‘tish

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya21 899 Texnologiyalar & Aralashmalar4 565...

📈 Telegram kanali Machine learning Interview analitikasi

Machine learning Interview (@machinelearning_interview) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 30 053 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 4 565-o'rinni va Rossiya mintaqasida 21 899-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 30 053 obunachiga ega bo‘ldi.

18 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 49 ga, so‘nggi 24 soatda esa 0 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 18.61% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 7.27% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 5 592 marta ko‘riladi; birinchi sutkada odatda 2 185 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 39 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent claude, llm, контекст, hermes, nvidia kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 19 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

30 053

Obunachilar

Ma'lumot yo'q24 soatlar

+127 kunlar

+4930 kunlar

5 592

Post ko'rishlar

~ 2 18524 soatlar

~ 2 70248 soatlar

18.61%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

30 052

🤖 Расскажите о наивном байесовсом алгоритме какие у него преимущества и недостатки? Ответ Наивный байесовский классификатор (Naive Bayes classifier) – это очень популярный в машинном обучении алгоритм, который в основном используется для получения базовой точности набора данных. Изучим его преимущества и недостатки, а также реализацию на языке Python. Плюсы Алгоритм легко и быстро предсказывает класс тестового набора данных. Он также хорошо справляется с многоклассовым прогнозированием. Производительность наивного байесовского классификатора лучше, чем у других простых алгоритмов, таких как логистическая регрессия. Более того, вам требуется меньше обучающих данных. Он хорошо работает с категориальными признаками(по сравнению с числовыми). Для числовых признаков предполагается нормальное распределение, что может быть серьезным допущением в точности нашего алгоритма. Минусы Если переменная имеет категорию (в тестовом наборе данных), которая не наблюдалась в обучающем наборе данных, то модель присвоит 0 (нулевую) вероятность и не сможет сделать предсказание. Это часто называют нулевой частотой. Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из самых простых методов сглаживания называется оценкой Лапласа. Значения спрогнозированных вероятностей, возвращенные методом predict_proba, не всегда являются достаточно точными. Ограничением данного алгоритма является предположение о независимости признаков. Однако в реальных задачах полностью независимые признаки встречаются крайне редко. ➡️ Читать подробнее @machinelearning_interview

30 052

Как вы создаете аналитический проект? Ответ на этот вопрос позволит вам продемонстрировать социальные навыки, такие как аккуратность и организованность, которые важны для роли аналитика данных. Пример: «В аналитическом проекте есть определенные шаги, которые можно повторять. Когда вы начинаете аналитический проект, вы должны выполнить следующие шаги: Определите проблему. Исследуйте существующие данные и исследуйте новые данные для поддержки решений. Подготовьте данные для хранения данных. Выберите привлекательную модель данных, которая подходит для аналитики, которую вы хотите получить. Подтвердите данные. Внедрите модель данных и просмотрите аналитику». @machinelearning_interview

30 052

Сравните профилирование данных и интеллектуальный анализ данных. Ответ Сравнение и противопоставление двух предметов позволяет вам продемонстрировать знание обоих. Вот как можно говорить о профилировании и интеллектуальном анализе данных. Пример: «Вот черты интеллектуального анализа данных и профилирования данных, которые можно сравнить: *Профилирование данных. При профилировании данных анализ выполняется на уровне экземпляра, что позволяет получить представление о качествах каждого экземпляра.* * Интеллектуальный анализ данных. Интеллектуальный анализ данных делает упор на разрешение кластеров данных, ищет такие вещи, как единообразие, взаимосвязи и многое другое». @machinelearning_interview

30 052

Что такое обучение вероятно приближённо корректное обучение ? Ответ Вероятно приближённо корректное обучение (ВПК-обучение, англ. Probably Approximately Correct learning, PAC learning) — схема машинного обучения, использующая понятия асимптотической достоверности и вычислительной сложности. В этой схеме учитель получает выборки и должен выбрать обобщающую функцию (называемую гипотезой) из определённого класса возможных функций. Целью является функция, которая с большой вероятностью (откуда «вероятно» в названии) будет иметь низкую ошибку обобщения (откуда «приближенно корректное» в названии). Учитель должен быть способен обучить концепт, дающее произвольный коэффициент аппроксимации, вероятность успеха или распределения выборок. Модель была позднее расширена для обработки шума (некорректно классифицируемых выборок). Важным нововведением схемы ВПК является использование понятия о вычислительной сложности машинного обучения. В частности, ожидается, что учитель находит эффективные функции (которые ограничены по времени выполнения и требуемому пространству многочленом от размера выборки), и учитель должен реализовать эффективную процедуру (запрашивая размер примера, ограниченный многочленом от размера концепта, модифицированного границами приближения и правдоподобия). @machinelearning_interview

30 052

Как выполняется мониторинг Docker в производственных окружениях? Для мониторинга есть инструменты Docker stats и Docker events. С их помощью можно получить отчеты по важной статистике. Если запустить stats с некоторым идентификатором контейнера, он вернет использование оперативной памяти и процессорного времени в контейнере. Это схоже с использованием команды top. С другой стороны есть events, показывающая список активностей в процессе работы сервиса Docker. Вот некоторые из них: подключение к консоли контейнера, commit, переименование, удаление и т.п., а также есть возможность фильтрации нужных событий. Шпаргалка с командами Docker #middle @machinelearning_interview

30 052

Аналитик данных, специалист по Data Science или системный аналитик — что выбрать? В анализе данных много специальностей, в которых можно начать карьеру. Узнайте о них подробнее на вебинаре Яндекс Практикума. → Бесплатно, 30 августа в 18:00 О профессиях расскажут эксперты с опытом в сфере: ◾️ Маргарита Нижельская, экс-руководитель команды системных аналитиков «МегаФон» ◾️ Кирилл Соколов, специалист по Data Science ◾️ Анна Чувилина, экс-руководитель аналитики Яндекс Практикума, Data Engineer ◾️ Инна Тетюлина, продакт-менеджер курса «Системный Аналитик», ◾️ Устинова Алла, руководитель сервиса сопровождения направления анализа данных ◾️ Алексей Макаров, руководитель сопровождения, трудоустройства и фидбэка в направлении анализа данных Практикума Вот что вы узнаете о каждой профессии: — перспективы профессии; — что должен знать и уметь специалист; — кому подходит профессия; — как учиться и начать карьеру; — требования работодателей к младшим специалистам; — как расти в профессии. Вы сможете задать спикерам ваши вопросы о смене профессии и старте карьеры. → Зарегистрироваться на вебинар

30 052

Что вы понимаете под термином «нормальное распределение»? Нормальное распределение — одно из основных распределений вероятности. Плотность нормального распределения выражается функцией Гаусса. Примеры нормального распределения: погрешности измерений, отклонения при стрельбе, показатели живых популяций в природе.

30 052

Если вы хотите укрепить и систематизировать свои знания в Data Science, тогда вам на курс Data Science c Глебом Михаловым! Это курс на Stepik, в котором на интуитивном уровне разобраны задачи и инструменты Дата Саентиста. Пройдя курс, вы сможете: — узнать, что такое человеческое обучение, и чем оно отличается от машинного; — научиться виртуозно пользоваться catboost; — интуитивно понимать метрики бинарной классификации; — интерпретировать модели машинного обучения с помощью shap. У курса 700+ продаж и 51 отзыв с оценкой в 5 звезд🤩на Stepik. Специально для нашего канала Глеб подготовил 30% скидку, которую можно получить через его телеграм-бота.

30 052

Как решить проблему переобучения модели ? Ответ Переобучение — противоположный недообучению эффект, когда модель слишком сложная и универсальная. Например, сейчас много говорят о моделях нейронных сетей, которые содержат миллионы параметров, но самые продвинутые нейронные сети содержат сотни миллионов параметров. Такие сети обучаются на больших данных, поэтому иногда объема данных может не хватить, чтобы одновременно хорошо настроить все параметры. В момент переобучения наблюдается ситуация, когда мы пытаемся определить оптимальные параметры модели, которые хорошо описывают наши данные, но потом на новых данных эта модель начинает часто ошибаться. Проблема переобучения часто встречается, и связана она с тем, что мы пытаемся сделать выбор по неполной информации. Наша выборка всегда не полностью описывает искомую зависимость, которую мы мечтаем построить, затем мы пытаемся зависимость по неполной информации, но это невозможно. Как решить проблему переобучения Первый вариант решения проблемы переобучения — хорошо угадать модель, но это очень редкая ситуация. Если у нас есть хорошая модель явления, которое мы пытаемся описать и потом спрогнозировать, то проблем с переобучением может не возникнуть. Простые модели, которые мы изобретаем в физике или хорошо изученных предметных областях, — это здорово, но машинное обучение является той областью, где хороших моделей просто не существует. Другой универсальный рецепт решения проблемы переобучения — скользящий контроль, или кросс-проверка. Модель всегда оценивают по тестовой выборке, а не по данным, на которых она обучалась. Данные, которые есть изначально, делят на две части: обучающую и тестовую. В итоге после двух этапов можно просто выбрать наилучшую модель из некоторого количества моделей, которые мы изобрели. Главная проблема этого подхода — возможное переобучение экспериментатора. Процедура выбора лучшей функции из параметрического семейства функций — это численный метод, поэтому мы доверяем этот выбор компьютеру, алгоритму. Когда мы начинаем перебирать разные модели и выбирать лучшую по тестовой выборке, мы превращаем этот процесс в такую же оптимизацию, но выполняется она не алгоритмом, а умом человека. Экспериментатор совершает тот же самый выбор по неполной информации и тоже может переобучиться. Еще один вариант решения проблемы переобучения — регуляризация. Если спросить специалистов по анализу данных (data scientists) о том, какие методы регуляризации им известны, то они сходу скажут: L1-регуляризация и L2-регуляризация. Все data scientists хорошо понимают и знают эти методы. Такие методы регуляризации используют на линейных моделях регрессии и классификации. В теории часто пишут, что при создании линейной модели всегда надо приближать вектор коэффициентов модели к нулевому вектору. Если этого не делать, то может возникнуть эффект переобучения, когда вы смотрите на модель и видите там большие значения коэффициентов, но одни отрицательные, а другие положительные. Кажется, что в сумме они компенсируют друг друга, на обучающей выборке это работает хорошо, а на тестовых данных работает отвратительно. Для устранения этого эффекта вектор коэффициентов приближают к нулю, и делает это регуляризация. Распространить подход регуляризации с линейных моделей на общие классы моделей непросто, поэтому для этого используют байесовский подход, который связан с вводом априорного распределения вероятностей в пространстве параметров модели. Байесовский подход сложно воплотить, потому что априорное распределение надо откуда-то взять, а значит, необходимо примерно понимать тип зависимости, которую мы хотим восстановить. ➡️ Подробнее @machinelearning_interview

30 052

Надоело прыгать от инструмента к инструменту в процессе работы над машинным обучением? ☑️ 31 августа Cloud проводит бесплатный вебинар для дата-сайентистов, дата-инженеров и всех, кто сейчас в поиске удобного инструмента для полного цикла ML-разработки. У каждого будет шанс: ▪️ вместе с экспертом пройти полный путь от загрузки данных на платформу ML Space до вывода модели в production; ▪️ узнать, что помогает сделать обучение моделей более прозрачным; ▪️ увидеть, как наша платформа ускоряет время разработки внутри команды Data Science; ▪️ разобрать практический кейс применения ML-решения; ▪️ узнать, как получить грант на тестирование платформы и убедиться в преимуществах самостоятельно. Регистрируйтесь по ссылке и запускайте AI продукты до 30% быстрее!

30 052

👨‍💻 Перечислите основнные методы уменьшения размерностей. - Многомерное шкалирование (MDS) - Метод главных компонент (PCA) - Визуализация многомерных пространств - Применение Автоэнкодеров - Isomap - CA, MCA - LDA (Linear Discriminant Analysis), DCA (Discriminant - Correspondence Analysis) - tSNE (t-Distributed Stochastic Neighbor Embedding) и другие ➡️ Читать подробнее @machinelearning_interview

30 052

Когда нам следует использовать SVM? SVM означает машины опорных векторов; это контролируемый алгоритм машинного обучения, который может использоваться для решения проблем, связанных с классификацией и регрессией. В классификации он используется для различения нескольких групп или классов, а в регрессии он используется для получения математической модели, которая могла бы предсказывать вещи. Одним из очень больших преимуществ использования SVM является то, что его можно использовать как в линейных, так и в нелинейных задачах. ➡️ SVM. Подробный разбор метода опорных векторов @machinelearning_interview

30 052

Начините погружение в Spark вместе c OTUS! 🚀 Присоединяйтесь 25 августа в 20:00 мск на бесплатный вебинар «Обработка графов в Spark». 📚На вебинаре с Вадимом Заигриным, дата-инженером в VMware мы узнаем, как работать с графами на Spark, рассмотрим основные графовые алгоритмы и их реализацию на Spark. 👉 Регистрация на вебинар: https://otus.pw/FQfi/ Вебинар является частью онлайн-курса «Spark Developer» от OTUS.

30 052

Назовите жизненные этапы разработки модели в проекте машинного обучения. Ответ Разработка модели машинного обучения проходит в следующие этапы: 1 Определить бизнес-задачу: понять бизнес-цели и преобразовать задачу ИТ-аналитики Конструирование данных: определение необходимых источников данных, извлечение и агрегирование данных на необходимом уровне. 2 Исследовательский анализ: понимание данных, проверка переменных на наличие ошибок, выбросов и пропущенных значений. Определите взаимосвязь между различными типами переменных. Проверьте предположения. 3 Подготовка данных: исключения, преобразование типов, обработка выбросов, обработка пропущенных значений. Создайте новые гипотетически релевантные переменные, например max, min, sum, change, ratio. Группирование переменных, создание фиктивных переменных и т. Д. 4 Разработка функций: Избегайте мультиколлинеарности и оптимизируйте сложность модели за счет сокращения количества входных переменных – кластера переменных, корреляции, факторного анализа, RFE и т. Д. 5 Разделение данных: разделите данные на обучающую и тестовую выборки. 6 Построение модели: подгонка, проверка точности, перекрестная проверка и настройка модели с помощью параметров и гиперпараметров. 7 Тестирование модели: проверьте модель на тестовом образце, запустите диагностику и при необходимости повторите модель. 8 Реализация модели: Подготовьте окончательные результаты модели – представьте модель. Определите ограничения модели. Реализуйте модель (преобразование решения машинного обучения в рабочую среду). 9 Отслеживание производительности: периодически отслеживайте производительность модели и обновляйте ее по мере необходимости. В условиях развивающейся бизнес-среды производительность любой модели машинного обучения может со временем ухудшиться. @machinelearning_interview

30 052

Случайная величина X распределена нормально со средним значением 1020 и стандартным отклонением 50. Вычислите P(X>1200). Ответ Используем Excel: p = 1-norm.dist(1200, 1020, 50, true). Получаем p=0.000159. @machinelearning_interview

30 052

Рассмотрим эпидемию инфлюэнцы для гетеросексуальных семей с двумя родителями. Предположим, что вероятность заражения хотя бы одного родителя 17%. Вероятность заражения отца 12%, а заражения обоих родителей – 6%. Какова вероятность заражения матери? Ответ Используем общее правило сложения вероятностей: P(мать или отец) = P(мать) + P(отец) – P(мать и отец) P(мать) = P(мать или отец) + P(мать и отец) – P(отец) = 0.17 + 0.06 – 0.12 = 0.11 Правила сложения вероятностей @machinelearning_interview

30 052

КОГДА ЛУЧШЕ ИСПОЛЬЗОВАТЬ TENSORFLOW [ИЛИ ДРУГУЮ БИБЛИОТЕКУ, ТЕХНОЛОГИЮ ИЛИ ПОДХОД]? Когда дело доходит до машинного обучения (или даже собеседований по науке о данных для тех, кто хочет получить работу в C-Suite), ожидайте вопросов, которые проверят, насколько вы в курсе текущих технологий и тенденций. Сюда входят вопросы, связанные с библиотеками Python, такими как TensorFlow. Бабич, которому однажды пришлось нанять семь кандидатов наук в области науки о данных для трехмесячного проекта (то есть он провел более 100 собеседований), любит разбрасывать подобные вопросы между более математическими. «Мне очень нравятся вопросы о современных технологиях и подходах». Итог: не бойтесь высказывать свое мнение, если вы можете его обосновать. Краткое описание популярных мл библиотек @machinelearning_interview

30 052

Количество убийств в Шотландии упало со 115 до 99. Является ли это изменение значимым? Ответ Эта задача аналогична предыдущей – зесь тоже используется распределение Пуассона. Доверительный интервал равен 115 +/- 21.45 = [93.55, 136.45]. Поскольку 99 находится в этом доверительном интервале, мы можем сделать вывод, что это изменение не является значимым. @machinelearning_interview

30 052

Язык R - один из наиболее востребованных навыков в сфере Data Science R способен заменить Excel, BI платформы и даже Python в области анализа данных и Data Science. Даже наиболее популярная библиотека для анализа данных на Python - pandas была создана под впечатлением от работы с табличными данными в R. В канале R4marketing вы найдёте множество русскоязычных обучающих материалов по языку R, среди которых: ● Заметки по анализу данных на R ● Бесплатные книги ● Бесплатные курсы ● Статьи ● Видео уроки ✅Подписывайтесь!

30 052

Выборка 9 человек из интересующей нас популяции выявила средний объем мозга = 1100 куб.см. со стандартным отклоненим 30 куб.см. Каким будет 95% Т-доверительный интервал Стьюдента для среднего объема мозга в этой популяции? Ответ Используем формулу доверительного интервала для выборки (картинка) Учитывая уровень доверительности 95% и количество степеней свободы, равное 8, t-оценка = 2.306. Доверительный интервал = 1100 +/- 2.306*(30/3) = [1076.94, 1123.06]. 38. Девять испытуемых получали диетические пилюли на протяжении 6 недель. Средняя потеря веса составила -2 кг. Каким должно быть стандартное отклонение потери веса, чтобы верхняя граница 95% Т-доверительного интервала была равна 0? Верхняя граница = среднее + t-оценка * (стандартное отклонение / квадратный корень из размера выборки). 0 = -2 + 2.306*(s/3) 2 = 2.306 * s / 3 s = 2.601903 Таким образом, стандартное отклонение должно быть примерно 2.60, чтобы Т-доверительный интервал заканчивался в нуле.