Machine learning Interview
前往频道在 Telegram
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz
显示更多📈 Telegram 频道 Machine learning Interview 的分析概览
频道 Machine learning Interview (@machinelearning_interview) 俄语 语言赛道中的 是活跃参与者。目前社区聚集了 30 053 名订阅者,在 技术与应用 类别中位列第 4 565,并在 俄罗斯 地区排名第 21 899 位。
📊 受众指标与增长动态
自 невідомо 创建以来,项目保持高速增长,吸引了 30 053 名订阅者。
根据 18 六月, 2026 的最新数据,频道保持稳定运转。过去 30 天订阅人数变化为 49,过去 24 小时变化为 0,整体触达仍然可观。
- 认证状态: 未认证
- 互动率 (ER): 平均受众互动率为 18.61%。内容发布后 24 小时内通常能获得 7.27% 的反应,占订阅者总量。
- 帖子覆盖: 每篇帖子平均可获得 5 592 次浏览,首日通常累积 2 185 次浏览。
- 互动与反馈: 受众积极参与,单帖平均反应数为 39。
- 主题关注点: 内容集中在 claude, llm, контекст, hermes, nvidia 等核心主题上。
📝 描述与内容策略
作者将该频道定位为表达主观观点的平台:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно!
Вопросы - @workakkk
РКН: clck.ru/3FmwRz”
凭借高频更新(最新数据采集于 19 六月, 2026),频道始终保持新鲜度与高覆盖。分析显示受众积极互动,使其成为 技术与应用 类别中的关键影响点。
30 053
订阅者
无数据24 小时
+127 天
+4930 天
帖子存档
🤖 Расскажите о наивном байесовсом алгоритме какие у него преимущества и недостатки?
Ответ
Наивный байесовский классификатор (Naive Bayes classifier) – это очень популярный в машинном обучении алгоритм, который в основном используется для получения базовой точности набора данных. Изучим его преимущества и недостатки, а также реализацию на языке Python.
Плюсы
Алгоритм легко и быстро предсказывает класс тестового набора данных. Он также хорошо справляется с многоклассовым прогнозированием.
Производительность наивного байесовского классификатора лучше, чем у других простых алгоритмов, таких как логистическая регрессия. Более того, вам требуется меньше обучающих данных.
Он хорошо работает с категориальными признаками(по сравнению с числовыми). Для числовых признаков предполагается нормальное распределение, что может быть серьезным допущением в точности нашего алгоритма.
Минусы
Если переменная имеет категорию (в тестовом наборе данных), которая не наблюдалась в обучающем наборе данных, то модель присвоит 0 (нулевую) вероятность и не сможет сделать предсказание. Это часто называют нулевой частотой. Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из самых простых методов сглаживания называется оценкой Лапласа.
Значения спрогнозированных вероятностей, возвращенные методом predict_proba, не всегда являются достаточно точными.
Ограничением данного алгоритма является предположение о независимости признаков. Однако в реальных задачах полностью независимые признаки встречаются крайне редко.
➡️ Читать подробнее
@machinelearning_interview
Как вы создаете аналитический проект?
Ответ на этот вопрос позволит вам продемонстрировать социальные навыки, такие как аккуратность и организованность, которые важны для роли аналитика данных.
Пример: «В аналитическом проекте есть определенные шаги, которые можно повторять. Когда вы начинаете аналитический проект, вы должны выполнить следующие шаги:
Определите проблему.
Исследуйте существующие данные и исследуйте новые данные для поддержки решений.
Подготовьте данные для хранения данных.
Выберите привлекательную модель данных, которая подходит для аналитики, которую вы хотите получить.
Подтвердите данные.
Внедрите модель данных и просмотрите аналитику».
@machinelearning_interview
Сравните профилирование данных и интеллектуальный анализ данных.
Ответ
Сравнение и противопоставление двух предметов позволяет вам продемонстрировать знание обоих. Вот как можно говорить о профилировании и интеллектуальном анализе данных.
Пример: «Вот черты интеллектуального анализа данных и профилирования данных, которые можно сравнить:
*Профилирование данных. При профилировании данных анализ выполняется на уровне экземпляра, что позволяет получить представление о качествах каждого экземпляра.*
* Интеллектуальный анализ данных. Интеллектуальный анализ данных делает упор на разрешение кластеров данных, ищет такие вещи, как единообразие, взаимосвязи и многое другое».
@machinelearning_interview
Что такое обучение вероятно приближённо корректное обучение ?
Ответ
Вероятно приближённо корректное обучение (ВПК-обучение, англ. Probably Approximately Correct learning, PAC learning) — схема машинного обучения, использующая понятия асимптотической достоверности и вычислительной сложности.
В этой схеме учитель получает выборки и должен выбрать обобщающую функцию (называемую гипотезой) из определённого класса возможных функций. Целью является функция, которая с большой вероятностью (откуда «вероятно» в названии) будет иметь низкую ошибку обобщения (откуда «приближенно корректное» в названии). Учитель должен быть способен обучить концепт, дающее произвольный коэффициент аппроксимации, вероятность успеха или распределения выборок.
Модель была позднее расширена для обработки шума (некорректно классифицируемых выборок).
Важным нововведением схемы ВПК является использование понятия о вычислительной сложности машинного обучения. В частности, ожидается, что учитель находит эффективные функции (которые ограничены по времени выполнения и требуемому пространству многочленом от размера выборки), и учитель должен реализовать эффективную процедуру (запрашивая размер примера, ограниченный многочленом от размера концепта, модифицированного границами приближения и правдоподобия).
@machinelearning_interview
Как выполняется мониторинг Docker в производственных окружениях?
Для мониторинга есть инструменты Docker stats и Docker events. С их помощью можно получить отчеты по важной статистике. Если запустить stats с некоторым идентификатором контейнера, он вернет использование оперативной памяти и процессорного времени в контейнере. Это схоже с использованием команды top. С другой стороны есть events, показывающая список активностей в процессе работы сервиса Docker. Вот некоторые из них: подключение к консоли контейнера, commit, переименование, удаление и т.п., а также есть возможность фильтрации нужных событий.
Шпаргалка с командами Docker
#middle
@machinelearning_interview
Аналитик данных, специалист по Data Science или системный аналитик — что выбрать?
В анализе данных много специальностей, в которых можно начать карьеру. Узнайте о них подробнее на вебинаре Яндекс Практикума.
→ Бесплатно, 30 августа в 18:00
О профессиях расскажут эксперты с опытом в сфере:
◾️ Маргарита Нижельская, экс-руководитель команды системных аналитиков «МегаФон»
◾️ Кирилл Соколов, специалист по Data Science
◾️ Анна Чувилина, экс-руководитель аналитики Яндекс Практикума, Data Engineer
◾️ Инна Тетюлина, продакт-менеджер курса «Системный Аналитик»,
◾️ Устинова Алла, руководитель сервиса сопровождения направления анализа данных
◾️ Алексей Макаров, руководитель сопровождения, трудоустройства и фидбэка в направлении анализа данных Практикума
Вот что вы узнаете о каждой профессии:
— перспективы профессии;
— что должен знать и уметь специалист;
— кому подходит профессия;
— как учиться и начать карьеру;
— требования работодателей к младшим специалистам;
— как расти в профессии.
Вы сможете задать спикерам ваши вопросы о смене профессии и старте карьеры.
→ Зарегистрироваться на вебинар
Что вы понимаете под термином «нормальное распределение»?
Нормальное распределение — одно из основных распределений вероятности.
Плотность нормального распределения выражается функцией Гаусса.
Примеры нормального распределения: погрешности измерений, отклонения при стрельбе, показатели живых популяций в природе.
Если вы хотите укрепить и систематизировать свои знания в Data Science, тогда вам на курс Data Science c Глебом Михаловым! Это курс на Stepik, в котором на интуитивном уровне разобраны задачи и инструменты Дата Саентиста.
Пройдя курс, вы сможете:
— узнать, что такое человеческое обучение, и чем оно отличается от машинного;
— научиться виртуозно пользоваться catboost;
— интуитивно понимать метрики бинарной классификации;
— интерпретировать модели машинного обучения с помощью shap.
У курса 700+ продаж и 51 отзыв с оценкой в 5 звезд🤩на Stepik.
Специально для нашего канала Глеб подготовил 30% скидку, которую можно получить через его телеграм-бота.
Как решить проблему переобучения модели ?
Ответ
Переобучение — противоположный недообучению эффект, когда модель слишком сложная и универсальная. Например, сейчас много говорят о моделях нейронных сетей, которые содержат миллионы параметров, но самые продвинутые нейронные сети содержат сотни миллионов параметров.
Такие сети обучаются на больших данных, поэтому иногда объема данных может не хватить, чтобы одновременно хорошо настроить все параметры. В момент переобучения наблюдается ситуация, когда мы пытаемся определить оптимальные параметры модели, которые хорошо описывают наши данные, но потом на новых данных эта модель начинает часто ошибаться. Проблема переобучения часто встречается, и связана она с тем, что мы пытаемся сделать выбор по неполной информации. Наша выборка всегда не полностью описывает искомую зависимость, которую мы мечтаем построить, затем мы пытаемся зависимость по неполной информации, но это невозможно.
Как решить проблему переобучения
Первый вариант решения проблемы переобучения — хорошо угадать модель, но это очень редкая ситуация. Если у нас есть хорошая модель явления, которое мы пытаемся описать и потом спрогнозировать, то проблем с переобучением может не возникнуть. Простые модели, которые мы изобретаем в физике или хорошо изученных предметных областях, — это здорово, но машинное обучение является той областью, где хороших моделей просто не существует.
Другой универсальный рецепт решения проблемы переобучения — скользящий контроль, или кросс-проверка. Модель всегда оценивают по тестовой выборке, а не по данным, на которых она обучалась. Данные, которые есть изначально, делят на две части: обучающую и тестовую. В итоге после двух этапов можно просто выбрать наилучшую модель из некоторого количества моделей, которые мы изобрели.
Главная проблема этого подхода — возможное переобучение экспериментатора. Процедура выбора лучшей функции из параметрического семейства функций — это численный метод, поэтому мы доверяем этот выбор компьютеру, алгоритму. Когда мы начинаем перебирать разные модели и выбирать лучшую по тестовой выборке, мы превращаем этот процесс в такую же оптимизацию, но выполняется она не алгоритмом, а умом человека. Экспериментатор совершает тот же самый выбор по неполной информации и тоже может переобучиться.
Еще один вариант решения проблемы переобучения — регуляризация. Если спросить специалистов по анализу данных (data scientists) о том, какие методы регуляризации им известны, то они сходу скажут: L1-регуляризация и L2-регуляризация. Все data scientists хорошо понимают и знают эти методы. Такие методы регуляризации используют на линейных моделях регрессии и классификации. В теории часто пишут, что при создании линейной модели всегда надо приближать вектор коэффициентов модели к нулевому вектору. Если этого не делать, то может возникнуть эффект переобучения, когда вы смотрите на модель и видите там большие значения коэффициентов, но одни отрицательные, а другие положительные. Кажется, что в сумме они компенсируют друг друга, на обучающей выборке это работает хорошо, а на тестовых данных работает отвратительно. Для устранения этого эффекта вектор коэффициентов приближают к нулю, и делает это регуляризация.
Распространить подход регуляризации с линейных моделей на общие классы моделей непросто, поэтому для этого используют байесовский подход, который связан с вводом априорного распределения вероятностей в пространстве параметров модели. Байесовский подход сложно воплотить, потому что априорное распределение надо откуда-то взять, а значит, необходимо примерно понимать тип зависимости, которую мы хотим восстановить.
➡️ Подробнее
@machinelearning_interview
Надоело прыгать от инструмента к инструменту в процессе работы над машинным обучением?
☑️ 31 августа Cloud проводит бесплатный вебинар для дата-сайентистов, дата-инженеров и всех, кто сейчас в поиске удобного инструмента для полного цикла ML-разработки.
У каждого будет шанс:
▪️ вместе с экспертом пройти полный путь от загрузки данных на платформу ML Space до вывода модели в production;
▪️ узнать, что помогает сделать обучение моделей более прозрачным;
▪️ увидеть, как наша платформа ускоряет время разработки внутри команды Data Science;
▪️ разобрать практический кейс применения ML-решения;
▪️ узнать, как получить грант на тестирование платформы и убедиться в преимуществах самостоятельно.
Регистрируйтесь по ссылке и запускайте AI продукты до 30% быстрее!
👨💻 Перечислите основнные методы уменьшения размерностей.
- Многомерное шкалирование (MDS)
- Метод главных компонент (PCA)
- Визуализация многомерных пространств
- Применение Автоэнкодеров
- Isomap
- CA, MCA
- LDA (Linear Discriminant Analysis), DCA (Discriminant - Correspondence Analysis)
- tSNE (t-Distributed Stochastic Neighbor Embedding)
и другие
➡️ Читать подробнее
@machinelearning_interview
Когда нам следует использовать SVM?
SVM означает машины опорных векторов; это контролируемый алгоритм машинного обучения, который может использоваться для решения проблем, связанных с классификацией и регрессией. В классификации он используется для различения нескольких групп или классов, а в регрессии он используется для получения математической модели, которая могла бы предсказывать вещи. Одним из очень больших преимуществ использования SVM является то, что его можно использовать как в линейных, так и в нелинейных задачах.
➡️ SVM. Подробный разбор метода опорных векторов
@machinelearning_interview
Начините погружение в Spark вместе c OTUS!
🚀 Присоединяйтесь 25 августа в 20:00 мск на бесплатный вебинар «Обработка графов в Spark».
📚На вебинаре с Вадимом Заигриным, дата-инженером в VMware мы узнаем, как работать с графами на Spark, рассмотрим основные графовые алгоритмы и их реализацию на Spark.
👉 Регистрация на вебинар: https://otus.pw/FQfi/
Вебинар является частью онлайн-курса «Spark Developer» от OTUS.
Назовите жизненные этапы разработки модели в проекте машинного обучения.
Ответ
Разработка модели машинного обучения проходит в следующие этапы:
1 Определить бизнес-задачу: понять бизнес-цели и преобразовать задачу ИТ-аналитики
Конструирование данных: определение необходимых источников данных, извлечение и агрегирование данных на необходимом уровне.
2 Исследовательский анализ: понимание данных, проверка переменных на наличие ошибок, выбросов и пропущенных значений. Определите взаимосвязь между различными типами переменных. Проверьте предположения.
3 Подготовка данных: исключения, преобразование типов, обработка выбросов, обработка пропущенных значений. Создайте новые гипотетически релевантные переменные, например max, min, sum, change, ratio. Группирование переменных, создание фиктивных переменных и т. Д.
4 Разработка функций: Избегайте мультиколлинеарности и оптимизируйте сложность модели за счет сокращения количества входных переменных – кластера переменных, корреляции, факторного анализа, RFE и т. Д.
5 Разделение данных: разделите данные на обучающую и тестовую выборки.
6 Построение модели: подгонка, проверка точности, перекрестная проверка и настройка модели с помощью параметров и гиперпараметров.
7 Тестирование модели: проверьте модель на тестовом образце, запустите диагностику и при необходимости повторите модель.
8 Реализация модели: Подготовьте окончательные результаты модели – представьте модель. Определите ограничения модели. Реализуйте модель (преобразование решения машинного обучения в рабочую среду).
9 Отслеживание производительности: периодически отслеживайте производительность модели и обновляйте ее по мере необходимости. В условиях развивающейся бизнес-среды производительность любой модели машинного обучения может со временем ухудшиться.
@machinelearning_interview
Случайная величина X распределена нормально со средним значением 1020 и стандартным отклонением 50. Вычислите P(X>1200).
Ответ
Используем Excel: p = 1-norm.dist(1200, 1020, 50, true). Получаем p=0.000159.
@machinelearning_interview
Рассмотрим эпидемию инфлюэнцы для гетеросексуальных семей с двумя родителями. Предположим, что вероятность заражения хотя бы одного родителя 17%. Вероятность заражения отца 12%, а заражения обоих родителей – 6%. Какова вероятность заражения матери?
Ответ
Используем общее правило сложения вероятностей:
P(мать или отец) = P(мать) + P(отец) – P(мать и отец)
P(мать) = P(мать или отец) + P(мать и отец) – P(отец) = 0.17 + 0.06 – 0.12 = 0.11
Правила сложения вероятностей
@machinelearning_interview
КОГДА ЛУЧШЕ ИСПОЛЬЗОВАТЬ TENSORFLOW [ИЛИ ДРУГУЮ БИБЛИОТЕКУ, ТЕХНОЛОГИЮ ИЛИ ПОДХОД]?
Когда дело доходит до машинного обучения (или даже собеседований по науке о данных для тех, кто хочет получить работу в C-Suite), ожидайте вопросов, которые проверят, насколько вы в курсе текущих технологий и тенденций. Сюда входят вопросы, связанные с библиотеками Python, такими как TensorFlow. Бабич, которому однажды пришлось нанять семь кандидатов наук в области науки о данных для трехмесячного проекта (то есть он провел более 100 собеседований), любит разбрасывать подобные вопросы между более математическими. «Мне очень нравятся вопросы о современных технологиях и подходах».
Итог: не бойтесь высказывать свое мнение, если вы можете его обосновать.
Краткое описание популярных мл библиотек
@machinelearning_interview
Количество убийств в Шотландии упало со 115 до 99. Является ли это изменение значимым?
Ответ
Эта задача аналогична предыдущей – зесь тоже используется распределение Пуассона. Доверительный интервал равен 115 +/- 21.45 = [93.55, 136.45]. Поскольку 99 находится в этом доверительном интервале, мы можем сделать вывод, что это изменение не является значимым.
@machinelearning_interview
Язык R - один из наиболее востребованных навыков в сфере Data Science
R способен заменить Excel, BI платформы и даже Python в области анализа данных и Data Science. Даже наиболее популярная библиотека для анализа данных на Python - pandas была создана под впечатлением от работы с табличными данными в R.
В канале R4marketing вы найдёте множество русскоязычных обучающих материалов по языку R, среди которых:
● Заметки по анализу данных на R
● Бесплатные книги
● Бесплатные курсы
● Статьи
● Видео уроки
✅Подписывайтесь!
Выборка 9 человек из интересующей нас популяции выявила средний объем мозга = 1100 куб.см. со стандартным отклоненим 30 куб.см. Каким будет 95% Т-доверительный интервал Стьюдента для среднего объема мозга в этой популяции?
Ответ
Используем формулу доверительного интервала для выборки (картинка)
Учитывая уровень доверительности 95% и количество степеней свободы, равное 8, t-оценка = 2.306.
Доверительный интервал = 1100 +/- 2.306*(30/3) = [1076.94, 1123.06].
38. Девять испытуемых получали диетические пилюли на протяжении 6 недель. Средняя потеря веса составила -2 кг. Каким должно быть стандартное отклонение потери веса, чтобы верхняя граница 95% Т-доверительного интервала была равна 0?
Верхняя граница = среднее + t-оценка * (стандартное отклонение / квадратный корень из размера выборки).
0 = -2 + 2.306*(s/3)
2 = 2.306 * s / 3
s = 2.601903
Таким образом, стандартное отклонение должно быть примерно 2.60, чтобы Т-доверительный интервал заканчивался в нуле.
现已上线!2025 年 Telegram 研究 — 年度关键洞察 
