Machine learning Interview

Kanalga Telegram’da o‘tish

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Ko'proq ko'rsatish

Tarmoq:Machinelearning Rossiya21 932 Texnologiyalar & Aralashmalar4 590...

📈 Telegram kanali Machine learning Interview analitikasi

Machine learning Interview (@machinelearning_interview) Rus til segmentidagi kanali faol ishtirokchi. Hozirda hamjamiyat 30 037 obunachidan iborat bo'lib, Texnologiyalar & Aralashmalar toifasida 4 590-o'rinni va Rossiya mintaqasida 21 932-o'rinni egallagan.

📊 Auditoriya ko‘rsatkichlari va dinamika

невідомо sanasidan buyon loyiha tez o‘sib, 30 037 obunachiga ega bo‘ldi.

15 Iyun, 2026 dagi oxirgi ma’lumotlarga ko‘ra kanal barqaror faollikka ega. Oxirgi 30 kunda obunachilar soni 21 ga, so‘nggi 24 soatda esa -2 ga o‘zgardi va umumiy qamrov yuqori darajada qolmoqda.

Tasdiqlash holati: Tasdiqlanmagan
Jalb etish (ER): Auditoriya o‘rtacha 20.95% darajada jalb etiladi. Nashrdan keyingi dastlabki 24 soatda kontent odatda umumiy obunachilar sonining 7.07% ini tashkil etuvchi reaksiyalarni to‘playdi.
Post qamrovi: Har bir post o‘rtacha 6 292 marta ko‘riladi; birinchi sutkada odatda 2 123 ta ko‘rish yig‘iladi.
Reaksiyalar va o‘zaro ta’sir: Auditoriya faol: har bir postga o‘rtacha 39 ta reaksiya keladi.
Tematik yo‘nalishlar: Kontent claude, llm, контекст, hermes, nvidia kabi asosiy mavzularga jamlangan.

📝 Tavsif va kontent siyosati

Muallif resursni shaxsiy fikrni ifoda etish maydoni sifatida ta’riflaydi:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Yuqori yangilanish chastotasi (oxirgi ma’lumot 16 Iyun, 2026 da olingan) sababli kanal doimo dolzarb va katta qamrovli bo‘lib qoladi. Analitika auditoriya kontent bilan faol hamkorlik qilishini, uni Texnologiyalar & Aralashmalar toifasidagi muhim ta’sir nuqtasiga aylantirishini ko‘rsatadi.

30 037

Obunachilar

-224 soatlar

-127 kunlar

+2130 kunlar

6 292

Post ko'rishlar

~ 2 12324 soatlar

~ 2 52148 soatlar

20.95%

Muloqot nisbati

~ 1

Kuniga postlar

Ads index

beta

Postlar arxiv

30 035

Задачи из интервью Google Data Science Вы собираетесь поехать в Лондон, и хотите знать, нужно ли брать с собой зонт или нет. Вы знаете, что вероятность дождя в Лондоне в определенный день составляет 25%. Вы звоните трем своим случайным друзьям и спрашиваете каждого из них, идет ли дождь. Вероятность того, что ваш друг скажет правду, составляет 2/3, а вероятность того, что он разыграет вас, составляет 1/3. Если все трое из них скажут, что идет дождь, то какова вероятность того, что на самом деле в Лондоне идет дождь? Решение Вы можете сказать, что этот вопрос связан с байесовской теорией из-за последнего утверждения, которое по существу соответствует структуре: «Какова вероятность того, что A истинно, если B истинно?». P(A) = вероятность дождя = 25% P(B) = вероятность того, что все 3 друга говорят, что идет дождь P(A|B) вероятность того, что идет дождь, если все друзья говорят, что идет дождь P(B|A) вероятность того, что все 3 друга говорят, что идет дождь, если идет дождь = (2/3)³ = 8/27 Шаг 1: Найдем P(B)

P(B) = P(B | A) * P(A) + P(B | не A) * P(не A)
P(B) = (2/3)³ * 0.25 + (1/3)³ * 0.75 = 0.25 * 8/27 + 0.75 * 1/27

Шаг 2: Теперь вычислим P(A|B)

P(A | 😎 = P(B | A) * P(A) / P(B),
P(A | 😎 = 0,25 * (8/27) / (0,25 * 8/27 + 0,75 * 1/27)
P(A | 😎 = 8 / (8 + 3) = 8/11

Поэтому, если все трое друзей говорят, что идет дождь, то есть шанс 8/11, что на самом деле идет дождь. @machinelearning_interview

30 035

📌 Тестовое задание Задача Требуется: предложить модель, сегментирующую окурок сигареты на фотографии. Вход: фотография 512x512x3. Выход: маска окурка сигареты 512x512. Метрика: Dice coefficient. Данные Ссылка на скачивание данных: link. Данные представляют из себя набор синтетически сгенерированных фотографий окурков сигарет и маски, определяющей их на фотографии, а также координаты ограничивающего их бокса. Доступные данные разделены на несколько папок: - real_test содержит фотографии 512x512x3; - train/images содержит фотографии 512x512x3; - train/coco_annotations.json содержит аннотации в формате COCO; - val/images содержит фотографии 512x512x3; - val/coco_annotations.json содержит аннотации в формате COCO. Результаты Для лучшей модели требуется создать 2 файла, которые необходимы для валидации Вашего решения: - сохраненные маски для картинок из valid в формате pred_valid_template.csv (в архиве с data) и залить его с тем же именем (см. notebooks/GettingStarted.ipynb); - html страницу с предсказанием модели для всех картинок из real_test и папку с используемыми картинками в этой html странице для её просмотра. Создать zip файл c html и изображениями и залить его в папку results. Также необходимо: - подготовить код (сам репозиторий) для проверки (докстринги, PEP8); - создать отчет (можно прямо в ноутбуке) с описанием Вашего исследования, предобработки, постобработки, проверямых гипотез, используемых моделей, описание лучшего подхода и т.п. (он должен лежать в папке notebooks); Рекомендуемый pipeline решения: Предполагается следующий pipeline решения поставленной задачи: - fork данного репозитория; - ознакомиться с критериями; - скачать данные; ознакомиться с notebooks/GettingStarted.ipynb; ознакомиться с данными, разобраться с их форматом; ознакомиться с базовой статьей; - провести анализ данных; - написать методы аугментации данных; - реализовать нейросеть/нейросети (необязательно с нуля); - провалидировать модели; - выбрать лучшую модель на val и посчитать для нее метрики; - получить результаты на реальных изображениях real_test и сохранить их; проанализировать результаты, сформулировать проблемы модели. Критерии При оценке решения этой задачи акцент будет делаться на (в порядке приоритета): 1. Качество исследования в jupyter notebook и чистота кода. В этот критерий входит читаемость и адекватность кода, содержательность комментариев, правильное оформление графиков (если таковые будут), отсутствие смысловых ошибок в коде. Наличие docstrings к написаным функциям приветствуется. Также будет оцениваться демонстрация предпринятых шагов и структурирование кода (разные по смыслу куски кода разделены по пакетам). 2. Анализ данных и подходы к аугментации. Оригинальность, эффективность и количество идей. Использование неочевидных шагов в решении, которые улучшают качество, будет хорошим плюсом. Наличие нескольких подходов также будет ценится выше, чем один подход. 3. Значение метрик на контрольной выборке и общая адекватность модели. 4. Обоснование выбора моделей (процесс выбора моделей). 5.Анализ результатов итоговой модели. @machinelearning_interview

30 035

❓Хотите перейти в BI-аналитику? Сделайте первые шаги на пути к новому этапу в карьере уже 30 января в 20:00! Приглашаем вас на открытый урок «Подготовка данных для дашборда в Pandas» в OTUS. Вебинар состоится в рамках онлайн-курса «BI-аналитика» для продуктовых и маркетинговых аналитиков, аналитиков данных, Product Owner’ов и Project Manager’ов, Data Scientist’ов, Data Engineer’ов и выпускников, которые хотят работать в области BI-аналитики. ✅На занятии вы узнаете про методы предобработки и “очистки” данных для дальнейшего построения дашбордов в Python Pandas. ➡️Какой результат мы получим? Преобразуем учебный набор данных, очистим его от пропусков и дубликатов, посмотрим различные способы трансформации (группировка, транспонирование строк/столбцов и т.д.). ➡️Пройдите вступительный тест, чтобы определить уровень своей подготовки и записаться на урок: https://otus.pw/3muN/

30 035

📌 Тестовое задание для кандидата Revo:Mokka. В файле revo_ds_test_task.csv собраны данные по повторным займам текущих клиентов компании. По имеющемуся набору данных, необходимо построить модель, которая будет прогнозировать значение целевой переменной 'bad_flag'. Подготовить небольшую презентацию (1-2 слайда), в которой аргументируется выбор модели и показан предполагаемый уровень дефолтности при различных уровнях одобрения. Расчеты желательно предоставить в виде python-скрипта / jupyter ipythone notebook. Решение @machinelearning_interview

30 035

📌 S7 Тестовое задание для кандидата DS. Кандидатам предоставлены данные о продажах в сети магазинов в одном городе за несколько лет. В магазинах периодически проводятся рекламные акции. Решение лучше присылать в виде jupyter notebook’а. Задача: ● Построить прогноз продаж за год, при условии известного графика рекламных акций ● Сделать анализ того, насколько реклама влияет на продажи в магазинах Данные: ● Данные для обучения: ○ sales_train.csv - индексы продаж по дням(все начинаются с 1). ○ advert_train.csv - рекламные акции в магазинах (обозначены 1 в соответствующую дату) Данные для проверки: ○ advert_test.csv - рекламные акции на тестовом периоде ○ deploy_example.csv - формат данных в котором нужно построить прогноз продаж Оформление результатов: ● Подготовить прогноз продаж в формате deploy_test.csv ● Прислать оформленный код в виде ipython ноутбука или R sweave документа ● Оформить исследование влияния рекламных акций в формате презентации (2-3 слайда максимум) @machinelearning_interview

30 035

Курс «Английский для аналитиков» от Яндекс Практикума Для специалистов, которые хотят изменить свою профессиональную жизнь и работать в международной команде. Обучение построено вокруг рабочих ситуаций и полезных для карьеры навыков: • Самопрезентация. Рассказ о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе. • Работа в команде. Стендапы, планирование спринтов, демонстрация навыков командной работы на собеседовании. • Общение с заказчиками и исполнителями. Сбор требований у стейкхолдеров и постановка задач для разработчиков. • Презентация результатов работы. Выступление на митапах, неформальное общение с коллегами из отрасли. • Обсуждение решений по проекту. Генерация и аргументация идей, участие в мозговых штурмах. • Рефлексия и самоанализ. Ретроспектива, ревью, ответы на сложные вопросы. Запишитесь на бесплатную консультацию. Определим ваш уровень языка, расскажем про обучение и ответим на все вопросы

30 035

20 вопросов (с ответами) от ChatGPT для выявления фейковых поддельных специалистов по данным. https://www.kdnuggets.com/2023/01/20-questions-detect-fake-data-scientists-chatgpt-1.html @machinelearning_interview

30 035

18.01 @machinelearning_interview 🔹Что такое Face Recognition и с помощью каких инструментов лучше подходить к задаче по распознаванию лиц? 💬Обсудим 23 января в 20:00 на открытом уроке онлайн-курса «Компьютерное зрение» в OTUS. На занятии мы разберем: - В чем заключается задача Face Recognition и из каких подзадач она состоит - Какие существуют основные подходы по решению задачи детекции лиц - С помощью каких алгоритмов решается задача распознавания лиц (EigenFaces, нейросетевые методы). - Как на практике решить задачу распознавания лиц с помощью метода EigenFaces. - Какие существуют датасеты, библиотеки и инструменты, необходимые для решения задачи распознавания лиц. 🔥Регистрируйтесь на мероприятие прямо сейчас и получите доступ к курсу по спец.цене! Записаться на урок

30 035

Repost from Центр непрерывного образования ФКН НИУ ВШЭ

Научиться программировать за 2 месяца? Это реально, если записаться на курс «Python для автоматизации и анализа данных». Занятия проходят в корпусе Высшей школы экономики в Москве на Покровском бульваре, 11. Ведется онлайн-трансляция и рассылаются записи каждого занятия. Курс организован Центром непрерывного образования ФКН НИУ ВШЭ. За 9 недель вы: ✅ Научитесь программировать, даже если раньше этого никогда не делали. Python — один из лучших вариантов для тех, кто начинает с нуля. ✅ Погрузитесь в сбор данных в Python: узнаете, как извлекать данные с веб-страниц и как пользоваться массивами открытых данных. ✅ Автоматизируете рутинные процессы — например, запись данных в таблицы. ✅Освоите основы анализа данных на Python. В Python это немного похоже на использование систем электронных таблиц, только во много раз мощнее. Преподаватель: Маргарита Бурова, старший преподаватель факультета компьютерных наук. Старт: 7 февраля 2023. Продолжительность: 2 месяца. Стоимость: 70 000 рублей. Регистрируйтесь по ссылке.

30 035

Какой из способов ансамблирования алгоритмов помогает уменьшить дисперсию?

Anonymous voting

30 035

✔️ Что такое смещение в датасетах? Приведите пример смещения. Смещение в датасетах (артефакты) – нежелательные взаимосвязи между входными и выходными данными, в частности, между признаками и метками, которые могут эксплуатироваться моделями машинного обучения в качестве опоры при предсказании. Часто они возникают там, где совсем не ожидаешь. Простой пример смещения можно представить следующим образом: нам нужно определить оскорбительные посты в социальной сети. Высока вероятность, что оскорбительные посты будут содержать нецензурные слова и модель будет опираться на них при принятии решения. Некоторые пользователи могут использовать нецензурные слова и в обычных, нейтральных постах. Те же нецензурные слова могут быть использованы и для выражения позитивных эмоций. В результате, модель, обученная на датасете, в котором мало других примеров: нейтральных или позитивных, будет считать пост оскорбительным, когда в нем есть нецензурные слова. Если тестирование модели провести на похожей тестовой выборке, где нецензурные слова представлены только в оскорбительных постах, то тест подтвердит высокое качество модели. При реальном использовании эта модель будет давать ложно положительные срабатывания. Из-за смещения складывается ложное чувство, что модель работает хорошо, но это происходит ровно до того, как она начинает использоваться в реальности. Можно посмотреть на эту проблему с другого ракурса. Всем бы хотелось иметь натренированную на определенном количестве данных модель, которую можно было бы использовать везде с высоким качеством работы. При составлении датасета все возможные случаи учесть невозможно, поэтому мы опираемся на способность моделей к генерализации – обобщению опыта, – чтобы делать предсказания на неизвестных данных. Области, ограниченные какой-то особенностью, называют доменами. Например, медицинским доменом назовут датасет, который содержит медицинские тексты. Использование модели внутри домена называется in-domain, а за его пределами – out-of-domain. Часто получается, что модели хорошо работают внутри домена, но плохо вне его. Это происходит из-за смещения модели в сторону домена, на котором она обучалась, относительно теоретического общего домена, который покрывал бы все возможные варианты. Пример: модель обучили на комментариях пользователей в социальных сетях, она не учитывает лингвистические особенности языка как глубокие признаки и опирается на словарь. Такая модель будет работать плохо для задачи по классификации научных статей. Минимизация смещения позволяет добиться качественной работы модели при ее обучении на конкретном датасете и, как следствие, лучшей ее генерализации. В теории сейчас нет строгой классификации факторов, влияющих на появление смещения. На мой взгляд, есть несколько причин появления смещения в данных: - Разметчики – при разметке люди могут руководствоваться внутренними шаблонами, пропуская важные отличительные детали в данных. Часто люди сами склонны формировать предвзятые, то есть смещенные, мнения [11]. - Отсутствие баланса – если в датасете примеров одного класса значительно больше, чем другого, то модель, скорее всего, выучится именно на мажорном классе, не принимая во внимание признаки минорного. - Нерепрезентативность – ситуация, когда в датасете слабо представлены разные случаи. Яркий пример, представленный выше, – с нецензурными словами. Это означает, что в датасете появляется перекос в сторону какого-то класса по определенному признаку. - Неправильный режим обучения – косвенный фактор, при котором смещение проявляется, когда модель недообучается. - Отсутствие негативного множества - частный случай нерепрезентативности, при котором в датасете слабо представлено то, чем классифицированное явление не является. @machinelearning_interview

30 035

💫 Что такое Q-обучение ? Как применяется в сфере оптимизации бизнес-процессов ? Q-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений. Q-Learning в сфере оптимизации бизнес-процессов @machinelearning_interview

30 035

Специальная серия Data Science в подкасте «Деньги любят техно» целиком посвящена темам, интересным и полезным датасайентисту. В свежем выпуске Дмитрий Берестнев, лидер стрима моделей и партнерств и платформы больших данных ВТБ, поговорил с Григорием Кабатянским, д. ф.-м.н., вице-президентом по академическому сотрудничеству Сколтеха, и Иваном Фурсовым, специалистом в области разговорного искусственного интеллекта. Собеседники обсудили ошибки и уязвимости ИИ: какие риски существуют сейчас и ожидают нас в будущем. Послушать подкаст можно на любой удобной для вас площадке. Реклама, Банк ВТБ (ПАО) https://www .vtb .ru/

30 035