Machine learning Interview

Открыть в Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Больше

Сеть:Machinelearning Россия21 932 Технологии и приложения4 590...

📈 Аналитический обзор Telegram-канала Machine learning Interview

Канал Machine learning Interview (@machinelearning_interview) языкового сегмента Русский является активным участником. Сейчас сообщество объединяет 30 037 подписчиков, занимая 4 590 место в категории Технологии и приложения и 21 932 место в регионе Россия.

📊 Показатели аудитории и динамика

С момента создания невідомо проект демонстрирует стремительный рост, собрав аудиторию из 30 037 подписчиков.

Согласно последним данным от 16 июня, 2026, канал показывает стабильную активность. За последние 30 дней изменение числа участников составило 26, а за последние 24 часа — 4, при этом общий охват остаётся высоким.

Статус верификации: Не верифицирован
Уровень вовлечённости (ER): Средний показатель вовлечённости аудитории составляет 20.72%. В первые 24 часа после публикации контент обычно набирает 7.24% реакций от общего числа подписчиков.
Охват публикаций: В среднем каждый пост получает 6 223 просмотров. В течение первых суток публикация набирает 2 175 просмотров.
Реакции и взаимодействия: Аудитория активно поддерживает контент: среднее количество реакций на один пост — 40.
Тематические интересы: Контент сосредоточен на ключевых темах, таких как claude, llm, контекст, hermes, nvidia.

📝 Описание и контентная политика

Автор описывает ресурс как площадку для выражения субъективного мнения:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Благодаря высокой частоте обновлений (последние данные получены 17 июня, 2026) канал поддерживает актуальность и высокий уровень охвата публикаций. Аналитика показывает, что аудитория активно взаимодействует с контентом, что делает его важной точкой влияния в категории Технологии и приложения.

30 037

Подписчики

+424 часа

-17 дней

+2630 день

6 223

Просмотры поста

~ 2 17524 часа

~ 2 75748 часов

20.72%

Коэффициент вовлеченности

~ 1

Постов в день

Ads index

beta

Архив постов

30 037

Как бы вы справились с разными формами сезонности Ответ В реальных данных временных рядов (например, количества плюшевых мишек, закупаемых на фабрике игрушек) часто встречаются различные виды сезонности, которые могут пересекаться друг с другом. Годичная сезонность, вроде пика перед Рождеством и летнего спада, может сочетаться с месячной, недельной или даже дневной сезонностью. Это делает временной ряд нестационарным, поскольку среднее значение переменной различно для разных периодов времени. Лучший способ удаления сезонности из данных – это дифференцирование временного ряда. Это процесс получения разности между датой x и x минус период сезонности, которым может быть год, месяц, или что-нибудь другое. При этом первый период сырых данных теряется, поскольку из них нечего вычитать. @machinelearning_interview

30 037

https://t.me/machinelearning_interview Профессия «Data Scientist» от ProductStar — самое время качать навыки, когда конкуренция на рынке растёт в геометрической прогрессии. Традиционно в каждом из курсов: практика после каждого из занятий, лекции от топовых спикеров, трудоустройство и помощь на испытательном сроке + недавно ребята добавили помощь с трудоустройством в зарубежные компании, а также часть компаний-работодателей теперь возвращают студентам ProductStar после трудоустройства от 50 до 100% стоимости курса. Хочешь затестить - возьми пробный урок. Сейчас на курс действует скидка 21% и дополнительный промокод DATA (скажите при общении с менеджером после заявки) для наших подписчиков на скидку 20 000 руб. Промокод действует до конца месяца. Бонус — для тех кто оставит заявку на курс на этой неделе, получают курс "Менеджмент AI- и BigData-продуктов" в подарок. Регистрация: https://go.productstar.ru/46omqK

30 037

Объясните дилемму смещения-дисперсии (bias-variance tradeoff) и приведите примеры алгоритмов с высоким и низким смещением. (Тема: Алгоритмы) Ответ Смещение (bias) – это ошибка, внесенная в вашу модель из-за чрезмерного упрощения алгоритма машинного обучения, которое может привести к недообучению. В процессе обучения модели делаются упрощенные предположения, чтобы сделать целевую функцию более простой для понимания. Алгоритмы машинного обучения с низким смещением включают деревья решений, KNN и SVM. Высоким смещением, в частности, отличаются линейная и логистическая регрессия. Дисперсия (variance) – это ошибка, внесенная в вашу модель сложным алгоритмом машинного обучения, при котором модель усваивает также и шум из тренировочного набора данных, что приводит к плохой точности на тестовом наборе данных. Это может привести к высокой чувствительности и переобучению. Обычно, по мере усложения модели вы увидите снижение ошибки вследствие уменьшения смещения модели. Однако, это происходит только до определенной точки – и если вы будете усложнять свою модель дальше, в конце концов вы ее переобучите. @machinelearning_interview

30 037

Вопрос с собеседования на позицию “Computer Vision Engineer” Спрашивает один из авторов канала DeepSchool, Миша Лиз: «На собеседованиях люблю задавать такой вопрос: Перед вами стояла задача сегментировать всех котов на картинках. Т.е. получать маску кот/не кот. Вы получили разметку для 1000 картинок. Но вдруг к вам приходит заказчик и просит, чтобы помимо маски котов можно было получать маску всех животных (суровый Agile может работать не только в удобных вам ситуациях 😉). У заказчика скоро презентация продукта, т.е. есть жесткий дедлайн, который нельзя сорвать. Вы понимаете, что до дедлайна успеете получить разметку только для 500 изображений, на которых помимо котов есть маска со всеми животными. Что будете делать?» Сравните свой ответ с вариантом Миши в канале DeepSchool. Если вам интересны подобные задачки, советы по обучению нейросетей, разборы статей, краткие посты с теорией и другие полезные публикации, то подписывайтесь на наш канал — давайте развиваться в ML и DL вместе!

30 037

Зачем нужна разметка данных для нейросети? Ответ Качество проекта машинного обучения напрямую зависит от того, как вы подходите к решению 3-х основных задач: сбор данных, их предобработка и разметка. Разметка обычно представляет собой сложный и трудоемкий процесс. Например, системы распознавания изображений часто предполагают рисование ограничивающих рамок вокруг объектов, в то время как системы рекомендаций по продуктам и системы анализа настроений могут потребовать знания культурного контекста. Не забывайте также, что массив данных может содержать десятки и более тысяч образцов, нуждающихся в разметке. =========================== Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, масштаба проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели аргументы за и против каждого из них. Различные способы разметки данных для машинного обучения делятся на следующие категории: =========================== Аутсорсинг: это хороший способ в тех случаях, когда команда на разметку данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих социальных сетях, вы сможете сформировать базу потенциальных исполнителей. Далее в ходе собеседования и тестирования будут определены те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но это требует четкого планирования и организации; новые сотрудники должны быть обучены, чтобы участвовать и выполнять работу по мере необходимости. Кроме того, если у вас еще нет инструмента разметки данных, вам необходимо его приобрести. ============================ Краудсорсинг: краудсорсинговые платформы — это способ решения конкретной задачи с помощью большого количества исполнителей. Так как в краудсорсинге участвуют исполнители из самых разных стран и можно фильтровать по уровню, получается быстрый и достаточно бюджетный метод. При этом краудсорсинговые платформы сильно различаются по квалификации исполнителей, контролю качества и инструментам управления проектами. Поэтому при выборе краудсорсинговой площадки нужно учитывать все эти параметры. ============================= Синтетический метод: синтетическая разметка означает создание или генерацию новых данных, содержащих атрибуты, необходимые для вашего конкретного проекта. Одним из способов создания синтетической разметки является использование генеративно-состязательной сети (GAN). GAN использует две нейронные сети (генератор и дискриминатор), которые конкурируют друг с другом, создавая ложные данные и различая настоящие данные от ложных. В результате получаются очень реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать совершенно новые данные из существующих массивов. Этот метод очень экономичен по времени и отлично подходит для получения высококачественных данных. Однако в настоящее время синтетические методы разбиения требуют больших вычислительных мощностей, что делает их очень дорогими. =============================== «Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, в том числе разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. Кроме того, компьютерная программа не будет делать перерывов на отдых, а значит, вы сможете получить результаты гораздо быстрее. Однако этот метод все еще далек от совершенства, а при программной разметке часто требуется группа контроля качества, которая попутно следит за правильностью разметки данных. @machinelearning_interview

30 037

Сколько нужно ждать, чтобы получить действительно стоящий оффер? Ждать не придётся — всё происходит за один день: интервью, этап отбора, предложение о работе. Если это One Day Offer от Сбера🏃 Команда по работе с данными Сбера в поиске Data Scientists. Заявите о себе на фаст-интервью и получите работу в крупнейшем банке страны, если вы: • Data Scientist, Data Analyst или Data Engineer c опытом работы от 1 года (рассмотрят все кандидатуры — от уровня Junior до руководителей подразделений); • готовы к решению масштабных задач на основе данных, аналитики, машинного обучения и искусственного интеллекта. Чем предстоит заниматься? Создавать информационные продукты для принятия решений во всех подразделениях Сбера. Когда: 22 октября. Где: онлайн. Узнайте больше и заполните заявку ✅

30 037

Какими способами можно сделать модель более устойчивой к выбросам? Ответ Выбросы обычно определяются по отношению к распределению. Они могут быть удалены на этапе предварительной обработки (до любого этапа обучения)… Странно задавать вопрос именно в такой форме, чтобы услышать именно такой ответ! Как СДЕЛАТЬ МОДЕЛЬ устойчивой — надо до её использования повозиться с данными. Если бы вопрос был «как решить проблему выбросов», то ответ был бы корректным, причём я бы его разнёс по пунктам: - удаление выбросов на этапе подготовки данных (в том числе, нахождение аномальных значений, винзоризация, стат. критерии, преобразование признаков и т.п.), - применение т.н. робастных моделей (например, линейных с настройкой не на сумму квадратов ошибки, а на сумму модулей), - удаление выбросов и переобучение моделей (например, удаляя объекты, на которых модель ошибается сильнее). А вообще, я бы попросил уточнить вопрос: хотелось бы немного знать природу выбросов, чтобы выбрать правильную стратегию решения. @machinelearning_interview

30 037

Вы баллотируетесь на пост, и ваш социолог опросил 100 избирателей, 60 из которых сказали, что собираются голосовать за вас. Можете ли вы быть уверены в победе? Ответ Примем для простоты, что у вас только один соперник. Также примем, что желаемый доверительный интервал составляет 95%. Это даст нам z-оценку 1.96. Формула на картинке. В нашей задаче p = 0.6, z = 1.96, n = 100, что дает доверительный интервал [50.4, 69.6]. Таким образом, при доверительном интервале 95% вы можете расслабиться, только если ничего не имеете против победы с минимальным перевесом. В противном случае придется добиться 61 голоса из 100 опрошенных, чтобы не беспокоиться. @machinelearning_interview

30 037

machinelearning_interview ❓Хотите с пользой для проекта использовать технологии компьютерного зрения? 13 октября в 20:00 мск Антон Витвицкий, директор CV в компании Arria NLG, проведет открытый урок «Компьютерное зрение в спортивной видеоаналитике» в OTUS. 📚За 1,5 часа вместе с экспертом мы: - Рассмотрим типовые задачи, которые ставит бизнес в сфере спортивной видеоаналитики - Узнаем об основных подходах и моделях для решения подобных задач - Поговорим о трекинге и идентификации игроков, оценке геометрии игровой площадки, распознавании игровых событий и активности игроков на основе видео. 💬 Занятие пройдет в рамках онлайн-курса «Компьютерное зрение» и рассчитано на специалистов, которые уже знакомы с базовыми принципами нейросетей. Для регистрации пройдите вступительный тест.

30 037

Дайте простой пример того, как постановка экспериментов может помочь ответить на вопрос о поведении. Как экспериментальные данные контрастируют с данными наблюдений? Ответ Данные наблюдений получаются от исследования наблюдений, когда мы наблюдаем значения нескольких переменных и определяем, есть ли между ними корреляция. Экспериментальные данные получаются от исследования экспериментов, когда мы контролируем некоторые переменные и сохраняем их значения неизменными, определяя их влияние на результат. Вот пример постановки эксперимента: разбейте группу на две части. Контрольная группа живет, как обычно. Тестовую группу просят выпивать по бокалу вина каждый вечер на протяжении 30 дней. После этого можно исследовать, как вино влияет на сон. @machinelearning_interview

30 037

Data Study - канал с полезными и практическими материалами про аналитику данных, бизнес-анализ и развитие soft-навыков от ведущего BI аналитика. На канале Даниил также организовывает бесплатные вокршопы по обсуждению аналитических тем. Воркшоп по теме создания data-продуктов в компания Статья на habr про оконные функции простым языком Шаблон оформления документации про профайлинге нового data-источника Материалы канала помогут улучшить профессиональные навыки в аналитике. 🎁 Большой бонус: бесплатный гайд по профессии аналитика данных, чтобы еще лучше погрузиться в специализацию аналитика Подписаться 👨‍💻

30 037

Как вы обрабатываете пропуски? Какие методы подстановки вы рекомендуете? Существует несколько способов обработки пропущенных данных: - удаление строк с пропущенными данными; - подстановка среднего значения, медианы или моды; - присваивание уникального значения; - предсказание пропущенных значений; - использование алгоритма, допускающего пропуски – например, случайный лес. Лучший метод – удалить строки с пропусками, поскольку это гарантирует, что мы не добавим никаких ошибок или сдвигов, и, в конечном счете, получим точную и надежную модель. Однако, этот метод можно использовать лишь в тех случаях, когда данных много, а процент пропусков невысок. @machinelearning_interview

30 037

Решение задач из области компьютерного зрения — одно из самых популярных направлений ML-разработки. А платформа ML Space — отличный инструмент для работы дата-инженеров и дата-сайентистов. Однако для хорошей работы модели нужны качественно размеченные данные. Поэтому команда Cloud запускает бесплатный вебинар, чтобы вы узнали: ✅ как собрать и качественно разметить большие объемы данных для задач компьютерного зрения на примере датасета жестов HaGRID, который размещен в DataHub ML Space и доступен в пару кликов для обучения модели. ✅ спикеры поделятся лайфхаками по работе с краудсорсинговыми платформами и пайплайном обучения классификаторов. ✅ как можно применять датасет HaGRID: от лайков к онлайн-выступлению до управления автомобилем. Вебинар будет полезен: дата-инженерам, дата-сайентистам и всем, кто неравнодушен к машинному обучению. Регистрируйтесь на вебинар на нашем сайте

30 037