Machine learning Interview

Відкрити в Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Сітка:Machinelearning Росія21 899 Технології та додатки4 565...

📈 Аналітичний огляд Telegram-каналу Machine learning Interview

Канал Machine learning Interview (@machinelearning_interview) у мовному сегменті Російська є активним учасником. На даний момент спільнота об'єднує 30 053 підписників, посідаючи 4 565 місце в категорії Технології та додатки та 21 899 місце у регіоні Росія.

📊 Показники аудиторії та динаміка

З моменту свого створення невідомо, проект продемонстрував стрімке зростання, зібравши аудиторію у 30 053 підписників.

За останніми даними від 18 червня, 2026, канал демонструє стабільну активність. Хоча за останні 30 днів спостерігається зміна кількості учасників на 49, а за останні 24 години на 0, загальне охоплення залишається високим.

Статус верифікації: Не верифікований
Рівень залученості (ER): Середній показник залученості аудиторії становить 18.61%. Протягом перших 24 годин після публікації контент зазвичай збирає 7.27% реакцій від загальної кількості підписників.
Охоплення публікацій: В середньому кожен допис отримує 5 592 переглядів. Протягом першої доби публікація в середньому набирає 2 185 переглядів.
Реакції та взаємодія: Аудиторія активно підтримує контент: середня кількість реакцій на один пост – 39.
Тематичні інтереси: Контент зосереджений навколо ключових тем, таких як claude, llm, контекст, hermes, nvidia.

📝 Опис та контентна політика

Автор описує ресурс як майданчик для висловлення суб'єктивної думки:
“ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz”

Завдяки високій частоті оновлень (останні дані отримано 19 червня, 2026), канал підтримує актуальність та високий рівень охоплення публікацій. Аналітика показує, що аудиторія активно взаємодіє з контентом, що робить його важливою точкою впливу в категорії Технології та додатки.

30 053

Підписники

Немає даних24 години

+127 днів

+4930 день

5 592

Перегляди допису

~ 2 18524 години

~ 2 70248 годин

18.61%

Коефіцієнт залучення

~ 1

Дописів на день

Ads index

beta

Архів дописів

30 053

Кто такой T-shaped специалист по Data Science и зачем им становиться? T-shaped специалист — это сотрудник cо скиллами в виде буквы Т»: ◾️ c глубокими знаниями в экспертном направлении (|); ◾️ c базовыми знаниями в нескольких смежных областях (—). Универсальному специалисту проще работать. Он разбирается в процессах разных департаментов, говорит с коллегами на одном языке и может перейти на смежную должность. Таких экспертов хантят с большим рвением: они глубже погружены в работу и могут подхватить задачи другого сотрудника. Первый шаг, чтобы стать T-shaped в DS — научиться работать с данными на ранних этапах. На практике это означает: — собирать сырые данные, — проектировать архитектуру баз данных, — строить пайплайны для перемещения, — очищать данные для анализа и так далее. Всё это — харды инженера данных, которые можно освоить на курсе Яндекс Практикума. Начините растить поперечную перекладину: попробуйте спроектировать первую витрину данных бесплатно.

30 053

Всегда ли методы градиентного спуска сходятся в одной и той же точке? Ответ Нет, методы градиентного спуска не всегда сходятся в одной и той же точке. Поскольку пространство ошибок может иметь несколько локальных минимумов, различные методы градиентного спуска могут сходиться в разных точках, в зависимости от их характеристик вроде момента или веса. Здесь и в посте показаны GIF'ы разных оптимизаторов (методов градиентного спуска) с демонстрацией их работы в пространстве ошибок. @machinelearning_interview

30 053

Стартует одно из самых крупных в стране соревнований по решению задач в области машинного обучения и AI — AI Journey Contest 2022. Призовой фонд составляет 5.500.000 рублей 💰Победители получат крупные денежные призы. В этом году соревнование проходит при поддержке Института искусственного интеллекта AIRI. Познакомиться с DS Works, соревновательной платформой Cloud (самый быстрорастущий провайдер России и владелец двух суперкомпьютеров), можно будет на вебинаре 18 октября. Вы узнаете: ✅ Как получить доступ к ресурсам суперкомпьютера для обучения модели (46 место в топе самых мощных суперкомпьютеров мира); ✅ Как зарегистрироваться в DS Works и что обязательно стоит указать в своем профиле; ✅ Как принять участие в соревновании и загрузить свое решение; ✅ По каким критериям оцениваются решения (опыт предыдущих соревнований); ✅ Как выглядят публичная и приватная турнирные таблицы. Бесплатный вебинар будет полезен всем, кто знаком с AI/ML и хочет попробовать свои силы в борьбе за призы. Регистрируйтесь тут

30 053

Как бы вы справились с разными формами сезонности Ответ В реальных данных временных рядов (например, количества плюшевых мишек, закупаемых на фабрике игрушек) часто встречаются различные виды сезонности, которые могут пересекаться друг с другом. Годичная сезонность, вроде пика перед Рождеством и летнего спада, может сочетаться с месячной, недельной или даже дневной сезонностью. Это делает временной ряд нестационарным, поскольку среднее значение переменной различно для разных периодов времени. Лучший способ удаления сезонности из данных – это дифференцирование временного ряда. Это процесс получения разности между датой x и x минус период сезонности, которым может быть год, месяц, или что-нибудь другое. При этом первый период сырых данных теряется, поскольку из них нечего вычитать. @machinelearning_interview

30 053

https://t.me/machinelearning_interview Профессия «Data Scientist» от ProductStar — самое время качать навыки, когда конкуренция на рынке растёт в геометрической прогрессии. Традиционно в каждом из курсов: практика после каждого из занятий, лекции от топовых спикеров, трудоустройство и помощь на испытательном сроке + недавно ребята добавили помощь с трудоустройством в зарубежные компании, а также часть компаний-работодателей теперь возвращают студентам ProductStar после трудоустройства от 50 до 100% стоимости курса. Хочешь затестить - возьми пробный урок. Сейчас на курс действует скидка 21% и дополнительный промокод DATA (скажите при общении с менеджером после заявки) для наших подписчиков на скидку 20 000 руб. Промокод действует до конца месяца. Бонус — для тех кто оставит заявку на курс на этой неделе, получают курс "Менеджмент AI- и BigData-продуктов" в подарок. Регистрация: https://go.productstar.ru/46omqK

30 053

Объясните дилемму смещения-дисперсии (bias-variance tradeoff) и приведите примеры алгоритмов с высоким и низким смещением. (Тема: Алгоритмы) Ответ Смещение (bias) – это ошибка, внесенная в вашу модель из-за чрезмерного упрощения алгоритма машинного обучения, которое может привести к недообучению. В процессе обучения модели делаются упрощенные предположения, чтобы сделать целевую функцию более простой для понимания. Алгоритмы машинного обучения с низким смещением включают деревья решений, KNN и SVM. Высоким смещением, в частности, отличаются линейная и логистическая регрессия. Дисперсия (variance) – это ошибка, внесенная в вашу модель сложным алгоритмом машинного обучения, при котором модель усваивает также и шум из тренировочного набора данных, что приводит к плохой точности на тестовом наборе данных. Это может привести к высокой чувствительности и переобучению. Обычно, по мере усложения модели вы увидите снижение ошибки вследствие уменьшения смещения модели. Однако, это происходит только до определенной точки – и если вы будете усложнять свою модель дальше, в конце концов вы ее переобучите. @machinelearning_interview

30 053

Вопрос с собеседования на позицию “Computer Vision Engineer” Спрашивает один из авторов канала DeepSchool, Миша Лиз: «На собеседованиях люблю задавать такой вопрос: Перед вами стояла задача сегментировать всех котов на картинках. Т.е. получать маску кот/не кот. Вы получили разметку для 1000 картинок. Но вдруг к вам приходит заказчик и просит, чтобы помимо маски котов можно было получать маску всех животных (суровый Agile может работать не только в удобных вам ситуациях 😉). У заказчика скоро презентация продукта, т.е. есть жесткий дедлайн, который нельзя сорвать. Вы понимаете, что до дедлайна успеете получить разметку только для 500 изображений, на которых помимо котов есть маска со всеми животными. Что будете делать?» Сравните свой ответ с вариантом Миши в канале DeepSchool. Если вам интересны подобные задачки, советы по обучению нейросетей, разборы статей, краткие посты с теорией и другие полезные публикации, то подписывайтесь на наш канал — давайте развиваться в ML и DL вместе!

30 053

Зачем нужна разметка данных для нейросети? Ответ Качество проекта машинного обучения напрямую зависит от того, как вы подходите к решению 3-х основных задач: сбор данных, их предобработка и разметка. Разметка обычно представляет собой сложный и трудоемкий процесс. Например, системы распознавания изображений часто предполагают рисование ограничивающих рамок вокруг объектов, в то время как системы рекомендаций по продуктам и системы анализа настроений могут потребовать знания культурного контекста. Не забывайте также, что массив данных может содержать десятки и более тысяч образцов, нуждающихся в разметке. =========================== Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, масштаба проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели аргументы за и против каждого из них. Различные способы разметки данных для машинного обучения делятся на следующие категории: =========================== Аутсорсинг: это хороший способ в тех случаях, когда команда на разметку данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих социальных сетях, вы сможете сформировать базу потенциальных исполнителей. Далее в ходе собеседования и тестирования будут определены те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но это требует четкого планирования и организации; новые сотрудники должны быть обучены, чтобы участвовать и выполнять работу по мере необходимости. Кроме того, если у вас еще нет инструмента разметки данных, вам необходимо его приобрести. ============================ Краудсорсинг: краудсорсинговые платформы — это способ решения конкретной задачи с помощью большого количества исполнителей. Так как в краудсорсинге участвуют исполнители из самых разных стран и можно фильтровать по уровню, получается быстрый и достаточно бюджетный метод. При этом краудсорсинговые платформы сильно различаются по квалификации исполнителей, контролю качества и инструментам управления проектами. Поэтому при выборе краудсорсинговой площадки нужно учитывать все эти параметры. ============================= Синтетический метод: синтетическая разметка означает создание или генерацию новых данных, содержащих атрибуты, необходимые для вашего конкретного проекта. Одним из способов создания синтетической разметки является использование генеративно-состязательной сети (GAN). GAN использует две нейронные сети (генератор и дискриминатор), которые конкурируют друг с другом, создавая ложные данные и различая настоящие данные от ложных. В результате получаются очень реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать совершенно новые данные из существующих массивов. Этот метод очень экономичен по времени и отлично подходит для получения высококачественных данных. Однако в настоящее время синтетические методы разбиения требуют больших вычислительных мощностей, что делает их очень дорогими. =============================== «Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, в том числе разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. Кроме того, компьютерная программа не будет делать перерывов на отдых, а значит, вы сможете получить результаты гораздо быстрее. Однако этот метод все еще далек от совершенства, а при программной разметке часто требуется группа контроля качества, которая попутно следит за правильностью разметки данных. @machinelearning_interview

30 053

Сколько нужно ждать, чтобы получить действительно стоящий оффер? Ждать не придётся — всё происходит за один день: интервью, этап отбора, предложение о работе. Если это One Day Offer от Сбера🏃 Команда по работе с данными Сбера в поиске Data Scientists. Заявите о себе на фаст-интервью и получите работу в крупнейшем банке страны, если вы: • Data Scientist, Data Analyst или Data Engineer c опытом работы от 1 года (рассмотрят все кандидатуры — от уровня Junior до руководителей подразделений); • готовы к решению масштабных задач на основе данных, аналитики, машинного обучения и искусственного интеллекта. Чем предстоит заниматься? Создавать информационные продукты для принятия решений во всех подразделениях Сбера. Когда: 22 октября. Где: онлайн. Узнайте больше и заполните заявку ✅

30 053

Какими способами можно сделать модель более устойчивой к выбросам? Ответ Выбросы обычно определяются по отношению к распределению. Они могут быть удалены на этапе предварительной обработки (до любого этапа обучения)… Странно задавать вопрос именно в такой форме, чтобы услышать именно такой ответ! Как СДЕЛАТЬ МОДЕЛЬ устойчивой — надо до её использования повозиться с данными. Если бы вопрос был «как решить проблему выбросов», то ответ был бы корректным, причём я бы его разнёс по пунктам: - удаление выбросов на этапе подготовки данных (в том числе, нахождение аномальных значений, винзоризация, стат. критерии, преобразование признаков и т.п.), - применение т.н. робастных моделей (например, линейных с настройкой не на сумму квадратов ошибки, а на сумму модулей), - удаление выбросов и переобучение моделей (например, удаляя объекты, на которых модель ошибается сильнее). А вообще, я бы попросил уточнить вопрос: хотелось бы немного знать природу выбросов, чтобы выбрать правильную стратегию решения. @machinelearning_interview

30 053

Вы баллотируетесь на пост, и ваш социолог опросил 100 избирателей, 60 из которых сказали, что собираются голосовать за вас. Можете ли вы быть уверены в победе? Ответ Примем для простоты, что у вас только один соперник. Также примем, что желаемый доверительный интервал составляет 95%. Это даст нам z-оценку 1.96. Формула на картинке. В нашей задаче p = 0.6, z = 1.96, n = 100, что дает доверительный интервал [50.4, 69.6]. Таким образом, при доверительном интервале 95% вы можете расслабиться, только если ничего не имеете против победы с минимальным перевесом. В противном случае придется добиться 61 голоса из 100 опрошенных, чтобы не беспокоиться. @machinelearning_interview

30 053

machinelearning_interview ❓Хотите с пользой для проекта использовать технологии компьютерного зрения? 13 октября в 20:00 мск Антон Витвицкий, директор CV в компании Arria NLG, проведет открытый урок «Компьютерное зрение в спортивной видеоаналитике» в OTUS. 📚За 1,5 часа вместе с экспертом мы: - Рассмотрим типовые задачи, которые ставит бизнес в сфере спортивной видеоаналитики - Узнаем об основных подходах и моделях для решения подобных задач - Поговорим о трекинге и идентификации игроков, оценке геометрии игровой площадки, распознавании игровых событий и активности игроков на основе видео. 💬 Занятие пройдет в рамках онлайн-курса «Компьютерное зрение» и рассчитано на специалистов, которые уже знакомы с базовыми принципами нейросетей. Для регистрации пройдите вступительный тест.

30 053

Дайте простой пример того, как постановка экспериментов может помочь ответить на вопрос о поведении. Как экспериментальные данные контрастируют с данными наблюдений? Ответ Данные наблюдений получаются от исследования наблюдений, когда мы наблюдаем значения нескольких переменных и определяем, есть ли между ними корреляция. Экспериментальные данные получаются от исследования экспериментов, когда мы контролируем некоторые переменные и сохраняем их значения неизменными, определяя их влияние на результат. Вот пример постановки эксперимента: разбейте группу на две части. Контрольная группа живет, как обычно. Тестовую группу просят выпивать по бокалу вина каждый вечер на протяжении 30 дней. После этого можно исследовать, как вино влияет на сон. @machinelearning_interview

30 053

Data Study - канал с полезными и практическими материалами про аналитику данных, бизнес-анализ и развитие soft-навыков от ведущего BI аналитика. На канале Даниил также организовывает бесплатные вокршопы по обсуждению аналитических тем. Воркшоп по теме создания data-продуктов в компания Статья на habr про оконные функции простым языком Шаблон оформления документации про профайлинге нового data-источника Материалы канала помогут улучшить профессиональные навыки в аналитике. 🎁 Большой бонус: бесплатный гайд по профессии аналитика данных, чтобы еще лучше погрузиться в специализацию аналитика Подписаться 👨‍💻

30 053

Как вы обрабатываете пропуски? Какие методы подстановки вы рекомендуете? Существует несколько способов обработки пропущенных данных: - удаление строк с пропущенными данными; - подстановка среднего значения, медианы или моды; - присваивание уникального значения; - предсказание пропущенных значений; - использование алгоритма, допускающего пропуски – например, случайный лес. Лучший метод – удалить строки с пропусками, поскольку это гарантирует, что мы не добавим никаких ошибок или сдвигов, и, в конечном счете, получим точную и надежную модель. Однако, этот метод можно использовать лишь в тех случаях, когда данных много, а процент пропусков невысок. @machinelearning_interview