en
Feedback
Machine learning Interview

Machine learning Interview

Open in Telegram

ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Show more

📈 Analytical overview of Telegram channel Machine learning Interview

Channel Machine learning Interview (@machinelearning_interview) in the Russian language segment is an active participant. Currently, the community unites 30 032 subscribers, ranking 4 585 in the Technologies & Applications category and 21 928 in the Russia region.

📊 Audience metrics and dynamics

Since its creation on невідомо, the project has demonstrated rapid growth, gathering an audience of 30 032 subscribers.

According to the latest data from 14 June, 2026, the channel demonstrates stable activity. Although there has been a change in the number of participants by 41 over the last 30 days and by -8 over the last 24 hours, overall reach remains high.

  • Verification status: Not verified
  • Engagement rate (ER): The average audience engagement rate is 20.73%. Within the first 24 hours after publication, content typically collects 7.14% reactions from the total number of subscribers.
  • Post reach: On average, each post receives 6 226 views. Within the first day, a publication typically gains 2 143 views.
  • Reactions and interaction: The audience actively supports content: the average number of reactions per post is 39.
  • Thematic interests: Content is focused on key topics such as claude, llm, контекст, hermes, nvidia.

📝 Description and content policy

The author describes the resource as a platform for expressing subjective opinions:
ИИ, Rust, вайбкодинг, Data Science, Deep Learning и делюсь тем, что интересно и полезно! Вопросы - @workakkk РКН: clck.ru/3FmwRz

Thanks to the high frequency of updates (latest data received on 16 June, 2026), the channel maintains relevance and a high level of publication reach. Analytics show that the audience actively interacts with content, making it an important point of influence in the Technologies & Applications category.

30 032
Subscribers
-824 hours
-97 days
+4130 days
Posts Archive
Присоединяйтесь к нашему сообществу Data Analyst REBRAIN и расширьте свои знания в области аналитики данных, управления проек
Присоединяйтесь к нашему сообществу Data Analyst REBRAIN и расширьте свои знания в области аналитики данных, управления проектами и маркетинга. Мы предлагаем множество открытых онлайн-практикумов каждый месяц, которые проводят опытные профессионалы в области анализа данных. В рамках практикумов мы рассматриваем реальные кейсы анализа данных, используя самые современные инструменты, такие как Python, SQL, Tableau, бизнес-метрики, визуализация данных, статистика, теория вероятностей и многое другое. Каждый практикум подобран с учетом разного уровня сложности и направления, чтобы каждый участник мог выбрать интересующие задачи и развиваться в соответствии с собственными навыками и опытом. ✔️ Присоединяйтесь уже сегодня и начните бесплатно развивать свои навыки в области анализа данных вместе с нами!

📌 Почему длина контекста так важна при работе с большими языковыми моделями? Как обходить ограничения длины контекста? Длина контекста – один из важнейших лимитирующих факторов при работе с большими языковыми моделями. Увеличить контекст до 100K – это уже невероятное достижение, ставшее реальностью (занятно, как этот тезис будет восприниматься через год). Вот как выглядит один из важных практических случаев, в которых желательно применять большие языковые модели: «забросить в LLM целую кучу пользовательских данных (документов, касающихся работы компании либо конкретной задачи; также это могут быть различные разнородные тексты, т.д.) и задавать вопросы по этим конкретным данным, а не по какой-нибудь взятой из Интернета отвлечённой информации, которую LLM видела на этапе обучения. В настоящее время обходить это ограничение пробуют по-разному, а именно: ▪При помощи приёмов резюмирования и изощрённых сцепленных затравок ▪Ведя векторные базы данных, в которых хранятся векторы для пользовательских документов с последующим «поиском» по этому корпусу в соответствии с некоторой метрикой схожести ▪Когда это возможно – тонко настраивать LLM на данных, предоставляемых пользователем (такая возможность предоставляется не во всех коммерческих LLM, а для опенсорсных LLM это не самая тривиальная задача) ▪Разработка специализированных сравнительно небольших LLM для конкретных данных, которые нас интересуют (опять же, не самая тривиальная задача) При наличии длинного контекстного окна уже имеющаяся в вашем распоряжении большая языковая модель (видевшая целый Интернет) может изучить имеющийся у вас контекст и данные, а затем взаимодействовать с вами на совершенно ином уровне, предполагающем более высокую персонализацию. Всё это – без изменения весов модели, когда всё «обучение» производится на лету, «в памяти». В целом, чем больше контекстное окно, тем более высокая точность, беглость и изобретательность приобретается моделью. В качестве аналогии здесь можно рассмотреть ОЗУ компьютера, где операционная система хранит в режиме реального времени актуальный контекст для всех ваших приложений. LLM, располагая достаточно длинным контекстом, сравнима с «рассуждающим компьютером», учитывающим широкий контекст, предоставляемый пользователем. Оригинальный трансформер и длина контекста Важно отметить, что в архитектуре транмформеров формы всех весов матриц, доступных для обучения, не зависят от количества подаваемых на вход токенов n. Все параметры, поддающиеся обучению (поиск по векторам, слои проекций, слой softmax и слои внимания) не зависят от длины входного фрагмента и должны быть в состоянии обрабатывать такие фрагменты варьирующейся длины. Просто отлично, когда такое свойство в архитектуре предоставляется прямо «из коробки». Это значит, что, если вы обучали трансформерную модель с контекстным окном длиной 2K, то можете экстраполировать её на последовательности токенов любой длины. Единственная проблема здесь в том, что в таком случае модель не сможет методом вывода дать осмысленных результатов на материале в 100K токенов, если её не обучали на окне контекста длиной 100K. В таком случае распределение учебных данных будет очень далеким от тех данных, которые приходится логически обрабатывать, поэтому модель потерпит фиаско, как и любая модель машинного обучения в таком сценарии. Если требуется обучить трансформер на таком большом контексте, то можно, например, обучать его в два этапа: сначала базовую модель на окне контекста длиной 2K токенов, а потом продолжить обучение (в качестве тонкой настройки) на более длинных контекстах (например, 65K или 100K). Именно это и было сделано с моделью MosaicML. Но вот загвоздка: такой подход не сработает с оригинальной архитектурой Трансформеров, поэтому придётся прибегать к определённым ухищрениям. @machinelearning_interview

4.08 machinelearning_interview ❓Как проводить первичный анализ данных? (Exploratory Data Analysis) Расскажем на бесплатном от
4.08 machinelearning_interview ❓Как проводить первичный анализ данных? (Exploratory Data Analysis) Расскажем на бесплатном открытом уроке "Разведочный анализ данных на Python для Machine Learning" от OTUS. Вебинар приурочен к старту онлайн-курса "Специализация Machine Learning". 🗓Дата: 9 августа, 18:00 Основные темы, который разберём: - Базовые принципы разведочного анализа данных - Какие существуют инструменты для этого в Python? - Как визуализировать данные? - Какая предобработка данных нужна для построения ML-моделей? ✅Кому подходит урок: - IT-специалисту, который хочет перейти в Data Science; - Начинающему Data Scientist, желающему углубиться в профессию; - Тому, кто самостоятельно изучает Data Science; - Для того, кто хочет войти в IT, но не знает что выбрать. После урока будет открыт доступ ко второму занятию "Введение в Machine Learning", а курс можно будет приобрести в рассрочку по спец.цене. 🔥Регистрация: https://otus.pw/y3WT/

Как создавать качественные ML-системы Команда VK Cloud перевела серию из двух статей, посвященных ML-системам. В первой стать
Как создавать качественные ML-системы Команда VK Cloud перевела серию из двух статей, посвященных ML-системам. В первой статье разобрались, почему каждый проект надо начинать с плана, обсудили жизненный цикл ML-проекта, выяснили, как определять его ценность для бизнеса и собирать требования, а заодно поговорили о важности проектной документации на этом этапе. Во второй статье остановились на Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL. @machinelearning_interview

📌C какими проблемами может столкнуться нейронный алгоритм в работе с временными рядами? Какую архитектуру можно выбрать, что
+1
📌C какими проблемами может столкнуться нейронный алгоритм в работе с временными рядами? Какую архитектуру можно выбрать, чтобы решить такие проблемы? Первое, что приходит на ум - это, конечно, рекуррентные нейросети(картинка 1). Одна из идей, сделавшая RNN неоправданно эффективными - "авторегрессия" (auto-regression), это значит, что созданная переменная добавляется в последовательность в качестве входных данных. В машинном обучении часто применяется эта техника, особенно в работе с временными рядами. Хотя рекуррентная сеть и должна работать со всей последовательностью, к сожалению, присутствует проблема "затухающего градиента"(vanishing gradient problem). Что значит, что более старые входы не влияют на текущий выход. Такие модели, как LSTM пытаются решить эту проблему, добавляя дополнительные параметры (картинка 2). Такие модели считывают ввод данных последовательно. Архитектура, в которой обработка последовательности производится сразу, что практически не оставляет места для потери информации, реализована в кодировщике модели Transformer. Эта характеристика позволяет модели изучать контекст переменной на основе всего его окружения. Кроме того, по сравнению с рекуррентными нейросетями, чаще всего они быстрее. @machinelearning_interview

Ищем Data Scientist’а уровня middle в команду розничного моделирования В нашей команде 100+ DS-специалистов и нам нужны экспе
Ищем Data Scientist’а уровня middle в команду розничного моделирования В нашей команде 100+ DS-специалистов и нам нужны эксперты для разработки моделей машинного обучения розничных продуктов (NBO, NBA, FMCD, MO), проведения продвинутой аналитики и ad-hoc исследований для целей CRM. Оставляй резюме по ссылке https://vk.cc/cpJewW и стань частью Газпромбанк.Тех!

Расскажите про LSTM‑сети. Какие проблемы и слабые места в LSTM‑сетях вам известны? В LSTM‑сетях и трансформерах встроена связь между входными и выходными элементами. Это полезно в машинном переводе, но не в распознавании документов. В распознавании документов такая связь может привести к ошибкам, особенно если речь идет о личных данных. Исследования показывают, что LSTM‑модель может ухудшить качество распознавания в некоторых языках. ▪️Все опубликованные работы по круто распознающим LSTM‑сетям и трансформерам содержат сети с большим числом умножений. Запустить такие сети на мобильнике — это некоторое действо, а смысла в мобильном распознавании, которое будет работать дольше, чем ручной ввод — нет. ▪️Распознаватель должен быть устойчив к атакам злоумышленников, в частности, к состязательным примерам [Base_adv, UniAdv]. Про подбор состязательных примеров известен следующий факт — в нем можно опираться и на архитектуру, и на датасет. Проблема в размерах итоговых сетей, в особенности трансформеров. Такие сети практически никогда не учат с нуля. И даже «ведущие» российские компании в области ИИ не брезгуют предобученными моделями. А для открыто выложенных предобученных моделей кто угодно может сгенерировать состязательные примеры и радостно пойти проверять системы на уязвимость. ▪️Распознаватель должен быть устойчив к естественным искажениям, например, распознавая смазанный затертый документ под розовой лампой предсказуемым образом. Проблема всё также в предобученных моделях, которые лишь слегка дообучают, например, взяв модель, работающую с английским и досыпав немного искусственных данных с русским. В результате, поведение (в особенности неправильное) таких моделей становится трудно объяснимым для стороннего человека и трудно настраиваемым для разработчиков, ведь во многом оно зависит от исходных выборки и аугментаций. И что с этим делать? Стоит вспомнить про светочные сети. ▪️Сверточные сети Сверточные сети — уже в 20 веке успешно применялись ЛеКуном для распознавания символов (например, в классической работе 1998 года [LeCun]). Такие сети содержат как минимум свертки и полносвязный слой в конце. Собственно, полносвязный слой причиняет боль в современных задачах: он дико увеличивает число коэффициентов и умножений в сети, а заодно строго фиксирует размер входа. Полносверточные сети — сетки, в которых есть свертки и другие оконные операции (пуллинг, например), которые не фиксируют размер (предложены для решения задачи семантической сегментации в 2015 году [FCN], где круто себя показали). @machinelearning_interview

Ozon Tech ищет Senior/Lead DS и ML-специалистов Команды отвечают за развитие сервисов поиска, рекомендаций и рекламы на марке
Ozon Tech ищет Senior/Lead DS и ML-специалистов Команды отвечают за развитие сервисов поиска, рекомендаций и рекламы на маркетплейсе, помогая пользователям быстрее и точнее находить товары. Какие вакансии актуальны: ➡️Ведущий Data Scientist в команду Ранжирования поиска. ➡️Ведущий Data Scientist (Deep Learning) в команду Рекомендаций и персонализации. ➡️Старший Data Scientist в команду Эффективности рекламы. ➡️Старший Data Scientist в команду Товарных рекомендаций. ➡️Ведущий Data Scientist (NLP) в команду Базового ранжирования. Узнать подробнее про задачи и проекты можно на этом лендинге. Откликнуться там же 😏

Расскажите про методы увеличения производительности СУБД? СУБД очень часто становится «узким местом» в производительности веб‑приложений, влияющим на общее быстродействие и устойчивость к высоким нагрузкам. Масштабирование «железа» и адекватная настройка Первое, что стоит сделать, если скорость работы базы данных не удовлетворяет требованиям, это проверить адекватность настройки СУБД относительно имеющихся ресурсов, а также убедиться, что при проектировании БД были учтены используемые запросы. Если, например, для СУБД работает с настройками «из коробки», а при обработке запросов не используются индексы, то надо не масштабировать СУБД, достаточно просто откорректировать конфигурацию работы сервера баз данных и обновить схему используемой базы данных под профиль нагрузки. Иногда также проще увеличить выделение ресурсов под сервер баз данных — количество оперативной памяти и скорость работы дисковой подсистемы оказывают существенное воздействие на скорость работы СУБД. Нередко даже небольшое увеличение RAM и переход на SSD увеличивает производительность в разы. Масштабирование через партиционирование, репликацию и шардинг В момент, когда даже корректно настроенный сервер баз данных на достаточно мощном железе уже недостаточно хорошо справляется с нагрузками, производится масштабирование при помощи партиционирования, репликации и шардинга. Далее рассмотрим эти способы увеличения производительности СУБД. Партиционирование (partitioning) Партиционирование — это разбиение таблиц, содержащих большое количество записей, на логические части по неким выбранным администратором критериям. Партиционирование таблиц делит весь объем операций по обработке данных на несколько независимых и параллельно выполняющихся потоков, что существенно ускоряет работу СУБД. Для правильного конфигурирования параметров партиционирования необходимо, чтобы в каждом потоке было примерно одинаковое количество записей. Например, на новостных сайтах имеет смысл партиционировать записи по дате публикации, так как свежие новости на несколько порядков более востребованы и чаще требуется работа именно с ними, а не со всех архивом за годы существования новостного ресурса. Репликация (replication) Репликация — это синхронное или асинхронное копирование данных между несколькими серверами. Ведущие серверы часто называют мастерами (master), а ведомые серверы — слэйвами (slave). Более политкорректные современные названия — Лидер и Фолловер (leader & follower). Ведущие сервера используются для чтения и изменения данных, а ведомые — только для чтения. В классической схеме репликации обычно один мастер и несколько слэйвов, так как в большей части веб‑проектов операций чтения на несколько порядков больше, чем операций записи. Однако в более сложной схеме репликации может быть и несколько мастеров. Например, создание нескольких дополнительных slave‑серверов позволяет снять с основного сервера нагрузку и повысить общую производительность системы, а также можно организовать слэйвы под конкретные ресурсоёмкие задачи и таким образом, например, упростить составление серьёзных аналитических отчётов — используемый для этих целей slave может быть нагружен на 100%, но на работу других пользователей приложения это не повлияет. Шардинг (sharding) Шардинг — это прием, который позволяет распределять данные между разными физическими серверами. Процесс шардинга предполагает разнесения данных между отдельными шардами на основе некого ключа шардинга. Связанные одинаковым значением ключа шардинга сущности группируются в набор данных по заданному ключу, а этот набор хранится в пределах одного физического шарда. Это существенно облегчает обработку данных. Например, в системах типа социальных сетей ключом для шардинга может быть ID пользователя, таким образом все данные пользователя будут храниться и обрабатываться на одном сервере, а не собираться по частям с нескольких. @machinelearning_interview

🔥Язык R идеально подходит для работы с данными и необходим специалистам в сфере машинного обучения как незаменимый инструмен
🔥Язык R идеально подходит для работы с данными и необходим специалистам в сфере машинного обучения как незаменимый инструмент для исследований и создания моделей.  31.07 в 20.00 (мск) приглашаем на открытый урок “Экосистема R для анализа данных” курса “Язык R для анализа данных” в OTUS 📌На вебинаре: - рассмотрим основные возможности RStudio для анализа данных: работа с таблицами, построение графиков; - покажем, как пользоваться Jupyter для создания документов; - познакомимся с Visual Studio Code (VS Code). 👉Регистрация для участия https://otus.pw/rmdw/ Не упустите возможность получить новые знания и протестировать формат обучения. Курс доступен рассрочку.  Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2RanymaH4Jk

Хабр Карьера опубликовали статистику с зарплатами айтишников по городам. @machinelearning_interview
+5
Хабр Карьера опубликовали статистику с зарплатами айтишников по городам. @machinelearning_interview

Встречай AI Generative Product Hackathon, где участники создадут инновационные продукты, экспериментируя с технологиями ChatG
Встречай AI Generative Product Hackathon, где участники создадут инновационные продукты, экспериментируя с технологиями ChatGPT, Midjourney и elDinero.ai Партнеры хакатона — компании с мировым именем, чьи продукты мы используем каждый день: Unilever в России, Ашан, Danone, Tefal, Альфа-банк. Соорганизаторы — крупнейшая в стране магистратура инженерии машинного обучения AI Talent Hub университета ИТМО, AI-компания Napoleon IT и разработчик CDP платформы Konnektu. ◾️Призовой фонд — 600 000 ◾️Более 30 мест для стажировок в компаниях-партнерах ◾️Регистрация до 31 июля Участниками могут стать: ML-инженеры, аналитики данных, промпт-инженеры, продакт-менеджеры, маркетологи, бренд-менеджеры и студенты IT-специальностей. Лучшие решения получат не только денежный приз, но и возможность реализации в компаниях-партнерах или в качестве самостоятельного стартапа с первыми инвестициями. Стань частью крутой команды или создай свою собственную, заполни заявку по ссылке

Что такое Gated Recurrent Unit (GRU)? Где используется ? Закрытый рекуррентный блок (GRU) является частью конкретной модели рекуррентной нейронной сети, которая намеревается использовать соединения через последовательность узлов для выполнения задач машинного обучения, связанных с памятью и кластеризацией, например, в распознавании речи. Рекуррентные блоки помогают регулировать входные веса нейронной сети для решения проблемы исчезающего градиента, которая является общей проблемой с рекуррентными нейронными сетями. Еще закрытые рекуррентные блоки используются в машинном переводе. Они отличаются от LSTM, хотя тоже являются расширением для нейросетевого машинного обучения. В GRU на один гейт меньше, и работа строится по-другому: вместо входного, выходного и забывания, есть гейт обновления (update gate). Он определяет, сколько информации необходимо сохранить c последнего состояния и сколько информации пропускать с предыдущих слоев. Функции сброса гейта (reset gate) похожи на затвор забывания у LSTM, но расположение отличается. GRU всегда передают свое полное состояние, не имеют выходной затвор. Часто эти затвор функционирует как и LSTM, однако, большим отличием заключается в следующем: в GRU затвор работают быстрее и легче в управлении (но также менее интерпретируемые). На практике они стремятся нейтрализовать друг друга, так как нужна большая нейросеть для восстановления выразительности (expressiveness), которая сводит на нет приросты в результате. Но в случаях, где не требуется экстра выразительности, GRU показывают лучше результат, чем LSTM. В дополнение к машинному преводу, модели нейронной сети, использующие рекуррентные единицы, могут использоваться для исследования генома человека, анализа почерка и многого другого. Некоторые из этих инновационных сетей используются для анализа фондового рынка и работы правительства. Многие из них используют моделируемую способность машин запоминать информацию. @machinelearning_interview

❗️Как пройти техническое собеседование на ML-специалиста? ⚠️ Узнайте на примере mock-интервью с преподавателями курса «MLOps» в OTUS! На открытом уроке вы сможете наблюдать один из этапов собеседования при найме ML-специалистов — ML System Design секцию. 👉 Для удачного прохождения этого этапа не достаточно только знания алгоритмов машинного обучения. Также проверяются навыки проектирования ML систем, которые могут успешно работать в промышленной среде.
Больше инструментов MLOps ждет вас на курсе. Обратите внимание: возможные способы оплаты обучения.

👉 РЕГИСТРАЦИЯ https://otus.pw/Lc62/ Нативная интеграция. Информация о продукте www.otus.ru

Что такое утечка данных в машинном обучении Утечка глобально – это слитые личные данные без разрешения или без соблюдения дол
Что такое утечка данных в машинном обучении Утечка глобально – это слитые личные данные без разрешения или без соблюдения должных мер безопасности кому-то постороннему. В ML под утечкой понимают совсем другая проблема, когда информация из тестового датасета ошибочно попадает в обучающий. Так вот, команда VK Cloud перевела статью о том, какими могут быть подобные утечки и как с ними бороться на примере реальных датасетов. @machinelearning_interview

📌 Что такое метод стохастического градиентного спуска? Назовите его основные достоинства и недостатки. Градиентный спуск — метод нахождения локального экстремума (минимума или максимума) функции с помощью движения вдоль градиента. Метод градиентного спуска оказывается очень медленным, особенно в случае большой размерности признакового пространства. Поэтому, часто в машинном обучении используют стохастический градиентный спуск, где каждый шаг вычисляется по градиенту одного случайно выбранного параметра. Достоинством стохастической модификации градиентного спуска является его доказанная сходимость к тому же экстремуму, что и при градиентном спуске. При этом он намного более практичен и может использоваться на данных с большим числом признаков. Метод может быть обобщен для нелинейных моделей, использован с большим набором данных, а также с самыми разными функциями потерь. К недостаткам метода можно отнести возможность сходимости метода к локальному, а не абсолютному экстремуму. Возможна также расходимость или очень медленная сходимость, поэтому нужно знать, какими способами можно ускорить сходимость этого метода. Наконец, в линейных моделях возможно переобучение из-за неприятного эффекта, который называется мульти-коллинеарностью. @machinelearning_interview

🔥Хотите стать одним из авторов проектов, которые меняют жизнь людей к лучшему в области автоматизации предприятий, медицины,
🔥Хотите стать одним из авторов проектов, которые меняют жизнь людей к лучшему в области автоматизации предприятий, медицины, робототехники, виртуальной реальности и других сферах, или стать руководителем отдела Computer Vision в вашей компании? Все это возможно после прохождения обучения на курсе “Компьютерное зрение” в OTUS. Сейчас открыт набор в группу. Вы освоите принципы машинного обучения в области компьютерного зрения и сможете решать индустриальные задачи, используя открытые датасеты. 📌По ходу курса вы обучите нейросети для решения задач: - классификации и сегментации изображений; - детекции объектов на изображениях; - отслеживания объектов на видео; - обработки трехмерных сцен; - порождения изображений и атаки на обученные модели нейронных сетей. Также вы научитесь пользоваться основными фреймворками для создания нейросетей: PyTorch, TensorFlow и Keras. ⚡️Успейте занять место в группе по спеццене Отправьте заявку https://otus.pw/AQrN/ Возможны разные способы оплаты и покупка курса в рассрочку Нативная интеграция. Информация о продукте на сайте www.otus.ru

#тест На каких выборках можно применять t-критерий Стьюдента для проверки статистических гипотез?
Anonymous voting

У вас есть данные о продолжительности звонков в колл-центр. Создайте план того, как вы будете анализировать эти данные. Объяс
У вас есть данные о продолжительности звонков в колл-центр. Создайте план того, как вы будете анализировать эти данные. Объясните вероятный сценарий того, как может выглядеть распределение этих длительностей. Как вы можете проверить, даже графически, оправдались ли ваши ожидания? Так как данные достаточно простые: звонок – длительность, то нет необходимости делать их нормализацию (искать пропуски, заполнять их и т.д.). Нулевые значения надо просто удалить. Имеет смысл построить гистограмму продолжительности звонков, чтобы увидеть базовое распределение. Обычно такие данные должны следовать логарифмически нормальному распределению. Пример логнормального распределения (смотри картинку). Для графического подтверждения этого предположения возможно использовать график Q-Q. Это позволит подтвердить, соответствует ли длительность вызовов логнормальному распределению или нет. В статистике график Q – Q (квантиль-квантиль) – это график вероятности, который представляет собой графический метод для сравнения двух распределений вероятности путем построения их квантилей друг против друга. Сначала выбирается набор интервалов для квантилей. Точка (x, y) на графике соответствует одному из квантилей второго распределения (координата y), нанесенному на тот же квантиль первого распределения (координата x). Таким образом, линия является параметрической кривой с параметром, который является номером интервала для квантиля. Если сравниваемые два распределения похожи, точки на графике Q – Q будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике Q – Q будут приблизительно лежать на линии, но не обязательно на линии y = x. @machinelearning_interview

@ozon_tech Intro Meetup в Алматы📍 27 июля | 18:00 (UTC +6) офлайн | онлайн ML, DS и Java-инженеры, для вас — особое приглаше
@ozon_tech Intro Meetup в Алматы📍 27 июля | 18:00 (UTC +6) офлайн | онлайн ML, DS и Java-инженеры, для вас — особое приглашение, потому что на повестке: 1️⃣Рекламная платформа в Ozon, её архитектура и ML. 2️⃣Архитектура рантайма поиска в Ozon, поиск по индексу, сбор данных из различных источников, ранжирование документов с учётом пользовательских фичей. 3️⃣Архитектура рекомендаций, персонализация товарной выдачи и работа с десятками рекомендательных полок. 4️⃣Машинное обучение для рекомендаций товаров в Ozon и data science часть рекомендательной системы. 5️⃣Программы обучения, стажировки и жизнь сообщества Ozon Tech. Регистрация штука обязательная. Не откладывайте её. До встречи на митапе! #ozontech_meetup