AB тесты и все вот про это вот все
رفتن به کانال در Telegram
Полезная информация об A/B тестировании. По любым вопросам можно писать - @ealexandr
نمایش بیشتر1 899
مشترکین
-124 ساعت
اطلاعاتی وجود ندارد7 روز
+430 روز
آرشیو پست ها
Снова возвращаюсь к тому, что 10% успешных АБ-тестов считается нормой. Уже говорил, что в таком случае эксперименты становятся вместо инструмента тестирований гипотез инструментом оценки качества гипотез. Иногда некоторые компании рассказываю, что у них показатель успешных достигает 20-25%. Снимаю шляпу в таких случаях.
Качество гипотез страдает часто из-за отсутствия системности в работе с гипотезами, да и продуктами в целом. К сожалению, приходилось такое наблюдать. При этом, даже прохождение нашей гипотезы через простой чек-лист поможет откинуть большое количество мусора и сэкономить кучу времени и денег. Такие тоже встречал.
Итак, простой чек-лист. Гипотеза должна быть:
✅ Тестируема. У нас есть возможности протестировать данную гипотезу.
✅ Решает конкретную проблему. Гипотеза помогает решить заранее определенную и конкретную проблему.
✅ Есть набор изменений. Мы определили, какие изменения нужно внести, чтобы протестировать данную гипотезу.
✅ Есть обоснование. Мы можем обосновать, за счет чего и почему решение может решить проблему. Хорошая гипотеза сможет пройти допрос с пристрастием и ответить на вопросы типа «а с чего ты взял, что это поможет», «за счет чего метрика увеличится настолько». Необходимо, чтобы обоснование было подкреплено фактами, числами, а не фантазиями и чуйками, типа «я уверен в этом, зуб даю». Не нужно никому давать свой зуб, лучше показать чиселки.
✅ Измерима, выбраны метрики. Мы понимаем, как измерить эффект, выбрали метрики, изменение которых поможет нам понять, решается проблема или нет.
✅ Определены ожидаемые величины изменения метрик. Нежелательно запускать эксперимент, не предполагая, на какую величину может увеличиться метрика.
✅ Эта гипотеза — часть цепочки среди других гипотез. Гипотеза не должна существовать в вакууме отдельно от других гипотез. У нас есть понимание, что будет происходить в зависимости от результатов конкретного теста. Исследование текущей гипотезы должно вести к следующей и т.д. (в этом месте гуглим про цикл HADI)
✅ Есть полные текущие данные (количественные и качественные). Мы можем собрать текущие данные (просмотры, события и проч.) по метрикам, которые будем наблюдать при проведении АБ теста.
✅ Ведет к дополнительному знанию. В результате теста мы получим какую-то новую информацию.
О бедном т-тесте замолвите слово. Подробный разбор метода, в том числе "легендарное" требование нормальности распределения для использования т-теста.
Байесовское АБ-тестирование часто встречаю в статьях, но, насколько понимаю, его используют немногие. Тем, кто хочет быстро оценить как это работает и помоделировать, поможет эта статья - тут общее описание, калькуляция, код.
⚡️Анализируем продажи на Wildberries с помощью Python
С каждым днем все больше бизнесов выходят на маркетплейсы, а значит еще более ценными становятся аналитики, которые умеют с ними работать. Хотите за несколько часов собрать интересный кейс для своего портфолио?
Андрон Алексанян - эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative в прямом эфире проанализирует продажи на Wildberries с помощью Python.
Что будет на вебинаре:
🟠Напишем скрипт на Python, который каждый час собирает статистику о ранжировании карточки на WB по ключевым запросам;
🟠Построим наглядные визуализации для отслеживания динамики ранжирования.
Важно досмотреть вебинар до конца, чтобы узнать как упаковать этот кейс в портфолио своих проектов.
😶Зарегистрироваться на бесплатный вебинар
Просматривая на выходных старые закладки, нашел две статьи в Медиуме от 2014 годя о том, как Airbnb проводит АБ-тесты. Раз и два.
Там плюс-минус то, что мы знаем и делаем. Важно, что этим статьям 11 лет, а методология в компании была разработана еще раньше.
При этом, все еще частенько приходится менеджерам объяснять, доказывать необходимость проведения АБ-тестов, чтобы проверить эту всю экспертность, чуйки, опыт и прочее.
Немного про результаты нашего АБ-теста. Бывает такое, что получили какой-то результат. Например, наши метрики прокрасились, p-value < 0.05, все гладко, открываем шампанское, выписываем себе премию.
Часто у нас много дел, АБ-тесты и прочие важные вещи идут потоком и мы не погружаемся, за счет чего получили те или иные результаты. Так ведь, наверное, ни к чему - все же удачно. Да и дел много других.
А, тоже может быть, наш результат был получен за счет небольшой группы пользователей, небольшой группы товаров, одного большого региона - в общем одного сравнительно небольшого сегмента.
Если бы у нас было время поисследовать, разложить воронку на составляющие, изучить пути пользователей, срезы пользователей, мы могли выяснить, что наша новая фича повлияла сильно не на всех. Если бы мы это знали, решение по результатам могло быть совсем другим. Но, ведь нам некогда, нужно скорее решить, катить или нет, нужно отчитаться наверх, что все получилось.
А потом, когда мы смотрим на историю успешных АБ-тестов, они должны были увеличить наши ключевые метрики на 100500 - 100600%, а выходит с гулькин нос, или вообще не растет.
В общем, все идеально, но есть нюанс. Возможно, стоит бежать чуть медленнее, чтобы успевать понимать, почему наши АБ-тесты успешны или неуспешны. Удачи...
📂 Мы делимся с вами папкой «IT», в которой собрали статьи с полезными советами от экспертов в сфере IT.
⚙️ Внутри вас ждет:
🟠 Статья "Экономика инференса LLM: локальный vs облако"
🟠 Вайб-кодинг что это ?
🟠 Качество требований в IT-проектах.
🟠 И еще 28 полезные статьи, которые прокачают ваши навыки.
🔗 А мы с вами делимся статьёй про то, как испортить наши АБ-тесты.
✔️ Сохраняйте папку « IT», чтобы быть в курсе всех новостей в мире IT и не только!
Мы сильно любим бутстрап. Есть нюанс его применения в ratio-метриках, такой вариант называется "парным бутстрапом".
Суть состоит в том, что, когда мы формируем подвыборку, берем "пару" чисел сразу - и X и Y.
Например, у нас CTR - 10 показов (X) и 2 клика (Y) у одного измерения. В этом случае берем и 10, и 2.
Собственно, все. Не супер что-то новое, просто этот важный нюанс не нужно забывать. А, как мы знаем, иногда решают именно мелочи.
А и В сидели на трубе,
А упало, В пропало, кто остался на трубе?
Грустный продуктовый аналитик.
Чтобы никто не грустил, мы запускаем онлайн-серию технологических митапов от hh.ru
Первая встреча состоится 15 апреля. Спикерами будут специалисты hh.ru, Туту и Ozon. Что будут рассказывать? Не темы, а просто находки!
• Как Process mining помогает улучшить процесс принятия решений в A/B-тестах; • Как в hh.ru устроен пайплайн-расчет ETL в A/B-тестах; • A/B-тестирование, как метод полного контроля за принятием решений.Встречаемся 15 апреля 19:00. Подробности и регистрация по ссылке. Реклама. Рекламодатель ООО «Хэдхантер», ИНН 7718620740 Erid: 2VtzqxDcecG
Продолжаем про экзотические методы тестирования гипотез. Классическая история - выкатили фичу без АБ, и нужно посчитать эффекты. Возможно, сразу вспомним про Causal Impact. Который поможет посчитать эффекты, но с некоторыми значительными допущениями, одно из них - предположение, что, кроме нашей новой фичи, больше ничто не оказывало значительное влияние.
Такое самое узкое место. Есть и другие. Это не блокирует использование метода, просто нужно держать в голове и плюсы, и минусы.
В статье описываются и другие методы поиска причинно-следственных связей в отсутствии АБ-теста.
А здесь видео с подробным разбором работы Causal Impact. Наглядную картинку использую отсюда. Если не ошибаюсь, на AHA в прошлом году Дмитрий выступал с докладом на эту тему.
Нам же всем хочется, чтобы АБ-тесты проходили быстрее без роста вероятности ошибок первого и второго рода. В этом может помочь последовательное тестирование. Оговорюсь сразу, что светила отрасли говорят, что "лучше по классике".
Основная идея последовательного тестирования — возможность более ранней остановки АБ-теста с помощью регулярного расчета метрики, а не в конце, когда набрали необходимое количество пользователей. Используют, как правило для частотных метрик.
Похоже на подглядывание (которое мы очень не любим), но немного иначе: при тех же порогах pvalue и мощности (обычно 0.05 и 0.8) по особой формуле рассчитываем, набрали мы или нет, определенное количество конверсий в тестовом и контрольном вариантах. Таким образом, последовательное тестирование решает проблему подглядывания.
Самый простой метод описан у Эвана Миллера, у него же есть и калькулятор. Мне не очень нравится отсылка к «случайной прогулке», ну ладно, сейчас не так важно.
Также о сущности методов можно почитать здесь, здесь и здесь. А тут автор делает небольшое сравнение разных подходов к последовательному тестированию.
Разные компании используют разные методики последовательного тестирования, основных несколько: mSPRT, GST, GAVI, CAA, Naive.
➡️ Spotify и Uber использует метод групповых последовательных тестов (GST).
➡️ В Statig - частотное последовательное тестирование, статья-основа здесь.
➡️ Netflix - mSPRT, раз и два.
Как пройти секцию по АБ тестам на собеседовании?
Далеко не каждый опытный аналитик сталкивался с АБ тестами, а новички боятся утонуть во всей этой статистике. У многих вызывают трудности такие вопросы:
- P-value, альфа, ошибка первого рода - это все одно и тоже?
- Как выбрать стат критерий?
- Почему за АБ тестами нельзя "подглядывать"?
- АА тест показал стат значимые отличия. Это норма?
Ответы на эти вопросы вы можете найти в канале Юрия Борзило, там уже собрано более 60 постов с разбором разных нюансов АБ тестирования, а также много постов о продуктовой аналитике. Если у вас есть сложности с АБ тестами, то в канале вы найдете много полезных материалов.
А тут немного скептики по отношению к экспериментам.
Мое любимое: экспертиза + интуиция - смешать, но не взбалтывать.
Истина же, скорее всего, кроется в разумном и рациональном применении любого инструмента, будь то, АБ-тест, айфон, нож или молоток.
Мы же все еще считаем себя сильными и уверенными в себе, поэтому катим фичи без АБ-теста. Еще один материал в копилку на тему "как посчитать эффект без АБ".
Некоторое время назад участвовал в одном мероприятии и мне задали вопрос про необходимость собственной платформы для проведения АБ-тестов. Сначала я удивился, ведь собственные платформы создают немногие компании, и только в том случае, если это действительно необходимо. Это достаточно трудны, болезненный и долгий путь.
Причина, по моему мнению, как раз в "лидерах рынка". Это крупные it-компании, которые много рассказывают о том, как проводят АБ-тесты, как они пришли к созданию платформ, какие проблемы встретили по пути. Они находятся на острие технологий и дают всем нам кучу информации о том, как все это правильно делать. И, когда слушаешь-смотришь все это, иногда может показаться, что "все давно проводят 100500 экспериментов в наносекунду, у всех есть свои платформы".
В действительности это, конечно, не так - АБ-тесты проводят далеко не все, кому это нужно, многие это делают с помощью достаточно простых инструментов, а собственные полноценно функционирующие платформы используются очень немногими компаниями.
А тем, кто только заходит на территорию экспериментов, совершенно не нужно бросаться писать свою платформу. Очень даже сгодятся все те же известные инструменты - Optimizely, VWO, Firebase Гугла, Sigma от EXPF, Varioqub Яндекса и другие. Жаль, что закончился Google Optimize - прекрасная была штуковина.
Можно также воспользоваться и своими разработчиками, чтобы написать т.н. "сплитовалку" - инструмент деления пользователей. Это, возможно, главное, что требуется - правильно поделить. А посчитать и интерпретировать результаты - значительно проще.
Интересную тему затрагивает автор статьи - мониторить распределение пользователей между вариантами АБ-теста.
Проблема не так тривиальна, как может показаться. Если деление отличается от запланированного, да еще и неравномерно по дням или сегментам, это может привести к плачевным результатам.
У меня было такое, что у старух пользователей деление было такое, как настроено, а у новых оно мало того, что отличалось, так еще и имело изменяющийся тренд по дням. Из-за этого из анализа новых пользователей приходилось убирать. А смотреть за этим начал, обнаружив "странные" результаты.
Если подняться на уровень выше, контроль системы сплитования - одна из важнейших атрибутов успешного АБ-тестирования.
Возвращаюсь, посмотрев очередной митап про АБ-тесты. Все не могу понять, что появилось раньше - АБ-тесты или платформы для их проведения.
Рекомендую к просмотру - очень интересно.
Классическая проблема - провели кучу АБ-тестов, многие со стат. значимым успехом, а после раскатки на 100% эффект уже и не сильно заметет. Статья о причинах и возможных решениях.
Яндекс сообщает, что АБ-тесты в Яндекс Директе теперь доступны. Теперь все настройки и отчеты находятся непосредственно в Директе. Говорят, теперь станет удобнее.
Справка.
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
