Аналитик сюра
Канал про продуктовую аналитику, A/B-тесты, ML, образование и карьеру. И немного про жизнь цифрового кочевника. Работаю старшим продуктовым аналитиком в travel-tech. Для связи: @yubal42 LinkedIn: https://www.linkedin.com/in/yuriybalandin
Більше419
Підписники
+124 години
+117 днів
+15530 днів
- Підписники
- Перегляди допису
- ER - коефіцієнт залучення
Триває завантаження даних...
Приріст підписників
Триває завантаження даних...
💡 Что продакту нужно знать про A/B-тесты?
A/B-тесты - это далеко не только про статистику, методы их ускорения и т.п. Большую роль играют процессы и культура экспериментов в компании. А культура зависит от людей, принимающих решения и ответственных за развитие продукта. Поэтому для выстраивания вот этой вашей дата-дривен культуры важно чтобы у всех ваших коллег, так или иначе связанных с экспериментами, был достаточный уровень погружения.
На карточках привел пункты, которые я, как аналитик, считаю важными для понимания у всех, кто работает над A/B-тестами.
А вот по этим материалам можно за короткое время получить хорошую базу:
- Доклад от Яндекса
- Бесплатный курс от udacity
- Небольшой курс в виде набора статей от dinamycyield
- Короткий и годный обзор, полено для поднимания стат. тестов
- Статья на Хабр
Для чуть большего погружения:
- Бесплатный курс по А/Б-тестам от Яндекс-практикума
- Достаточно известная (и очень полезная) книжка про весь процесс А/Б-тестирования: Trustworthy Online Controlled Experiments, Ron Kohavi , Diane Tang, Ya Xu (также есть на перевод на русский - Доверительное А/Б-тестирование)
Когда ты погружаешься в тему, кажется, что все уже всё знают, ведь так много курсов, статей и разборов всех возможных ошибок. Но подозреваю, что на самом деле всё не так радужно и культуру экспериментов еще развивать и развивать. Поэтому делитесь этим постом с коллегами, давайте вместе двигать эксперименты в счастливое будущее 🚀
❤ 10👍 1
💪 Использование ML
Вспомним, что CUPED - это линейная регрессия, так что нам мешает использовать продвинутый ML на большем количестве фичей? Ничего, так и надо делать.
Существует несколько вариаций применения машинного обучения, которые глобально похожи - по предэкспериментальным (или просто независимым) данным предсказывается значение метрики в эксперименте. Но в отличие от CUPED эти походы могут находить нелинейные зависимости и сильнее сокращать дисперсию.
Вот статьи, в которых можно про это почитать и посмотреть на код.
Cupac / Doubly robust
Обзор от Glovo
Код - GitHub (единственное, там косяк в вычислении CUPED, надо поправить ковариацию)
Статья от Авито на Хабр.
MLRATE
Статья на arxiv.
Две статьи на medium про ускорение экспериментов, со сравнением нескольких методов ускорения: раз, два.
Код из статей.
❤ 7🔥 1
🚀 Все что вам нужно знать про методы ускорения A/B-тестов
Почему это вообще важно? Больше экспериментов означает больше проверенных (потенциально успешных) гипотез, которые улучшают продукт и приносят деньги. Иногда же, когда выборки маленькие, это просто вопрос того, а сможем ли мы достоверно задетектить хоть какой-то адекватный эффект.
Из формулы для размера выборки можно понять, что почти единственная переменная, на которую мы можем влиять, - это дисперсия данных. Грубо говоря, большая дисперсия - это много шума, за которым маленький сигнал (размер эффекта) невозможно заметить. Поэтому большинство методов как раз будет направлено на уменьшение дисперсии.
Я привел большинство известных мне методов и материалы, которые помогут хорошо в этом разобраться. Делитесь с коллегами!
🔬 Фильтрация выбросов
Начнем с самого простого, но важного. Выбросы могут искажать распределение (и ломать t-test) и увеличивать дисперсию. Чтобы корректно их убрать - посчитайте ДО эксперимента какой-то квантиль, например 99-й, и после эксперимента отфильтруйте его.
Подробнее читайте в статье от Авито: Статья на Хабр
🖇️ Стратификация / Пост-стратификация
Если сэмплировать данные случайно, а потом побить их на группы (например по типу устройства), то дисперсия будет состоять из дисперсии внутригрупповой и дисперсии между группами. Так вот стратификация как раз помогает убрать дисперсию между группами и тем самым уменьшить
итоговую. Подробнее читаем в отличной статье от X5.
🛫 CUPED
Всеми любимый CUPED по-факту является линейной регрессией над ковариатой. Часто за нее берут значение пользовательской метрики перед экспериментом, но в целом она может быть любой, главное - не нее не должен влиять эксперимент. За счет того, что мы объясняем часть дисперсии данными до эксперимента, это позволяет выделить именно эффект от изменений и его дисперсия, как правило, меньше.
К сожалению, он не всегда эффективен, например, когда у вас большинство покупок происходит один раз или просто редко (например про покупке авиабилета или машины), данных до эксперимента зачастую просто нет.
А если у вас ratio-метрика, то сначала ее надо линеаризовать, после чего можно спокойно применять CUPED.
- Статья от Netflix
- Статья от X5
- Доклад от Валеры Бабушкина
📈 VWE
Еще один интересный метод по сокращению дисперсии от Facebook, основанный на перевзвешивании, учитывая предэкспериментальные данные. По их исследованиям, вместе с CUPED дает почти 50% сокращение дисперсии.
- Статья от Facebook
- Обзор метода от expf
❤ 5
🏔️ Вы можете сказать, что в Грузию надо приезжать ради вина и хачапури. Я с вами конечно соглашусь, но добавлю в этот список горы.
Вообще, даже небольшие хайки, когда можно на несколько часов отключиться от реальности среди леса или гор, считаю лучшим отдыхом и просто очень люблю.
Вот так выглядит небольшой трекинг от Гомис Мта до озера Чинчао. Озеро выглядело как небольшая проталина в снегу и его почти не было видно, зато посмотрели на облака, понюхали рододендроны и насладились (выстрадали) двумя часами подъема на вершину. Было красиво. Над облаками тоже здорово постоять, как будто летишь на самолете, только стоишь на нормальной твердой земле.
❤ 18👍 2
🏔️Вы можете сказать, что в Грузию надо приезжать ради вина и хачапури. Я с вами конечно соглашусь, но добавлю в этот список горы.
Вообще, даже небольшие хайки, когда можно на несколько часов отключиться от реальности среди леса или гор, считаю лучшим отдыхом и просто очень люблю.
Вот так выглядит небольшой трекинг от Гомис Мта до озера Чинчао. Озеро выглядело как небольшая проталина в снегу и его почти не было видно, зато посмотрели на облака, понюхали рододендроны и насладились (выстрадали) два часа подъема на вершину. Было красиво. Над облаками тоже прикольно постоять, как будто летишь на самолете, только стоишь на нормальной твердой земле.
Фото недоступнеДивитись в Telegram
🏔️Как мотивировать себя учиться и покорять новые вершины?
Хочу немного рассказать про то, как я учусь, развиваюсь профессионально и пытаюсь продолжать это делать.
Набирая какой-то профессиональный опыт ты с одной стороны знаешь все больше, а с другой - понимаешь, что ничего не знаешь. И наверное это должно мотивировать учиться дальше, больше и вот это все, но я замечаю за собой, что сил (а иногда и желания) становится все меньше.
Сейчас кажется, что будучи студентом на первых курсах универа (так сказать голодным и злым), мотивировать себя учиться очень просто. Понятно, что это в целом лучшее для образования время, но я немного про другое. Расскажу про свой опыт - для меня это был вопрос закрытия базовых потребностей и попыток выйти из режима выживания. Мотивация заработать денег, съехать с общаги, приправленные любовью учиться и новой интересной областью (вот эти ваши науки о данных и машинное обучение), позволяют поглощать курсы, книги просто тоннами и бежать вперед.
Проходит какое-то время, хорошая работа найдена, базовые потребности закрыты, и вот тут уже сильно сложнее становится мотивировать себя развиваться дальше после годов марафона постоянной учебы для достижения этой цели. В общем сейчас я на этом этапе. Курсы и книги уже не влезают так бодро, а мозг все чаще требует просто посидеть и повтыкать на море без загрузки его информацией.
Вообще, считаю, что для успешная учебы нужно два фактора: целеполагание и самодисциплина (и немного таланта).
Думаю без мотивации и целеполагания вообще сложно жить. На эту тему можно почитать у Франкла в «Скажи жизни да», благо мы не в концлагере, а в сравнительно ванильном IT, но кто знает, до чего все дойдет в ближайшее время. А самодисциплина на дистанции правда берет свое, а если вам повезло и есть талант, то тогда можно двигать горы (фото к посту как раз примерно с 2500 метров, из них набрано высоты всего-то метров 300-400, но было тяжко).
Сейчас переосмысливаю свою мотивацию и в это время чуть больше полагаюсь на самодисциплину, тщательнее выбираю то, что мне действительно нужно изучить. Ну и еще нормально принимать то, что бывают выгорания и надо давать себе время (возможно длительное) просто отдохнуть.
А одна из целей этого блога - продолжать учиться и хоть немного мотивировать это делать других людей. Потому что тот огонь, который загорается в глазах при изучении чего-то нового и интересного, это определенно одна из вещей, ради которых хочется жить. И как учил Фейнман - чтобы в чем-то разобраться, нужно объяснить это другим, чем я и учусь заниматься. Книжная рекомендация номер два - «Вы, конечно, шутите, мистер Фейнман!». Фейнман - гений, который определенно мотивирует на развитие, а книга шикарна.
Получился вот такой пост-рефлексия. Делитесь в комментариях своими историями обучения и профессионального развития, буду рад их прочитать, уверен есть очень много крутых и мотивирующих!
❤ 14
В догонку к посту с прошлой недели про разбор статьи. А какие статьи-то читать?
Делюсь годными подборками:
💪 Список от легендарного Валеры Бабушкина, с большим количеством статей про байесовкое тестирование. Было бы интересно спросить, использует ли он его в BP или предпочитает последовательное тестирование.
📚 GitHub с подборкой статей от топовых компаний в сфере экспериментов, с разбивкой по темам.
💡 Блоги компаний про эксперименты:
- Microsoft
- Airbnb
- Netflix
- Booking
- Spotify
- Eppo
🔥 10❤ 1
В одном из прошлых постов рассказал про то, что есть такой замечательный город Танжер в Марокко, где я жил целый (диджитал номадский) месяц. Сегодня про то, что есть вокруг него.
🌊 Океан и парк
Откровенно говоря, в Танжере не самый трушный океан, там уже начало Гибралтарского пролива и ближе к средиземному морю. Но вот отъехав чуть дальше, океан можно увидеть во всей красе. Причем можно найти место с табличкой, которая об этом сообщает. Проезжаем ее и начинаем наслаждаться. Еще вокруг Танжера много лесопарков (мы гуляли по парку Пердикарис) и удивительная береговая линия, фото в подтверждение прилагаются.
⛰️Геркулесовы пещеры
Знамениты своим проемом в виде Африканского материка. В целом, красивое. Про нее есть две совершенно замечательных и максимально не похожих друг на друга легенды. Одна гласит, что тут отдыхал Геракл перед тем как похитить яблоки Гесперид. Вторая - что от них идет тоннель в Европу, через который туда перебрались обезьяны маготы (единственная обезьяна, живущая в диком виде на территории Европы, как сообщает Википедия).
💡Маяк Спартель
Просто красивый маяк. Хотя нет, не просто. Легенды гласят, что рядом с мысом затонул остров Спартель, который по этим самым легендам и словам некоторых исследователей (вероятно британских) является Атлантидой. Не вижу причин им не верить. А внутри маяка была найдена фотография первого парусного фрегата «Штандартъ» из балтийского флота Петра I, который должен быть тонущим бразильским кораблем Dona Isabella. Какая-то марокканская магия.
❤ 9
Новая рубрика в блоге - разбор статей.
Давно хочу начать читать умные научные статьи, но заставить себя это делать достаточно сложно (если у вас есть куча открытых вкладок со статьями, лекциями и курсами, ставьте лайк). Поэтому иногда буду мотивировать себя наличием блога и делиться тут обзорами хороших статей.
Сегодня статья про расчет размера выборки для A/B-тестов - https://arxiv.org/pdf/2305.16459.
Статья понятная, практичная и покрывает почти все, что нужно знать про расчет размера выборки.
Почему это важно? Не все тесты - тесты с конверсией, где можно использовать калькулятор. Так же бывают разные типы метрик, например - ratio-метрики, для которых есть свои нюансы. Попутно возникает много вопросов, например про MDE, в какой пропорции по группам запускать тест и много чего еще. В статье как раз можно найти ответы (готовые формулы), которые потом очень просто реализовать в коде.
Основные разделы:
- Про расчет размера выборки для пользовательских метрик. Тут про многим известную формулу для непрерывных метрик и конверсий, а еще про то, что при разбиении групп 50/50 суммарный размер выборки будет минимальным.
- Про ratio-метрики. Показывают, что из-за появления зависимости в данных растет дисперсия, и в случае ratio-метрик для ее вычисления надо использовать дельта метод.
- Про относительные эффекты. Если вы хотите дизайнить тест для относительного эффекта, то просто так подставлять условные 5% в формулу нельзя. Там появляется деление на исходную метрику, у которой тоже есть своя дисперсия, поэтому нужна коррекция, чтобы мощность и значимость оставались на заданном уровне.
- Про best practices дизайна тестов. Тут про отличия MDE от MOD (было прикольно про это прочитать), можно ли применять t-test к данным с ненормальным распределением (спойлер - можно) и про дизайн теста с разными пропорциями теста и контроля.
В общем, вердикт - определенно must read, особенно про расчет размера выборки для ratio-метрик.
👍 10❤ 5
Фото недоступнеДивитись в Telegram
Как я использую ChatGPT в работе продуктовым аналитиком?
Опытным методом пришел к ряду задач, в которых ChatGPT может отлично помочь. В основном это вещи, связанные с написанием кода и поиском информации на стероидах. Получился вот такой список:
📜 Написание SQL и Python кода. Часто есть задачи, которые относительно простые, но требуют времени. Это могут быть какие-то адхоки, простые sql запросы, и на самом деле все что угодно с понятной логикой. Такой код ChatGPT умеет прекрасно писать и его легко проверить на корректность.
📊 Визуализация. Часто использую именно для построения графиков в питоне. Я лично никак не могу запомнить все параметры функций из plotly и seaborn, а ChatGPT помнит их очень хорошо. Просто описываете свои данные, просите построить нужный вам график и вуаля. Еще один (нечаянно обнаруженный) вариант - передать ваши значения в запросе и попросить нужную визуализацию, ChatGPT в ответе выдаст готовый график.
🐞 Работа с ошибками в коде. Тут все понятно - вместо гугла и stack overflow просто спрашиваете что за ошибка и обычно получаете годный ответ.
📑 Базовый EDA. Можно в некотором роде использовать вместо Jupyter Notebook - загружаете ваш CSV и задаете человеческим языком вопросы про данные. Для базового анализа работает очень даже неплохо.
📝 Суммаризация информации. Полезно для анализа проведенных пользовательских опросов, анализа отзывов, любой другой агрегации разрозненной информации.
💡 Генерация идей. Можно как попросить нагенерить идей для решения вашей задачи, так и использовать его как виртуального коллегу об которого можно почелленджить ваши идеи.
📚 Обучение и изучение новых инструментов. Тут можно изучать как программирование в виде новых библиотек, языков и тп, так и для общего изучения нового. ChatGPT умеет коротко описывать требуемые знания. Из лайфхаков - просил его составить cheat sheet для некоторых разделов (например статистике) при подготовке к собеседованиям, получалось хорошо.
Призываю помнить, что ChatGPT является лишь инструментом, который допускает ошибки, иногда выдает всякий булшит лишь бы ответить, а его идеи и советы часто являются достаточно поверхностными и не всегда приносят пользу.
Делитесь в комментариях, а как вы используете ChatGPT и для каких задач он наиболее эффективен?
❤ 15👍 1
Оберіть інший тариф
На вашому тарифі доступна аналітика тільки для 5 каналів. Щоб отримати більше — оберіть інший тариф.