cookie

Ми використовуємо файли cookie для покращення вашого досвіду перегляду. Натиснувши «Прийняти все», ви погоджуєтеся на використання файлів cookie.

avatar

Аналитик сюра

Канал про продуктовую аналитику, A/B-тесты, ML, образование и карьеру. И немного про жизнь цифрового кочевника. Работаю старшим продуктовым аналитиком в travel-tech. Для связи: @yubal42 LinkedIn: https://www.linkedin.com/in/yuriybalandin

Більше
Рекламні дописи
419
Підписники
+124 години
+117 днів
+15530 днів

Триває завантаження даних...

Приріст підписників

Триває завантаження даних...

💡 Что продакту нужно знать про A/B-тесты? A/B-тесты - это далеко не только про статистику, методы их ускорения и т.п. Большую роль играют процессы и культура экспериментов в компании. А культура зависит от людей, принимающих решения и ответственных за развитие продукта. Поэтому для выстраивания вот этой вашей дата-дривен культуры важно чтобы у всех ваших коллег, так или иначе связанных с экспериментами, был достаточный уровень погружения. На карточках привел пункты, которые я, как аналитик, считаю важными для понимания у всех, кто работает над A/B-тестами. А вот по этим материалам можно за короткое время получить хорошую базу: - Доклад от Яндекса - Бесплатный курс от udacity - Небольшой курс в виде набора статей от dinamycyield - Короткий и годный обзор, полено для поднимания стат. тестов - Статья на Хабр Для чуть большего погружения: - Бесплатный курс по А/Б-тестам от Яндекс-практикума - Достаточно известная (и очень полезная) книжка про весь процесс А/Б-тестирования: Trustworthy Online Controlled Experiments, Ron Kohavi , Diane Tang, Ya Xu (также есть на перевод на русский - Доверительное А/Б-тестирование) Когда ты погружаешься в тему, кажется, что все уже всё знают, ведь так много курсов, статей и разборов всех возможных ошибок. Но подозреваю, что на самом деле всё не так радужно и культуру экспериментов еще развивать и развивать. Поэтому делитесь этим постом с коллегами, давайте вместе двигать эксперименты в счастливое будущее 🚀
Показати все...
10👍 1
💪 Использование ML Вспомним, что CUPED - это линейная регрессия, так что нам мешает использовать продвинутый ML на большем количестве фичей? Ничего, так и надо делать. Существует несколько вариаций применения машинного обучения, которые глобально похожи - по предэкспериментальным (или просто независимым) данным предсказывается значение метрики в эксперименте. Но в отличие от CUPED эти походы могут находить нелинейные зависимости и сильнее сокращать дисперсию. Вот статьи, в которых можно про это почитать и посмотреть на код. Cupac / Doubly robust Обзор от Glovo Код - GitHub (единственное, там косяк в вычислении CUPED, надо поправить ковариацию) Статья от Авито на Хабр. MLRATE Статья на arxiv. Две статьи на medium про ускорение экспериментов, со сравнением нескольких методов ускорения: раз, два. Код из статей.
Показати все...
7🔥 1
🚀 Все что вам нужно знать про методы ускорения A/B-тестов Почему это вообще важно? Больше экспериментов означает больше проверенных (потенциально успешных) гипотез, которые улучшают продукт и приносят деньги. Иногда же, когда выборки маленькие, это просто вопрос того, а сможем ли мы достоверно задетектить хоть какой-то адекватный эффект. Из формулы для размера выборки можно понять, что почти единственная переменная, на которую мы можем влиять, - это дисперсия данных. Грубо говоря, большая дисперсия - это много шума, за которым маленький сигнал (размер эффекта) невозможно заметить. Поэтому большинство методов как раз будет направлено на уменьшение дисперсии. Я привел большинство известных мне методов и материалы, которые помогут хорошо в этом разобраться. Делитесь с коллегами! 🔬 Фильтрация выбросов Начнем с самого простого, но важного. Выбросы могут искажать распределение (и ломать t-test) и увеличивать дисперсию. Чтобы корректно их убрать - посчитайте ДО эксперимента какой-то квантиль, например 99-й, и после эксперимента отфильтруйте его. Подробнее читайте в статье от Авито: Статья на Хабр 🖇️ Стратификация / Пост-стратификация Если сэмплировать данные случайно, а потом побить их на группы (например по типу устройства), то дисперсия будет состоять из дисперсии внутригрупповой и дисперсии между группами. Так вот стратификация как раз помогает убрать дисперсию между группами и тем самым уменьшить итоговую. Подробнее читаем в отличной статье от X5. 🛫 CUPED Всеми любимый CUPED по-факту является линейной регрессией над ковариатой. Часто за нее берут значение пользовательской метрики перед экспериментом, но в целом она может быть любой, главное - не нее не должен влиять эксперимент. За счет того, что мы объясняем часть дисперсии данными до эксперимента, это позволяет выделить именно эффект от изменений и его дисперсия, как правило, меньше. К сожалению, он не всегда эффективен, например, когда у вас большинство покупок происходит один раз или просто редко (например про покупке авиабилета или машины), данных до эксперимента зачастую просто нет. А если у вас ratio-метрика, то сначала ее надо линеаризовать, после чего можно спокойно применять CUPED. - Статья от Netflix - Статья от X5 - Доклад от Валеры Бабушкина 📈 VWE Еще один интересный метод по сокращению дисперсии от Facebook, основанный на перевзвешивании, учитывая предэкспериментальные данные. По их исследованиям, вместе с CUPED дает почти 50% сокращение дисперсии. - Статья от Facebook - Обзор метода от expf
Показати все...
5
🏔️ Вы можете сказать, что в Грузию надо приезжать ради вина и хачапури. Я с вами конечно соглашусь, но добавлю в этот список горы. Вообще, даже небольшие хайки, когда можно на несколько часов отключиться от реальности среди леса или гор, считаю лучшим отдыхом и просто очень люблю. Вот так выглядит небольшой трекинг от Гомис Мта до озера Чинчао. Озеро выглядело как небольшая проталина в снегу и его почти не было видно, зато посмотрели на облака, понюхали рододендроны и насладились (выстрадали) двумя часами подъема на вершину. Было красиво. Над облаками тоже здорово постоять, как будто летишь на самолете, только стоишь на нормальной твердой земле.
Показати все...
18👍 2
🏔️Вы можете сказать, что в Грузию надо приезжать ради вина и хачапури. Я с вами конечно соглашусь, но добавлю в этот список горы. Вообще, даже небольшие хайки, когда можно на несколько часов отключиться от реальности среди леса или гор, считаю лучшим отдыхом и просто очень люблю. Вот так выглядит небольшой трекинг от Гомис Мта до озера Чинчао. Озеро выглядело как небольшая проталина в снегу и его почти не было видно, зато посмотрели на облака, понюхали рододендроны и насладились (выстрадали) два часа подъема на вершину. Было красиво. Над облаками тоже прикольно постоять, как будто летишь на самолете, только стоишь на нормальной твердой земле.
Показати все...
Фото недоступнеДивитись в Telegram
🏔️Как мотивировать себя учиться и покорять новые вершины? Хочу немного рассказать про то, как я учусь, развиваюсь профессионально и пытаюсь продолжать это делать. Набирая какой-то профессиональный опыт ты с одной стороны знаешь все больше, а с другой - понимаешь, что ничего не знаешь. И наверное это должно мотивировать учиться дальше, больше и вот это все, но я замечаю за собой, что сил (а иногда и желания) становится все меньше. Сейчас кажется, что будучи студентом на первых курсах универа (так сказать голодным и злым), мотивировать себя учиться очень просто. Понятно, что это в целом лучшее для образования время, но я немного про другое. Расскажу про свой опыт - для меня это был вопрос закрытия базовых потребностей и попыток выйти из режима выживания. Мотивация заработать денег, съехать с общаги, приправленные любовью учиться и новой интересной областью (вот эти ваши науки о данных и машинное обучение), позволяют поглощать курсы, книги просто тоннами и бежать вперед. Проходит какое-то время, хорошая работа найдена, базовые потребности закрыты, и вот тут уже сильно сложнее становится мотивировать себя развиваться дальше после годов марафона постоянной учебы для достижения этой цели. В общем сейчас я на этом этапе. Курсы и книги уже не влезают так бодро, а мозг все чаще требует просто посидеть и повтыкать на море без загрузки его информацией. Вообще, считаю, что для успешная учебы нужно два фактора: целеполагание и самодисциплина (и немного таланта). Думаю без мотивации и целеполагания вообще сложно жить. На эту тему можно почитать у Франкла в «Скажи жизни да», благо мы не в концлагере, а в сравнительно ванильном IT, но кто знает, до чего все дойдет в ближайшее время. А самодисциплина на дистанции правда берет свое, а если вам повезло и есть талант, то тогда можно двигать горы (фото к посту как раз примерно с 2500 метров, из них набрано высоты всего-то метров 300-400, но было тяжко). Сейчас переосмысливаю свою мотивацию и в это время чуть больше полагаюсь на самодисциплину, тщательнее выбираю то, что мне действительно нужно изучить. Ну и еще нормально принимать то, что бывают выгорания и надо давать себе время (возможно длительное) просто отдохнуть. А одна из целей этого блога - продолжать учиться и хоть немного мотивировать это делать других людей. Потому что тот огонь, который загорается в глазах при изучении чего-то нового и интересного, это определенно одна из вещей, ради которых хочется жить. И как учил Фейнман - чтобы в чем-то разобраться, нужно объяснить это другим, чем я и учусь заниматься. Книжная рекомендация номер два - «Вы, конечно, шутите, мистер Фейнман!». Фейнман - гений, который определенно мотивирует на развитие, а книга шикарна. Получился вот такой пост-рефлексия. Делитесь в комментариях своими историями обучения и профессионального развития, буду рад их прочитать, уверен есть очень много крутых и мотивирующих!
Показати все...
14
В догонку к посту с прошлой недели про разбор статьи. А какие статьи-то читать? Делюсь годными подборками: 💪 Список от легендарного Валеры Бабушкина, с большим количеством статей про байесовкое тестирование. Было бы интересно спросить, использует ли он его в BP или предпочитает последовательное тестирование. 📚 GitHub с подборкой статей от топовых компаний в сфере экспериментов, с разбивкой по темам. 💡 Блоги компаний про эксперименты: - Microsoft - Airbnb - Netflix - Booking - Spotify - Eppo
Показати все...
🔥 10 1
В одном из прошлых постов рассказал про то, что есть такой замечательный город Танжер в Марокко, где я жил целый (диджитал номадский) месяц. Сегодня про то, что есть вокруг него. 🌊 Океан и парк Откровенно говоря, в Танжере не самый трушный океан, там уже начало Гибралтарского пролива и ближе к средиземному морю. Но вот отъехав чуть дальше, океан можно увидеть во всей красе. Причем можно найти место с табличкой, которая об этом сообщает. Проезжаем ее и начинаем наслаждаться. Еще вокруг Танжера много лесопарков (мы гуляли по парку Пердикарис) и удивительная береговая линия, фото в подтверждение прилагаются. ⛰️Геркулесовы пещеры Знамениты своим проемом в виде Африканского материка. В целом, красивое. Про нее есть две совершенно замечательных и максимально не похожих друг на друга легенды. Одна гласит, что тут отдыхал Геракл перед тем как похитить яблоки Гесперид. Вторая - что от них идет тоннель в Европу, через который туда перебрались обезьяны маготы (единственная обезьяна, живущая в диком виде на территории Европы, как сообщает Википедия). 💡Маяк Спартель Просто красивый маяк. Хотя нет, не просто. Легенды гласят, что рядом с мысом затонул остров Спартель, который по этим самым легендам и словам некоторых исследователей (вероятно британских) является Атлантидой. Не вижу причин им не верить. А внутри маяка была найдена фотография первого парусного фрегата «Штандартъ» из балтийского флота Петра I, который должен быть тонущим бразильским кораблем Dona Isabella. Какая-то марокканская магия.
Показати все...
9
Новая рубрика в блоге - разбор статей. Давно хочу начать читать умные научные статьи, но заставить себя это делать достаточно сложно (если у вас есть куча открытых вкладок со статьями, лекциями и курсами, ставьте лайк). Поэтому иногда буду мотивировать себя наличием блога и делиться тут обзорами хороших статей. Сегодня статья про расчет размера выборки для A/B-тестов - https://arxiv.org/pdf/2305.16459. Статья понятная, практичная и покрывает почти все, что нужно знать про расчет размера выборки. Почему это важно? Не все тесты - тесты с конверсией, где можно использовать калькулятор. Так же бывают разные типы метрик, например - ratio-метрики, для которых есть свои нюансы. Попутно возникает много вопросов, например про MDE, в какой пропорции по группам запускать тест и много чего еще. В статье как раз можно найти ответы (готовые формулы), которые потом очень просто реализовать в коде. Основные разделы: - Про расчет размера выборки для пользовательских метрик. Тут про многим известную формулу для непрерывных метрик и конверсий, а еще про то, что при разбиении групп 50/50 суммарный размер выборки будет минимальным. - Про ratio-метрики. Показывают, что из-за появления зависимости в данных растет дисперсия, и в случае ratio-метрик для ее вычисления надо использовать дельта метод. - Про относительные эффекты. Если вы хотите дизайнить тест для относительного эффекта, то просто так подставлять условные 5% в формулу нельзя. Там появляется деление на исходную метрику, у которой тоже есть своя дисперсия, поэтому нужна коррекция, чтобы мощность и значимость оставались на заданном уровне. - Про best practices дизайна тестов. Тут про отличия MDE от MOD (было прикольно про это прочитать), можно ли применять t-test к данным с ненормальным распределением (спойлер - можно) и про дизайн теста с разными пропорциями теста и контроля. В общем, вердикт - определенно must read, особенно про расчет размера выборки для ratio-метрик.
Показати все...

👍 10 5
Фото недоступнеДивитись в Telegram
Как я использую ChatGPT в работе продуктовым аналитиком? Опытным методом пришел к ряду задач, в которых ChatGPT может отлично помочь. В основном это вещи, связанные с написанием кода и поиском информации на стероидах. Получился вот такой список: 📜 Написание SQL и Python кода. Часто есть задачи, которые относительно простые, но требуют времени. Это могут быть какие-то адхоки, простые sql запросы, и на самом деле все что угодно с понятной логикой. Такой код ChatGPT умеет прекрасно писать и его легко проверить на корректность. 📊 Визуализация. Часто использую именно для построения графиков в питоне. Я лично никак не могу запомнить все параметры функций из plotly и seaborn, а ChatGPT помнит их очень хорошо. Просто описываете свои данные, просите построить нужный вам график и вуаля. Еще один (нечаянно обнаруженный) вариант - передать ваши значения в запросе и попросить нужную визуализацию, ChatGPT в ответе выдаст готовый график. 🐞 Работа с ошибками в коде. Тут все понятно - вместо гугла и stack overflow просто спрашиваете что за ошибка и обычно получаете годный ответ. 📑 Базовый EDA. Можно в некотором роде использовать вместо Jupyter Notebook - загружаете ваш CSV и задаете человеческим языком вопросы про данные. Для базового анализа работает очень даже неплохо. 📝 Суммаризация информации. Полезно для анализа проведенных пользовательских опросов, анализа отзывов, любой другой агрегации разрозненной информации. 💡 Генерация идей. Можно как попросить нагенерить идей для решения вашей задачи, так и использовать его как виртуального коллегу об которого можно почелленджить ваши идеи. 📚 Обучение и изучение новых инструментов. Тут можно изучать как программирование в виде новых библиотек, языков и тп, так и для общего изучения нового. ChatGPT умеет коротко описывать требуемые знания. Из лайфхаков - просил его составить cheat sheet для некоторых разделов (например статистике) при подготовке к собеседованиям, получалось хорошо. Призываю помнить, что ChatGPT является лишь инструментом, который допускает ошибки, иногда выдает всякий булшит лишь бы ответить, а его идеи и советы часто являются достаточно поверхностными и не всегда приносят пользу. Делитесь в комментариях, а как вы используете ChatGPT и для каких задач он наиболее эффективен?
Показати все...
15👍 1
Оберіть інший тариф

На вашому тарифі доступна аналітика тільки для 5 каналів. Щоб отримати більше — оберіть інший тариф.