Телекомпания Вит

رفتن به کانال در Telegram

Сооснователь EXPF / продал бизнес в Авито / пишу про то, что хочется Для связи - @vitche trisigma.io

نمایش بیشتر

کشور مشخص نشده استدسته بندی مشخص نشده است

464

مشترکین

-124 ساعت

+17 روز

+3530 روز

293

نمایش های پست

~ 15424 ساعت

~ 16148 ساعت

63.28%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

464

9го июля буду выступать на data day в Москве. Если вы вдруг туда собираетесь – буду рад поболтать!)

464

Repost from Trisigma — про эксперименты

Всем привет, это Искандер. 🔵В прошлый раз я поделился с вами пейпером про подход с ARMA-Design от нескольких международных университетов. Следующий пейпер, который хочу обсудить, снова про нарушение SUTVA, но уже не во времени, а в пространстве.

Откуда проблема Запускаете A/B на социальной сети: часть пользователей получает новый тип реакций, часть — нет. Казалось бы, всё чисто. Но контрольные пользователи видят, что их друзья из treatment что-то делают иначе. Они, в свою очередь, меняют свое поведение. ATE по итогу будет смещён, и авторы оценивают это смещение в 30%+. Очевидно перед нами сетевой эффект. Но стандартные способы с ним бороться работают плохо. Наиболее популярных подход и его проблемы Чаще всего используется сплиттование через Cluster randomization: назначаем воздействие кластерам пользователей, а не индивидуально. Тогда spillover-эффект внутри кластера, но не между ними. Проблема: теряется мощность за счет перехода на новый уровень рандомизации, и кластеры часто плохо соответствуют тому, как реально распространяется воздействие от A/B. Что предлагают авторы Двухшаговый метод, который автоматизирует задание exposure mapping. Шаг первый: для каждого пользователя строится вектор — causal network motif. Он описывает топологию ближайшего окружения с учётом того, кто из соседей обработан. Важна не просто доля обработанных, а структура связей между ними. «4 друга, 2 обработаны, и они между собой связаны» — это другой мотив, чем «2 из 4 обработаны, но изолированы друг от друга». Плотный кластер обработанных давит на поведение иначе, чем рассеянные. Шаг второй: эти векторы кластеризуются алгоритмом ближайших соседей. На выходе — автоматически найденные группы с разными паттернами интерференции. Целевая метрика — GATE: что было бы, если бы все получили фичу, против состояния, где никто ничего не получил. Не "насколько лучше у тех, кому показали" — а глобальный эффект с учётом spillover эффекта. Проверка Протестировали на синтетике и на реальном крупном тесте. По точности оценки GATE — выше cluster randomization. Когда это нужно Продукты с механиками социального взаимодействия с вирусным компонентом: реакции, шеринг, рекомендации «добавить в друзья». Двусторонние маркетплейсы, где обработка продавца влияет на покупателей. В общем — всё, где SUTVA нарушается через явные связи в графе, а не через время. От себя Практически важнее самого алгоритма — диагностика. Большинство команд вообще не проверяют, есть ли интерференция. Обычно просто говорят – «у нас есть сетевой эффект». Если граф пользователей доступен, тест на отсутствие spillover — несложная операция, которая может перевернуть интерпретацию уже прошедших экспериментов.

Если есть мысли, пишите в комментах. Trisigma — канал про A/B-тестирование #trisigma

464

VWO опубликовали исследование – опросили 108 компаний, насколько зрелые у них процессы экспериментирования. Разобрал, что там внутри. Сразу честно: выборка смещенная. Отвечали клиенты VWO – то есть те, кто уже купил платформу и скорее всего доволен. Это как спрашивать у людей в спортзале, занимаются ли они спортом. Но кое-что интересное там все равно есть. Главный парадокс отчета 56% компаний запускают 1–2 теста в месяц. И при этом 75% говорят, что главная цель на год – запускать больше тестов. То есть все знают что надо делать. Никто не делает. Причина называется честно – не хватает людей и времени. Не инструментов, не бюджета. Просто руки не доходят. Что западает у всех без исключения Приоритизация. Команды берут в работу то, что проще построить, а не то, что важнее. Самый низкий балл из всего исследования. Про AI 86% команд уже используют AI в экспериментах. В основном – чтобы быстро делать варианты текстов и не смотреть вручную записи сессий пользователей часами. Мое мнение Отчет про западные CRO-команды, которые оптимизируют лендинги. В продуктовых командах картина другая. Но парадокс с velocity – он везде одинаковый. Все хотят больше экспериментов, мало кто строит систему, которая это позволяет. Если хотите быстро понять где вы – ответьте на два вопроса: сколько тестов вы запускаете в месяц и по какому принципу выбираете что тестировать следующим. Канал «Телекомпания Вит»

464

Быстрый опрос – если вдруг кто то в Лондоне и хочет выпить кофе, буду рад!)

464

Ну и чтобы не выглядело так, что из впечатлений - только кепка. Вы посмотрите что там было , просто до мурашек.

464

Мы вчера были с женой на концерте Ye (Канье Вест). Очередь на вход - была просто огромная и очень утомительная. Видимо в какой-то момент мне стало настолько скучно, что я решил предложить поменяться кепками сотруднику сцены. Он согласился. А я теперь сижу и жалею, моя старая кепка мне очень нравилась. Ну и парой фоток с вами поделюсь.

464

Repost from N/a

Про Авито, Трисигму и SaaS B2B 🙃 А что вы там вообще делаете? Рассказываю! У нас тут тот самый случай, когда сработали и идея внутренней разработки, ставшей коммерческим продуктом, и B2B SaaS стартап с экзитом в Авито (ссылка на форбс). Продуктово — экосистема, объединяющая две платформы и консалтинг. Изначально SaaS, постепенно добавляются другие форматы поставки. Помогаем ускорять и масштабировать процессы А/В-тестирования 📈 Считаю, что самая большая удача для маркетинга — действительно хорошо работающий продукт и команда бизнеса, готовая вписываться во все идеи и «а что если». Мне повезло еще больше — инициатива идет от всех, объяснять «зачем» и «кому это надо» не приходится. Теперь хвастаюсь🙂‍↕️ Год назад у нас была презентация, на коленке собранный митап и три поста. Сейчас есть стратегия, медиаплан, кейсы, выпущен первый хендбук, провели несколько офлайн-мероприятий, онлайн даже не считаю, живет тг-канал. Одним словом — молодцы. С одной стороны, безусловно, за этим стоит труд, но с другой — искреннее желание всех причастных сделать хорошо, качественно и интересно. Для меня это самое ценное. Что еще — к нам стали приходить с запросами на совместное участие, коллаборации, партнерские мероприятия, консультации. Вот на следующей неделе едем в Газпром читать лекцию про построение цифровых продуктов. Такая оценка очень честная — в стратегии основным фокусом была наша командная экспертность, значит, все работает правильно. Как видите — я очень горжусь результатами, а когда так, работается совсем по-другому 💎

464

У trisigma.io - очень крутой маркетинг. В том смысле, как я понимаю маркетинг для сложного b2b продукта. Экспертный / с хорошим пониманием домена / с фокусов на рынок и клиента. За маркетинг у нас отвечает Маша и она недавно завела свой канал. Делюсь постом про тот самый крутой маркетинг.

464

Сегодня год нашей сделке с Авито. Я давно хотел начать писать здесь что-то личное – и все время откладывал. Пожалуй, начну с этого. За год – мы очень круто выросли, очень много чего сделали, но история не про это. Пока мы закрывали сделку, я закрыл коробок конфет на лишние 20 кг. Это, пожалуй, лучшее описание моего ментального состояния в тот период. Избавился я от них кстати еще быстрее чем набрал - но это другая история и могу рассказать отдельно (пишите в комментах). Сделка – это не просто этап в жизни бизнеса. В какой-то момент она перестает быть транзакцией и становится экзистенциальным вопросом. Очень личным. Тебя бросает эмоционально, твой мир начинает крутиться только вокруг нее. А вообще то твой мир должен крутиться вокруг твоей жены. Это кстати не шутка - быть подкаблучником, самая мудрая стратегия, которой я намучился за 35 лет жизни. Но это тоже другая история) И когда наконец ставишь галочку – выдыхаешь. Радуешься. Но ненадолго. Есть такая штука - паппи блюз. Ты очень ждешь собаку. Собака дома. И тут выясняется, что собаке глубоко фиолетово, сколько стоят твои кроссовки от знаменитого дизайнера из Грузии. Со сделкой – то же самое. Ты ждешь эмоционального освобождения, а получаешь интеграцию. Твой бизнес нужно встроить в другой бизнес. Огромный. Готов ли твой бизнес к этому? Технически - вроде да. Но не обольщайся) И именно интеграция – самая уязвимая часть. Мы ее прошли нормально, но основные вызовы были именно там. Не потому что с Авито что-то не так – с ними (нами) все прекрасно . А потому что я лично был просто не готов. Не на уровне "сдался" – на уровне ожиданий. Я ждал увлекательную историю, а получил увлекательный геморрой на полгода. Год спустя – не жалею ни о чем. Но если бы мог сказать себе тогда что-то одно: сделка – это не финиш. Это старт другого забега, к которому ты не тренировался. А ты так то вообще мало тренировался в это время, ты конфеты (дубайский шоколад) жрал. Про интеграцию, про то каково это – быть фаундером внутри корпорации, и про то что в итоге получилось – напишу отдельно. Там есть что рассказать. Канал «Телекомпания Вит»

464

Готовлюсь к выступлению – тема не новая, но вечная: методы ускорения экспериментов. Один из них – CUPED. Кажется, только ленивый про него не читал, большинство так или иначе пробовали руками. Если брать CUPED в базовом виде – по оригинальной статье – одна из ключевых настроек это окно ковариаты: какой ретро-период брать. Влияние на чувствительность очевидно и легко проверяется симуляциями. Но есть момент, который проверяют куда реже – сонаправленность эффектов до и после CUPED. Можно так увлечься оптимизацией окна, что lift метрики без CUPED и lift с CUPED начнут расходиться по знаку. И тогда теряется интерпретируемость – а вместе с ней и практическая применимость метода. Sign consistency – вероятность того, что raw-оценка эффекта и adjusted-оценка имеют одинаковый знак. Формально: если обе положительные или обе отрицательные – эффект сонаправлен. Если знаки разные – CUPED изменил не просто ширину доверительного интервала, а качественный вывод о направлении эффекта. На практике аналитик смотрит на raw-эффект как на sanity check. Расхождение знаков – это сигнал: либо выборка слишком мала, либо ковариата слабая. В обоих случаях доверять скорректированной оценке опасно. Как быстрый вывод – проверяйте! Базовый CUPED (Deng et al., 2013) – линейная регрессия одной ковариаты на метрику. Простота – его сила. Но за 10+ лет накопилось несколько направлений развития. 1. Множественные ковариаты – MLR-CUPED Вместо одной переменной – несколько: активность за разные периоды, сегмент пользователя, платформа. Помогает, когда одна ковариата объясняет только часть дисперсии. Риск – переобучение и нестабильность коэффициентов на малых выборках. Но значительно меньше проблем со направленностью 2. Нелинейные ковариаты – ML-CUPED Линейная связь между ковариатой и метрикой – упрощение. В реальности зависимость часто нелинейная. Подход: обучить модель (градиентный бустинг, нейросеть) предсказывать метрику по ковариатам, использовать остатки как скорректированную метрику. Оптимизация чувствительности выше, но интерпретируемость падает – и проблема сонаправленности становится еще критичнее.

464

Готовлюсь сейчас к выступлению – тема не новая, но вечная: методы ускорения экспериментов. Один из них – CUPED. Кажется, только ленивый про него не читал, большинство так или иначе пробовали руками. Если брать CUPED в базовом виде – по оригинальной статье – одна из ключевых настроек это окно ковариаты: какой ретро-период брать. Влияние на чувствительность очевидно и легко проверяется симуляциями. Но есть момент, который проверяют куда реже – сонаправленность эффектов до и после CUPED. Можно так увлечься оптимизацией окна, что lift метрики без CUPED и lift с CUPED начнут расходиться по знаку. И тогда теряется интерпретируемость – а вместе с ней и практическая применимость метода. Sign consistency – вероятность того, что raw-оценка эффекта и adjusted-оценка имеют одинаковый знак. Формально: если обе положительные или обе отрицательные – эффект сонаправлен. Если знаки разные – CUPED просто испортил вашу метрику, а если вы этого не заметили, но и эксперименты или эксперименты убил. Как быстрый вывод – проверяйте! Базовый CUPED (Deng et al., 2013) – линейная регрессия одной ковариаты на метрику. Простота – его сила. Но за 10+ лет накопилось несколько направлений развития. 1. Множественные ковариаты – MLR-CUPED Вместо одной переменной – несколько: активность за разные периоды, сегмент пользователя, платформа. Помогает, когда одна ковариата объясняет только часть дисперсии. Риск – переобучение и нестабильность коэффициентов на малых выборках. Но значительно меньше проблем со направленностью 2. Нелинейные ковариаты – ML-CUPED Линейная связь между ковариатой и метрикой – упрощение. В реальности зависимость часто нелинейная. Подход: обучить модель (градиентный бустинг, нейросеть) предсказывать метрику по ковариатам, использовать остатки как скорректированную метрику. Оптимизация чувствительности выше, но интерпретируемость падает – и проблема сонаправленности становится еще критичнее. Канал «Телекомпания Вит»

464

О признании ошибок В моей карьере был период, когда я считал себя суперзвездой аналитики. И именно на пике этой уверенности случилась одна из самых неприятных историй за всю мою практику. Я тогда работал в консалтинге. Мы готовились к важнейшей встрече с правлением крупного казахстанского банка. К очным переговорам все было готово, оставалось лишь доделать аналитический отчет. Время поджимало, и я решил закончить работу в самолете — казалось, что перелета вполне хватит. Я скачал оставшиеся данные (договор это позволял) и спокойно поехал в аэропорт. Весь полет я занимался расчетами и презентацией. В отеле лег спать со спокойной душой. Кстати, спал так крепко, что даже не услышал пожарную тревогу, а коллеги так и не смогли меня добудиться. Утром мы приехали в банк. Члены правления оказались очень приветливыми и тепло нас встретили. Встреча начиналась как раз с моего доклада. Я открыл презентацию, начал рассказывать… Но уже через 10 минут меня остановили и спросили, откуда взялись эти цифры. Я назвал источники. Тут и выяснилось, что я перепутал источники — данные были неактуальными. Моему стыду и огорчению не было предела. Так паршиво я не чувствовал себя в карьере еще никогда. После этого провала я еще полгода буквально панически боялся ездить на встречи и презентовать результаты работы. Самой истории уже больше восьми лет, но я до сих пор помню ее поминутно. Это была моя первая крупная ошибка, которая могла стоить компании огромных денег и репутации. Когда свои части докладов закончили коллеги, я подошел к главе правления. Честно извинился и предложил за свой счет все переделать, а затем презентовать заново. В итоге мы успешно проработали с этим клиентом еще два интересных года. Но извлекать этот урок было крайне больно. Морали не будет. Просто не зазнавайтесь.

464

Чем занимаюсь

Anonymous voting

464

Симулятор по планированию экспериментов. Планирование экспериментов — один из самых недооцененных этапов в A/B. Именно из-за ошибок на этом этапе случается большинство проблем: долгие пересчеты, недоверие результатам, бесконечные перезапуски. Симулятор помогает отточить эти навыки и закрепить на практике. 8 модулей — от базовой теории до расширенной практики: – Ошибки I/II рода и мощность – MDE, Lift и Effect Size – Формула размера выборки и её рычаги – Трейдофф α, мощности и скорости – Множественные сравнения – Подглядывание и MDE факт vs прогноз – Monte Carlo и проверка чувствительности Формат: теория - > интерактивный симулятор -> практические задачи. В чем основное отличие от того, о чем мы рассказывали раньше 1) Это полноценный инструмент для изучения теории и закрепления материалов на пратике 2) Вы погружаетесь в домен / решаете задачи / закрепляете на симуляциях 3) Доступ оплачивается один раз и остается с вами навсегда Симулятор – как планировать время на эксперименты Канал «Телекомпания Вит»

464

Месяц назад беседовали с Искандером с Коммерсантом. И вот наконец вышла статья / интервью. Про рынок платформ экспериментов / предпосылки к появлению и развитию. И небольшие планы на будущее. https://www.kommersant.ru/doc/8674837

464

Планирование времени на эксперимент – очень фундаментальная и часто игнорируемая задача. В рамках exp-tools собрали новый симулятор – расчёт размера выборки для A/B Что в нем есть: два режима под разные типы метрик: ⁃ Доли / Конверсия – задаёшь базовый CR и MDE, считает через z-test (есть выбор между точной формулой CPS и упрощённой) ⁃ Непрерывная метрика – задаёшь μ и σ, считает через t-test MDE можно задать двумя способами – абсолютный (п.п.) или относительный (% от базового значения). параметры теста: ⁃ α (уровень значимости) ⁃ Мощность – двусторонний / односторонний критерий плюс секция трафика: DAU и доля аудитории под эксперимент – сразу считает сколько дней займёт набор выборки Что в итоге: ⁃ n на группу и total N – длительность в днях ⁃ What-if таблица: "что если подвинуть MDE": −50%, −25%, +50%, +100% сразу видишь n и дни для каждого сценария. Это самое полезное: не нужно крутить параметры вручную, trade-off между чувствительностью и временем виден сразу ⁃ График N vs MDE (в режиме непрерывной метрики) – Помогает почувствовать, как резко растёт выборка при малых эффектах Канал «Телекомпания Вит»

464

Если в этой квартире я действительно буду счастлив – заплачу. Но только как почувствую счастье! Звучит абсурдно. Но именно так устроен рынок B2B-пилотов. Мы хотим вещь – покупаем. Нужна машина – берём кредит. За еду платим. За большинство ценностей в жизни платим заранее, принимая риск. А в B2B почему-то работает другая логика. Вендоры и разработчики решений массово жалуются: «никто не хочет платить, но все хотят бесплатный пилот». И каждый новый игрок идёт по той же тропе – даёт бесплатно, надеется что купят. Но есть неприятный нюанс, который не всегда очевиден. После бесплатного пилота покупать будут очень долго – или не будут вообще. Потому что когда бесплатно – на стороне клиента никто не взял на себя ответственность: • никто не пошёл согласовывать бюджет • никто не прошел юридическую воронку и не подписывал договор • никто не закоммитил презентовать результат пилота руководству Бесплатный пилот – это чья-то локальная инициатива. Её не нужно согласовывать, защищать и отвечать за результат. А вот платный пилот – даже небольшой – сразу включает корпоративные процессы. И у менеджера на стороне покупателя появляется личная ответственность за исход. Вывод: если ты B2B и метишь в крупный сегмент – не делай бесплатных пилотов. Скорее всего они не помогут. А вот рынок – подпортят.

464

Искандер (отвечает за продукты trisigma.io/ сооснователь и ex.CPO EXPF) с командой сделали хендбук по A/B-тестированию. Подробный и бесплатный материал, который поможет увеличить кругозор в домене, вспомнить статистику и даже кейсы порешать. Качаем / изучаем и делимся с друзьями! Канал «Телекомпания Вит»

464

Новая рубрика – вопросы на подумать и обсудить! Правило – не пользуемся LLM и поиском. Если симулируете t-тест методом Монте-Карло при верной H₀ – какое распределение должно быть у числителя и знаменателя t-статистики? Почему? Канал «Телекомпания Вит»