ar
Feedback
Телекомпания Вит

Телекомпания Вит

الذهاب إلى القناة على Telegram

Сооснователь EXPF / продал бизнес в Авито / пишу про то, что хочется Для связи - @vitche trisigma.io

إظهار المزيد
لم يتم تحديد البلدالفئة غير محددة
464
المشتركون
-124 ساعات
+17 أيام
+3530 أيام
أرشيف المشاركات
9го июля буду выступать на data day в Москве. Если вы вдруг туда собираетесь – буду рад поболтать!)
9го июля буду выступать на data day в Москве. Если вы вдруг туда собираетесь – буду рад поболтать!)

Всем привет, это Искандер. 🔵В прошлый раз я поделился с вами пейпером про подход с ARMA-Design от нескольких международных университетов. Следующий пейпер, который хочу обсудить, снова про нарушение SUTVA, но уже не во времени, а в пространстве.
Откуда проблема Запускаете A/B на социальной сети: часть пользователей получает новый тип реакций, часть — нет. Казалось бы, всё чисто. Но контрольные пользователи видят, что их друзья из treatment что-то делают иначе. Они, в свою очередь, меняют свое поведение. ATE по итогу будет смещён, и авторы оценивают это смещение в 30%+. Очевидно перед нами сетевой эффект. Но стандартные способы с ним бороться работают плохо. Наиболее популярных подход и его проблемы Чаще всего используется сплиттование через Cluster randomization: назначаем воздействие кластерам пользователей, а не индивидуально. Тогда spillover-эффект внутри кластера, но не между ними. Проблема: теряется мощность за счет перехода на новый уровень рандомизации, и кластеры часто плохо соответствуют тому, как реально распространяется воздействие от A/B. Что предлагают авторы Двухшаговый метод, который автоматизирует задание exposure mapping. Шаг первый: для каждого пользователя строится вектор — causal network motif. Он описывает топологию ближайшего окружения с учётом того, кто из соседей обработан. Важна не просто доля обработанных, а структура связей между ними. «4 друга, 2 обработаны, и они между собой связаны» — это другой мотив, чем «2 из 4 обработаны, но изолированы друг от друга». Плотный кластер обработанных давит на поведение иначе, чем рассеянные. Шаг второй: эти векторы кластеризуются алгоритмом ближайших соседей. На выходе — автоматически найденные группы с разными паттернами интерференции. Целевая метрика — GATE: что было бы, если бы все получили фичу, против состояния, где никто ничего не получил. Не "насколько лучше у тех, кому показали" — а глобальный эффект с учётом spillover эффекта. Проверка Протестировали на синтетике и на реальном крупном тесте. По точности оценки GATE — выше cluster randomization. Когда это нужно Продукты с механиками социального взаимодействия с вирусным компонентом: реакции, шеринг, рекомендации «добавить в друзья». Двусторонние маркетплейсы, где обработка продавца влияет на покупателей. В общем — всё, где SUTVA нарушается через явные связи в графе, а не через время. От себя Практически важнее самого алгоритма — диагностика. Большинство команд вообще не проверяют, есть ли интерференция. Обычно просто говорят – «у нас есть сетевой эффект». Если граф пользователей доступен, тест на отсутствие spillover — несложная операция, которая может перевернуть интерпретацию уже прошедших экспериментов.
Если есть мысли, пишите в комментах. Trisigma — канал про A/B-тестирование #trisigma

VWO опубликовали исследование – опросили 108 компаний, насколько зрелые у них процессы экспериментирования. Разобрал, что там внутри. Сразу честно: выборка смещенная. Отвечали клиенты VWO – то есть те, кто уже купил платформу и скорее всего доволен. Это как спрашивать у людей в спортзале, занимаются ли они спортом. Но кое-что интересное там все равно есть. Главный парадокс отчета 56% компаний запускают 1–2 теста в месяц. И при этом 75% говорят, что главная цель на год – запускать больше тестов. То есть все знают что надо делать. Никто не делает. Причина называется честно – не хватает людей и времени. Не инструментов, не бюджета. Просто руки не доходят. Что западает у всех без исключения Приоритизация. Команды берут в работу то, что проще построить, а не то, что важнее. Самый низкий балл из всего исследования. Про AI 86% команд уже используют AI в экспериментах. В основном – чтобы быстро делать варианты текстов и не смотреть вручную записи сессий пользователей часами. Мое мнение Отчет про западные CRO-команды, которые оптимизируют лендинги. В продуктовых командах картина другая. Но парадокс с velocity – он везде одинаковый. Все хотят больше экспериментов, мало кто строит систему, которая это позволяет. Если хотите быстро понять где вы – ответьте на два вопроса: сколько тестов вы запускаете в месяц и по какому принципу выбираете что тестировать следующим.  Канал «Телекомпания Вит»

Быстрый опрос – если вдруг кто то в Лондоне и хочет выпить кофе, буду рад!)

Ну и чтобы не выглядело так, что из впечатлений - только кепка. Вы посмотрите что там было , просто до мурашек.

Мы вчера были с женой на концерте Ye (Канье Вест). Очередь на вход - была просто огромная и очень утомительная. Видимо в како
+2
Мы вчера были с женой на концерте Ye (Канье Вест). Очередь на вход - была просто огромная и очень утомительная. Видимо в какой-то момент мне стало настолько скучно, что я решил предложить поменяться кепками сотруднику сцены. Он согласился. А я теперь сижу и жалею, моя старая кепка мне очень нравилась. Ну и парой фоток с вами поделюсь.

Repost from N/a
Про Авито, Трисигму и SaaS B2B 🙃 А что вы там вообще делаете? Рассказываю! У нас тут тот самый случай, когда сработали и иде
+4
Про Авито, Трисигму и SaaS B2B 🙃 А что вы там вообще делаете? Рассказываю! У нас тут тот самый случай, когда сработали и идея внутренней разработки, ставшей коммерческим продуктом, и B2B SaaS стартап с экзитом в Авито (ссылка на форбс). Продуктово — экосистема, объединяющая две платформы и консалтинг. Изначально SaaS, постепенно добавляются другие форматы поставки. Помогаем ускорять и масштабировать процессы А/В-тестирования 📈 Считаю, что самая большая удача для маркетинга — действительно хорошо работающий продукт и команда бизнеса, готовая вписываться во все идеи и «а что если». Мне повезло еще больше — инициатива идет от всех, объяснять «зачем» и «кому это надо» не приходится. Теперь хвастаюсь🙂‍↕️ Год назад у нас была презентация, на коленке собранный митап и три поста. Сейчас есть стратегия, медиаплан, кейсы, выпущен первый хендбук, провели несколько офлайн-мероприятий, онлайн даже не считаю, живет тг-канал. Одним словом — молодцы. С одной стороны, безусловно, за этим стоит труд, но с другой — искреннее желание всех причастных сделать хорошо, качественно и интересно. Для меня это самое ценное. Что еще — к нам стали приходить с запросами на совместное участие, коллаборации, партнерские мероприятия, консультации. Вот на следующей неделе едем в Газпром читать лекцию про построение цифровых продуктов. Такая оценка очень честная — в стратегии основным фокусом была наша командная экспертность, значит, все работает правильно. Как видите — я очень горжусь результатами, а когда так, работается совсем по-другому 💎

У trisigma.io - очень крутой маркетинг. В том смысле, как я понимаю маркетинг для сложного b2b продукта. Экспертный / с хорошим пониманием домена / с фокусов на рынок и клиента. За маркетинг у нас отвечает Маша и она недавно завела свой канал. Делюсь постом про тот самый крутой маркетинг.

Сегодня год нашей сделке с Авито. Я давно хотел начать писать здесь что-то личное – и все время откладывал. Пожалуй, начну с этого. За год – мы очень круто выросли, очень много чего сделали, но история не про это. Пока мы закрывали сделку, я закрыл коробок конфет на лишние 20 кг. Это, пожалуй, лучшее описание моего ментального состояния в тот период. Избавился я от них кстати еще быстрее чем набрал - но это другая история и могу рассказать отдельно (пишите в комментах). Сделка – это не просто этап в жизни бизнеса. В какой-то момент она перестает быть транзакцией и становится экзистенциальным вопросом. Очень личным. Тебя бросает эмоционально, твой мир начинает крутиться только вокруг нее. А вообще то твой мир должен крутиться вокруг твоей жены. Это кстати не шутка - быть подкаблучником, самая мудрая стратегия, которой я намучился за 35 лет жизни. Но это тоже другая история) И когда наконец ставишь галочку – выдыхаешь. Радуешься. Но ненадолго. Есть такая штука - паппи блюз. Ты очень ждешь собаку. Собака дома. И тут выясняется, что собаке глубоко фиолетово, сколько стоят твои кроссовки от знаменитого дизайнера из Грузии. Со сделкой – то же самое. Ты ждешь эмоционального освобождения, а получаешь интеграцию. Твой бизнес нужно встроить в другой бизнес. Огромный. Готов ли твой бизнес к этому? Технически - вроде да. Но не обольщайся) И именно интеграция – самая уязвимая часть. Мы ее прошли нормально, но основные вызовы были именно там. Не потому что с Авито что-то не так – с ними (нами) все прекрасно . А потому что я лично был просто не готов. Не на уровне "сдался" – на уровне ожиданий. Я ждал увлекательную историю, а получил увлекательный геморрой на полгода. Год спустя – не жалею ни о чем. Но если бы мог сказать себе тогда что-то одно: сделка – это не финиш. Это старт другого забега, к которому ты не тренировался. А ты так то вообще мало тренировался в это время, ты конфеты (дубайский шоколад) жрал. Про интеграцию, про то каково это – быть фаундером внутри корпорации, и про то что в итоге получилось – напишу отдельно. Там есть что рассказать. Канал «Телекомпания Вит»

Готовлюсь к выступлению – тема не новая, но вечная: методы ускорения экспериментов. Один из них – CUPED. Кажется, только ленивый про него не читал, большинство так или иначе пробовали руками. Если брать CUPED в базовом виде – по оригинальной статье – одна из ключевых настроек это окно ковариаты: какой ретро-период брать. Влияние на чувствительность очевидно и легко проверяется симуляциями. Но есть момент, который проверяют куда реже – сонаправленность эффектов до и после CUPED. Можно так увлечься оптимизацией окна, что lift метрики без CUPED и lift с CUPED начнут расходиться по знаку. И тогда теряется интерпретируемость – а вместе с ней и практическая применимость метода. Sign consistency – вероятность того, что raw-оценка эффекта и adjusted-оценка имеют одинаковый знак. Формально: если обе положительные или обе отрицательные – эффект сонаправлен. Если знаки разные – CUPED изменил не просто ширину доверительного интервала, а качественный вывод о направлении эффекта. На практике аналитик смотрит на raw-эффект как на sanity check. Расхождение знаков – это сигнал: либо выборка слишком мала, либо ковариата слабая. В обоих случаях доверять скорректированной оценке опасно. Как быстрый вывод – проверяйте! Базовый CUPED (Deng et al., 2013) – линейная регрессия одной ковариаты на метрику. Простота – его сила. Но за 10+ лет накопилось несколько направлений развития. 1. Множественные ковариаты – MLR-CUPED Вместо одной переменной – несколько: активность за разные периоды, сегмент пользователя, платформа. Помогает, когда одна ковариата объясняет только часть дисперсии. Риск – переобучение и нестабильность коэффициентов на малых выборках. Но значительно меньше проблем со направленностью 2. Нелинейные ковариаты – ML-CUPED Линейная связь между ковариатой и метрикой – упрощение. В реальности зависимость часто нелинейная. Подход: обучить модель (градиентный бустинг, нейросеть) предсказывать метрику по ковариатам, использовать остатки как скорректированную метрику. Оптимизация чувствительности выше, но интерпретируемость падает – и проблема сонаправленности становится еще критичнее.

Готовлюсь сейчас к выступлению – тема не новая, но вечная: методы ускорения экспериментов. Один из них – CUPED. Кажется, толь
Готовлюсь сейчас к выступлению – тема не новая, но вечная: методы ускорения экспериментов. Один из них – CUPED. Кажется, только ленивый про него не читал, большинство так или иначе пробовали руками. Если брать CUPED в базовом виде – по оригинальной статье – одна из ключевых настроек это окно ковариаты: какой ретро-период брать. Влияние на чувствительность очевидно и легко проверяется симуляциями. Но есть момент, который проверяют куда реже – сонаправленность эффектов до и после CUPED. Можно так увлечься оптимизацией окна, что lift метрики без CUPED и lift с CUPED начнут расходиться по знаку. И тогда теряется интерпретируемость – а вместе с ней и практическая применимость метода. Sign consistency – вероятность того, что raw-оценка эффекта и adjusted-оценка имеют одинаковый знак. Формально: если обе положительные или обе отрицательные – эффект сонаправлен. Если знаки разные – CUPED просто испортил вашу метрику, а если вы этого не заметили, но и эксперименты или эксперименты убил. Как быстрый вывод – проверяйте! Базовый CUPED (Deng et al., 2013) – линейная регрессия одной ковариаты на метрику. Простота – его сила. Но за 10+ лет накопилось несколько направлений развития. 1. Множественные ковариаты – MLR-CUPED Вместо одной переменной – несколько: активность за разные периоды, сегмент пользователя, платформа. Помогает, когда одна ковариата объясняет только часть дисперсии. Риск – переобучение и нестабильность коэффициентов на малых выборках. Но значительно меньше проблем со направленностью 2. Нелинейные ковариаты – ML-CUPED Линейная связь между ковариатой и метрикой – упрощение. В реальности зависимость часто нелинейная. Подход: обучить модель (градиентный бустинг, нейросеть) предсказывать метрику по ковариатам, использовать остатки как скорректированную метрику. Оптимизация чувствительности выше, но интерпретируемость падает – и проблема сонаправленности становится еще критичнее. Канал «Телекомпания Вит»

О признании ошибок В моей карьере был период, когда я считал себя суперзвездой аналитики. И именно на пике этой уверенности случилась одна из самых неприятных историй за всю мою практику. Я тогда работал в консалтинге. Мы готовились к важнейшей встрече с правлением крупного казахстанского банка. К очным переговорам все было готово, оставалось лишь доделать аналитический отчет. Время поджимало, и я решил закончить работу в самолете — казалось, что перелета вполне хватит. Я скачал оставшиеся данные (договор это позволял) и спокойно поехал в аэропорт. Весь полет я занимался расчетами и презентацией. В отеле лег спать со спокойной душой. Кстати, спал так крепко, что даже не услышал пожарную тревогу, а коллеги так и не смогли меня добудиться. Утром мы приехали в банк. Члены правления оказались очень приветливыми и тепло нас встретили. Встреча начиналась как раз с моего доклада. Я открыл презентацию, начал рассказывать… Но уже через 10 минут меня остановили и спросили, откуда взялись эти цифры. Я назвал источники. Тут и выяснилось, что я перепутал источники — данные были неактуальными. Моему стыду и огорчению не было предела. Так паршиво я не чувствовал себя в карьере еще никогда. После этого провала я еще полгода буквально панически боялся ездить на встречи и презентовать результаты работы. Самой истории уже больше восьми лет, но я до сих пор помню ее поминутно. Это была моя первая крупная ошибка, которая могла стоить компании огромных денег и репутации. Когда свои части докладов закончили коллеги, я подошел к главе правления. Честно извинился и предложил за свой счет все переделать, а затем презентовать заново. В итоге мы успешно проработали с этим клиентом еще два интересных года. Но извлекать этот урок было крайне больно. Морали не будет. Просто не зазнавайтесь.

Чем занимаюсь
Anonymous voting

Симулятор по планированию экспериментов. Планирование экспериментов — один из самых недооцененных этапов в A/B. Именно из-за ошибок на этом этапе случается большинство проблем: долгие пересчеты, недоверие результатам, бесконечные перезапуски. Симулятор помогает отточить эти навыки и закрепить на практике. 8 модулей — от базовой теории до расширенной практики: – Ошибки I/II рода и мощность – MDE, Lift и Effect Size – Формула размера выборки и её рычаги – Трейдофф α, мощности и скорости – Множественные сравнения – Подглядывание и MDE факт vs прогноз – Monte Carlo и проверка чувствительности Формат: теория - > интерактивный симулятор -> практические задачи. В чем основное отличие от того, о чем мы рассказывали раньше 1) Это полноценный инструмент для изучения теории и закрепления материалов на пратике 2) Вы погружаетесь в домен / решаете задачи / закрепляете на симуляциях 3) Доступ оплачивается один раз и остается с вами навсегда Симулятор – как планировать время на эксперименты Канал «Телекомпания Вит»

Месяц назад беседовали с Искандером с Коммерсантом. И вот наконец вышла статья / интервью. Про рынок платформ экспериментов / предпосылки к появлению и развитию. И небольшие планы на будущее. https://www.kommersant.ru/doc/8674837

Планирование времени на эксперимент – очень фундаментальная и часто игнорируемая задача. В рамках exp-tools собрали новый сим
Планирование времени на эксперимент – очень фундаментальная и часто игнорируемая задача. В рамках exp-tools собрали новый симулятор – расчёт размера выборки для A/B Что в нем есть:  два режима под разные типы метрик:   ⁃ Доли / Конверсия – задаёшь базовый CR и MDE, считает через z-test (есть выбор между точной формулой CPS и упрощённой)  ⁃ Непрерывная метрика – задаёшь μ и σ, считает через t-test MDE можно задать двумя способами – абсолютный (п.п.) или относительный (% от базового значения).  параметры теста:  ⁃ α (уровень значимости)  ⁃ Мощность – двусторонний / односторонний критерий плюс секция трафика: DAU и доля аудитории под эксперимент –  сразу считает сколько дней займёт набор выборки Что в итоге: ⁃ n на группу и total N – длительность в днях  ⁃ What-if таблица: "что если подвинуть MDE": −50%, −25%, +50%, +100% сразу видишь n и дни для каждого сценария.  Это самое полезное: не нужно крутить параметры вручную, trade-off между чувствительностью и временем виден сразу ⁃ График N vs MDE (в режиме непрерывной метрики) – Помогает почувствовать, как резко растёт выборка при малых эффектах Канал «Телекомпания Вит»

Если в этой квартире я действительно буду счастлив – заплачу. Но только как почувствую счастье! Звучит абсурдно. Но именно так устроен рынок B2B-пилотов. Мы хотим вещь – покупаем. Нужна машина – берём кредит. За еду платим. За большинство ценностей в жизни платим заранее, принимая риск. А в B2B почему-то работает другая логика. Вендоры и разработчики решений массово жалуются: «никто не хочет платить, но все хотят бесплатный пилот». И каждый новый игрок идёт по той же тропе – даёт бесплатно, надеется что купят. Но есть неприятный нюанс, который не всегда очевиден. После бесплатного пилота покупать будут очень долго – или не будут вообще. Потому что когда бесплатно – на стороне клиента никто не взял на себя ответственность: • никто не пошёл согласовывать бюджет • никто не прошел юридическую воронку и не подписывал договор • никто не закоммитил презентовать результат пилота руководству Бесплатный пилот – это чья-то локальная инициатива. Её не нужно согласовывать, защищать и отвечать за результат. А вот платный пилот – даже небольшой – сразу включает корпоративные процессы. И у менеджера на стороне покупателя появляется личная ответственность за исход. Вывод: если ты B2B и метишь в крупный сегмент – не делай бесплатных пилотов. Скорее всего они не помогут. А вот рынок – подпортят.

Искандер (отвечает за продукты trisigma.io/ сооснователь и ex.CPO EXPF) с командой сделали хендбук по A/B-тестированию. Подробный и бесплатный материал, который поможет увеличить кругозор в домене, вспомнить статистику и даже кейсы порешать. Качаем / изучаем и делимся с друзьями! Канал «Телекомпания Вит»

Новая рубрика – вопросы на подумать и обсудить! Правило – не пользуемся LLM и поиском. Если симулируете t-тест методом Монте-Карло при верной H₀ – какое распределение должно быть у числителя и знаменателя t-статистики? Почему? Канал «Телекомпания Вит»