Телекомпания Вит
رفتن به کانال در Telegram
Сооснователь EXPF / продал бизнес в Авито / пишу про то, что хочется Для связи - @vitche trisigma.io
نمایش بیشترکشور مشخص نشده استدسته بندی مشخص نشده است
464
مشترکین
-124 ساعت
+17 روز
+3530 روز
آرشیو پست ها
9го июля буду выступать на data day в Москве. Если вы вдруг туда собираетесь – буду рад поболтать!)
Repost from Trisigma — про эксперименты
Всем привет, это Искандер.
🔵В прошлый раз я поделился с вами пейпером про подход с ARMA-Design от нескольких международных университетов. Следующий пейпер, который хочу обсудить, снова про нарушение SUTVA, но уже не во времени, а в пространстве.
Откуда проблема Запускаете A/B на социальной сети: часть пользователей получает новый тип реакций, часть — нет. Казалось бы, всё чисто. Но контрольные пользователи видят, что их друзья из treatment что-то делают иначе. Они, в свою очередь, меняют свое поведение. ATE по итогу будет смещён, и авторы оценивают это смещение в 30%+. Очевидно перед нами сетевой эффект. Но стандартные способы с ним бороться работают плохо. Наиболее популярных подход и его проблемы Чаще всего используется сплиттование через Cluster randomization: назначаем воздействие кластерам пользователей, а не индивидуально. Тогда spillover-эффект внутри кластера, но не между ними. Проблема: теряется мощность за счет перехода на новый уровень рандомизации, и кластеры часто плохо соответствуют тому, как реально распространяется воздействие от A/B. Что предлагают авторы Двухшаговый метод, который автоматизирует задание exposure mapping. Шаг первый: для каждого пользователя строится вектор — causal network motif. Он описывает топологию ближайшего окружения с учётом того, кто из соседей обработан. Важна не просто доля обработанных, а структура связей между ними. «4 друга, 2 обработаны, и они между собой связаны» — это другой мотив, чем «2 из 4 обработаны, но изолированы друг от друга». Плотный кластер обработанных давит на поведение иначе, чем рассеянные. Шаг второй: эти векторы кластеризуются алгоритмом ближайших соседей. На выходе — автоматически найденные группы с разными паттернами интерференции. Целевая метрика — GATE: что было бы, если бы все получили фичу, против состояния, где никто ничего не получил. Не "насколько лучше у тех, кому показали" — а глобальный эффект с учётом spillover эффекта. Проверка Протестировали на синтетике и на реальном крупном тесте. По точности оценки GATE — выше cluster randomization. Когда это нужно Продукты с механиками социального взаимодействия с вирусным компонентом: реакции, шеринг, рекомендации «добавить в друзья». Двусторонние маркетплейсы, где обработка продавца влияет на покупателей. В общем — всё, где SUTVA нарушается через явные связи в графе, а не через время. От себя Практически важнее самого алгоритма — диагностика. Большинство команд вообще не проверяют, есть ли интерференция. Обычно просто говорят – «у нас есть сетевой эффект». Если граф пользователей доступен, тест на отсутствие spillover — несложная операция, которая может перевернуть интерпретацию уже прошедших экспериментов.Если есть мысли, пишите в комментах. Trisigma — канал про A/B-тестирование #trisigma
VWO опубликовали исследование – опросили 108 компаний, насколько зрелые у них процессы экспериментирования. Разобрал, что там внутри.
Сразу честно: выборка смещенная. Отвечали клиенты VWO – то есть те, кто уже купил платформу и скорее всего доволен. Это как спрашивать у людей в спортзале, занимаются ли они спортом.
Но кое-что интересное там все равно есть.
Главный парадокс отчета
56% компаний запускают 1–2 теста в месяц. И при этом 75% говорят, что главная цель на год – запускать больше тестов.
То есть все знают что надо делать. Никто не делает.
Причина называется честно – не хватает людей и времени. Не инструментов, не бюджета. Просто руки не доходят.
Что западает у всех без исключения
Приоритизация. Команды берут в работу то, что проще построить, а не то, что важнее. Самый низкий балл из всего исследования.
Про AI
86% команд уже используют AI в экспериментах. В основном – чтобы быстро делать варианты текстов и не смотреть вручную записи сессий пользователей часами.
Мое мнение
Отчет про западные CRO-команды, которые оптимизируют лендинги. В продуктовых командах картина другая. Но парадокс с velocity – он везде одинаковый. Все хотят больше экспериментов, мало кто строит систему, которая это позволяет.
Если хотите быстро понять где вы – ответьте на два вопроса: сколько тестов вы запускаете в месяц и по какому принципу выбираете что тестировать следующим.
Канал «Телекомпания Вит»
Ну и чтобы не выглядело так, что из впечатлений - только кепка.
Вы посмотрите что там было , просто до мурашек.
+2
Мы вчера были с женой на концерте Ye (Канье Вест).
Очередь на вход - была просто огромная и очень утомительная.
Видимо в какой-то момент мне стало настолько скучно, что я решил предложить поменяться кепками сотруднику сцены. Он согласился. А я теперь сижу и жалею, моя старая кепка мне очень нравилась.
Ну и парой фоток с вами поделюсь.
Repost from N/a
+4
Про Авито, Трисигму и SaaS B2B 🙃
А что вы там вообще делаете? Рассказываю!
У нас тут тот самый случай, когда сработали и идея внутренней разработки, ставшей коммерческим продуктом, и B2B SaaS стартап с экзитом в Авито (ссылка на форбс).
Продуктово — экосистема, объединяющая две платформы и консалтинг. Изначально SaaS, постепенно добавляются другие форматы поставки. Помогаем ускорять и масштабировать процессы А/В-тестирования 📈
Считаю, что самая большая удача для маркетинга — действительно хорошо работающий продукт и команда бизнеса, готовая вписываться во все идеи и «а что если».
Мне повезло еще больше — инициатива идет от всех, объяснять «зачем» и «кому это надо» не приходится.
Теперь хвастаюсь🙂↕️
Год назад у нас была презентация, на коленке собранный митап и три поста.
Сейчас есть стратегия, медиаплан, кейсы, выпущен первый хендбук, провели несколько офлайн-мероприятий, онлайн даже не считаю, живет тг-канал.
Одним словом — молодцы.
С одной стороны, безусловно, за этим стоит труд, но с другой — искреннее желание всех причастных сделать хорошо, качественно и интересно. Для меня это самое ценное.
Что еще — к нам стали приходить с запросами на совместное участие, коллаборации, партнерские мероприятия, консультации. Вот на следующей неделе едем в Газпром читать лекцию про построение цифровых продуктов. Такая оценка очень честная — в стратегии основным фокусом была наша командная экспертность, значит, все работает правильно.
Как видите — я очень горжусь результатами, а когда так, работается совсем по-другому 💎
У trisigma.io - очень крутой маркетинг.
В том смысле, как я понимаю маркетинг для сложного b2b продукта.
Экспертный / с хорошим пониманием домена / с фокусов на рынок и клиента.
За маркетинг у нас отвечает Маша и она недавно завела свой канал.
Делюсь постом про тот самый крутой маркетинг.
Сегодня год нашей сделке с Авито.
Я давно хотел начать писать здесь что-то личное – и все время откладывал. Пожалуй, начну с этого.
За год – мы очень круто выросли, очень много чего сделали, но история не про это.
Пока мы закрывали сделку, я закрыл коробок конфет на лишние 20 кг.
Это, пожалуй, лучшее описание моего ментального состояния в тот период. Избавился я от них кстати еще быстрее чем набрал - но это другая история и могу рассказать отдельно (пишите в комментах).
Сделка – это не просто этап в жизни бизнеса. В какой-то момент она перестает быть транзакцией и становится экзистенциальным вопросом. Очень личным. Тебя бросает эмоционально, твой мир начинает крутиться только вокруг нее. А вообще то твой мир должен крутиться вокруг твоей жены. Это кстати не шутка - быть подкаблучником, самая мудрая стратегия, которой я намучился за 35 лет жизни. Но это тоже другая история)
И когда наконец ставишь галочку – выдыхаешь. Радуешься. Но ненадолго.
Есть такая штука - паппи блюз. Ты очень ждешь собаку. Собака дома. И тут выясняется, что собаке глубоко фиолетово, сколько стоят твои кроссовки от знаменитого дизайнера из Грузии.
Со сделкой – то же самое. Ты ждешь эмоционального освобождения, а получаешь интеграцию. Твой бизнес нужно встроить в другой бизнес. Огромный. Готов ли твой бизнес к этому? Технически - вроде да. Но не обольщайся)
И именно интеграция – самая уязвимая часть.
Мы ее прошли нормально, но основные вызовы были именно там.
Не потому что с Авито что-то не так – с ними (нами) все прекрасно . А потому что я лично был просто не готов. Не на уровне "сдался" – на уровне ожиданий. Я ждал увлекательную историю, а получил увлекательный геморрой на полгода.
Год спустя – не жалею ни о чем. Но если бы мог сказать себе тогда что-то одно: сделка – это не финиш. Это старт другого забега, к которому ты не тренировался.
А ты так то вообще мало тренировался в это время, ты конфеты (дубайский шоколад) жрал.
Про интеграцию, про то каково это – быть фаундером внутри корпорации, и про то что в итоге получилось – напишу отдельно. Там есть что рассказать.
Канал «Телекомпания Вит»
Готовлюсь к выступлению – тема не новая, но вечная: методы ускорения экспериментов.
Один из них – CUPED. Кажется, только ленивый про него не читал, большинство так или иначе пробовали руками.
Если брать CUPED в базовом виде – по оригинальной статье – одна из ключевых настроек это окно ковариаты: какой ретро-период брать. Влияние на чувствительность очевидно и легко проверяется симуляциями.
Но есть момент, который проверяют куда реже – сонаправленность эффектов до и после CUPED.
Можно так увлечься оптимизацией окна, что lift метрики без CUPED и lift с CUPED начнут расходиться по знаку. И тогда теряется интерпретируемость – а вместе с ней и практическая применимость метода.
Sign consistency – вероятность того, что raw-оценка эффекта и adjusted-оценка имеют одинаковый знак. Формально: если обе положительные или обе отрицательные – эффект сонаправлен.
Если знаки разные – CUPED изменил не просто ширину доверительного интервала, а качественный вывод о направлении эффекта.
На практике аналитик смотрит на raw-эффект как на sanity check. Расхождение знаков – это сигнал: либо выборка слишком мала, либо ковариата слабая. В обоих случаях доверять скорректированной оценке опасно.
Как быстрый вывод – проверяйте!
Базовый CUPED (Deng et al., 2013) – линейная регрессия одной ковариаты на метрику. Простота – его сила. Но за 10+ лет накопилось несколько направлений развития.
1. Множественные ковариаты – MLR-CUPED Вместо одной переменной – несколько: активность за разные периоды, сегмент пользователя, платформа. Помогает, когда одна ковариата объясняет только часть дисперсии. Риск – переобучение и нестабильность коэффициентов на малых выборках. Но значительно меньше проблем со направленностью
2. Нелинейные ковариаты – ML-CUPED Линейная связь между ковариатой и метрикой – упрощение. В реальности зависимость часто нелинейная. Подход: обучить модель (градиентный бустинг, нейросеть) предсказывать метрику по ковариатам, использовать остатки как скорректированную метрику. Оптимизация чувствительности выше, но интерпретируемость падает – и проблема сонаправленности становится еще критичнее.
Готовлюсь сейчас к выступлению – тема не новая, но вечная: методы ускорения экспериментов.
Один из них – CUPED. Кажется, только ленивый про него не читал, большинство так или иначе пробовали руками.
Если брать CUPED в базовом виде – по оригинальной статье – одна из ключевых настроек это окно ковариаты: какой ретро-период брать. Влияние на чувствительность очевидно и легко проверяется симуляциями.
Но есть момент, который проверяют куда реже – сонаправленность эффектов до и после CUPED.
Можно так увлечься оптимизацией окна, что lift метрики без CUPED и lift с CUPED начнут расходиться по знаку. И тогда теряется интерпретируемость – а вместе с ней и практическая применимость метода.
Sign consistency – вероятность того, что raw-оценка эффекта и adjusted-оценка имеют одинаковый знак. Формально: если обе положительные или обе отрицательные – эффект сонаправлен.
Если знаки разные – CUPED просто испортил вашу метрику, а если вы этого не заметили, но и эксперименты или эксперименты убил.
Как быстрый вывод – проверяйте!
Базовый CUPED (Deng et al., 2013) – линейная регрессия одной ковариаты на метрику. Простота – его сила. Но за 10+ лет накопилось несколько направлений развития.
1. Множественные ковариаты – MLR-CUPED Вместо одной переменной – несколько: активность за разные периоды, сегмент пользователя, платформа. Помогает, когда одна ковариата объясняет только часть дисперсии. Риск – переобучение и нестабильность коэффициентов на малых выборках. Но значительно меньше проблем со направленностью
2. Нелинейные ковариаты – ML-CUPED Линейная связь между ковариатой и метрикой – упрощение. В реальности зависимость часто нелинейная. Подход: обучить модель (градиентный бустинг, нейросеть) предсказывать метрику по ковариатам, использовать остатки как скорректированную метрику. Оптимизация чувствительности выше, но интерпретируемость падает – и проблема сонаправленности становится еще критичнее.
Канал «Телекомпания Вит»
О признании ошибок
В моей карьере был период, когда я считал себя суперзвездой аналитики. И именно на пике этой уверенности случилась одна из самых неприятных историй за всю мою практику.
Я тогда работал в консалтинге. Мы готовились к важнейшей встрече с правлением крупного казахстанского банка. К очным переговорам все было готово, оставалось лишь доделать аналитический отчет. Время поджимало, и я решил закончить работу в самолете — казалось, что перелета вполне хватит. Я скачал оставшиеся данные (договор это позволял) и спокойно поехал в аэропорт.
Весь полет я занимался расчетами и презентацией. В отеле лег спать со спокойной душой. Кстати, спал так крепко, что даже не услышал пожарную тревогу, а коллеги так и не смогли меня добудиться.
Утром мы приехали в банк. Члены правления оказались очень приветливыми и тепло нас встретили. Встреча начиналась как раз с моего доклада. Я открыл презентацию, начал рассказывать… Но уже через 10 минут меня остановили и спросили, откуда взялись эти цифры. Я назвал источники. Тут и выяснилось, что я перепутал источники — данные были неактуальными.
Моему стыду и огорчению не было предела. Так паршиво я не чувствовал себя в карьере еще никогда. После этого провала я еще полгода буквально панически боялся ездить на встречи и презентовать результаты работы.
Самой истории уже больше восьми лет, но я до сих пор помню ее поминутно.
Это была моя первая крупная ошибка, которая могла стоить компании огромных денег и репутации.
Когда свои части докладов закончили коллеги, я подошел к главе правления. Честно извинился и предложил за свой счет все переделать, а затем презентовать заново. В итоге мы успешно проработали с этим клиентом еще два интересных года.
Но извлекать этот урок было крайне больно. Морали не будет. Просто не зазнавайтесь.
Симулятор по планированию экспериментов.
Планирование экспериментов — один из самых недооцененных этапов в A/B. Именно из-за ошибок на этом этапе случается большинство проблем: долгие пересчеты, недоверие результатам, бесконечные перезапуски.
Симулятор помогает отточить эти навыки и закрепить на практике.
8 модулей — от базовой теории до расширенной практики:
– Ошибки I/II рода и мощность
– MDE, Lift и Effect Size
– Формула размера выборки и её рычаги
– Трейдофф α, мощности и скорости
– Множественные сравнения
– Подглядывание и MDE факт vs прогноз
– Monte Carlo и проверка чувствительности
Формат: теория - > интерактивный симулятор -> практические задачи.
В чем основное отличие от того, о чем мы рассказывали раньше
1) Это полноценный инструмент для изучения теории и закрепления материалов на пратике
2) Вы погружаетесь в домен / решаете задачи / закрепляете на симуляциях
3) Доступ оплачивается один раз и остается с вами навсегда
Симулятор – как планировать время на эксперименты
Канал «Телекомпания Вит»
Месяц назад беседовали с Искандером с Коммерсантом.
И вот наконец вышла статья / интервью.
Про рынок платформ экспериментов / предпосылки к появлению и развитию. И небольшие планы на будущее.
https://www.kommersant.ru/doc/8674837
Планирование времени на эксперимент – очень фундаментальная и часто игнорируемая задача. В рамках exp-tools собрали новый симулятор – расчёт размера выборки для A/B
Что в нем есть:
два режима под разные типы метрик:
⁃ Доли / Конверсия – задаёшь базовый CR и MDE, считает через z-test (есть выбор между точной формулой CPS и упрощённой)
⁃ Непрерывная метрика – задаёшь μ и σ, считает через t-test
MDE можно задать двумя способами – абсолютный (п.п.) или относительный (% от базового значения).
параметры теста:
⁃ α (уровень значимости)
⁃ Мощность – двусторонний / односторонний критерий
плюс секция трафика: DAU и доля аудитории под эксперимент – сразу считает сколько дней займёт набор выборки
Что в итоге:
⁃ n на группу и total N – длительность в днях
⁃ What-if таблица: "что если подвинуть MDE": −50%, −25%, +50%, +100% сразу видишь n и дни для каждого сценария.
Это самое полезное: не нужно крутить параметры вручную, trade-off между чувствительностью и временем виден сразу
⁃ График N vs MDE (в режиме непрерывной метрики) – Помогает почувствовать, как резко растёт выборка при малых эффектах
Канал «Телекомпания Вит»
Если в этой квартире я действительно буду счастлив – заплачу. Но только как почувствую счастье!
Звучит абсурдно. Но именно так устроен рынок B2B-пилотов.
Мы хотим вещь – покупаем. Нужна машина – берём кредит. За еду платим. За большинство ценностей в жизни платим заранее, принимая риск.
А в B2B почему-то работает другая логика.
Вендоры и разработчики решений массово жалуются: «никто не хочет платить, но все хотят бесплатный пилот». И каждый новый игрок идёт по той же тропе – даёт бесплатно, надеется что купят.
Но есть неприятный нюанс, который не всегда очевиден.
После бесплатного пилота покупать будут очень долго – или не будут вообще.
Потому что когда бесплатно – на стороне клиента никто не взял на себя ответственность:
• никто не пошёл согласовывать бюджет
• никто не прошел юридическую воронку и не подписывал договор
• никто не закоммитил презентовать результат пилота руководству
Бесплатный пилот – это чья-то локальная инициатива. Её не нужно согласовывать, защищать и отвечать за результат.
А вот платный пилот – даже небольшой – сразу включает корпоративные процессы. И у менеджера на стороне покупателя появляется личная ответственность за исход.
Вывод: если ты B2B и метишь в крупный сегмент – не делай бесплатных пилотов. Скорее всего они не помогут. А вот рынок – подпортят.
Искандер (отвечает за продукты trisigma.io/ сооснователь и ex.CPO EXPF) с командой сделали хендбук по A/B-тестированию.
Подробный и бесплатный материал, который поможет увеличить кругозор в домене, вспомнить статистику и даже кейсы порешать.
Качаем / изучаем и делимся с друзьями!
Канал «Телекомпания Вит»
Новая рубрика – вопросы на подумать и обсудить!
Правило – не пользуемся LLM и поиском.
Если симулируете t-тест методом Монте-Карло при верной H₀ – какое распределение должно быть у числителя и знаменателя t-статистики? Почему?
Канал «Телекомпания Вит»
اکنون در دسترس! پژوهش تلگرام ۲۰۲۵ — مهمترین بینشهای سال 
