Trisigma — про эксперименты

رفتن به کانال در Telegram

Канал про эксперименты, статистику и анализ данных Черемисинов Виталий: @vitche (сотрудничество) Мирмахмадов Искандер: @iskndr_m (гл. автор) Trisigma — https://trisigma.io A/B платформа Sigma — https://expf.ru/sigma Консалтинг — https://expf.ru

نمایش بیشتر

روسيا83 689 فناوری و برنامه‌ها14 922

7 389

مشترکین

اطلاعاتی وجود ندارد24 ساعت

-107 روز

+35330 روز

3 042

نمایش های پست

~ 1 35024 ساعت

~ 1 46948 ساعت

41.17%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

7 389

Привет! На связи Вит. Мы ищем старшего аналитика данных в Trisigma. Команда у нас одна из самых сильных на рынке. Поэтому и задачи ждут интересные:

— проводить R&D; — проектировать дизайн продуктовых инкрементов, развивать движок Semantic Layer и документацию (подходы, best practices, статьи); — проектировать аналитические решения для клиентов и внедрять их.

🔵Откликайтесь напрямую на карьерном сайте. И обязательно пересылайте знакомым, которым может быть интересна позиция. Trisigma — канал про A/B-тестирование #trisigma

7 389

Привет! Это Даня Никольский, бэкенд-инженер Trisigma. Недавно я рассказывал, как мы в внедрили Switchback в нашу платформу. Сейчас мы вместе с коллегами написали большой гайд про такие эксперименты. Рассказали, как они устроены, почему для них не подходит обычный t-тест и какая инфраструктура нужна, чтобы проводить их в промышленном масштабе. 🔵Читайте по этой ссылке. А вопросы — оставляйте в комментариях 👇 Trisigma — канал про A/B-тестирование #trisigma

7 389

Ребят, это Вит, и я к вам с очень крутой новостью! 🔵У нас в EXPF был блог на Medium с максимально прикладными статьями. И вот наконец-то мы перенесли материалы оттуда на сайт Trisigma. Так что встречайте и читайте Trisigma блог! Конкретные материалы рекомендовать не буду, они все хороши. А все новые будем анонсировать тут. Так что stay tuned! Trisigma — канал про A/B-тестирование #trisigma

7 389

Есть мнение, что CUPED переоценён — в большинстве кейсов он не даёт значимого выигрыша. Согласны? Сталкивались? Ждём в комментариях 👇 Trisigma — канал про A/B-тестирование #trisigma

7 389

Привет! На связи Вит. 🔵Не так давно выступал на KARPOF.CONF, делюсь записью и удобным конспектом. Говорил про AI, а точнее про то, как выстроить аналитическую инфраструктуру, чтобы он был активом. Запись есть только в ВК (смотреть можно без регистрации), а конспект — прикрепил в пдф. Буду рад вашим кейсам с AI и в экспериментах, и в аналитике в целом. Делитесь, как используете и насколько это эффективно.

7 389

Привет! Это Вит. 🔵Ещё весной рассказали «Коммерсанту», как устроен рынок платформ для экспериментов в России. Если кратко и по интересным цифрам: половина компаний ещё не поняла, зачем им культура данных, а создание своей платформы обойдется от 150 млн руб. за три года. При этом готовое решение — от 2,5 млн в год. И да, 80% гипотез не дают значимого эффекта, но именно 10% негативных спасают бизнес от факапов. Почему так, и в целом про экономику, VPC, on‑prem и почему все хотят не готовое решение, а консалтинг — читайте тут. А мнения/вопросы/комментарии туда 👇 Trisigma — канал про A/B-тестирование #trisigma

7 389

Всем привет, это Искандер. 🔵В прошлый раз я поделился с вами пейпером про подход с ARMA-Design от нескольких международных университетов. Следующий пейпер, который хочу обсудить, снова про нарушение SUTVA, но уже не во времени, а в пространстве.

Откуда проблема Запускаете A/B на социальной сети: часть пользователей получает новый тип реакций, часть — нет. Казалось бы, всё чисто. Но контрольные пользователи видят, что их друзья из treatment что-то делают иначе. Они, в свою очередь, меняют свое поведение. ATE по итогу будет смещён, и авторы оценивают это смещение в 30%+. Очевидно перед нами сетевой эффект. Но стандартные способы с ним бороться работают плохо. Наиболее популярных подход и его проблемы Чаще всего используется сплиттование через Cluster randomization: назначаем воздействие кластерам пользователей, а не индивидуально. Тогда spillover-эффект внутри кластера, но не между ними. Проблема: теряется мощность за счет перехода на новый уровень рандомизации, и кластеры часто плохо соответствуют тому, как реально распространяется воздействие от A/B. Что предлагают авторы Двухшаговый метод, который автоматизирует задание exposure mapping. Шаг первый: для каждого пользователя строится вектор — causal network motif. Он описывает топологию ближайшего окружения с учётом того, кто из соседей обработан. Важна не просто доля обработанных, а структура связей между ними. «4 друга, 2 обработаны, и они между собой связаны» — это другой мотив, чем «2 из 4 обработаны, но изолированы друг от друга». Плотный кластер обработанных давит на поведение иначе, чем рассеянные. Шаг второй: эти векторы кластеризуются алгоритмом ближайших соседей. На выходе — автоматически найденные группы с разными паттернами интерференции. Целевая метрика — GATE: что было бы, если бы все получили фичу, против состояния, где никто ничего не получил. Не "насколько лучше у тех, кому показали" — а глобальный эффект с учётом spillover эффекта. Проверка Протестировали на синтетике и на реальном крупном тесте. По точности оценки GATE — выше cluster randomization. Когда это нужно Продукты с механиками социального взаимодействия с вирусным компонентом: реакции, шеринг, рекомендации «добавить в друзья». Двусторонние маркетплейсы, где обработка продавца влияет на покупателей. В общем — всё, где SUTVA нарушается через явные связи в графе, а не через время. От себя Практически важнее самого алгоритма — диагностика. Большинство команд вообще не проверяют, есть ли интерференция. Обычно просто говорят – «у нас есть сетевой эффект». Если граф пользователей доступен, тест на отсутствие spillover — несложная операция, которая может перевернуть интерпретацию уже прошедших экспериментов.

Если есть мысли, пишите в комментах. Trisigma — канал про A/B-тестирование #trisigma

7 389

Привет! Продолжаем рубрику «Не утверждаем — а обсуждаем». На повестке пятницы вот такой вопрос: Стратифицированная рандомизация — когда помогает а когда вредит? Что думаете? Ждём в комментариях 👇 Trisigma — канал про A/B-тестирование #trisigma

7 389

Всем привет, это Искандер. 🔵Предлагаю вам взглянуть на новый пейпер про подход с ARMA-Design сразу от нескольких международных университетов. Есть допущение, которое большинство A/B платформ делают молча: юниты независимы. В маркетплейсах это почти никогда не так.

Проблема Когда тестируется алгоритм выдачи заказов в ride-tech-продуктах (например, в Uber или DoorDash), эффект не исчезает в момент назначения заказа. Водитель оказался в другом районе и он, вероятно, возьмёт или не возьмёт следующий заказ через час. Это так называемый carryover-эффект: воздействие сегодня меняет состояние системы завтра. Стандартный switchback это частично решает, но молча предполагает, что данные «марковские». Авторы проверили это на реальных данных из двух городов и заметили, что PACF остатков дохода водителей показал значимые лаги 5-го, 6-го порядка. Иначе говорят это не марков. Что предлагают авторы Данные экспериментов моделируются через контролируемую VARMA-модель. AR-часть ловит carryover, MA-часть компенсирует то, что вы не наблюдаете в состоянии системы. После этого задача дизайна эксперимента формулируется как: найди последовательность назначений групп A/B, которая минимизирует дисперсию оценки ATE. Это решается двумя способами: constrained optimization и RL. Оба смотрят на всю историю назначений, а не только на текущий период. Сравнивали с тремя базовыми дизайнами — alternating-day, uniform random, switchback. — Alternating-day: по сути чередование между днями в гео-локе, A в понедельник, B во вторник, A в среду... — Uniform random: в каждом периоде бросаем монетку — Switchback с фиксированным окном Все три показывают плохие результаты. Когда это реально нужно Если тестируете что-то, что меняет состояние маркетплейса — dispatch-алгоритмы, pricing, балансировку supply/demand — и эксперимент короткий при слабом сигнале (допустим, ATE 0.5–2%). Switchback не спасает, если проблема в частичной наблюдаемости. От себя Switchback стал стандартом для маркетплейсов, и это шаг вперёд. Но он не решает проблему, о которой говорится в пейпере, что часть состояния системы просто не записывается. Прогнать PACF на остатках ваших операционных метрик до начала дизайна эксперимента — это достаточно простая проверка, которую мало кто делает. Если увидите значимые лаги 4+, switchback с фиксированным окном уже не будет подходить для ваших A/B.

Если есть мысли, пишите в комментах. Trisigma — канал про A/B-тестирование #trisigma

7 389

🔵Делимся записью вчерашнего митапа 📱 YouTube 📱 VK Обязательно оставляйте в комментах свои вопросы. И хороших выходных! Trisigma — канал про A/B-тестирование #trisigma

7 389

Сегодня наш онлайн-митап про неклассические инструменты для экспериментов Поэтому, если ещё не зарегистрировались, то самое время это исправить. После регистрации вам придёт индивидуальная ссылка на стрим. В программе три кейса от коллег из Авито, Finom и ex. Lamoda Tech, Ozon Tech. 🔵Подробности и регистрация тут. До встречи в 18:30. #trisigma

7 389

Есть мнение — Long-term эффекты эксперимента всегда противоречат краткосрочным. Что думаете? #trisigma

7 389

Привет, это Вит Черемисинов. Под недавним постом у нас с вами случилась классная дискуссия. Поэтому решил ввести рубрику «Не утверждаем — а обсуждаем». Буду делиться вопросами, которые мы получаем от наших клиентов и партнеров. И вместе разбирать их, думать, спорить. Первый — в следующем посте👇 Жду в комментариях! P.S. Кстати, у меня есть мой личный тг. В нём я пишу про всё — и про A/B, и про рынок в целом, и про личное.

7 389

Не забывайте зарегистрироваться на наш онлайн-митап 21 мая Будем обсуждать три кейса, в которых нужно было выйти за рамки привычных инструментов A/B. 🔵Подробности и регистрация тут. Trisigma — канал про A/B-тестирование #trisigma

7 389

Кто сегодня на онлайн-дне AHA'26? Сегодня в 14:20 Даниил Никольский, backend-разработчик Trisigma, расскажет про то, как мы спроектировали систему Switchback-тестов с предрасчитанными окнами вместо runtime-вычислений. А также разберёт, почему это позволило внедрять недетерминированные стратегии и держать консистентность между SDK и DWH. 🔵Доклад Дани можно посмотреть в свободном доступе, нужно только зарегистрироваться на сайте AHA. Также после поделимся тезисами и презентацией здесь. Также рекомендуем недавний пост Дани о том, как мы в Trisigma внедрили Switchback-тесты, чтобы избежать искажения сетевых эффектов в экспериментах. Trisigma — канал про A/B-тестирование #trisigma

7 389

Ребят, привет! 🔵Это Искандер. Мы с командой Trisigma сделали хендбук по A/B-тестированию. В нём собрали качественную и полную базу — на примерах разобрали, как устроены эксперименты и статистический анализ. В общем, внутри всё это нужно, чтобы решения, принимаемые для развития продукта, положительно влияли на целевые метрики. Думаю, что хендбук будет полезен и начинающим аналитикам, и опытным, чтобы освежить в памяти базу. Забрать его можно в боте. Ждём обратной связи! Trisigma — канал про A/B-тестирование #trisigma

7 389

21 мая обсудим кейсы, где классический A/B-тест не работает Стрим проведём вместе с аналитиками и продактами из Авито, Finom и ex. Lamoda Tech, Ozon Tech. Поговорим про: — Как проводить офлайн-эксперименты с AI-агентами и измерять качество, когда всё недетерминировано; — Когда и какими нестандартными инструментами можно заменить A/B; — Можно ли сделать рабочую связку PSM, фейкдоров и оценки эластичности. 🔵Подробности и регистрация тут. До встрече на стриме 21 мая в 18:30. #trisigma

7 389

Коллеги, вопрос: Что вы делаете, когда A/B-тесты невозможны или недостаточны? #trisigma

7 389

Привет, на связи Вит. Завтра выступаю на KARPOV.CONF онлайн. В этом году ключевая тема предсказуема — и это ИИ. Поэтому я расскажу про то, как выстроить аналитическую инфраструктуру, чтобы AI был активом, а не иллюзией. Другие доклады тоже максимально прикладные. Посмотреть всю программу и зарегистрироваться можно тут. Кстати, конференция бесплатная. До встречи завтра в эфире! Если идёте, ставьте 👍 #trisigma