AB-тесты и подглядывание: введение в последовательное тестирование
В AB-тестах нередко возникает желание смотреть на результат по ходу эксперимента: метрики обновляются, решения ждать долго, а если эффект уже очевиден, то зачем тянуть до конца. Но в этом месте легко допустить серьезную ошибку: регулярно пересчитывать обычное p-значение и завершать тест при первом p < 0.05. Такой подход повышает долю ложных срабатываний: иногда статистическая значимость появляется просто из-за случайных колебаний данных, даже когда реального эффекта нет. В этой статье разбираем, почему так происходит, и что с этим делают в прикладной аналитике. Покажу, как устроено групповое последовательное тестирование (group sequential): вы заранее задаете несколько контрольных точек для подглядывания, а пороги принятия решения подбираются так, чтобы общий уровень ошибки первого рода по всему процессу оставался на заданном уровне alpha. На простых формулах и наглядных графиках из симуляций сравним наивное подглядывание с корректной процедурой. А затем разберем два самых популярных набора порогов - Pocock и OBrien-Fleming: чем они отличаются, почему один вариант чаще завершает эксперимент раньше, а другой почти не дает принимать решения в начале, и как выбрать подходящий вариант под продуктовый процесс.
https://habr.com/ru/articles/988816/
#подглядывание_в_экспериментах #последовательное_тестирование #group_sequential #OBrienFleming #Pocock #ранняя_остановка_эксперимента #продуктовая_аналитика #статистика

