拒绝统计陷阱:美团A/B测试方案框架

本文以履约场景下的具体实践为背景,介绍如何提供一个可信赖的AB测试解决方案
📌
一方面从实验方法的角度论述实验过程中容易被忽视的统计陷阱,给出具体的解决方案;一方面论述针对业务场景和对应约束制定实验方案提供给用户,而不只是功能和方法由用户自由选择,因为实验方法差之毫厘,结果可能是失之千里
1.
背景
虽然AB测试(AB实验)的统计基础已经有一个世纪的历史了,但大规模地构建一个正确可靠的A/B测试平台仍然是一个巨大的挑战。
💾
不仅要在实验设计环节应对溢出效应小样本的双重挑战,平衡好实验偏差与方差以确定合适的实验单元、分组方法和分析方法,给出合理的实验设计;
而且要在分析环节应对方差计算P值计算多重比较混淆因素假阴性(实际策略有效果,但是检测显示无效果)等多种统计陷阱。
因此,要获得高质量的结果需要对实验和统计有专家级的理解,这无疑增加了实验门槛,难以达成任何人进行实验都可得出可信结论的目标。
本文将从实验方法平台建设的两个视角,分别介绍如何正确地使用统计方法避免统计陷阱以及输出什么样的平台能力,从而确保任何人使用时都可得出可信结论。同时,也积累了如何进行更好的实验,以及如何利用实验来做出更好的决策
2.
AB测试
哪个线上选项会更好?工作中经常需要做出这样的选择。当想要在两个策略之间做出决定时,理想的方案是面向同一拨用户,在两个平行时空,平行时空1体验原策略A平行时空2体验新策略B,然后根据观测到的事实进行比较,以决定哪个策略胜出。
然而在现实世界中,不存在两个平行时空,针对同一用户,只能观察到其接受策略A或策略B的一种效果即反事实结果是观测不到的。
因此,在现实世界中,通常采用实验的方法做出决策。它将用户分配到不同的组,同一组内的用户在实验期间使用相同的策略,不同组的用户使用不同的策略。同时,日志系统根据实验系统为用户打标记,用于记录用户的行为,然后根据带有标记的日志计算度量差异并进行统计分析以排除由于噪声导致的任何差异。
实验者通过这些指标去理解和分析不同的策略对用户起了什么样的作用,是否符合实验预先假设。

加载失败,

图1 理想和现实中的策略评估