准实验(Quasi-experiment)适用于“实验设计者”可干预分组,但无法随机分配实验单元至实验组和对照组的场景。经典随机对照实验通过随机分配实验单元,保证了实验组和对照组的可观测特征和不可观测特征分布都是相同的,差异仅在于样本是否受策略影响,因此两组观测结果的差异可以归因于策略影响。然而,在一些无法随机分配样本的场景下,实验组和对照组的特征分布往往不一致,进而导致两个组在未施加策略时就存在差异,此时需在满足部分特定条件假设的前提下使用准实验评估方法,才能够比较准确地估计策略的效果。
以美团履约业务场景为例,以下几个因素可能阻碍进行时空粒度的随机实验。
溢出效应+小样本等多重约束下无法开展时空随机实验:
策略和产品的特殊性:部分策略和产品的特殊性限制了随机分组。例如,配送区域优化策略考虑在保障整体覆盖范围不变且区域之间不重叠的约束下,对区域进行边界优化甚至合并,然而对于2个相邻的区域,在该约束下,优化A区域边界必然会导致B边界跟随变化,因此从产品形态上无法实现A区域边界变更但B区域边界维持不变,此时不能考虑按区域随机分流。
综上所述,考虑到美团履约业务场景的特殊性,许多实验无法采用随机对照实验准确量化策略效果,因此发展一套标准的准实验设计与评估流程尤为必要。接下来,我们着重介绍经典的准实验方法——双重差分法,关于双重差分法的衍生和其他准实验方法,请参考文末的拓展部分。
双重差分法(Difference in differences,简称DID)的基本思想,就是用实验后的实验组、对照组差异减去实验前的实验组、对照组差异,来估计策略在实验组上的效果(ATT),图5-1直观展示了该思想。下面先从单重差分开始,逐步解析双重差分法。
消除了两组之间的固有差异,这就是双重差分法的基本原理。
本节我们将详细介绍双重差分法的数学模型和原理,包括传统DID模型、固定效应模型、平行趋势假设合理性检验等。
传统DID模型
基本双重差分法模型的形式为:
固定效应模型
平行趋势假设合理性检验
平行趋势假设是使用双重差分法估计策略效果的关键假设。平行趋势假设要求,在没有策略影响的情况下,实验组和对照组的差异不随时间变化是恒定的,即实验组和对照组的趋势保持平行。一种简单的平行趋势检验方法是通过画图观察平行趋势是否满足,但是这种方法比较粗糙。为了得到更加严谨的量化结果,可以使用模型进行平行趋势检验。在此基础上一种方法是将DID模型拓展为以下形式:
不难看出,平行趋势假设是影响双重差分实验结论可信度的关键。因此,为了尽量保证实验结论的可信度,我们建议采取下述平行趋势分组,以尽量保障“实验组”、“对照组”平行趋势假设的合理性:
尽管采取平行趋势分组的做法在实验设计上尽量保障平行趋势假设的合理性,但在实际场景中仍存在以下潜在风险,因此在实践中优先考虑随机实验,随机实验不可行时才考虑双重差分实验:
a. 有不可控的外部因素影响时,平行趋势假设可能被打破,此时可考虑适当剔除不可控因素影响日期再进行评估分析;
b. 评估指标的数值限定范围,可能影响到平行趋势。在履约场景中准时率指标时常被关注,准时率的数值范围在0~100%之间并且通常处于较高水位,在某些极端情况下如果平行趋势成立,实验组准时率的反事实结果可能会超过其上限100%,这时平行趋势假设与实际情况会略有出入。
实验案例:配送区域优化实验
实验背景:为解决现有配送区域划分畸形、切割商户热力等问题,提升配送效率,通过算法智能规划对各城市配送区域进行重新规划。
实验目标:降低运单超出配送区域范围占比,提高配送效率。
实验指标:
实验难点及约束:
实验方案:考虑到实验难点及约束,采用半城平行趋势分组,并使用双重差分法进行评估。
实验设计:采用半城划分+平行趋势检验的实验设计机制,对城市中配送区域进行分组,详细流程可见图5-2:
实验评估:根据实验前通过哪个模型的平行趋势检验来决定用哪个模型来评估实验后策略效果,详细流程可见图5-3,评估结果以下表为例:
在传统DID模型设定中,一个隐含假设是,实验组的所有个体开始实验的时间均相同。但有时我们也会遇到每个个体的实验时间不完全一致的情形(Staggered Timing),比如有的实验经过逐步放量,一部分个体从实验第1天就开始接受策略处理,而另一部分个体则等到放量之后,第8天才开始接受策略。这时我们就可以用多时点DID模型来同时考察多次实验的效果,模型设定如下:
在实践中当出现平行趋势不成立的情况时(建议尽量在实验设计上采取更合理的分组,如果现实中已经结束实验并平行趋势检验表明假设不合理时),通常可以尝试如下做法:
本文在准实验上着重介绍了双重差分法,此外还有一些断点回归、中断时间序列等类准实验方法可供读者参考。