观察性研究常用于解决无法进行控制实验的问题。在美团的到家履约业务场景中,由于法律约束以及实际操作成本等多种限制,我们通常无法直接进行控制实验。因此,观察性研究成为一种重要的替代方法,它允许我们在不进行控制实验,且不影响用户体验的情况下,评估不同策略和措施的业务效果。
著名统计学家Cochran(1965)总结了观察性研究的两个常见特征:一是目标是阐明因果关系,二是使用控制实验不可行。第一个特征与随机对照实验或准实验相同,但第二个特征与其有根本性的不同:随机对照试验和准实验的干预是外生的,不受实验个体自身控制,不存在自选择问题,而在观察性研究中,干预是不可控的,即我们无法通过实验的方式控制一部分实验个体分配到实验组和对照组,这可能存在选择性偏差问题(由于样本的选择方式不当,使得样本不能代表总体,导致评估结果具有偏差)。选择合适的观察性研究方法,能够帮助我们在无法进行控制实验分组的情况下,尽可能消除选择性偏差,得到较为科学的评估结果。
接下来,我们将介绍一些具体的观察性研究方法,包括合成控制法、匹配方法以及Causal Impact等。各方法的基本思想和适用场景简单总结如下表,每个方法的具体细节可参考对应章节,一些其他观察性研究方法的简单介绍可见拓展部分。
2024年,北京发布了《餐饮外卖流通绿色包装评价要求》,这项规定对美团北京地区外卖履约业务会有多大影响?为了评估这类事件或政策的影响,根据潜在因果框架理论,我们需要为受政策影响的地区构建“反事实”结果,即如果该地区未受干预会如何。通常,这需要选择一个在各方面与受干预地区相似的对照组,然而,干预政策通常只发生在特定地区,由于美团外卖履约业务的特殊性,我们很难找到一个业务特征[1]相似的对照组。
为此,我们可以考虑为干预地区构建一个未受干预且特征相似的对照组,具体而言,通过对若干与干预地区相似的未干预对照组进行线性加权,构造出一个虚拟对照组,用以近似干预地区在未受干预情况下的情形,这便是Abadie和Gardeazabal(2003)[2]提出的“合成控制法”。
基本思想
合成控制法(Synthetic Control Method, SCM)的基本思想是通过从其他相似地区的数据中学习权重,构建一个加权平均的“合成对照组”来估计政策或干预对一个处理单元(如一个城市、国家或公司)的因果效应,该方法特别适用于个案研究,尤其是在随机对照试验不可行的情况下,其主要流程可以见下图6-1:
适用场景与优缺点
在实际应用中,合成控制法具有其独特的优势,尤其是在以下业务场景中尤为适用:
随着合成控制法被广泛应用,优缺点也逐渐明显,其优点如下:
然而,合成控制法也存在一些局限性,这些限制在特定情况下可能影响其应用效果:
本节我们将详细介绍合成控制法的数学原理。
基本假定
权重计算
显著性评估
在得到了具体的因果效应估计后,我们自然希望知道其效果是否显著,此时我们可以考虑Fisher精确检验方法计算$p$值:将对照组个体依次作为处理组,计算其效应值,然后确定这些效应值中有多少比例高于处理组个体的效应值,具体计算步骤:
考虑到我们得到的因果效应可能并非完全由干预引起,可能存在一些随机因素,我们需要通过稳健性检验来排除随机因素的影响,此时可以考虑改变干预时间节点进行稳健性检验:即通过提前或延后干预时间,创造一个虚拟干预时间节点,观察在这种情况下得到的平均因果效应,与真实干预时间点的平均因果效应是否存在显著差异。
合成控制法的拓展
近年来,针对前述局限性,众多研究者在Abadie和Gardeazabal(2003)提出的合成控制法基础上进行了改进。我们对这些改进方法进行了简要总结,如下表所示,具体细节可参考原文:
评估模型选择
我们介绍了很多合成控制法的拓展,在面对复杂场景时,我们应该如何选择合适的模型呢?一方面,可以结合具体业务和经验进行判断,例如,当存在多个实验单元时,可以考虑使用广义合成控制法;当存在较多干预前缺失数据时,可以考虑使用稳健合成控制法。另一方面,也可以采用数据驱动(Data-Driven)的方式,利用实验前数据进行模型评估:通过不同模型预测实验前几周的AA数据,如果预测值与真实值接近(以MAPE衡量,即Mean Absolute Percentage Error,平均绝对百分比误差),则说明模型的预测较为准确,实验期间预测值的参考价值较高。此外,还可以计算实验前AA结果的p值,p值越大,说明该模型的AA结果越不显著,因果效应估计值更接近0,这也意味着在实验期间预测值的参考价值更高。
案例背景:美团履约运营团队设计了一种新的运营策略,希望验证该策略能否实现数量和效率的可控性,使得运力和用户需求更匹配,从而提高骑手和用户的体验。
评估难点:受限于多方面的业务约束情况,不适合采用分组实验的方式进行验证。新模式需要通过长期运营来观察和评估用户的接受度,无法实现每日切换,因此也不适合采用时间轮转的实验设计。此外,也难以找到业务特征高度相似的单一城市,作为实施新策略城市的对照组。
解决方法:考虑“全城灰度”策略,即在整个城市范围内实施新策略一段时间(如一个月),然后利用合成控制法,从一些还没有实施该新策略的城市中拟合一个虚拟的对照组进行评估。
评估指标:**
评估周期:**
评估结果:
上文提到,在美团履约和外卖的实验中,部分场景由于法律约束以及实际操作成本等诸多限制,无法开展控制实验。例如,在“评估购买优惠券对订单量增量效果”的研究中,我们无法控制用户是否实际购买优惠券。因此,若要评估整体人群中购买优惠券对订单量的提升效果,随机对照实验并不适用。
通常,评估购买优惠券对订单量的影响最直接的方法,是比较“购买优惠券”与“不购买优惠券”用户的订单量差异。然而,现实中多种因素都会影响购买优惠券的行为和订单量,购买优惠券的用户与不购买优惠券的用户在某些协变量特征上也往往存在天然差异,直接比较这两类人群的订单量差异会存在选择性偏差问题。
为此,我们可以采用匹配方法,通过匹配购买优惠券与不购买优惠券用户的协变量特征来控制这些干扰因素,减少因选择偏差导致的估计误差,从而更准确地估计实验效果。
基本思想
匹配是因果推断中常用的一种方法,其核心思想是通过平衡处理组和对照组之间的协变量分布,从而消除混杂因素的影响。具体而言,在多维协变量空间中,匹配方法尽量模拟随机分配的情境,为每个处理组个体找到一个或多个相似的对照组个体,作为其反事实结果,从而减少样本间协变量(非处理因素)差异对效果评估的干扰,其基本流程如下图6-2所示:
适用场景与优缺点
匹配方法在观察性研究中被广泛应用,尤其适用于以下场景:
在应用匹配方法进行因果效应分析时,我们需要详细了解其优势和局限性,从而确保评估的准确性。首先,匹配方法具有以下优点:
不过,匹配方法也存在以下局限性:
由上述匹配的基本流程可知,匹配主要包括:选择协变量特征、定义距离度量、选择匹配方法等步骤。在本节,我们将详细介绍这些步骤和一些注意点。
基本假定
匹配方法灵活且易于实施,但其评估结果的有效性会依赖于以下两个假定条件:
条件独立假设(Conditional Independence Assumption):在给定观测协变量的条件下,处理的分配与潜在结果独立,其数学表达如下:
协变量特征选择
在确定匹配过程中应选择哪些协变量时,关键概念是条件独立假设(Conditional Independence Assumption)。匹配方法以及大多数观察性研究方法都依赖于该假设,该假设认为在已观测协变量的条件下,处理组与对照组之间不存在未观测的差异。为了满足可忽略性假设,重要的是在匹配过程中包含所有已知与处理分配和结果相关的变量。
通常,使用相对较少的便利预测变量(Predictors of Convenience)的匹配方法表现较差。在使用倾向得分匹配(Propensity Score Matching, PSM,下文将详细介绍)时,包含与处理分配无关的变量几乎没有成本,因为它们对倾向得分模型的影响极小。虽然包含与结果无关的变量可能会略微增加方差,然而,排除潜在的重要混杂变量往往会导致较大的偏差。因此,我们在选择协变量特征时,应采取宽松的态度,尽可能包含可能与处理分配和结果相关的变量,以提高因果效应估计的准确性。
此外,匹配过程中不应包含那些可能受到处理影响的变量,当协变量、处理变量和结果变量同时收集时,这一点尤为重要。如果确实需要控制受处理影响的变量,应该在匹配之后,通过回归调整或其他适当的统计方法在分析模型中进行控制。
距离度量
在匹配时,我们需要定义个体之间的距离,用来衡量两个个体的相似性。定义个体$i$和个体$j$之间的距离$D_{ij}$,有以下几种方法,我们总结如下表所示:
在上述距离定义中,除了倾向得分距离之外,其他距离类型都较为常见且易于理解。接下来,我们将对倾向得分距离进行详细介绍。首先我们先简单介绍倾向性得分的定义:倾向性得分(Propensity Score)是指在给定协变量的条件下,个体接受处理的概率。
匹配方法
在匹配方法中,最常见且最容易实施和理解的方法之一是最近邻匹配(Nearest Neighbor Matching)。最近邻匹配几乎总是能估计出处理组的平均处理效应(ATT),因为它将对照组个体匹配到处理组,并丢弃未被选为匹配的对照组个体。在其最简单的形式中,1:1最近邻匹配为每个处理组个体选择距离最近的一个对照组个体,这也是我们最常用的形式。在使用匹配方法时,经常会存在一些细微问题,我们简单总结如下,具体细节可参考Stuart(2010)[4]的综述论文:
评估与检验
在匹配完成后,需要评估匹配的质量,确保处理组和控制组在协变量上的平衡。常用的方法包括:标准化均差(SMD)和分布图。
在匹配完成并验证平衡性后,可以估计处理效应。常见的处理效应估计方法包括:
处理效应的估计通常通过比较匹配后的处理组和控制组的结果变量均值来进行。
匹配的拓展
在上文中,我们主要介绍了最常用且最经典的匹配方法。然而,在处理一些复杂情形时,这些方法可能无法充分满足评估需求,因此需要对其进行扩展。我们对此进行了简要总结,具体细节可参考相关文献。
方差估计:Badie和Imbens(2008)[6]首次表明,仅通过对原始数据进行重抽样的简单自助法(Bootstrap)无法有效估计匹配估计量的方差,但他们提出的方差估计方法实施起来并不容易。Otsu和 Rai(2017)建议对估计量在线性展开中进行Bootstrap,Otsu和Rai(2017)[7]的Bootstrap本质上产生了方差估计量。得到方差估计后,便可以计算$p$值。
距离组合:在某些场景下,我们希望匹配的个体在某些关键协变量特征上(如身份、归属城市)保持完全一致,然后再在这些子组内进行匹配,此时我们可以考虑将上文介绍的距离度量进行组合。例如,我们可以考虑类似粗糙精确匹配(Coarsened Exact Matching,CEM)的距离:
存在多个处理组:上文我们讨论的都是一个处理组和一个对照组的情形,但是,在很多实际场景下,往往会面临多个处理组的情况,此时往往会更复杂。在面对多个处理组时,我们可以考虑广义倾向性得分(Generalized Propensity Score),利用多项逻辑回归模型(Multinomial Logistic Regression Model)预测每个个体的广义倾向性得分,再利用向量匹配方法(Vector Matching,VM)进行匹配,具体细节可参考Scotina和Gutman(2019)[9]的工作。
共同支撑问题:匹配方法中普遍存在共同支持(Common Support)的问题。迄今为止,我们假设两组的倾向得分分布具有明显重叠,但在某些情况下,分布可能不完全重叠。例如,许多对照组个体与处理组成员差异较大,不适合作为估计平均处理效应(ATT)的比较对象。使用卡尺(caliper)的最近邻匹配方法仅匹配位于或接近共同支持区域的个体,而子分类(subclassification)和加权(weighting)方法则通常使用所有个体,无论分布是否重叠,具体细节可参考的Dehejia 和 Wahba(1999)[10]的工作。
协变量缺失问题:大多数关于匹配和倾向性得分的文献都假设协变量是完全观测的,但实际上大多数研究至少存在一些缺失数据。一种可能性是使用广义提升模型(Generalized Boosted Models)来估计倾向得分,因为它们不需要完全观测的协变量。另一种推荐的方法是进行简单的单一插补(Single Imputation)来填补缺失的协变量,并在倾向得分模型中包含缺失数据指示变量,具体细节可参考Greenland和Finkle(1995)[11]的工作。
案例背景:美团神会员是美团推出的综合权益卡,用户可通过免费领取或者支付一个很低的价格成为“美团神会员”。用户成为神会员用户,可以享受到平台的各种优惠权益。神会员项目中售卖的无门槛券包称为省钱包,目前用户可以通过在美团神会员Tab页直接购买。业务方需要对用户在不同行业中购买省钱包后的下单行为变化进行定量分析,以评估用户购买省钱包对业务的影响。
评估难点:实验观察的行为(是否购买券包)不满足随机对照条件,无法进行随机AB实验评估效果。由于业务特性,影响用户下单行为的协变量较多,需要考虑如何进行匹配,能够减少选择偏差。
解决方法:采用倾向分匹配(PSM)进行观察性研究,以计算策略效果,具体流程如下:
评估指标:**
评估周期:**
评估结果:
在美团履约和外卖业务中,部分策略由于无法进行随机实验,同时为了避免影响用户体验,需要在城市粒度上进行实施和评估。这些策略包括线下广告投放、冬夏季城市战和时段场景营销等。然而,常用的评估方法在处理这些局部全量策略效果时存在一定的局限性:首先,单重差分法假设功能或策略是唯一的影响因素,但现实中市场环境复杂,影响因素多样,使得这一假设难以成立。其次,倾向分匹配法(PSM)虽然在特征选择和匹配质量上有其优势,但难以消除未观测的混杂因素。此外,合成控制方法(SCM)要求协变量及目标变量均相似的对照组,这在实际应用中难以获得。最后,双重差分法(DID)假设干预组和对照组在没有干预的情况下会有相同的趋势,这一假设在实践中较难成立。
为了解决这些问题,Causal Impact方法[12]应运而生。该方法基于贝叶斯结构时间序列(BSTS)模型,通过构建“虚拟对照组”来更准确地评估干预效果。Causal Impact 能够有效捕捉时间序列中的长期趋势和周期性变化,从而提供稳健的因果效应估计,为企业提供可靠的决策支持。
基本思想
Causal Impact方法的基本思想是通过贝叶斯结构时间序列(Bayesian Structural Time Series, BSTS)模型来评估干预措施的因果效应。其核心在于构建一个“虚拟对照组”,用于预测在没有干预措施情况下目标变量的可能表现。然后,将该预测值与实验组的真实值进行对比,从而评估策略效果。
以城市粒度实验为例,具体步骤如下图6-3:
适用场景与优缺点
Causal Impact方法的有效性依赖于若干重要的前提条件和假设,这些条件共同构成了确保因果效应估计准确性和可靠性的基础。首先,需要有可用且平稳的时序数据,即足够的历史数据,涵盖完整的周期性模式,且时间序列中的趋势和季节性成分是平稳的。其次,须有相似、独立、稳定的对照组,与目标市场行为模式相似且未受干预影响,并在实验期间保持稳定。此外,时间序列数据需符合状态空间模型的基本假设,包括线性关系、正态分布误差和马尔可夫性质。模型中应包含所有重要的控制变量,确保没有遗漏关键的影响因素。最后,数据中应没有显著的异常值或极端情况,或已妥善处理这些问题。
在应用Causal Impact方法进行因果效应分析时,了解其优势和局限性对于确保分析的准确性和可靠性至关重要。Causal Impact方法结合了贝叶斯结构时间序列模型和反事实预测技术,能够在复杂的时间序列数据中提供稳健的因果效应估计,具体而言,其优势在于:
尽管Causal Impact方法具有显著的优势,但在实际应用中也需注意其局限性,以确保分析结果的可靠性。这些局限性包括:
通过明确这些优势和局限性,可以更好地应用Causal Impact方法进行因果效应分析,从而确保分析的准确性和可靠性。
在本节,我们将详细介绍Causal impact的基本原理。
模型设定
Causal Impact通过采用贝叶斯结构时间序列(Bayesian Structural Time Series, BSTS)模型,结合状态空间模型(State-Space Models)与贝叶斯推断(Bayesian Inference)方法来构建反事实预测模型,从而估计在没有干预措施的情况下结果变量的预期表现。考虑一个常规的BSTS模型:
贝叶斯推断
在Causal Impact中,对于上述介绍的BSTS模型,我们通常会使用贝叶斯后验推断来估计反事实预测值,即:
后验推断:一般情况下,因为模型的复杂性,我们无法直接得到反事实预测值后验分布的显示表达式。因此,我们可以考虑利用MCMC(Markov Chain Monte Carlo)方法,通过构建一个马尔可夫链(Markov Chain),使得该链的极限分布(平稳分布)为目标后验分布,从而实现从后验分布中的有效采样进行后验推断。以上面的Local Level模型为例,一个完整的Causal Impact过程可见图6-4 :
因果效应评估
通过贝叶斯后验推断,我们可以得到反事实预测(Counterfactual Prediction)结果,即:
为了更直观地展示Causal Impact方法的运行机制,这里举一个外卖一体化营销的例子。
背景介绍:以往在城市维度进行营销时,业务主要依赖站内补贴资源来推动城市交易额的增长,而站内外、线上线下资源的协同效应相对较弱。前几年,美团外卖推出了一种全新的一体化营销模式,通过组织统筹和综合效应,促进站外广告营销、一线运营的协同作用。当前,美团外卖在一体化营销城市战中投入了大量人力和物力,这样的投入是否值得?为此,我们需要构建一个评估方法来衡量一体化营销策略对业务的影响。
评估难点:由于涉及站外和站内、线上和线下的多策略组合,评估面临一些挑战,无法通过A/B测试和倾向评分匹配(PSM)进行有效评估。同时,不同城市的天气等外部因素差异显著,难以找到满足平行趋势的对照组城市,这也使得双重差分法不适用。此外,为避免影响用户体验,策略不能频繁变更,因此时间片轮转也不可行。
解决方法:考虑在全城范围内实施站内站外、线上线下的组合策略,可以利用Causal Impact方法进行评估。具体做法是,从暂未实施该策略的城市中选择一些作为候选城市,并结合天气等外生变量,拟合出一个虚拟的“对照城市”进行评估。
评估指标:**
评估周期:**
评估结果:
在上文中,我们主要介绍了合成控制法、匹配方法以及Causal Impact等方法。此外,还有许多广泛应用于观察性研究的方法值得进一步探讨,尤其是在上述方法不满足评估需求时,可以考虑使用以下方法:
这些方法各具特色,为我们提供了多样化的评估工具。如果能够合理选择并使用这些方法,我们可以在复杂的业务环境中更好地进行效果评估,得到科学的评估结果,进而为决策提供科学依据。