总第621篇 | 2025年第018篇
本文系《可信实验白皮书》系列的第六篇文章,上一篇我们介绍了准实验,然后重点介绍了双重差分法,包括概述、评估原理及美团的一些实践案例。本篇重点介绍了观察性研究,内容主要包括合成控制法、匹配方法、Causal Impact等几个方面。
本章目录
6.1 合成控制法
6.1.1 概述
6.1.2 原理
6.1.3 实验案例
6.2 匹配方法
6.2.1 概述
6.2.2 原理
6.2.3 实际案例
6.3 Causal Impact
6.3.1 概述
6.3.2 原理
6.3.3 实际案例
6.4 展望与拓展
观察性研究常用于解决无法进行控制实验的问题。在美团的到家履约业务场景中,由于法律约束以及实际操作成本等多种限制,我们通常无法直接进行控制实验。因此,观察性研究成为一种重要的替代方法,它允许我们在不进行控制实验,且不影响用户体验的情况下,评估不同策略和措施的业务效果。
著名统计学家Cochran(1965)总结了观察性研究的两个常见特征:一是目标是阐明因果关系,二是使用控制实验不可行。第一个特征与随机对照实验或准实验相同,但第二个特征与其有根本性的不同:随机对照试验和准实验的干预是外生的,不受实验个体自身控制,不存在自选择问题,而在观察性研究中,干预是不可控的,即我们无法通过实验的方式控制一部分实验个体分配到实验组和对照组,这可能存在选择性偏差问题(由于样本的选择方式不当,使得样本不能代表总体,导致评估结果具有偏差)。选择合适的观察性研究方法,能够帮助我们在无法进行控制实验分组的情况下,尽可能消除选择性偏差,得到较为科学的评估结果。
接下来,我们将介绍一些具体的观察性研究方法,包括合成控制法、匹配方法以及Causal Impact等。各方法的基本思想和适用场景简单总结如下表,每个方法的具体细节可参考对应章节,一些其他观察性研究方法的简单介绍可见拓展部分。
6.1 合成控制法
| 6.1.1 概述
2024年,北京发布了《餐饮外卖流通绿色包装评价要求》,这项规定对美团北京地区外卖履约业务会有多大影响?为了评估这类事件或政策的影响,根据潜在因果框架理论,我们需要为受政策影响的地区构建“反事实”结果,即如果该地区未受干预会如何。通常,这需要选择一个在各方面与受干预地区相似的对照组,然而,干预政策通常只发生在特定地区,由于美团外卖履约业务的特殊性,我们很难找到一个业务特征[1]相似的对照组。
为此,我们可以考虑为干预地区构建一个未受干预且特征相似的对照组,具体而言,通过对若干与干预地区相似的未干预对照组进行线性加权,构造出一个虚拟对照组,用以近似干预地区在未受干预情况下的情形,这便是Abadie和Gardeazabal(2003)[2]提出的“合成控制法”。
基本思想
合成控制法(Synthetic Control Method, SCM)的基本思想是通过从其他相似地区的数据中学习权重,构建一个加权平均的“合成对照组”来估计政策或干预对一个处理单元(如一个城市、国家或公司)的因果效应,该方法特别适用于个案研究,尤其是在随机对照试验不可行的情况下,其主要流程可以见下图6-1:
适用场景与优缺点
在实际应用中,合成控制法具有其独特的优势,尤其是在以下业务场景中尤为适用:
无法进行随机对照实验或准实验:由于法律约束以及实际操作成本等多种限制,无法实施随机对照实验或准实验时,合成控制法提供了一种有效的替代方法,通过构建合成对照组来模拟对照实验的效果。
干预单元数量有限:适用于评估单个或少量干预单元的影响。这种情况下,合成控制法通过利用多个对照单元的数据来创建一个合成对照组。
丰富的对照组单元:需要有足够数量和多样性的对照组单元,以便从中选择并加权组合,创建一个合成对照组,使其在未受干预时表现与干预单元相似。
多期面板数据:合成控制法依赖于多期面板数据,以观察干预前后干预单元和对照单元的表现。这种数据结构允许更准确地捕捉时间趋势,并验证合成对照组在干预前的适用性。
随着合成控制法被广泛应用,优缺点也逐渐明显,其优点如下:
适用于个案研究:特别适合评估只有单个城市、地区或特定市场的政策或策略影响。
数据驱动的对照组构建:通过加权组合多个对照组,创建一个合成对照组,模拟处理组在未受干预时的表现,可以减少单个对照城市的偏差。
减少模型依赖:减少对复杂模型假设的依赖,更加依赖于观测数据的实际表现。
直观的可视化:结果通常可以通过图形表示,便于干预政策影响的直观理解和解释。
然而,合成控制法也存在一些局限性,这些限制在特定情况下可能影响其应用效果:
数据要求高:需要足够的对照单元和多期面板数据来构建合成对照组,对数据质量要求较高,存在较多缺失数据或者对照单元较少时可能难以评估。
复杂性:合成控制的权重计算和假设检验的p值计算可能较为复杂,特别是存在多个处理单元时,需要计算多个权重。
外推性限制:结果的外推性可能有限,由于处理组的特殊性可能并不能代表总体情况,无法轻易推广到其他场景或城市。
处理组和对照组的相似性要求:要求合成的对照组能很好地模拟处理组在未受干预时的表现,但异质性较大时,合成对照组和实验组在未受干预时差别可能会较大。
| 6.1.2 原理
本节我们将详细介绍合成控制法的数学原理。
基本假定
假设我们有 个实验单元,其中有 个对照组和1个处理组,不失一般性,假设第一个单元接受干预,其余的 个地区是潜在的对照组。令 为对于实验个体 在每个时间点 上未接受干预后的潜在结果,个体 ,时间周期 。令 为干预前的时间周期数量,其中 , 为在 到 时期内,实验个体 在每个时间点 上接受干预后的潜在结果。我们假设在实施干预之前,干预对结果没有影响,因此对于 和所有 ,有 。
定义个体 在时间周期 的因果效应为: ,此时个体 在时间周期 的观测结果为: ,因为只有第1个实验个体被干预,且在时间周期 之后被干预,因此:
且对于 ,我们只能观测到 ,观测不到 ;相反,对 ,我们只能观测到 ,观测不到 。
假设 满足如下的因子模型:
其中, 是随时间变化的影响 的公共因子, 是一个 维的可观测协变量向量(不受干预影响), 是一个 维的未知参数, 是一个 维的不可观测协向量, 是一个 维的未知公共因子,在各个体中具有不同的因子载荷 , 是未观测到的随机误差项,对所有个体 ,其期望为零。
权重计算
在合成控制法中,我们关心的是ATT(Average Treatment Effect of the Treated),也就是说我们希望推断的参数是 ,因此如何估计 是我们要解决的问题。前文讲到,合成控制法中我们会对对照组中的城市进行线性组合,组成一个虚拟的和干预个体1相似的对照单元。也就是说,对每个对照组个体 ,给定权重 ,满足 ,此时有:
假设对干预前每个 ,以及可观测的协变量 ,存在权重 使得:
对于 ,我们关心的 期的因果效应估计量 就可以被表示为:
于是干预后的处理组平均因果效应就是:
然而,上述方程很难同时完全成立,我们对权重 选取的要求是尽量近似满足上式。设 是干预前第一个实验单元的协变量向量,类似地, 为干预前对照组实验单元的协变量矩阵,其中第 列对应一个处理组单元 。我们可以选取权重 使得:
其中 是一个半正定对称矩阵,代表不同协变量的重要性权重。在关于 的选择上,我们可以考虑选择使得在干预前阶段观测结果 的预测均方误差最小化的正定对角矩阵,从而得到相应的权重 。
显著性评估
在得到了具体的因果效应估计后,我们自然希望知道其效果是否显著,此时我们可以考虑Fisher精确检验方法计算 值:将对照组个体依次作为处理组,计算其效应值,然后确定这些效应值中有多少比例高于处理组个体的效应值,具体计算步骤:
1.实验个体作为处理组,使用合成控制法计算效应值 ;
2.对照个体逐个作为处理组,分别使用合成控制法并计算效应值 ;
3.计算 值: 或者 。
考虑到我们得到的因果效应可能并非完全由干预引起,可能存在一些随机因素,我们需要通过稳健性检验来排除随机因素的影响,此时可以考虑改变干预时间节点进行稳健性检验:即通过提前或延后干预时间,创造一个虚拟干预时间节点,观察在这种情况下得到的平均因果效应,与真实干预时间点的平均因果效应是否存在显著差异。
合成控制法的拓展
近年来,针对前述局限性,众多研究者在Abadie和Gardeazabal(2003)提出的合成控制法基础上进行了改进。我们对这些改进方法进行了简要总结,如下表所示,具体细节可参考原文:
评估模型选择
我们介绍了很多合成控制法的拓展,在面对复杂场景时,我们应该如何选择合适的模型呢?一方面,可以结合具体业务和经验进行判断,例如,当存在多个实验单元时,可以考虑使用广义合成控制法;当存在较多干预前缺失数据时,可以考虑使用稳健合成控制法。另一方面,也可以采用数据驱动(Data-Driven)的方式,利用实验前数据进行模型评估:通过不同模型预测实验前几周的AA数据,如果预测值与真实值接近(以MAPE衡量,即Mean Absolute Percentage Error,平均绝对百分比误差),则说明模型的预测较为准确,实验期间预测值的参考价值较高。此外,还可以计算实验前AA结果的p值,p值越大,说明该模型的AA结果越不显著,因果效应估计值更接近0,这也意味着在实验期间预测值的参考价值更高。
| 6.1.3 实验案例
案例背景:美团履约运营团队设计了一种新的运营策略,希望验证该策略能否实现数量和效率的可控性,使得运力和用户需求更匹配,从而提高骑手和用户的体验。
评估难点:受限于多方面的业务约束情况,不适合采用分组实验的方式进行验证。新模式需要通过长期运营来观察和评估用户的接受度,无法实现每日切换,因此也不适合采用时间轮转的实验设计。此外,也难以找到业务特征高度相似的单一城市,作为实施新策略城市的对照组。
解决方法:考虑“全城灰度”策略,即在整个城市范围内实施新策略一段时间(如一个月),然后利用合成控制法,从一些还没有实施该新策略的城市中拟合一个虚拟的对照组进行评估。
评估指标:**
评估周期:**
评估结果:

6.2 匹配方法
| 6.2.1 概述
上文提到,在美团履约和外卖的实验中,部分场景由于法律约束以及实际操作成本等诸多限制,无法开展控制实验。例如,在“评估购买优惠券对订单量增量效果”的研究中,我们无法控制用户是否实际购买优惠券。因此,若要评估整体人群中购买优惠券对订单量的提升效果,随机对照实验并不适用。
通常,评估购买优惠券对订单量的影响最直接的方法,是比较“购买优惠券”与“不购买优惠券”用户的订单量差异。然而,现实中多种因素都会影响购买优惠券的行为和订单量,购买优惠券的用户与不购买优惠券的用户在某些协变量特征上也往往存在天然差异,直接比较这两类人群的订单量差异会存在选择性偏差问题。
为此,我们可以采用匹配方法,通过匹配购买优惠券与不购买优惠券用户的协变量特征来控制这些干扰因素,减少因选择偏差导致的估计误差,从而更准确地估计实验效果。
基本思想
匹配是因果推断中常用的一种方法,其核心思想是通过平衡处理组和对照组之间的协变量分布,从而消除混杂因素的影响。具体而言,在多维协变量空间中,匹配方法尽量模拟随机分配的情境,为每个处理组个体找到一个或多个相似的对照组个体,作为其反事实结果,从而减少样本间协变量(非处理因素)差异对效果评估的干扰,其基本流程如下图6-2所示:
适用场景与优缺点
匹配方法在观察性研究中被广泛应用,尤其适用于以下场景:
无法进行控制试验:出于法律约束以及实际操作成本等原因,无法实施控制试验时,匹配方法成为因果推断的重要工具。
处理组与对照组存在相似个体:匹配方法适用于处理组和对照组中存在相似个体的情况,通过确保这两组在协变量上的分布尽量一致,从而减少因组间差异带来的偏差。
观测的协变量特征较为全面:当评估中涉及多个协变量且需要在这些协变量上达到平衡时,匹配方法能够有效控制混杂因素,提高因果效应估计的准确性。
在应用匹配方法进行因果效应分析时,我们需要详细了解其优势和局限性,从而确保评估的准确性。首先,匹配方法具有以下优点:
减少选择偏差:匹配方法通过平衡处理组和对照组的协变量分布,显著减少了由于非随机分配导致的选择偏差,从而提高因果效应估计的准确性。
易于理解与实施:相较于其他复杂的因果推断方法,匹配方法直观且易于理解,解释性强。我们可以通过匹配后直接比较处理组和对照组的结果,步骤清晰。
灵活性高:匹配方法可以与多种统计模型和技术结合使用,如不同的倾向得分模型、距离度量方法等,适应不同研究需求和数据特点。
不过,匹配方法也存在以下局限性:
数据需求较高:为了有效匹配个体,处理组和对照组需要有足够的重叠区域(Overlap or Common Support),即处理组和对照组中需要存在相似个体,但在某些场景中,可能并不满足该条件,这会限制匹配的有效性。
无法控制未观测到的混杂因素:匹配方法仅能控制已观测到的协变量,对于未被包含在匹配过程中的潜在混杂变量,匹配方法可能无法完全消除选择偏差,这可能导致因果效应估计的偏差。
| 6.2.2 原理
由上述匹配的基本流程可知,匹配主要包括:选择协变量特征、定义距离度量、选择匹配方法等步骤。在本节,我们将详细介绍这些步骤和一些注意点。
基本假定
匹配方法灵活且易于实施,但其评估结果的有效性会依赖于以下两个假定条件:
条件独立假设(Conditional Independence Assumption):在给定观测协变量的条件下,处理的分配与潜在结果独立,其数学表达如下:
其中 分别表示个体 在处理组和对照组中的观测结果, 表示处理变量, 表示协变量。在该假设下,我们只要控制了可观测变量 ,就控制了所有会影响处理变量 和观测结果 的混杂因子,处理组与对照组之间就不存在未观测的差异。
重叠性假设(Overlap 或 Common Support):在所有协变量的取值下,对应个体分配到处理组和对照组概率都大于0,即 。这意味着,对于每一个协变量的组合,既有接受处理的个体,也有不接受处理的个体。该假设确保了每个处理组个体都有相似的对照组个体可供匹配,保证了因果效应估计的有效性。
协变量特征选择
在确定匹配过程中应选择哪些协变量时,关键概念是条件独立假设(Conditional Independence Assumption)。匹配方法以及大多数观察性研究方法都依赖于该假设,该假设认为在已观测协变量的条件下,处理组与对照组之间不存在未观测的差异。为了满足可忽略性假设,重要的是在匹配过程中包含所有已知与处理分配和结果相关的变量。
通常,使用相对较少的便利预测变量(Predictors of Convenience)的匹配方法表现较差。在使用倾向得分匹配(Propensity Score Matching, PSM,下文将详细介绍)时,包含与处理分配无关的变量几乎没有成本,因为它们对倾向得分模型的影响极小。虽然包含与结果无关的变量可能会略微增加方差,然而,排除潜在的重要混杂变量往往会导致较大的偏差。因此,我们在选择协变量特征时,应采取宽松的态度,尽可能包含可能与处理分配和结果相关的变量,以提高因果效应估计的准确性。
此外,匹配过程中不应包含那些可能受到处理影响的变量,当协变量、处理变量和结果变量同时收集时,这一点尤为重要。如果确实需要控制受处理影响的变量,应该在匹配之后,通过回归调整或其他适当的统计方法在分析模型中进行控制。
距离度量
在匹配时,我们需要定义个体之间的距离,用来衡量两个个体的相似性。定义个体 和个体 之间的距离 ,有以下几种方法,我们总结如下表所示:
在上述距离定义中,除了倾向得分距离之外,其他距离类型都较为常见且易于理解。接下来,我们将对倾向得分距离进行详细介绍。首先我们先简单介绍倾向性得分的定义:倾向性得分(Propensity Score)是指在给定协变量的条件下,个体接受处理的概率。
具体而言,对于个体 及其协变量向量 ,倾向得分 定义为: ,其中, 是处理指示变量, 表示个体 接受处理, 表示未接受处理。为了更好的地理解倾向性得分的定义,我们考虑上文评估整体人群中购买优惠券对订单量的提升效果的例子,假如协变量 只有AB两种选择,取值为1表示A类用户,取值为0表示B类用户,购买优惠券表示用户接受处理,当用户协变量 时,倾向性得分 表示A类用户购买优惠券的概率,当 时,倾向性得分 表示B类用户购买优惠券的概率。为什么我们可以用倾向性得分定义距离并进行匹配呢?这是因为Rubin[3]证得:
在条件独立假设和重叠性假设下,有:
该结论表明,倾向性得分 包含了协变量特征 的所有信息,只要我们控制了倾向性得分 ,那么处理组与对照组之间不存在未观测的差异。由于我们并不知道每个个体的真实倾向性得分,我们可以通过二元响应模型(如Logistic回归或Probit回归)进行估计。
具体而言,我们使用处理指示变量 作为因变量,协变量 作为自变量,拟合Logistic回归模型:
然后基于该拟合模型预测计算每个个体的倾向得分估计值。
匹配方法
在匹配方法中,最常见且最容易实施和理解的方法之一是最近邻匹配(Nearest Neighbor Matching)。最近邻匹配几乎总是能估计出处理组的平均处理效应(ATT),因为它将对照组个体匹配到处理组,并丢弃未被选为匹配的对照组个体。在其最简单的形式中,1:1最近邻匹配为每个处理组个体选择距离最近的一个对照组个体,这也是我们最常用的形式。在使用匹配方法时,经常会存在一些细微问题,我们简单总结如下,具体细节可参考Stuart(2010)[4]的综述论文:
一对一匹配与一对多匹配:最常见的形式是使用一对一匹配,但该方式丢弃的对照组个体可能会比较多,检验功效会降低,此时可以考虑一对多匹配,但对应地,其计算复杂度会增加,且匹配效果会依赖于超参数的调整。
有放回匹配与无放回匹配:我们一般使用有放回匹配,但一些研究者更倾向于无放回匹配。当对照组的样本量较大时,这两种方法在最终结果上通常不会有太大差异。有放回匹配在计算上更为简便,而无放回匹配则涉及计算密集的离散优化过程。有放回匹配通常能够获得更高质量的匹配,但由于需重复使用相同的样本,可能会引入依赖性。相比之下,无放回匹配的优势在于确保匹配样本的独立性,并简化后续的数据分析过程。
匹配限制:在匹配方法中,一个常见的担忧是缺乏限制可能导致不良匹配。例如,某处理组个体的倾向得分(Propensity Score)与对照组中任何个体的相似度不足,无法找到合适的匹配对。为避免此类问题,可以实施卡尺(Caliper),即仅选择匹配距离在预设范围内的对照组个体。虽然这可能导致部分处理组个体无法找到匹配对,增加因果效应解释的难度,但有助于确保匹配质量,减少估计偏差。
匹配方法的选择:目前有各种各样的匹配方法可供选择,但相关的指导却相对较少。迄今为止,学术界主要的建议是选择能够实现最佳平衡的方法,例如Ho等人(2007)[5]的研究。然而,定义“最佳平衡”是复杂的,因为这涉及在多个协变量之间进行权衡。选择匹配方法的可能方式包括:(1) 在最多协变量上实现最小标准化均差的方法;(2) 最小化少数特别具有预测性协变量的标准化均差的方法;(3) 产生最少“大”标准化均差(大于0.25)的方法等。这些方法各有侧重,我们可能需要根据具体的研究需求和数据特点选择最合适的匹配方法。
评估与检验
在匹配完成后,需要评估匹配的质量,确保处理组和控制组在协变量上的平衡。常用的方法包括:标准化均差(SMD)和分布图。
标准化均差(SMD):评估匹配后协变量的平衡性,确保处理组和对照组在基线特征上相似。标准化均差(Standardized Mean Difference, SMD)是用于衡量两组之间均值差异的标准化效应量。SMD 的公式如下:
其中 是处理组的均值, 是对照组的均值, 分别是处理组和对照组的标准差, 分别为处理组和对照组的样本量。SMD是无单位的,因此可以用于不同尺度的变量之间的比较,通常用于评估组间平衡性。在倾向评分匹配(PSM)中,SMD小于0.1或0.2,通常被认为是组间平衡良好的标志。
分布图:绘制协变量的分布图或倾向得分的分布图,检查匹配前后的变化。
在匹配完成并验证平衡性后,可以估计处理效应。常见的处理效应估计方法包括:
平均处理效应(ATE):估计总体的处理效应。
处理组平均处理效应(ATT):估计处理组的平均处理效应。
控制组平均处理效应(ATC):估计控制组的平均处理效应。
处理效应的估计通常通过比较匹配后的处理组和控制组的结果变量均值来进行。
匹配的拓展
在上文中,我们主要介绍了最常用且最经典的匹配方法。然而,在处理一些复杂情形时,这些方法可能无法充分满足评估需求,因此需要对其进行扩展。我们对此进行了简要总结,具体细节可参考相关文献。
方差估计:Badie和Imbens(2008)[6]首次表明,仅通过对原始数据进行重抽样的简单自助法(Bootstrap)无法有效估计匹配估计量的方差,但他们提出的方差估计方法实施起来并不容易。Otsu和 Rai(2017)建议对估计量在线性展开中进行Bootstrap,Otsu和Rai(2017)[7]的Bootstrap本质上产生了方差估计量。得到方差估计后,便可以计算 值。
距离组合:在某些场景下,我们希望匹配的个体在某些关键协变量特征上(如身份、归属城市)保持完全一致,然后再在这些子组内进行匹配,此时我们可以考虑将上文介绍的距离度量进行组合。例如,我们可以考虑类似粗糙精确匹配(Coarsened Exact Matching,CEM)的距离:
其中 表示个体 与个体 的关键协变量。此外,我们也可以考虑Rubin和Thomas(2000)[8]提出的结合马氏距离和倾向性得分卡尺的距离:
存在多个处理组:上文我们讨论的都是一个处理组和一个对照组的情形,但是,在很多实际场景下,往往会面临多个处理组的情况,此时往往会更复杂。在面对多个处理组时,我们可以考虑广义倾向性得分(Generalized Propensity Score),利用多项逻辑回归模型(Multinomial Logistic Regression Model)预测每个个体的广义倾向性得分,再利用向量匹配方法(Vector Matching,VM)进行匹配,具体细节可参考Scotina和Gutman(2019)[9]的工作。
共同支撑问题:匹配方法中普遍存在共同支持(Common Support)的问题。迄今为止,我们假设两组的倾向得分分布具有明显重叠,但在某些情况下,分布可能不完全重叠。例如,许多对照组个体与处理组成员差异较大,不适合作为估计平均处理效应(ATT)的比较对象。使用卡尺(caliper)的最近邻匹配方法仅匹配位于或接近共同支持区域的个体,而子分类(subclassification)和加权(weighting)方法则通常使用所有个体,无论分布是否重叠,具体细节可参考的Dehejia 和 Wahba(1999)[10]的工作。
协变量缺失问题:大多数关于匹配和倾向性得分的文献都假设协变量是完全观测的,但实际上大多数研究至少存在一些缺失数据。一种可能性是使用广义提升模型(Generalized Boosted Models)来估计倾向得分,因为它们不需要完全观测的协变量。另一种推荐的方法是进行简单的单一插补(Single Imputation)来填补缺失的协变量,并在倾向得分模型中包含缺失数据指示变量,具体细节可参考Greenland和Finkle(1995)[11]的工作。
| 6.2.3 实际案例
案例背景:美团神会员是美团推出的综合权益卡,用户可通过免费领取或者支付一个很低的价格成为“美团神会员”。用户成为神会员用户,可以享受到平台的各种优惠权益。神会员项目中售卖的无门槛券包称为省钱包,目前用户可以通过在美团神会员Tab页直接购买。业务方需要对用户在不同行业中购买省钱包后的下单行为变化进行定量分析,以评估用户购买省钱包对业务的影响。
评估难点:实验观察的行为(是否购买券包)不满足随机对照条件,无法进行随机AB实验评估效果。由于业务特性,影响用户下单行为的协变量较多,需要考虑如何进行匹配,能够减少选择偏差。
解决方法:采用倾向分匹配(PSM)进行观察性研究,以计算策略效果,具体流程如下:
圈选购买省钱包的用户作为实验组;
圈选未购买省钱包的用户作为候选的对照组;
计算用户特征作为倾向分计算的协变量,包含用户历史交易相关数据、访问相关特征、用户分层等,训练倾向分模型;
使用可放回的抽样,根据倾向分得分,从候选的对照组中为实验组的用户进行匹配,得到对照组;
计算实验组和对照组的目标指标,评估效果。
评估指标:**
评估周期:**
评估结果:
6.3 Causal Impact
| 6.3.1 概述
在美团履约和外卖业务中,部分策略由于无法进行随机实验,同时为了避免影响用户体验,需要在城市粒度上进行实施和评估。这些策略包括线下广告投放、冬夏季城市战和时段场景营销等。然而,常用的评估方法在处理这些局部全量策略效果时存在一定的局限性:首先,单重差分法假设功能或策略是唯一的影响因素,但现实中市场环境复杂,影响因素多样,使得这一假设难以成立。其次,倾向分匹配法(PSM)虽然在特征选择和匹配质量上有其优势,但难以消除未观测的混杂因素。此外,合成控制方法(SCM)要求协变量及目标变量均相似的对照组,这在实际应用中难以获得。最后,双重差分法(DID)假设干预组和对照组在没有干预的情况下会有相同的趋势,这一假设在实践中较难成立。
为了解决这些问题,Causal Impact方法[12]应运而生。该方法基于贝叶斯结构时间序列(BSTS)模型,通过构建“虚拟对照组”来更准确地评估干预效果。Causal Impact 能够有效捕捉时间序列中的长期趋势和周期性变化,从而提供稳健的因果效应估计,为企业提供可靠的决策支持。
基本思想
Causal Impact方法的基本思想是通过贝叶斯结构时间序列(Bayesian Structural Time Series, BSTS)模型来评估干预措施的因果效应。其核心在于构建一个“虚拟对照组”,用于预测在没有干预措施情况下目标变量的可能表现。然后,将该预测值与实验组的真实值进行对比,从而评估策略效果。
以城市粒度实验为例,具体步骤如下图6-3:
适用场景与优缺点
Causal Impact方法的有效性依赖于若干重要的前提条件和假设,这些条件共同构成了确保因果效应估计准确性和可靠性的基础。首先,需要有可用且平稳的时序数据,即足够的历史数据,涵盖完整的周期性模式,且时间序列中的趋势和季节性成分是平稳的。其次,须有相似、独立、稳定的对照组,与目标市场行为模式相似且未受干预影响,并在实验期间保持稳定。此外,时间序列数据需符合状态空间模型的基本假设,包括线性关系、正态分布误差和马尔可夫性质。模型中应包含所有重要的控制变量,确保没有遗漏关键的影响因素。最后,数据中应没有显著的异常值或极端情况,或已妥善处理这些问题。
在应用Causal Impact方法进行因果效应分析时,了解其优势和局限性对于确保分析的准确性和可靠性至关重要。Causal Impact方法结合了贝叶斯结构时间序列模型和反事实预测技术,能够在复杂的时间序列数据中提供稳健的因果效应估计,具体而言,其优势在于:
灵活的时间序列建模:适用于复杂时间依赖结构的数据集,能够捕捉数据中的趋势、季节性和异常值。
无需随机对照试验:能够在没有随机实验的情况下估计因果效应,通过构建“虚拟对照组”来进行因果推断。
不确定性量化:提供完整的后验分布,能够量化不确定性,从而提供更为全面的因果效应评估。
动态适应性:支持动态回归系数,能够根据时间变化动态调整模型,增强模型的灵活性和适应性。
尽管Causal Impact方法具有显著的优势,但在实际应用中也需注意其局限性,以确保分析结果的可靠性。这些局限性包括:
依赖高质量对照组:方法的准确性高度依赖于对照组的选择。如果对照组选择不当,可能导致估计偏差。
假设严格:方法假设目标市场和对照组的行为模式相似,且对照组不受干预影响。这一假设在实际应用中可能不完全成立。
难以处理复杂因果关系:对于复杂的多因素交互作用或长期滞后效应,方法可能不够准确。
需要足够长的历史数据:需要足够长的历史数据来训练模型,以捕捉数据中的长期趋势和季节性变化。
通过明确这些优势和局限性,可以更好地应用Causal Impact方法进行因果效应分析,从而确保分析的准确性和可靠性。
| 6.3.2 原理
在本节,我们将详细介绍Causal impact的基本原理。
模型设定
Causal Impact通过采用贝叶斯结构时间序列(Bayesian Structural Time Series, BSTS)模型,结合状态空间模型(State-Space Models)与贝叶斯推断(Bayesian Inference)方法来构建反事实预测模型,从而估计在没有干预措施的情况下结果变量的预期表现。考虑一个常规的BSTS模型:
其中 是设计矩阵, 是潜在状态向量, 表示状态噪声, 是状态转移矩阵, 是控制噪声影响的矩阵,通过改变矩阵Z、T、R和Q,可以为时间序列建模几个不同的行为(包括著名的 或 )。
在很多情况下,我们对于将要评估的时间序并没有模型的先验认知,此时我们可以构建一个默认Local Level的模型,并在状态方程中加入协变量 ,此时 可表示为:
在上述模型中,各项含义如下:
代表一个自回归的过程,任何给定的时间点首先由随机游走分量建模,反应的是局部水平(Local Level);
分量 是协变量的线性组合(目前考虑静态回归系数,如有需要可考虑随 变化的动态的 ,例如对照城市作为协变量,对照城市与实验城市关系会发生变化,当相对稳定时考虑使用静态协变量);
是 在 和 期之间期望的增量,同样是一个自回归过程,反应的是局部趋势(Local Trend);
表示季节效应(如果不考虑季节性则无该项), 表示季节的周期数;
、 以及 是噪声项。
贝叶斯推断
在Causal Impact中,对于上述介绍的BSTS模型,我们通常会使用贝叶斯后验推断来估计反事实预测值,即:
具体步骤如下:
先验选择:在贝叶斯模型中,我们需要对各参数设置合理的先验分布。对于方差参数 ,可以采用共轭先验伽玛分布: ,对于协变量系数 ,我们可以考虑Spike-and-Slab先验[13],该先验可以帮我们自动选择重要的变量,并剔除那些不重要的变量。
后验推断:一般情况下,因为模型的复杂性,我们无法直接得到反事实预测值后验分布的显示表达式。因此,我们可以考虑利用MCMC(Markov Chain Monte Carlo)方法,通过构建一个马尔可夫链(Markov Chain),使得该链的极限分布(平稳分布)为目标后验分布,从而实现从后验分布中的有效采样进行后验推断。以上面的Local Level模型为例,一个完整的Causal Impact过程可见图6-4 :
因果效应评估
通过贝叶斯后验推断,我们可以得到反事实预测(Counterfactual Prediction)结果,即:
此时我们可以计算每一期的因果效应估计 ,也可以得到累积效应(Cumulative Effect):
以及运行平均效应(Running Average Effect):
最后,通过验证因果效应的95%后验置信区间是否包含0来评估显著性。
| 6.3.3 实际案例
为了更直观地展示Causal Impact方法的运行机制,这里举一个外卖一体化营销的例子。
背景介绍:以往在城市维度进行营销时,业务主要依赖站内补贴资源来推动城市交易额的增长,而站内外、线上线下资源的协同效应相对较弱。前几年,美团外卖推出了一种全新的一体化营销模式,通过组织统筹和综合效应,促进站外广告营销、一线运营的协同作用。当前,美团外卖在一体化营销城市战中投入了大量人力和物力,这样的投入是否值得?为此,我们需要构建一个评估方法来衡量一体化营销策略对业务的影响。
评估难点:由于涉及站外和站内、线上和线下的多策略组合,评估面临一些挑战,无法通过A/B测试和倾向评分匹配(PSM)进行有效评估。同时,不同城市的天气等外部因素差异显著,难以找到满足平行趋势的对照组城市,这也使得双重差分法不适用。此外,为避免影响用户体验,策略不能频繁变更,因此时间片轮转也不可行。
解决方法:考虑在全城范围内实施站内站外、线上线下的组合策略,可以利用Causal Impact方法进行评估。具体做法是,从暂未实施该策略的城市中选择一些作为候选城市,并结合天气等外生变量,拟合出一个虚拟的“对照城市”进行评估。
评估指标:**
评估周期:**
评估结果:
6.4 展望与拓展
在上文中,我们主要介绍了合成控制法、匹配方法以及Causal Impact等方法。此外,还有许多广泛应用于观察性研究的方法值得进一步探讨,尤其是在上述方法不满足评估需求时,可以考虑使用以下方法:
逆概率加权(Inverse Probability Weighting, IPW):通过为每个样本分配权重来调整样本分布,以有效控制混杂变量的影响,从而更准确地估计处理效果。
双重稳健估计(Doubly Robust Estimation):结合倾向得分模型和结果模型的优点,即使其中一个模型不完全正确,依然能够提供一致的因果效应估计。
工具变量法(Instrumental Variable, IV):通过引入一个工具变量(IV),该变量与处理变量相关但与结果变量无关(仅通过处理变量影响结果),从而解决内生性问题,准确估计因果效应。工具变量法特别适用于处理变量与误差项相关的情况,例如遗漏变量偏差或测量误差。
双重机器学习(Double Machine Learning, DML):结合了机器学习与因果推断方法,旨在高维数据环境下准确估计因果效应。该方法通过使用机器学习模型分别估计处理变量和结果变量与协变量之间的关系,并通过残差化(residualization)与交叉验证(cross-fitting)技术,有效控制潜在的混杂因素,减少模型误差带来的偏差。
这些方法各具特色,为我们提供了多样化的评估工具。如果能够合理选择并使用这些方法,我们可以在复杂的业务环境中更好地进行效果评估,得到科学的评估结果,进而为决策提供科学依据。
// 参考资料 //
[1] 业务特征:各运力线的承托比、骑手规模、总完单量、拼好饭单占比、跑腿单占比、推订单完成率等等。
[2] Abadie和Gardeazabal(2003):Abadie, A., & Gardeazabal, J. (2003). The economic costs of conflict: A case study of the Basque Country. American economic review, 93(1), 113-132.
[3] Rubin证得:Rosenbaum, P. R. and Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70:41–55.
[4] Stuart(2010):Stuart, E. A. (2010). Matching methods for causal inference: A review and a look forward. Statistical science: a review journal of the Institute of Mathematical Statistics, 25(1), 1.
[5] Ho 等人(2007):Ho DE, Imai K, King G, Stuart EA. Matching as nonparametric preprocessing for reducing model dependence in parametric causal inference. Political Analysis 2007;15(3):199–236.
[6] badie 和 Imbens(2008):Abadie, A. and Imbens, G. W. (2008). On the failure of the bootstrap for matching estimators. Econometrica, 76:1537–1557.
[7] Otsu 和 Rai(2017):Otsu, T. and Rai, Y. (2017). Bootstrap inference of matching estimators for average treatment effects. Journal of the American Statistical Association,112:1720–1732.
[8] Rubin和Thomas(2000):Rubin, Donald B., and Neal Thomas. Combining propensity score matching with additional adjustments for prognostic covariates."Journal of the American Statistical Association 95.450 (2000): 573-585.
[9] Anthony和Gutman(2019):Scotina, Anthony D., and Roee Gutman. Matching algorithms for causal inference with multiple treatments. Statistics in medicine 38.17 (2019): 3139-3167.
[10] Dehejia 和 Wahba(1999):Dehejia, Rajeev H., and Sadek Wahba. Causal effects in nonexperimental studies: Reevaluating the evaluation of training programs. Journal of the American statistical Association 94.448 (1999): 1053-1062.
[1] Greenland和Finkle(1995):Greenland S, Finkle WD. A critical look at methods for handling missing covariates in epidemiologic regression analyses. American Journal of Epidemiology 1995;142:1255–1264.
[12] Causal Impact 方法:Brodersen, K. H., Gallusser, F., Koehler, J., Remy, N., & Scott, S. L. (2015). Inferring causal impact using Bayesian structural time-series models.
[13] Spike-and-Slab先验:结合了“尖峰”(Spike)和“平板”(Slab)两个部分,尖峰(Spike)部分是一个集中在零附近的分布,表示某个参数可能为零或接近零,反映了变量不被选择或对模型贡献很小的情况;平板(Slab)部分是一个较为宽松的分布,允许参数有较大的值,表示该变量可能对模型有显著贡献。
---------- END ----------
推荐阅读