因果推断-双重稳健估计

原创已于 2025-04-19 22:30:28 修改 · 2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2024-11-25 21:18:57 首次发布

因果推断专栏收录该内容

1 篇文章

订阅专栏

双重稳健估计的原理

双重稳健估计（Double Robust Estimator, DR Estimator）是结合倾向得分模型（Propensity Score Model）和回归模型（Outcome Model）的一种因果效应估计方法。其核心思想是通过同时依赖这两个模型，在其中一个模型正确时，估计仍然能够保持一致性，从而在面对模型误设时提高稳健性。

估计过程的构成：

双重稳健估计量的构成可以分为以下几个主要步骤：

倾向得分模型（Propensity Score Model）：

倾向性得分 $e(X_i)$ 反映了在给定协变量 $X_i$ 的情况下，样本 $X_i$ 接受处理的概率，即 $P(D_i=1|X_i)$
通过倾向得分模型估计每个个体接受处理的概率 $e(X_i)$

回归模型（Outcome Model）

回归模型分别估计处理组和对照组在协变量 $X_i$ 下的潜在结果：
- $μ1(Xi)\mu_1(X_i)$ ：回归模型对处理组 $D_i=1)$ 的预测结果
- $μ0(Xi)\mu_0(X_i)$ ：回归模型对对照组 $D_i=0)$ 的预测结果

加权残差和回归调整：

在处理组 $D_i=1)$ 中，观测值 $Y_i$ 与回归预测值 $μ1(Xi)\mu_1(X_i)$ 之间的差异（即残差）需要通过倾向得分进行加权调整，得到 $Die(Xi)(Yi−μ1(Xi))\frac{D_i}{e(X_i)}(Y_i-\mu_1(X_i))$
在对照组 $D_i=0)$ 中，观测值 $Y_i$ 与回归预测值 $μ0(Xi)\mu_0(X_i)$ 之间的差异（即残差）需要通过倾向得分进行加权调整，得到 $1−Di1−e(Xi)(Yi−μ0(Xi))\frac{1-D_i}{1-e(X_i)}(Y_i-\mu_0(X_i))$
这两部分合并起来，考虑每个观测点的加权残差，形成一个加权的误差项。

最终的双重稳健估计：

最终的因果效应估计值通过回归预测差 $μ1(Xi)−μ0(Xi)\mu_1(X_i)-\mu_0(X_i)$ 处理和对照组的期望结果差）和加权残差项的组合来计算。双重稳健估计的公式为：
$θ^DR=1n∑i=1n[(μ1(Xi)+Die(Xi)(Yi−μ1(Xi)))−(μ0(Xi)+1−Di1−e(Xi)(Yi−μ0(Xi)))] \hat{\theta}_{DR}=\frac{1}{n}\sum_{i=1}^{n}\bigg[\bigg(\mu_1(X_i)+\frac{D_i}{e(X_i)}(Y_i-\mu_1(X_i))\bigg)-\bigg(\mu_0(X_i)+\frac{1-D_i}{1-e(X_i)}(Y_i-\mu_0(X_i))\bigg)\bigg]$

为什么是双重稳健的

当 $μ1(Xi)\mu_1(X_i)$ 是准确的，如果倾向性得分的模型是错的，我们也无需担心。因为当 $μ1(Xi)\mu_1(X_i)$ 是准确的时候 $E[Yi−μ1(Xi)]=0E[Y_i-\mu_1(X_i)]=0$ ，因此剩余 $μ1(Xi)−μ0(Xi)\mu_1(X_i)-\mu_0(X_i)$ ，转化为回归调整公式。
当倾向性得分 $e(X_i)$ 是准确的，则
$E(Y1)^=1n∑i=1n(μ1(Xi)+Die(Xi)(Yi−μ1(Xi)))=1n∑i=1n(μ1(Xi)+DiYie(Xi)−Diμ1(Xi)e(Xi))=1n∑i=1n(DiYie(Xi)−Di−e(Xi)e(Xi)μ1(Xi)) \begin{aligned} \hat{E(Y_1)}&=\frac{1}{n}\sum_{i=1}^{n}\bigg(\mu_1(X_i)+\frac{D_i}{e(X_i)}(Y_i-\mu_1(X_i))\bigg) \\ &= \frac{1}{n}\sum_{i=1}^{n}\bigg(\mu_1(X_i) +\frac{D_iY_i}{e(X_i)} - \frac{D_i\mu_1(X_i)}{e(X_i)}\bigg) \\ &=\frac{1}{n}\sum_{i=1}^{n}\bigg(\frac{D_iY_i}{e(X_i)}-\frac{D_i-e(X_i)}{e(X_i)}\mu_1(X_i)\bigg) \end{aligned}$
此时 $E[D_i-e(X_i)]=0$ ，剩余项为 $DiYie(Xi)−(1−Di)Yi1−e(Xi)\frac{D_iY_i}{e(X_i)}-\frac{(1-D_i)Y_i}{1-e(X_i)}$ ,转化为逆概率加权IPW公式。

双重稳健估计的关键优势：

稳健性：
双重稳健估计的最重要优势之一是其“稳健性”。即使其中一个模型（倾向得分模型或回归模型）是正确的，估计仍然能够保持一致。这意味着，即使其中一个模型不完全准确，双重稳健估计仍然能提供有效的估计。
消除选择偏误：
通过倾向得分模型，双重稳健估计能够对个体的处理选择进行加权调整，从而减少选择偏误（Selection Bias）。即使样本选择有偏，双重稳健估计仍然能够有效控制这些偏差，提供可靠的因果效应估计。
控制协变量的作用：
回归模型通过控制协变量 $X_i$ 的影响，能够为处理组和对照组提供期望结果差异的估计。回归模型确保我们能够在控制协变量影响后，正确评估处理效应。