数据范儿_范老师-AI时代科研统计新范式-计量科研AI导航

DID 的必要基础知识

在深入双重差分法之前，需要掌握以下核心概念和研究范式的区分。

直接搜集"处理组"和"控制组"的数据进行比较。例如：比较吸烟者与非吸烟者的寿命。

核心问题：处理状态往往是对象自身选择的结果，存在自选择问题（Self-selection）。两组个体在处理状态以外的特征存在明显差异，因此两组结果差异无法归结为"处理本身"。

例：吸烟者的寿命可能更短，但这可能不是因为吸烟，而是因为吸烟者往往有其他的不良生活习惯。

通过随机分配个体到处理组和控制组，确保两组在所有特征上（包括可观测和不可观测的）都是可比较的。

优点：内部效度最高，因果识别最直接缺点：成本高、伦理限制、外部效度可能有限

现实中存在一些接近随机的分配机制，如：

DID 属于准实验方法，利用自然发生的"处理"变化来逼近因果效应。

对每个个体 $i$ ，定义：

实际观测到的结果为： $Y_i = D_i Y_i(1) + (1 - D_i) Y_i(0)$

个体层面的因果效应（ITE）： $\tau_i = Y_i(1) - Y_i(0)$

根本问题：我们永远无法同时观测到 $Y_i(1)$ 和 $Y_i(0)$ ，因此单个个体的因果效应不可识别。

平均处理效应（ATE）： $\tau = E[Y(1) - Y(0)]$

处理组的平均处理效应（ATT）： $\tau_{ATT} = E[Y(1) - Y(0) \mid D = 1]$

在观测研究中，简单的 OLS 回归： $Y_i = \alpha + \tau D_i + \varepsilon_i$

估计量 $\hat{\tau}$ 是有偏的，因为： $E[\hat{\tau}] = \tau_{ATT} + \underbrace{E[\varepsilon \mid D=1] - E[\varepsilon \mid D=0]}_{\text{选择偏差}}$

DID 的核心目标就是消除这种选择偏差，通过"双重差分"剥离出不随时间变化的个体差异。