双重差分(DID)
DID因果推断

11_必要基础知识

作者:计量科研导航站发布:2026-04-14★★★

DID 的必要基础知识

在深入双重差分法之前,需要掌握以下核心概念和研究范式的区分。


三类研究范式

1. 非实验的观测研究

直接搜集"处理组"和"控制组"的数据进行比较。例如:比较吸烟者与非吸烟者的寿命。

核心问题:处理状态往往是对象自身选择的结果,存在自选择问题(Self-selection)。两组个体在处理状态以外的特征存在明显差异,因此两组结果差异无法归结为"处理本身"。

:吸烟者的寿命可能更短,但这可能不是因为吸烟,而是因为吸烟者往往有其他的不良生活习惯。

2. 随机实验

通过随机分配个体到处理组和控制组,确保两组在所有特征上(包括可观测和不可观测的)都是可比较的。

优点:内部效度最高,因果识别最直接 缺点:成本高、伦理限制、外部效度可能有限

3. 准实验(自然实验)

现实中存在一些接近随机的分配机制,如:

  • 政策实施的地域差异
  • 抽签/摇号产生的处理分配
  • 地理边界两侧的不同政策

DID 属于准实验方法,利用自然发生的"处理"变化来逼近因果效应。


潜在结果框架

基本概念

对每个个体 ii,定义:

  • Yi(1)Y_i(1):如果接受处理的结果
  • Yi(0)Y_i(0):如果不接受处理的结果
  • DiD_i:处理指示变量(1=处理,0=未处理)

实际观测到的结果为: Yi=DiYi(1)+(1Di)Yi(0)Y_i = D_i Y_i(1) + (1 - D_i) Y_i(0)

因果效应

个体层面的因果效应(ITE): τi=Yi(1)Yi(0)\tau_i = Y_i(1) - Y_i(0)

根本问题:我们永远无法同时观测到 Yi(1)Y_i(1)Yi(0)Y_i(0),因此单个个体的因果效应不可识别

平均处理效应(ATE): τ=E[Y(1)Y(0)]\tau = E[Y(1) - Y(0)]

处理组的平均处理效应(ATT): τATT=E[Y(1)Y(0)D=1]\tau_{ATT} = E[Y(1) - Y(0) \mid D = 1]


OLS 为什么不够?

在观测研究中,简单的 OLS 回归: Yi=α+τDi+εiY_i = \alpha + \tau D_i + \varepsilon_i

估计量 τ^\hat{\tau} 是有偏的,因为: E[τ^]=τATT+E[εD=1]E[εD=0]选择偏差E[\hat{\tau}] = \tau_{ATT} + \underbrace{E[\varepsilon \mid D=1] - E[\varepsilon \mid D=0]}_{\text{选择偏差}}

DID 的核心目标就是消除这种选择偏差,通过"双重差分"剥离出不随时间变化的个体差异。


核心要点

  1. 观测研究 ≠ 因果推断:相关性不等于因果性
  2. 随机实验是金标准,但现实中往往不可行
  3. DID 是准实验方法,利用自然发生的变化逼近因果效应
  4. 潜在结果框架是理解所有因果推断方法的基础