为什么需要因果推断？内生性问题的三大来源

本文结构

本文是因果推断系列的第一篇，旨在帮助你建立"为什么需要因果推断"的核心直觉。文章分为三部分：

原理：内生性问题的三大来源及其数学表达
直觉：用最低工资与就业的例子建立直觉
代码：Stata 模拟演示 OLS 偏误

第一层：原理

因果推断的核心问题

经济学实证研究的核心目标是回答因果问题：" $X$ 对 $Y$ 的因果效应是什么？"

用潜在结果框架（Potential Outcomes Framework），个体 $i$ 的处理效应为：

\tau_i = Y_i(1) - Y_i(0)

其中 $Y_i(1)$ 和 $Y_i(0)$ 分别是个体在接受处理和未接受处理时的潜在结果。因果推断的根本难题在于：我们永远无法同时观测到同一个体的两个潜在结果。

内生性的三大来源

当我们用 OLS 估计 $Y = \alpha + \beta X + \varepsilon$ 时， $\hat{\beta}$ 是 $\beta$ 的一致估计量要求 $\text{Cov}(X, \varepsilon) = 0$ 。内生性问题即 $\text{Cov}(X, \varepsilon) \neq 0$ ，来源有三：

1. 遗漏变量偏误（Omitted Variable Bias, OVB）

如果遗漏了同时影响 $X$ 和 $Y$ 的变量 $W$ ：

\text{plim } \hat{\beta}_{OLS} = \beta + \underbrace{\frac{\text{Cov}(X, W)}{\text{Var}(X)}}_{\text{OVB}} \cdot \gamma

2. 反向因果（Reverse Causality）

$Y$ 可能反过来影响 $X$ 。例如：更高的 GDP 导致更多教育投入，而非仅仅教育提升 GDP。

3. 测量误差（Measurement Error）

如果 $X$ 存在经典测量误差 $X^* = X + u$ ，则：

\text{plim } \hat{\beta}_{OLS} = \beta \cdot \frac{\sigma_X^2}{\sigma_X^2 + \sigma_u^2} < \beta

产生衰减偏误（attenuation bias）。

第二层：直觉

例子：最低工资提高会减少就业吗？

假设你观察到：提高最低工资的州，就业率反而上升了。能否直接得出"最低工资提高促进就业"的结论？

不能！ 因为：

OVB：经济繁荣的州更可能提高最低工资（遗漏了经济状况）
反向因果：就业形势好 → 政治压力增加 → 提高最低工资
选择偏误：不同州的劳动市场结构本就不同

这正是 Card and Krueger (1994, AER) 使用双重差分法来解决的问题。

第三层：Stata 代码

模拟演示：OLS 在内生性下的偏误

// ═══════════════════════════════════════════════
// 演示：OLS 在存在内生性时的偏误
// ═══════════════════════════════════════════════
 
clear all
set seed 12345
set obs 1000
 
// 真实 DGP
gen ability = rnormal(0, 1)           // 不可观测的能力（遗漏变量）
gen education = 12 + 2*ability + rnormal(0, 1)  // 教育受能力影响
gen wage = 10 + 3*education + 5*ability + rnormal(0, 2)
// 真实教育回报 = 3
 
// OLS 回归（遗漏 ability）
reg wage education, robust
// 系数 > 3，存在向上偏误！
 
// 加入控制变量后
reg wage education ability, robust
// 系数 ≈ 3，接近真实值

关键要点：当存在遗漏变量时，OLS 估计量是有偏且不一致的。这就是我们需要 DID、IV、RDD 等因果推断方法的根本原因。

处理效应类型

缩写	全称	含义
ATE	Average Treatment Effect	所有个体的平均处理效应
ATT	Average Treatment Effect on the Treated	处理组的平均处理效应
ATU	Average Treatment Effect on the Untreated	未处理组的平均处理效应
LATE	Local Average Treatment Effect	边际个体（Compliers）的处理效应

\text{ATE} = E[Y(1) - Y(0)]

\text{ATT} = E[Y(1) - Y(0) \mid D = 1]

当处理效应存在异质性时， $\text{ATE} \neq \text{ATT} \neq \text{LATE}$ 。理解你的估计量识别的是哪个参数，是正确解读实证结果的前提。

参考文献

Angrist, J. D., & Pischke, J. S. (2009). Mostly Harmless Econometrics. Princeton University Press.
Card, D., & Krueger, A. B. (1994). Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania. American Economic Review, 84(4), 772-793. DOI
Rubin, D. B. (1974). Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies. Journal of Educational Psychology, 66(5), 688-701.