数据范儿_范老师-AI时代科研统计新范式-计量科研AI导航

Bacon 分解：权重的构造

Goodman-Bacon (2021) 的权重分解揭示了 TWFE 估计量中各类 2×2 DID 比较的相对贡献。理解权重的构造对于诊断偏误至关重要。

一、TWFE = 加权平均

核心公式

$\hat{\tau}_{TWFE} = \sum_{k} w_k \hat{\tau}_k$

其中 $\hat{\tau}_k$ 是第 $k$ 类 2×2 DID 的估计量， $w_k$ 是对应的权重。

四类比较

在渐进 DID 中，存在四类 2×2 DID 比较：

处理组 vs. 从未处理组（T vs. U）
早处理组 vs. 晚处理组（早处理组为处理组）
晚处理组 vs. 早处理组（晚处理组为处理组，坏控制组）
不同处理组之间的交叉比较

二、权重的构成要素

符号定义

符号	含义
$n_k$	第 $k$ 组的样本比例
$D_k$	第 $k$ 组被处理的时间比例
$1 - D_k$	第 $k$ 组未被处理的时间比例
$\text{Var}(D_k)$	处理时点的组内方差

权重的三个组成部分

组间样本量比例： $\frac{n_j n_k}{n_j + n_k}$
- 两组样本量的相对比例
- 样本量越大，该比较的权重越高
处理时长比例： $D_k(1 - D_j)$
- 处理组被处理的时间 × 控制组未被处理的时间
- 处理时间越长，权重越大
组内方差： $\text{Var}(D)$
- 衡量处理时点在组内的变异程度
- 如果所有个体同时处理（方差为零），则无法识别

三、组内方差的理解

方差的含义

组内方差衡量"处理时机"的变异程度：

如果 $n_j^U = 0$ 或 $1$ ：方差为零，要么全部处理要么全不处理，没有识别变异
方差越大：处理时机的变异越大，该比较提供的识别信息越多

直观理解

场景	方差	识别能力
所有个体同时处理	零	无法识别
处理时间分散	大	识别能力强
处理集中在少数时期	小	识别能力弱

数学表达

对于处理组 $k$ 和控制组 $j$ 的比较：

$w_{kj} \propto \underbrace{\frac{n_j n_k}{n_j + n_k}}_{\text{样本量比例}} \times \underbrace{D_k(1 - D_j)}_{\text{处理时长比例}} \times \underbrace{\text{Var}(D)}_{\text{组内方差}}$

四、权重的直觉

权重大的比较

两组样本量相当
处理组有较长的处理期
控制组有较长的未处理期
处理时机变异大

权重小的比较

两组样本量悬殊
处理时间很短或控制组几乎没有未处理期
处理时机高度集中

核心要点

TWFE 权重由样本量比例、处理时长比例和组内方差三部分构成
组内方差为零时无法识别处理效应
权重大的比较是那些样本量相当且处理/未处理期都长的比较
理解权重构造有助于诊断哪些比较主导了 TWFE 估计