AI 工具评测

系统评测各 AI 工具在计量科研场景下的实际表现

Claude 3.5 Sonnet

3.5 Sonnet · 2026-04-22

9

在计量方法理解和代码生成方面表现最优，对Staggered DID等前沿方法有准确理解。

方法理解

9

代码质量

9

写作辅助

9

优点

✓ 对因果推断方法的理解最为准确
✓ Stata代码生成质量高
✓ 学术写作风格接近顶刊标准
✓ 能准确区分不同DID估计量的适用场景

缺点

✗ 偶尔编造文献引用
✗ 对最新Stata命令更新不够及时
✗ 长文本输出可能出现重复

GPT-4o

4o · 2026-04-22

8

综合能力均衡，在代码生成和写作辅助方面表现稳定。

方法理解

8

代码质量

8

写作辅助

8

优点

✓ 代码生成能力稳定，Python和R支持更好
✓ 多轮对话能力强
✓ 对经典IV和RDD方法理解准确

缺点

✗ 对Staggered DID新估计量细节有误
✗ Stata代码偶有语法错误
✗ 学术写作有时过于口语化

Gemini 2.0 Pro

2.0 Pro · 2026-04-22

7

文献搜索能力突出，但计量方法技术细节理解不如Claude和GPT-4o。

方法理解

7

代码质量

7

写作辅助

7

优点

✓ 可直接搜索学术文献
✓ 多模态能力强，可分析回归表格图片
✓ 对宏观经济学文献理解较好

缺点

✗ 计量方法技术细节常有错误
✗ Stata代码质量不稳定
✗ 对因果推断前沿方法了解有限

Kimi (月之暗面)

k1.5 · 2026-04-22

6.5

中文学术写作能力较好，但计量方法专业深度与Claude和GPT-4o有较大差距。

方法理解

6

代码质量

6

写作辅助

7

优点

✓ 中文学术写作质量好
✓ 对中文经济学文献有一定了解
✓ 长文本阅读能力强

缺点

✗ 计量方法理解深度不足
✗ Stata代码错误较多
✗ 对前沿因果推断方法几乎不了解