AI 工具评测

系统评测各 AI 工具在计量科研场景下的实际表现

Claude 3.5 Sonnet

3.5 Sonnet · 2025-03

9

在计量方法理解和代码生成方面表现最优,对Staggered DID等前沿方法有准确理解。

方法理解
9
代码质量
9
写作辅助
9
优点
  • 对因果推断方法的理解最为准确
  • Stata代码生成质量高
  • 学术写作风格接近顶刊标准
  • 能准确区分不同DID估计量的适用场景
缺点
  • 偶尔编造文献引用
  • 对最新Stata命令更新不够及时
  • 长文本输出可能出现重复

GPT-4o

4o · 2025-03

8

综合能力均衡,在代码生成和写作辅助方面表现稳定。

方法理解
8
代码质量
8
写作辅助
8
优点
  • 代码生成能力稳定,Python和R支持更好
  • 多轮对话能力强
  • 对经典IV和RDD方法理解准确
缺点
  • 对Staggered DID新估计量细节有误
  • Stata代码偶有语法错误
  • 学术写作有时过于口语化

Gemini 2.0 Pro

2.0 Pro · 2025-03

7

文献搜索能力突出,但计量方法技术细节理解不如Claude和GPT-4o。

方法理解
7
代码质量
7
写作辅助
7
优点
  • 可直接搜索学术文献
  • 多模态能力强,可分析回归表格图片
  • 对宏观经济学文献理解较好
缺点
  • 计量方法技术细节常有错误
  • Stata代码质量不稳定
  • 对因果推断前沿方法了解有限

Kimi (月之暗面)

k1.5 · 2025-03

6.5

中文学术写作能力较好,但计量方法专业深度与Claude和GPT-4o有较大差距。

方法理解
6
代码质量
6
写作辅助
7
优点
  • 中文学术写作质量好
  • 对中文经济学文献有一定了解
  • 长文本阅读能力强
缺点
  • 计量方法理解深度不足
  • Stata代码错误较多
  • 对前沿因果推断方法几乎不了解