AI 工具评测
系统评测各 AI 工具在计量科研场景下的实际表现
Claude 3.5 Sonnet
3.5 Sonnet · 2025-03
9
在计量方法理解和代码生成方面表现最优,对Staggered DID等前沿方法有准确理解。
方法理解
9
代码质量
9
写作辅助
9
优点
- ✓ 对因果推断方法的理解最为准确
- ✓ Stata代码生成质量高
- ✓ 学术写作风格接近顶刊标准
- ✓ 能准确区分不同DID估计量的适用场景
缺点
- ✗ 偶尔编造文献引用
- ✗ 对最新Stata命令更新不够及时
- ✗ 长文本输出可能出现重复
GPT-4o
4o · 2025-03
8
综合能力均衡,在代码生成和写作辅助方面表现稳定。
方法理解
8
代码质量
8
写作辅助
8
优点
- ✓ 代码生成能力稳定,Python和R支持更好
- ✓ 多轮对话能力强
- ✓ 对经典IV和RDD方法理解准确
缺点
- ✗ 对Staggered DID新估计量细节有误
- ✗ Stata代码偶有语法错误
- ✗ 学术写作有时过于口语化
Gemini 2.0 Pro
2.0 Pro · 2025-03
7
文献搜索能力突出,但计量方法技术细节理解不如Claude和GPT-4o。
方法理解
7
代码质量
7
写作辅助
7
优点
- ✓ 可直接搜索学术文献
- ✓ 多模态能力强,可分析回归表格图片
- ✓ 对宏观经济学文献理解较好
缺点
- ✗ 计量方法技术细节常有错误
- ✗ Stata代码质量不稳定
- ✗ 对因果推断前沿方法了解有限
Kimi (月之暗面)
k1.5 · 2025-03
6.5
中文学术写作能力较好,但计量方法专业深度与Claude和GPT-4o有较大差距。
方法理解
6
代码质量
6
写作辅助
7
优点
- ✓ 中文学术写作质量好
- ✓ 对中文经济学文献有一定了解
- ✓ 长文本阅读能力强
缺点
- ✗ 计量方法理解深度不足
- ✗ Stata代码错误较多
- ✗ 对前沿因果推断方法几乎不了解