Claude Opus 4.7数学基准测试表现拉胯,被GPT新版本碾压
2026-04-27 16:09:31
58次阅读
0个评论
BrokenArxiv是测试模型诚实与批判性思维的假数学命题基准,Claude Opus 4.7在此测试表现极差,远逊于GPT 5.4、5.5且后者成本更低,网友除猜测相关原因外,也有人质疑测试内容是否在GPT训练数据中。
0
0
相关帖子
- GPT-Image-2总统测试表现惊艳,Reddit网友热议AI能力
- 用户吐槽Opus 4.7谄媚啰嗦 怀念4.6版本平衡表现
- Opus 4.7在NYT测试中表现暴跌,引Reddit用户热议
- Reddit用户讨论Opus 4.7表现不佳的原因
- Kimi K2.6被称可作Claude Opus 4.7平替引热议
- Reddit热议Anthropic Opus 4.7模型性能与测试争议
- 用户吐槽Claude Opus4.7被削弱,转投ChatGPT引网友热议
- 网友测试Opus4.6与4.7 简单考题引性能争议
- Qwen3.6-27B发布 基准超Claude Opus引Reddit热议
- Claude Opus4.7更新翻车遭Reddit用户集体吐槽