网友测试Opus4.6与4.7 简单考题引性能争议
2026-04-26 04:11:46
64次阅读
0个评论
楼主以“从11数到10”测试Claude Opus4.6与4.7,称4.6答对、4.7答错,引发热议。有网友吐槽4.7变笨,也有人认为提示本身有歧义,4.7是更字面执行指令,加引导语即可答对,还有人质疑这类测试的合理性。
0
0
相关帖子
- Reddit热议Anthropic Opus 4.7模型性能与测试争议
- Opus 4.7在NYT测试中表现暴跌,引Reddit用户热议
- Claude Opus4.7强制更新引不满,大量用户吐槽性能下滑
- 用户吐槽Opus 4.7谄媚啰嗦 怀念4.6版本平衡表现
- Claude Opus 4.7数学基准测试表现拉胯,被GPT新版本碾压
- MineBench基准测试揭示Kimi K2.5与K2.6性能差异
- Opus 4.7 Max用户转用Kimi 2.6 引Reddit网友热议AI模型竞争
- 用户吐槽Claude Opus4.7被削弱,转投ChatGPT引网友热议
- Claude Opus 4.7引热议,用户评价两极分化
- Claude Opus4.7与Kimi K2.6自主编码对比结果出人意料