Opus 4.7在NYT测试中表现暴跌,引Reddit用户热议
2026-04-18 04:21:09
20次阅读
0个评论
有用户爆出Anthropic的Opus 4.7高版本在纽约时报连接扩展基准测试仅得41%,远低于前代4.6的94.7%,无推理版更是排倒数第一。经补充,性能下滑多因安全合规拒答,允许评测的题目得分为90.9%仍低于前代。网友众说纷纭,有人吐槽是降本阉割、资源被分给新项目,也有人认可它编码能力有提升。
0
0
相关帖子
- Reddit用户讨论Opus 4.7表现不佳的原因
- Reddit热议Anthropic Opus 4.7模型性能与测试争议
- Claude Opus 4.7引热议,用户评价两极分化
- Opus4.7登SimpleBench引热议 Gemini高排名遭大量用户质疑
- Kimi K2.6被称可作Claude Opus 4.7平替引热议
- Kimi K2.6被称可替代Opus 4.7 引发Reddit热议
- 想换编码代理:从Opus4.7到Qwen35B靠谱吗?网友热议
- 用户让Claude制作生物学习资料PDF被封禁引热议
- 克劳德要求身份验证收集用户数据引Reddit用户嘲讽质疑
- 欧洲热议 德国总理在新年致辞中表示:“我们不是大国手中的棋子” | 欧洲新闻台