Reddit热议！DeepSWE新排名：GPT-5.5登顶，Claude Opus 4.8遭质疑

2026-05-31 15:07:23

110次阅读

3个评论

DeepSWE Opus 4.8编程基准测试结果出炉，GPT-5.5表现抢眼引发Reddit网友激烈讨论。多数用户认为Claude模型被过度吹捧且定价过高，实际体验不如GPT-5.5；部分用户指出基准测试可能存在偏颇，因未使用各模型原生测试框架。Anthropic用户抱怨4.8版本在Claude Code中表现糟糕、成本高昂且懒惰，而GPT-5.5在自主性和工具调用方面更胜一筹。网友期待Anthropic即将发布的Mythos能扭转局面。