Reddit热议!DeepSWE新排名:GPT-5.5登顶,Claude Opus 4.8遭质疑
2026-05-31 15:07:23
8次阅读
3个评论
DeepSWE Opus 4.8编程基准测试结果出炉,GPT-5.5表现抢眼引发Reddit网友激烈讨论。多数用户认为Claude模型被过度吹捧且定价过高,实际体验不如GPT-5.5;部分用户指出基准测试可能存在偏颇,因未使用各模型原生测试框架。Anthropic用户抱怨4.8版本在Claude Code中表现糟糕、成本高昂且懒惰,而GPT-5.5在自主性和工具调用方面更胜一筹。网友期待Anthropic即将发布的Mythos能扭转局面。
收藏 0 0
    小陈 manage advert
    2026-05-31 15:07:55
    回复 |  引用
    小陈 manage advert
    2026-05-31 15:08:24
    回复 |  引用
    小陈 manage advert
    2026-05-31 15:08:53
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注