METR评估Claude Mythos早期版本引Reddit网友热议AI发展与基准问题

2026-05-10 01:46:12

9次阅读

3个评论

2026年3月METR对Claude Mythos早期版开展风险评估，其测试耗时达现有任务集测量上限，结果稳定性不足需谨慎解读；网友热议AI迭代速度、基准局限、其他模型评估慢因需人工核对奖励欺骗等问题。

收藏 0 赞 0

小陈 manage advert

2026-05-10 01:46:45

小陈 manage advert

2026-05-10 01:47:15

小陈 manage advert

2026-05-10 01:47:44

共3条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert