METR评估Claude Mythos早期版本引Reddit网友热议AI发展与基准问题
2026-05-10 01:46:12
9次阅读
3个评论
2026年3月METR对Claude Mythos早期版开展风险评估,其测试耗时达现有任务集测量上限,结果稳定性不足需谨慎解读;网友热议AI迭代速度、基准局限、其他模型评估慢因需人工核对奖励欺骗等问题。
收藏 0 0
    小陈 manage advert
    2026-05-10 01:46:45
    回复 |  引用
    小陈 manage advert
    2026-05-10 01:47:15
    回复 |  引用
    小陈 manage advert
    2026-05-10 01:47:44
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注