Meta推ProgramBench测LLM从零重建巨型二进制能力
2026-05-06 15:43:02
11次阅读
3个回答
Meta发布含200任务的ProgramBench基准,以无网、无反编译等规则测LLM从零重建巨型二进制的能力,目前仅测闭源模型效果欠佳,用户围绕基准设计、模型表现、AI编程场景等展开讨论。
0
2026-05-06 15:43:35
最佳答案

2026-05-06 15:44:03
最佳答案

2026-05-06 15:44:32
最佳答案

共3条
1