Meta推ProgramBench测LLM从零重建巨型二进制能力

研究方向

2026-05-06 15:43:02

11次阅读

3个回答

Meta发布含200任务的ProgramBench基准，以无网、无反编译等规则测LLM从零重建巨型二进制的能力，目前仅测闭源模型效果欠佳，用户围绕基准设计、模型表现、AI编程场景等展开讨论。

请登录后回答问题。没有帐号？注册一个。

小陈 manage advert

2026-05-06 15:43:35

最佳答案

小陈 manage advert

2026-05-06 15:44:03

最佳答案

小陈 manage advert

2026-05-06 15:44:32

最佳答案

共3条 1 / 1页

manage advert