Reddit热议!llama.cpp新PR提升提示处理速度,网友疯狂更新
2026-05-18 17:30:24
44次阅读
2个评论
llama.cpp最新PR #23198优化了MTP模式下的logits复制问题,显著提升提示处理速度。网友反应热烈,许多用户每日甚至每日多次更新,感叹“尘埃永不落定”。开发者am17an回应称MTP目前支持CUDA、Vulkan、Metal后端,但并非所有模型都适用,Gemma 4的MTP支持仍在开发中。
收藏 0 0
    小陈 manage advert
    2026-05-18 17:30:56
    回复 |  引用
    小陈 manage advert
    2026-05-18 17:31:25
    回复 |  引用
共2条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注