llama.cpp MTP支持进入beta 本地大模型推理大幅提速
2026-05-05 01:47:36
35次阅读
3个评论
本次新增的MTP为内置多令牌预测的自推测解码技术,无需额外草稿模型,有望近期正式合并,目前适配Qwen3.5/3.6系列,稠密模型提速1.5-2倍,MoE提速30-40%,配合张量并行有望追平vLLM,开启后显存增2.7-3.1G,不建议量化MTP层。
收藏 0 0
    小陈 manage advert
    2026-05-05 01:48:09
    回复 |  引用
    小陈 manage advert
    2026-05-05 01:48:38
    回复 |  引用
    小陈 manage advert
    2026-05-05 01:49:06
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注