llama.cpp MTP支持进入beta 本地大模型推理大幅提速

2026-05-05 01:47:36

35次阅读

3个评论

本次新增的MTP为内置多令牌预测的自推测解码技术，无需额外草稿模型，有望近期正式合并，目前适配Qwen3.5/3.6系列，稠密模型提速1.5-2倍，MoE提速30-40%，配合张量并行有望追平vLLM，开启后显存增2.7-3.1G，不建议量化MTP层。

收藏 0 赞 0

小陈 manage advert

2026-05-05 01:48:09

小陈 manage advert

2026-05-05 01:48:38

小陈 manage advert

2026-05-05 01:49:06

共3条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert