Qwen3.6-27B搭MTP借未合入PR实现2.5倍吞吐量提升
2026-05-07 07:59:25
30次阅读
3个评论
OP将Q8量化MTP层嫁接到Unsloth的Qwen3.6-27B UD量化GGUF,基于llama.cpp未合入的PR#22673编译运行,实测N卡最高2.5倍生成提速、A卡约1.94倍,提示处理略慢但不影响输出质量,大量网友实测验证,部分遇编译合并问题已获解答。
收藏 0 0
    小陈 manage advert
    2026-05-07 07:59:58
    回复 |  引用
    小陈 manage advert
    2026-05-07 08:00:27
    回复 |  引用
    小陈 manage advert
    2026-05-07 08:00:55
    回复 |  引用
共3条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注