24GB显存跑Qwen 27B终极指南：ik_llama.cpp+MTP量化封神

2026-05-19 17:35:46

191次阅读

3个评论

Reddit用户分享在RTX 3090 24GB上运行Qwen 3.6 27B模型的最佳配置，实测ik_llama.cpp配合IQ4_KS量化方案，在156k上下文下达到1261 tok/s预填充和72.9 tok/s解码速度。网友热议MTP多令牌预测带来的显著加速，但也指出不同量化、KV缓存类型和上下文长度对性能影响巨大，且ik_llama.cpp不支持AMD显卡和Vulkan后端。