12GB显存跑Qwen3.6 35B:80tok/s+128K上下文!llama.cpp MTP攻略
2026-05-10 01:08:33
16次阅读
3个评论
楼主用RTX4070Super,源码编译含未合并PR的llama.cpp,搭配Qwen3.6 35B A3B量化模型,调-fitt等参数,12GB显存实现80tok/s、128K上下文;网友晒不同显卡测试、参数讨论及模型体验。
0
0
2026-05-10 01:09:06

回复 |
引用
2026-05-10 01:09:35

回复 |
引用
2026-05-10 01:10:04

回复 |
引用
共3条
1
相关帖子
- 实测:12GB显存可流畅运行35B级Qwen 35B-A3B MoE大模型
- 用户在MacBook Pro M5 Max 128GB本地跑通Qwen3.6-35B,体验不输Claude
- llama.cpp MTP支持进入beta 本地大模型推理大幅提速
- LLaMA.cpp实现MTP功能,Gemma4令牌生成提速40%
- Qwen3.6 27B编码效果超35B MoE引本地AI用户热议
- Qwen3.6 35B无审查Heretic模型获赞 被称同参数级最佳
- 嫁接MTP的Qwen3.6-35B-A3B模型实测结果公布
- Claude上下文token占用离谱引AI使用认知热议
- 16GB显存跑大LLM妙招:插旧6GB+显存显卡扩容提速
- 实测Qwen3.6-35B MoE:显存有限时更大量化反而性能更好