实测Qwen3.6-35B MoE:显存有限时更大量化反而性能更好
2026-04-26 00:16:55
70次阅读
0个评论
楼主用8GB显存RTX3070测试Qwen3.6-35B-A3B,发现更大的Q4、Q5量化比更小的IQ4_XS速度更快、长上下文表现更稳。评论解释IQ量化卸载到内存时速度慢,普通量化更适配,多位用户验证该规律,还有人分享llama.cpp优化参数。
0
0
相关帖子
- 实测:12GB显存可流畅运行35B级Qwen 35B-A3B MoE大模型
- 嫁接MTP的Qwen3.6-35B-A3B模型实测结果公布
- Qwen3.6-35B搭适配代理追平云模型引发社区热议
- Qwen3.6 27B编码效果超35B MoE引本地AI用户热议
- 用户在MacBook Pro M5 Max 128GB本地跑通Qwen3.6-35B,体验不输Claude
- 12GB显存跑Qwen3.6 35B:80tok/s+128K上下文!llama.cpp MTP攻略
- 双显卡实测Qwen3.6-27B与Coder-Next:优劣依场景而定
- 通义千问Qwen3.6-27B开源发布,性能亮眼引热议
- 通义千问Qwen3.6 27B本地实测表现优异引网友热议
- Qwen3.6 35B无审查Heretic模型获赞 被称同参数级最佳