Reddit热议!KVarN量化算法实测:4位精度媲美5位,显存党狂喜
2026-06-06 19:16:53
3次阅读
2个评论
开发者Anbeeld在llama.cpp分支中实现了华为KVarN量化算法,并进行了KLD基准测试。结果显示,KVarN在4位精度下能达到5位质量,3.5位精度下达到4位质量,性能优于TurboQuant。网友实测Gemma4 12B从65t/s提升至79t/s,但存在缓存失败和速度下降问题。社区反响热烈,认为该技术能延长老显卡寿命。
0
0
2026-06-06 19:17:25

回复 |
引用
2026-06-06 19:17:54

回复 |
引用
共2条
1