Reddit热议!12GB显卡跑出120 tok/s,Gemma 4 MTP技术实测翻倍
2026-06-07 12:49:56
3次阅读
2个评论
Reddit用户janvitos分享在12GB RTX 4070 Super上,通过llama.cpp的Gemma 4 MTP补丁和量化模型,实现120 tok/s推理速度,相比未启用MTP的60 tok/s提升2倍。网友热议显存占用接近极限(约11.5GB),并讨论iGPU释放显存、AMD显卡兼容性及等待PR合并。有用户实测A5500笔记本从44 tok/s提升至57 tok/s,验证了MTP技术的有效性。
收藏 0 0
    小陈 manage advert
    2026-06-07 12:50:29
    回复 |  引用
    小陈 manage advert
    2026-06-07 12:50:58
    回复 |  引用
共2条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注