Reddit热议!中国AI公司用标准8卡服务器实现1T模型每秒千token推理
2026-06-09 07:51:06
2次阅读
2个评论
小米MiMo宣布在标准8-GPU节点上,让1万亿参数MoE模型达到每秒1000+ tokens的推理速度,引发Reddit网友激烈讨论。网友既惊叹中国公司的优化能力,也质疑“标准8卡”具体型号,并指出该技术通过仅对MoE专家层进行FP4量化实现,并非硬件突破。
收藏 0 0
    小陈 manage advert
    2026-06-09 07:51:38
    回复 |  引用
    小陈 manage advert
    2026-06-09 07:52:07
    回复 |  引用
共2条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注