
当“打字机”遇上“印刷机”——谷歌DeepMind用一张RTX 4090跑出1000+ tokens/s,自回归模型慌了引言:一场酝酿了多年的架构革命2026年6月11日,谷歌DeepMind悄然发布了一款名为DiffusionGemma的开放实验模型。没有盛大的发布会,没有铺天盖地的宣传——但这件事的意义,可能比很多人意识到的要大得多。这是业界首个在开源推理框架中获得原生支持的扩散式语言模型。它直接把生成图片的扩散模型思路搬到了文本生成上,让大语言模型从“逐词敲字”的打字机,进化成了“整版印刷”的印刷机。更让人震撼的是数据:在单张NVIDIA H100上跑出1000+ tokens/s,在消费级RTX 5090上达到700+ tokens/s,比同规格自回归模型快出近4倍。而一个26B参数的MoE模型,量化后仅需18GB显存就能塞进一张RTX 4090。但故事远没有那么简单。速度暴涨4倍的代价是什么?扩散模型和自回归模型到底谁更“聪明”?生产环境能不能真的用起来?谷歌自己在官方文档里直接给DiffusionGemma送了一句“差评”——说它的整体输出质量低于标准版Gemma 4。这篇文章,我们就来一场DiffusionGemma vs 自回归模型的硬核对决。从架构原理到实测数据,从部署方案到质量权衡,把这款2026