• +1

谷歌发布DiffusionGemma:突破逐Token处理限制的AI新模型

2026-06-21 07:38
来源:澎湃新闻·澎湃号·湃客
听全文
字号

即便是目前最强大的大语言模型,在处理任务时依然像在键盘上逐字输入一样,按照从左到右的顺序依次处理内容。然而在本地单用户场景中,这种顺序处理方式往往导致图形处理器(GPU)和张量处理器(TPU)无法得到充分利用。

谷歌押注DiffusionGemma能够突破这一瓶颈。这款全新的实验性开放模型通过扩散技术同时生成整段文本,而非逐Token处理,从而实现"超快速"的文本生成。谷歌表示,与依赖顺序处理的自回归模型相比,这一技术可将推理速度提升4倍。

此外,DiffusionGemma还可以帮助用户降低成本。科技分析师卡米·利维指出,现有的按Token计费模式"会惩罚那些使用效率欠佳AI方案的用户"。他表示,DiffusionGemma"有望开创新一代面向特定任务的高效解决方案,在不消耗大量运营预算的前提下扩展算力"。

技术架构与核心能力

DiffusionGemma基于谷歌的Gemma 4系列及其Gemini Diffusion研究成果构建,是一款拥有260亿参数的混合专家(MoE)模型,专为最大化文本输出生成而设计。

该模型从根本上改变了硬件的使用方式,让处理器在每个周期内承担更大的工作量,能够依序生成完整的256个Token段落。谷歌表示,这使得模型在GPU上的文本生成速度最高可提升4倍。推理过程中仅激活38亿个参数,经量化后可在18GB显存内运行,适配英伟达RTX 5090等高端消费级GPU。

谷歌研究科学家布兰登·奥多诺霍和塞巴斯蒂安·弗莱纳哈根在一篇博文中写道:"这就像把模型推理从一台逐字输出的打字机,升级成一台能同时印出整页内容的大型印刷机。"

AI图像生成器从随机的"视觉噪声"出发,通过迭代优化最终生成图像,这一过程即为"扩散";DiffusionGemma将同样的机制应用于文本生成。它不按顺序生成Token,而是从"随机占位Token的画布"出发,经过多轮处理,识别最相关的上下文Token,并以此优化其余内容。

该模型还具备自我修正能力,通过置信度评分在下一轮处理中重新评估Token。"模型会对自身输出进行迭代优化,能够一次性评估整个文本块,从而实时修正错误,"两位研究科学家解释道。

DiffusionGemma还具备双向注意力机制。"每次前向传播并行生成256个Token,使每个Token都能与其他所有Token相互关注。"这在具有非线性特征的领域尤为有用,例如数学图形、代码填充和内联编辑。

DiffusionGemma针对英伟达整个硬件栈进行了优化,既兼容消费级设备,也支持Hopper和Blackwell等高性能企业级系统。该模型采用Apache 2.0许可证发布,开发者可自由使用、修改、分发和商业化部署。它可在GPU上本地运行,也可通过谷歌云Model Garden或英伟达NIM在云端部署,并已上架Hugging Face、GitHub和vLLM,开源库llama.cpp的支持即将推出。

适用场景与应用价值

该模型尤其适用于对速度要求较高的本地工作流,例如生成非线性文本结构,并解锁了谷歌所称的"全新模型行为模式",包括多模态理解以及近实时生成和渲染代码等能力。

利维指出,"DiffusionGemma特别适合交互式编程和编辑场景,其高效性支持快速处理和迭代。"他还提到,该模型能够在18GB显存内运行,并可部署于常见的本地GPU,这对依赖实时交互和本地处理的客户服务场景具有潜在价值。

"DiffusionGemma还内置了思维模式,尤其擅长解决问题,"他补充道。例如,该模型经过微调后可用于解数独——这对自回归模型而言通常是一项挑战,因为每个Token都依赖于后续Token。利维认为,这"相当直观地"展示了该模型处理复杂问题的能力。

权衡与局限

谷歌坦承,DiffusionGemma面向特定工作流设计,存在一定的"关键权衡"。

该模型专为小批量推理及在"单一高性能加速器"上实现低延迟、高速生成而设计。在高并发云服务环境中(基础设施需每秒处理数万乃至数十万次请求并保持超低延迟),DiffusionGemma的并行处理优势"收益递减",甚至可能带来更高的服务成本。此外,其整体输出质量低于标准版Gemma 4,后者专为追求最高质量的应用场景而构建。

不过,利维指出,尽管DiffusionGemma"在某些工作负载中精度可能不及其他模型",但通过后续的精炼周期可以克服这一局限。

谷歌未公开运行时成本,但从各方面来看,这显然是一场以效率为核心的布局。利维表示:"在能够充分发挥其架构优势的工作负载中,DiffusionGemma似乎具备降低处理开销和相关成本的潜力。"

Q&A

Q1:DiffusionGemma是什么模型?它和普通大语言模型有什么区别?

A:DiffusionGemma是谷歌发布的一款实验性开放模型,基于Gemma 4系列和Gemini Diffusion研究构建,拥有260亿参数。与传统大语言模型逐Token顺序生成文本不同,DiffusionGemma借鉴AI图像生成的扩散技术,从随机占位Token出发,经多轮迭代同时生成整段文本,推理速度最高可达自回归模型的4倍,并支持双向注意力机制。

Q2:DiffusionGemma对硬件有什么要求?普通用户能用吗?

A:DiffusionGemma推理时仅激活38亿参数,经量化后可在18GB显存内运行,兼容英伟达RTX 5090等高端消费级GPU。它针对英伟达整个硬件栈进行了优化,既支持消费级设备,也支持企业级系统。普通开发者可通过Hugging Face、GitHub、vLLM等平台获取,也可在谷歌云或英伟达NIM上部署,开源库llama.cpp的支持即将上线。

Q3:DiffusionGemma有哪些局限性?适合哪些场景?

A:DiffusionGemma适合本地单用户、速度敏感的工作流,如交互式编程、代码填充、内联编辑及非线性文本生成等场景。但在高并发云服务环境中,其并行处理优势会显著下降,甚至导致更高服务成本。此外,其整体输出质量低于标准版Gemma 4,在对精度要求极高的任务中需谨慎评估。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2026 上海东方报业有限公司