网易首页 > 网易号 > 正文 申请入驻

谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快

0
分享至

机器之心编辑部

今天一早,谷歌又发新模型了!

Gemmna 家族有了新成员 ——DiffusionGemma,一个探索文本扩散的实验性开源模型,在文本生成任务上速度极快

根据官方介绍,DiffusionGemma 采用了 Apache 2.0 许可证发布,是一个 26B 规模的混合专家模型(MoE)。

该模型没有沿用典型自回归大语言模型(LLM)那种按顺序、逐 token 生成的方式,而是可以同时生成整块文本,在 GPU 上,文本生成速度最高可提升至 4 倍。



DiffusionGemma 建立在 Gemma 4 家族业界领先的「每参数智能水平」之上,同时吸收了 Gemini Diffusion 的前沿研究成果。它引入了一种全新的扩散式输出头,目标很明确:尽可能提高生成速度。

需要说明的是,自回归版本的 Gemma 4 仍然是高质量生产级输出的首选。而DiffusionGemma 更适合研究人员和开发者探索那些对速度要求极高、强调本地交互体验的工作流,比如行内编辑、快速迭代,以及生成非线性的文本结构。



谷歌 CEO 皮查伊表示,「DiffusionGemma 是一款开放的实验性模型,它把我们的文本扩散研究带到了 Gemma 4 上。速度像赛马一样快 :通过一次性生成整块文本,而不是逐 token 预测输出,推理速度最高可以提升至 4 倍。」



为开发者创造新的价值

对实时交互式 AI 应用开发者来说,本地推理最大的痛点之一就是延迟。DiffusionGemma 正是针对这个问题而来,但也做出了一些取舍。

首先是推理速度非常快

DiffusionGemma 将解码瓶颈从内存带宽转向计算本身,因此在专用 GPU 上,token 输出速度最高可提升至 4 倍。在单张 NVIDIA H100 上,它可以达到每秒 1000+ tokens;在 NVIDIA GeForce RTX 5090 上,也能达到每秒 700+ tokens。

其次是硬件门槛相对友好

DiffusionGemma 是一个总规模为 26B 的 MoE 模型,但推理时只激活 3.8B 参数。经过量化后,它可以比较轻松地运行在 18GB 显存以内的高端消费级独立显卡上。

第三,它支持双向注意力

每次前向计算可以并行生成 256 个 token,并且每个 token 都能看到其他 token。这让它在一些非线性场景中更有优势,比如行内编辑、代码补全、氨基酸序列生成,或者数学图结构。

第四,它具备一定的自我修正能力

模型会通过多轮迭代不断 refine 自己的输出,并且可以一次性查看整个文本块,从而实时发现并修正错误。

不过,DiffusionGemma 目前仍然是一个实验性模型。因为它更重视速度和并行布局生成,整体输出质量低于标准版 Gemma 4。如果应用场景对质量要求最高,官方仍然建议部署标准版 Gemma 4。



开发者也可以通过微调,让 DiffusionGemma 在特定任务上表现更好。

下面这个例子中,Unsloth 对 DiffusionGemma 进行了微调,让它学会解数独。数独对自回归模型并不友好,因为每个 token 往往都依赖后面的 token;而 DiffusionGemma 的双向注意力机制,让这类任务变得更容易。



经过微调后,DiffusionGemma 正在解数独。

为什么要用扩散模型生成文本?

过去几年,AI 研究社区一直在探索基于扩散的文本生成方法,但要把它应用到大模型上并不容易。

DiffusionGemma 的突破点在于,它改变了模型使用硬件的方式。

传统语言模型更像一台打字机:从左到右,一个 token 接一个 token 地生成。在云端,这种方式很高效,服务器可以同时批处理成千上万个用户请求,让硬件资源被充分利用。

但在本地运行、只有单个用户请求时,这种逐词生成的方式反而会让你的独立 GPU 或 TPU 处于低利用率状态。它大部分时间都在等下一个「按键」。

DiffusionGemma 则把这个问题反了过来。它不是按顺序一个词一个词地预测,而是一次性起草整个 256-token 文本块。这样一来,处理器每次都能拿到更大块的计算任务,硬件利用率也更高。

换句话说,它把模型推理从一台顺序敲字的打字机,升级成了一台可以同时印出整块文本的高速印刷机。



Hugging Face 制作的 DiffusionGemma text-to-3D SVG 演示,展示了逐步生成过程。

视频链接:https://mp.weixin.qq.com/s/Qf8788wjPUzs7s__hBBRkw

这也意味着,DiffusionGemma 的速度优势主要面向本地推理和低并发推理场景。在高 QPS 的云端服务中,自回归模型本身就可以通过批处理充分吃满算力,因此 DiffusionGemma 的并行解码优势会被削弱,甚至可能带来更高的服务成本。

它的吞吐优势,主要体现在单个加速器上的低到中等 batch size 场景。

博客地址:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
食堂阿姨总给我少菜,毕业后,我回校当评委,发现她女儿在名单上

食堂阿姨总给我少菜,毕业后,我回校当评委,发现她女儿在名单上

纸鸢奇谭
2026-05-19 16:19:37
浙江杨梅红了!800元一斤,水晶杨梅为啥这么贵?

浙江杨梅红了!800元一斤,水晶杨梅为啥这么贵?

极目新闻
2026-06-11 18:42:13
杭州重大发现!萧山林区多次拍到"隐世国宝",工作人员:实在少见

杭州重大发现!萧山林区多次拍到"隐世国宝",工作人员:实在少见

万象硬核本尊
2026-06-11 16:05:11
中国台东执法第3天!日方突然“改口”,官木原稔、小泉接连表态

中国台东执法第3天!日方突然“改口”,官木原稔、小泉接连表态

兰妮搞笑分享
2026-06-11 18:02:11
举报成风,正在毁掉中国教育的根基!

举报成风,正在毁掉中国教育的根基!

霹雳炮
2026-06-09 22:40:49
俄罗斯通告全球,将使用核武?泽连斯基向32国求助,北约也选边了

俄罗斯通告全球,将使用核武?泽连斯基向32国求助,北约也选边了

南宗历史
2026-06-09 21:26:40
吴妈挥泪“斩”无招

吴妈挥泪“斩”无招

银杏科技
2026-06-11 16:09:22
演员万茜与丈夫徐洪涛,彼此深爱,又很低调

演员万茜与丈夫徐洪涛,彼此深爱,又很低调

娱你同欢
2026-06-09 20:04:50
丁太升回应谢娜演唱会争议:不太理解买票看演唱会的都是什么人

丁太升回应谢娜演唱会争议:不太理解买票看演唱会的都是什么人

韩小娱
2026-06-11 11:46:42
天天被家长喂的“毒面包”,正在掏空孩子脾胃,很多家庭早餐在吃

天天被家长喂的“毒面包”,正在掏空孩子脾胃,很多家庭早餐在吃

小书虫妈妈
2026-06-10 11:17:00
二战后,320名德国漂亮女军官怕被苏军报复,狂欢后集体选择自杀

二战后,320名德国漂亮女军官怕被苏军报复,狂欢后集体选择自杀

贱议你读史
2026-06-10 22:25:03
大陆强硬执法,民进党急了,台“防长”下令,将对大陆海警动武?

大陆强硬执法,民进党急了,台“防长”下令,将对大陆海警动武?

老鹈爱说事
2026-06-10 14:33:48
日本男子在家闭门不出40年,没工作过一天!62岁突然决定去上班,称:想与社会保持联系

日本男子在家闭门不出40年,没工作过一天!62岁突然决定去上班,称:想与社会保持联系

东京新青年
2026-06-10 18:23:36
12岁女儿平板藏满裸照,父母报警后崩溃:已被侵犯多次

12岁女儿平板藏满裸照,父母报警后崩溃:已被侵犯多次

一丝不苟的法律人
2026-06-10 22:38:30
WTT萨格勒布站8强出炉,头号种子惊险晋级,日本占两席

WTT萨格勒布站8强出炉,头号种子惊险晋级,日本占两席

五姑娘台球
2026-06-11 18:58:17
日本两企业下月起永久停产六氟化钨,有色金属ETF华夏(516650)、稀有金属ETF华夏(159053)午后拉升走强

日本两企业下月起永久停产六氟化钨,有色金属ETF华夏(516650)、稀有金属ETF华夏(159053)午后拉升走强

每日经济新闻
2026-06-11 14:09:56
试图在贝尔法斯特斩首一名当地人的袭击者已被确认为哈迪·阿洛迪

试图在贝尔法斯特斩首一名当地人的袭击者已被确认为哈迪·阿洛迪

岁月有情1314
2026-06-11 10:26:28
新疆在韩国彻底走红!游客暴涨,国人搁置的美景被外国人抢着打卡

新疆在韩国彻底走红!游客暴涨,国人搁置的美景被外国人抢着打卡

老特有话说
2026-06-11 16:40:57
‍9小时票房破552万,击败《给阿嬷的情书》夺冠,42岁谢苗该火了

‍9小时票房破552万,击败《给阿嬷的情书》夺冠,42岁谢苗该火了

靠谱电影君
2026-06-11 09:04:37
董路说:我最缺钱的时候,是武磊掏出80000块钱,资助足球小将…

董路说:我最缺钱的时候,是武磊掏出80000块钱,资助足球小将…

童叔不飙车
2026-06-11 11:12:20
2026-06-11 19:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13233文章数 142667关注度
往期回顾 全部

科技要闻

淘宝、京东、拼多多、抖音、小红书被约谈

头条要闻

媒体:伊朗宣布再度封锁霍尔木兹海峡 特朗普又失算了

头条要闻

媒体:伊朗宣布再度封锁霍尔木兹海峡 特朗普又失算了

体育要闻

比起总冠军,更大的悬念成了FMVP?

娱乐要闻

《花少8》阵容大揭秘!秒杀前一季

财经要闻

干细胞生意:17万一针的希望

汽车要闻

奔驰C350L纯电长轴距版申报信息曝光 双电机 轴距超3米

态度原创

旅游
家居
时尚
数码
公开课

旅游要闻

携程旅游行业盛会:为深化中外文旅交流合作提供有力支撑

家居要闻

空间微调 移形换境

毕业季,为林徽因正名的年轻女孩们

数码要闻

内存涨价反噬PC市场:独显出货量下滑、CPU暴跌25%!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版