网易首页 > 网易号 > 正文 申请入驻

谷歌亮招,Gemma 4加速3倍,vLLM Day0 支持

0
分享至


Gemma 4 MTP Drafter

谷歌昨天又出招了——4 月初刚发的 Gemma 4,今天直接送上一个让推理快 3 倍的「外挂」:MTP drafter

官方原话只有一句,但很狠:Same quality, way more speed

Gemma 4 是什么,先简单回顾

几个关键数字:

  • 参数覆盖 2B → 31B 全档位 ,从手机能跑的 E2B/E4B 到工作站级别的 31B Dense、26B MoE 都有

  • 多模态 :文本、图像、视频、音频统统支持

  • 推理强 :MMLU Pro 跑到 85%+,开源阵营里站在第一梯队

  • 下载量惊人 :发布前 4 周已经超过 6000 万次下载(Google 自己公布的数据)

但模型再强,跑不起来都是白搭。今天这次更新,谷歌瞄准的就是「跑」这件事

MTP 加速的真实数字

谷歌博客地址:blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

下面是博客里直接给出的速度对比图,横坐标是不同硬件、不同框架、不同模型规格,纵坐标是 tokens/sec 提升倍数:


Gemma 4 MTP drafter speed ups across hardware

测试涵盖 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 四套主流推理栈,最高可达 3 倍提速

为什么能快这么多

要看懂 MTP,先得理解一个反直觉的事实:

❝ 标准 LLM 推理不是算力瓶颈,是显存带宽瓶颈

谷歌博客原话翻译过来是:

❝ CPU/GPU 大部分时间都花在「把几十亿参数从显存挪到计算单元」上,仅仅是为了生成一个 token。计算单元长期闲置,延迟主要被搬运拖死

所以 MTP 这套思路的本质是——用闲着的算力,提前预测多个 token

具体怎么做:

1. 主模型(target,比如 Gemma 4 31B)+ 一个轻量级 drafter(草稿模型)
2. drafter 利用主模型已经计算好的 activations 和 KV cache,一次预测多个 token
3. 主模型并行验证这些 token:对的整段接受,还顺带多生成 1 个
4. 错的丢掉,从分歧点继续

老章用人话翻译一下:

小弟(drafter)打草稿  → 一口气往后猜 4-8 个 token
大哥(target)做审核 → 整段并行打勾,对的全收,错的从那里重来

最关键的是 drafter 复用 target 的 KV cache,不需要重新算上下文,几乎是「白嫖」算力

谷歌还在边缘端做了额外优化:E2B/E4B 这种小模型在 embedder 阶段引入了 efficient clustering,把生成端再压一压,给手机/平板续命

推测解码不是新东西,但谷歌把它做成了开箱即用

熟悉的同学知道,speculative decoding 这套东西最早是谷歌自己 2022 年那篇 Fast Inference from Transformers via Speculative Decoding 提出来的

DeepSeek、Qwen 在自己的推理栈里都用过类似思路。但这次 Gemma 4 的关键贡献是:

  1. 官方出 drafter :每个尺寸的 Gemma 4 都配了对应 drafter,不用自己练

  2. 生态全面适配 :Apache 2.0 协议,HuggingFace、Kaggle 都能下,Day-0 全家桶覆盖

直接看支持的框架矩阵:

框架/平台

状态

入口

Hugging Face Transformers

✅ 已支持

https://huggingface.co/collections/google/gemma-4

MLX(Apple Silicon)

✅ 已支持

https://huggingface.co/collections/mlx-community/gemma-4-assistant-mtp

vLLM

✅ Day-0

https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html

SGLang

✅ Day-0

https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4

Ollama

✅ 已支持

ollama run gemma4:31b-coding-mtp-bf16

Google AI Edge Gallery

✅ Android/iOS 直接玩

App Store / Play Store


vLLM 的 Day-0 配合

vLLM 这次相当上心,直接发了一个开箱即用的 docker 镜像:


docker pull vllm/vllm-openai:gemma4-0505-cu129

完整 recipes 在这:recipes.vllm.ai/Google/gemma-4-26B-A4B-it

网友实测:DGX Spark 跑 31B

光看官方数据没意思,看一份独立的实测

有位老哥在 NVIDIA DGX Spark(GB10 芯片)上跑 Gemma 4 31B,配上对应的 31B drafter,对照组是关掉 MTP 的同一个模型

实测数字(baseline → MTP):

  • concurrency=1:3.65 → 6.37 tok/s (1.74×)

  • concurrency=4:14.34 → 23.59 tok/s (1.65×)

  • concurrency=8:14.37 → 24.18 tok/s (1.68×)

老哥的原话:

❝ Google 说 up to 2x,我们没完全摸到,但提升是实打实的,不是 vapor

技术栈也直接给出来了:

DGX Spark (GB10)
+ gemma-4-31b-it
+ gemma-4-31b-it-assistant # MTP drafter
+ vLLM (PR 41745 自编译)
一些值得注意的细节

谷歌博客里埋了几个老章觉得很关键的点:

1. Apple Silicon 上 batch=1 时 26B MoE 路由有挑战

但只要把并发拉到 4-8,本地最高能拿到 ~2.2× 加速——M 系列 Mac 跑模型的人请注意,并发开起来才能吃到这波红利

2. 26B MoE 和 31B Dense 都能在消费级 GPU 上跑

之前这个尺寸基本是数据中心独占。MTP 把延迟压下来之后,本地编程助手、Agent 工作流的可行性大幅提升

3. 边缘端 E2B/E4B 直接续航受益

设备端推理快了,CPU 唤醒时间就短,电池消耗就少。手机上跑大模型不再是噱头

4. 零质量损失

谷歌反复强调:因为最终输出由主模型验证,输出和不开 MTP 完全一致——这点对生产环境很关键

老章的看法

Gemma 4 的剧本其实分两幕:

  • 第一幕(4 月初) :放出全尺寸全模态模型,把开源的智能上限往上推

  • 第二幕(5 月 5 日) :放出 MTP drafter,把同一批模型的速度往上推

把这两件事拼起来看,谷歌想做的是:让开源模型从「能跑」走向「日常可用」

适合谁用:

  • 想在自有 GPU 上把 Gemma 4 服务化的团队

  • 对延迟敏感的 Agent / 编程助手 / 语音交互场景

  • Mac 用户、Android/iOS 边缘开发者

  • 显卡不够多但要榨吞吐量的工作室(这个我熟)

不太适合:

  • 单纯做超大 batch 离线推理,本来 GPU 就拉满的场景,加速空间会缩水

  • 还在等 transformers 4.x 老版本支持的,请先升级

总结

Gemma 4 这波的关键不是「分数又涨多少」,而是同样的模型、同样的输出、速度直接 ×2~×3

这种「不动质量动效率」的更新,对开源生态的实际意义比再发一个更大的模型更大

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iPhone20迎来重大突破,这次彻底颠覆手机形态!

iPhone20迎来重大突破,这次彻底颠覆手机形态!

3C毒物
2026-05-05 14:53:45
白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

网络易不易
2026-01-20 10:17:46
同事把她离异的姐姐介绍给我,我不想去,同事说:保证你不后悔

同事把她离异的姐姐介绍给我,我不想去,同事说:保证你不后悔

千秋文化
2026-04-30 18:49:22
别再吹天生美貌!朱珠真实原生脸曝光,整容前后差距一目了然

别再吹天生美貌!朱珠真实原生脸曝光,整容前后差距一目了然

小娱乐悠悠
2026-04-27 09:21:13
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
《低智商犯罪》被观众要求下架!理由:主演招人烦、演技尴尬

《低智商犯罪》被观众要求下架!理由:主演招人烦、演技尴尬

吃青菜长高
2026-05-07 00:49:15
一款39岁的游戏还在发新版

一款39岁的游戏还在发新版

野生运营
2026-05-06 00:01:15
谢娜演唱会暗藏惊喜,何炅瞒天过海现身,双向奔赴太好嗑

谢娜演唱会暗藏惊喜,何炅瞒天过海现身,双向奔赴太好嗑

胡一舸南游y
2026-05-06 20:17:42
恩里克:我们在安联赢下首座欧冠;再次打进决赛是个美好挑战

恩里克:我们在安联赢下首座欧冠;再次打进决赛是个美好挑战

懂球帝
2026-05-06 08:13:35
场均15分,四大层面拖累詹姆斯和湖人,你很难拿2.4亿超级顶薪了

场均15分,四大层面拖累詹姆斯和湖人,你很难拿2.4亿超级顶薪了

老梁体育漫谈
2026-05-07 00:03:35
女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

新游戏大妹子
2026-04-27 10:57:55
流弊!年度第一炸扣!NBA首轮秀碾压王哲林

流弊!年度第一炸扣!NBA首轮秀碾压王哲林

篮球实战宝典
2026-05-06 21:43:09
中国刚取得重大突破,黄仁勋立马改口,中国不应获最先进AI芯片?

中国刚取得重大突破,黄仁勋立马改口,中国不应获最先进AI芯片?

南宗历史
2026-05-07 02:49:49
塞尔:老佛爷不会现场观战国家德比;穆里尼奥将成为皇马主帅

塞尔:老佛爷不会现场观战国家德比;穆里尼奥将成为皇马主帅

懂球帝
2026-05-06 11:03:21
3比1击败武汉三镇,海牛取得三连胜,里斯蒂奇羞辱郑智和李霄鹏

3比1击败武汉三镇,海牛取得三连胜,里斯蒂奇羞辱郑智和李霄鹏

姜大叔侃球
2026-05-06 22:13:31
中方对斯威士兰一些政客予以强烈谴责

中方对斯威士兰一些政客予以强烈谴责

极目新闻
2026-05-06 16:12:19
泽连斯基:若没有乌克兰配合,俄罗斯甚至无法在莫斯科举行阅兵式

泽连斯基:若没有乌克兰配合,俄罗斯甚至无法在莫斯科举行阅兵式

甜到你心坎
2026-05-07 01:43:02
燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

匹夫来搞笑
2026-04-20 13:24:51
珠海市中级人民法院原党组成员、执行局局长万惠明被开除党籍

珠海市中级人民法院原党组成员、执行局局长万惠明被开除党籍

新快报新闻
2026-05-06 22:04:19
沙滩顶流“球花”!

沙滩顶流“球花”!

飛娱日记
2026-04-11 11:36:16
2026-05-07 03:39:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3378文章数 11146关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

房产
时尚
亲子
游戏
军事航空

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

有些路,不必每一步都走得那么用力

亲子要闻

国家儿童医学中心和区域医疗中心双双扩容,分布在这些省份

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版