网易首页 > 网易号 > 正文 申请入驻

26B MoE模型跑在4颗TPU上:谷歌Gemma 4的极限调参实录

0
分享至

大模型推理的成本账,往往藏在芯片利用率的小数点后。谷歌最新放出的这份技术文档,记录了他们如何在4颗TPU v6e上,把260亿参数的Gemma 4 MoE模型压榨到468,736 token/秒的吞吐——这个数字意味着1024个用户同时提问时,首token延迟只有0.3秒。

这不是实验室理想环境下的跑分,而是一套经过反复崩溃、调参、再崩溃后沉淀的"生产级"配置。文档里毫不避讳地提到了两次关键的"Stabilization Fix":最大序列长度从32K砍半到16K,并发请求数从更高值锁死在256。这两个保守数字背后,是JAX预编译对HBM显存容量的硬约束,以及约1.5GB显存的精确让渡。


真正让这套配置突破瓶颈的,是几个相互咬合的内存优化策略。KV缓存用fp8精度直接砍掉一半显存占用;前缀缓存(prefix caching)让多轮对话复用计算结果;而ngram投机采样则以当前上下文预测未来3个token,把首token延迟压进了300毫秒线。这些技术单独看都不算新,但组合在一起,恰好填满了v6e-4四芯片拓扑的通信带宽与算力配比。

环境变量的调参同样关键。VLLM_TPU_BUCKET_PADDING_GAP设为256,强制把请求长度对齐到256 token的整数倍——这个看似粗暴的截断, drastically减少了JAX需要编译的图数量。对于高负载部署场景,"编译抖动"的消除往往比单次推理优化更能决定稳定性。


这套配置现在被标记为Trillium v6e-4平台上Gemma 4 MoE的"verified standard"。值得注意的是,它服务的已经是完整版推理优化模型,而非早期轻量基线。从2048并发用户下仍维持45万token/秒的表现来看,MoE架构的稀疏激活特性,确实在特定硬件拓扑上找到了甜点区。

对于正在评估TPU集群方案的团队,这份文档的价值在于展示了"边界在哪里"——不是理论峰值,而是妥协后的可行解。当显存、编译开销、通信延迟形成不可能三角时,谷歌的选择是:保吞吐、保延迟、砍序列长度。这个优先级排序本身,就是生产环境最真实的约束条件。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
让中国孩子列队通过符拉迪沃斯托克广场,这个情况绝不正常!

让中国孩子列队通过符拉迪沃斯托克广场,这个情况绝不正常!

阿龙聊军事
2026-05-09 19:08:47
WTA1000罗马站:斯瓦泰克1-2不敌低排名选手,世界第3无缘决赛

WTA1000罗马站:斯瓦泰克1-2不敌低排名选手,世界第3无缘决赛

侧身凌空斩
2026-05-15 06:34:06
AI预测世界杯小组赛结果:英阿法德西葡荷均晋级,巴西、摩洛哥同分

AI预测世界杯小组赛结果:英阿法德西葡荷均晋级,巴西、摩洛哥同分

懂球帝
2026-05-14 19:00:47
震惊!网传一企业流动资金不足,向员工集资借款,承诺年息12%

震惊!网传一企业流动资金不足,向员工集资借款,承诺年息12%

火山詩话
2026-05-14 14:19:19
突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

LULU生活家
2026-05-02 08:35:04
特朗普突然透露:北京明确表态,不会向伊朗提供军援

特朗普突然透露:北京明确表态,不会向伊朗提供军援

桂系007
2026-05-14 23:59:15
创业板指、深证成指均跌逾1%

创业板指、深证成指均跌逾1%

证券时报
2026-05-15 10:24:05
会晤结束,特朗普不去故宫长城,偏偏选中此地,打破半个世纪惯例

会晤结束,特朗普不去故宫长城,偏偏选中此地,打破半个世纪惯例

梦忆之浅
2026-05-15 11:18:47
中美之争结束?现实比想象残酷:美国并非输了,是连牌桌都下不去

中美之争结束?现实比想象残酷:美国并非输了,是连牌桌都下不去

梦想的现实
2026-05-01 10:15:41
山西动物园全员午睡,游客:根本叫不醒

山西动物园全员午睡,游客:根本叫不醒

宇宙来信发
2026-05-13 22:05:12
梅德维德夫时隔三年再进罗马四强 半决赛将战辛纳

梅德维德夫时隔三年再进罗马四强 半决赛将战辛纳

体坛周报
2026-05-15 08:59:15
最后一刻才叫上黄仁勋,是谁想要晾着他?

最后一刻才叫上黄仁勋,是谁想要晾着他?

南风窗
2026-05-14 12:21:15
2人官宣离队!王励勤大换血,10人已退出国家队,国乒加速年轻化

2人官宣离队!王励勤大换血,10人已退出国家队,国乒加速年轻化

体育就你秀
2026-05-14 16:32:59
广州一网红粥店被曝将铁锅当水桶、用扫把洗锅,同一把扫把还洗墙、扫地,食客直呼恶心:“那口锅刚炒完粉”;商家暂未回应

广州一网红粥店被曝将铁锅当水桶、用扫把洗锅,同一把扫把还洗墙、扫地,食客直呼恶心:“那口锅刚炒完粉”;商家暂未回应

极目新闻
2026-05-14 21:41:34
大轮换也不用他!24岁后腰在曼城时日无多 致命缺陷难成大器

大轮换也不用他!24岁后腰在曼城时日无多 致命缺陷难成大器

雪狼侃体育
2026-05-14 17:09:30
米切尔:哈登带来的影响不仅在于他的统治力 他简直是篮球大师

米切尔:哈登带来的影响不仅在于他的统治力 他简直是篮球大师

北青网-北京青年报
2026-05-14 21:20:20
“你的孩子,大概率是个普通人”,为啥我不能接纳孩子的平凡?

“你的孩子,大概率是个普通人”,为啥我不能接纳孩子的平凡?

枕边聊育儿
2026-05-15 09:21:06
中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

中午11时,中美磋商准时开始,特朗普发现:中国比他想象中更厉害

流史岁月
2026-05-14 19:30:07
刘松仁发文致歉米雪,半个世纪搭档情谊引热议

刘松仁发文致歉米雪,半个世纪搭档情谊引热议

北青网-北京青年报
2026-05-15 11:16:07
芒特表态留守曼联:无惧中场大清洗,欲在卡里克麾下证明价值

芒特表态留守曼联:无惧中场大清洗,欲在卡里克麾下证明价值

星耀国际足坛
2026-05-15 11:42:44
2026-05-15 11:59:00
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
2870文章数 26关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

103岁和86岁老人认识3个月"闪婚":孤独感消失了

头条要闻

103岁和86岁老人认识3个月"闪婚":孤独感消失了

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

艺术
游戏
房产
本地
数码

艺术要闻

15幅 丹麦画家Carsten Henrichsen风景油画

BLG见面会翻大车!黑粉喷子全过审 真爱粉气炸了

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

读写破14GB/s!三星9100 PRO助力PRAGMATA瞬秒月球战场

无障碍浏览 进入关怀版