网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌T5Gemma重燃架构之战！「套壳」反杀Gemma本尊，9B推理快得离谱

2025-07-14 17:22:49　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：海狸

【新智元导读】Google双线出击！T5Gemma重燃encoder-decoder架构战火，性能暴涨12分；MedGemma坚守decoder-only路线，强攻医疗多模态，击穿闭源壁垒。Gemma体系完成「架构+落地」双重进化，打响Google开源反击战。

2023年以来，大模型的战场由decoder-only架构一统江湖。

从GPT家族到LLaMA、Gemma、Mistral，再到Claude、Command-R、Yi系列，

能叫得出名字的主流LLM，几乎都是清一色的「纯解码器」（decoder-only）。

但今天，Google带着T5Gemma杀回来了——

不仅重启了encoder-decoder的技术路线，还略施小技就让它原地起飞，暴打原版Gemma 2。

T5Gemma本身基于decoder-only的Gemma 2框架。

神奇的是，通过简单的「适配」转换成encoder-decoder架构后，T5Gemma一举实现性能飞跃。

T5Gemma 9B-9B在GSM8K（数学推理）上得分⽐原始Gemma 2 9B⾼出9分，在DROP（阅读理解）上⾼出4分。

进一步缩小参数量，结果反而更惊人！

T5Gemma 2B-2B IT的MMLU得分⽐Gemma 2 2B提高了近12分，GSM8K准确率暴涨到70.7%。

T5Gemma主要面向文本生成任务，包括问答系统、数学推理、阅读理解等。

并且encoder-decoder的架构支持「不平衡」配置。如9B编码器配2B解码器，可以在质量和效率之间游刃有余。

在相同的计算量下，T5Gemma性能优于仅解码器模型，灵活度也更胜一筹，可以根据具体任务调整编码器和解码器的大小。

除了Gemma 2的技术回马枪之外，Gemma 3系列也有重大更新！

Google这次专攻医疗多模态任务，基于Gemma 3架构，推出了MedGemma和MedSigLIP两款多模态模型。

MedGemma支持图文输入，输出是医学自由文本；MedSigLIP则是轻量图文编码器。

Google把「低资源友好」贯彻到底，MedGemma仅需4B模型即可逼近SoTA，部署门槛极低，单卡、甚至移动端也能轻松跑起来。

4亿参数的MedSigLIP也是全能王者，不仅擅长医学图像，检索、零样本分类等非医学下游任务也手拿把掐。

在Med系列「开源双子星」的轰炸下，医疗模型闭源壁垒岌岌可危，同行纷纷对Google表示祝贺和期待。

「架构+落地」双王炸，Google的开源LLM体系战略杀疯了。

四两拨千斤

重燃encoder-decoder架构之战

T5Gemma基于Gemma 2框架，包括适配后的Gemma 2 2B和9B模型，以及⼀组新训练的T5尺寸模型（Small、Base、Large 和 XL）。

Google已经将预训练模型和指令微调模型的T5Gemma系列在huggingface上开源，助⼒社区在研究与开发中挖掘新的机会。

一招适配，暴打原版

不少网友在T5Gemma发布后纷纷表示，encoder-decoder其实也具有很强的输入理解、上下文建模和推理能力。

然而，它却因为decoder-only架构的风头无两而被雪藏已久。

Google四两拨千斤，仅凭一招「适配」，把encoder-decoder架构重新带到聚光灯下。

在技术报告中，Google所提出的「模型适配」（Model Adaptation）理念其实非常直观：

直接利用已完成预训练的decoder-only模型权重，初始化encoder-decoder模型的参数，然后基于UL2或PrefixLM进行进一步训练。

具体而言，如图所示。

Google首先使用一个已经预训练完成的decoder-only模型，比如Gemma 2 9B或2B。

这个模型包含前馈网络模块（FFN）和一个因果自注意力+旋转位置编码（ROPE）模块

原本decoder-only模型中的「因果自注意力」模块会被替换为「双头注意力」以适配encoder。在encoder中，FFN和ROPE参数继续沿用原模型。

原始decoder-only中的模块中间新增一层 Cross-Attention之后，作为新架构的decoder，用于解码器从encoder输出中获取信息。

在上述结构完成初始化后，模型可以使用UL2或PrefixLM来适应encoder-decoder的信息流、masking策略和解码方式。

这种适配⽅法具有很⾼的灵活性，允许在模型尺寸之间进⾏创造性的组合。

想法简单，效果惊人

实验证明，T5Gemma的想法非常有效。

在相同的推理FLOPs下，T5Gemma的表现（星形点）始终高于或等于decoder-only模型（圆形点）。

在SuperGLUE基准上，T5Gemma的最高分超过90，显著领先于大多数decoder-only模型。

IT（信息提取）与PT（推理任务）指标同样展现出encoder-decoder架构的稳健性，特别是在中低FLOPs区间内性能提升尤为显著，说明它对计算资源的利用效率更高。

在真实场景下，T5Gemma的高效计算优势也一路狂飙，稳坐开源性能「性价比之王」。

以GSM8K（数学推理）为例，T5Gemma 9B-9B的准确率⾼于Gemma 2 9B，但延迟却相近。

T5Gemma 9B-2B在准确率上远超2B-2B模型，但其延迟却几乎与较⼩的Gemma 2 2B模型相同。

全方位碾压！T5Gemma不止于快

T5Gemma在预训练前后都展现出强⼤能⼒。

例如，T5Gemma 9B-9B在GSM8K（数学推理）上得分⽐原始Gemma 2 9B⾼出超过9分，在DROP（阅读理解）上⾼出4分。

这些提高意味着，通过「适配」进行初始化的encoder-decoder架构潜力更大。

进行指令微调后，Gemma 2与T5Gemma的性能差距在多个任务上进一步显著扩大。

T5Gemma 2B-2B IT的MMLU得分狂超Gemma 2 2B近12分，GSM8K准确率从58.0%跃升到70.7%。

MedGemma

击破医疗AI开源壁垒

Google这次盯上了医疗多模态场景，一口气发布两款模型：MedGemma和MedSigLIP。

Med系列多模态模型延续了「低资源友好」的策略。

基于 Gemma 3 打造的MedGemma生成式多模态模型，支持图像+文本输入，输出医学自由文本。

该模型提供 4B 和 27B 两种尺寸，4B 多模态版本可在单卡甚至移动设备上运行，一举把医学级模型推下了高算力「神坛」。

不管是放射报告生成，还是图像问答和病例摘要，它都能轻松胜任。

在 MedQA 等权威评测中，MedGemma 27B拿下 87.7% 高分，精度接近DeepSeek R1，但推理成本仅为十分之一！

图文编码器MedSigLIP更加短小精悍。

只有 4 亿参数，却能稳稳处理胸片、皮肤病、眼底等多种医学图像，并输出与文本对齐的语义嵌入。

图像分类、零样本识别和语义图像检索，统统一「模」搞定。

在开发过程中，团队首先把MedSigLIP训了出来，作为医学优化图像编码器。

然后在医学数据上训练了4B和27B版本的Gemma 3模型。

通过训练流程解耦，Gemma 3很好地保留了通用能力。MedGemma在融合医学与非医学信息、遵循指令、支持非英文语言等任务上依然表现良好。

单独训出来的MedSigLIP是一款仅 4 亿参数的轻量医学图像编码器，采用Sigmoid损失的SigLIP架构，如下图所示。

它的训练是通过胸片、病理切片、皮肤病图像与眼底图像等多样医学图像数据调优完成的。

MedSigLIP的核心目标是，将医学图像与文本编码为「同一语义空间嵌入向量」。

它在多种医学图像任务中的分类效果可媲美专用模型，同时通用性也不拜下风，完美胜任传统图像分类、零样本分类、检索等任务。

Gemma路线大升级

Google开源吹响反攻号角

Google这波开源一举把「反攻号角」吹到了医疗AI最前线。

无论是图文融合的MedSigLIP，还是医疗多语种全能选手MedGemma，全都以safetensors格式上线Hugging Face，直接拉低使用门槛。

开发者可以一键下载、灵活部署，还能在本地或自定义云平台完成推理与微调，隐私合规和数据安全轻松搞定。

不少医疗机构已经验证了Med系列医疗AI「开源双子星」的有效性。

例如，美国DeepHealth已开始使用 MedSigLIP 优化胸片分诊与结节检测；台湾长庚纪念医院称MedGemma能很好理解繁体中文医学文献，并有效回应医护问题。

对于医疗机构的不同需求，Google还给出了对应的模型选择建议。

Hugging Face上已经提供了32个版本的T5Gemma全家桶。

用户可以根据推理速度、内存预算、精度等个性化需求，自由选择模型型号，也可以选择预训练版、指令微调版、RLHF版，或基于不同目标（PrefixLM / UL2）训练的各种变体。

不止如此，Google还贴心给出全套使用手册、Colab示例和Vertex AI部署方案，从下载到上线一路畅通，开发效率直接拉满。

Gemma路线已经从「架构革新」延伸到「产业落地」。

Google这波上场更新，不止打破了闭源神话，更是为整个AI社区作出了「工具+自由+性能」的表率。

从T5Gemma到MedGemma，世界级开源模型已来，接下来，是开发者的上场。

参考资料：

https://developers.googleblog.com/en/t5gemma/

https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/

https://x.com/_philschmid/status/1943013171389780341

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌27亿买来个“大麻烦”，沙泽尔发言触碰公司红线

量子位 2025-11-12 08:48:35
0 跟贴 0
苹果税来了！微信小程序将被抽成15%，谁来承担？

雷科技 2025-11-13 21:45:11
0 跟贴 0

连吃带拿？微软CEO称有权“借鉴”OpenAI自研芯片设计

财联社 2025-11-13 18:44:19
2 跟贴 2

AI秒破18世纪「天书」账本！谷歌新模型盲测刷屏全网

新智元 2025-11-12 18:55:19
9 跟贴 9
谷歌DeepMind最新论文，刚刚登上了Nature！揭秘IMO最强数学模型

新智元 2025-11-13 17:16:54
0 跟贴 0

拿下奥数银牌的Google AlphaProof，首次公开技术细节

DeepTech深科技 2025-11-13 21:43:37
0 跟贴 0

何小鹏和雷军真正的塑料兄弟

雷科技 2025-06-06 21:23:05
0 跟贴 0
3D版ControlNet突破多模态控制，实现高精度3D资产生成

机器之心Pro 2025-09-29 16:10:08
0 跟贴 0

安卓之父重返机器人赛道：这次，他要在东京造真正的Android

DeepTech深科技 2025-11-13 21:33:55
0 跟贴 0
航空发动机用上大模型：解决复杂时序问题，性能超越ChatGPT-4o

量子位 2025-06-28 12:58:12
15 跟贴 15
Kimi K2 Thinking，是月之暗面的“复仇”

钛媒体APP 2025-11-11 22:22:32
1 跟贴 1
黄仁勋：中国的AI市场无论有没有英伟达都会进步与华为是竞争对手不是敌人

财联社 2025-07-21 10:22:14
6 跟贴 6
模型曝光大量细节，福建舰还有同款姐妹舰？004是核动力？

深蓝航迹 2025-11-12 16:24:44
1 跟贴 1
在星巴克和瑞幸店里“枯坐”一整天，我们发现了咖啡的资本密码

饭统戴老板 2025-09-10 19:37:27
35 跟贴 35
LLaVA-OneVision-1.5开源，8B模型预训练只需4天、1.6万美元

机器之心Pro 2025-10-13 18:37:02
0 跟贴 0
Nature公开谷歌IMO金牌模型技术细节！核心团队仅10人

量子位 2025-11-13 15:51:32
0 跟贴 0
百度、OpenAI双双发力高智能AI！先来实测一波原生全模态文心5.0

机器之心Pro 2025-11-13 17:01:40
0 跟贴 0
孙颖莎4:1王晓彤，莎莎又添新技术点：正手暴卷

爱看新闻 2025-11-12 16:55:37
5 跟贴 5
紫牛热点｜绝味鸭脖标价方式遭吐槽：半斤鸭舌89元，消费者结账直呼太贵

扬子晚报 2025-11-10 19:59:10
6708 跟贴 6708
MIT破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

DeepTech深科技 2025-11-11 18:54:31
0 跟贴 0
2M大小模型定义表格理解极限，清华大学崔鹏团队开源LimiX-2M

机器之心Pro 2025-11-13 14:27:37
0 跟贴 0
会「进化」的合成数据！无需上传隐私，也能生成高质量垂域数据

机器之心Pro 2025-07-11 18:44:13
0 跟贴 0
道达尔能源将为谷歌美国俄亥俄州数据中心提供15年可再生能源

界面新闻 2025-11-12 15:49:18
0 跟贴 0
比亚迪王传福：做大产业，做出中国制造业应有的位置

每日经济新闻 2025-07-22 17:51:59
0 跟贴 0
余承东：我有一个梦想马路上的所有车里都有华为的技术

每日经济新闻 2025-07-23 17:06:16
170 跟贴 170
英媒宣称俄外长拉夫罗夫"从公众视野消失" 本人回应了

澎湃新闻 2025-11-13 12:10:41
3979 跟贴 3979
长视频AI数字人来了！字节×浙大(1)

机器之心Pro 2025-09-04 17:27:37
0 跟贴 0
必吃榜出海覆盖28个地区，大众点评想做真实世界的“全球黄页”

钛媒体APP 2025-11-13 22:06:23
0 跟贴 0
一句「你还好吗」值40亿？斯坦福博士出走xAI，押注AGI共情力

新智元 2025-11-13 19:12:37
0 跟贴 0
血腥且残酷，库尔斯克之战重演了

中国新闻周刊 2025-11-13 17:55:52
1254 跟贴 1254
求三角形面积，根据比例模型求解

公考客栈店小二 2025-11-12 14:33:00
0 跟贴 0
印度多年恒河水运发展萎靡，非出于不愿，而是资金及技术严重受限

是v的地方吧 2025-11-13 02:31:44
0 跟贴 0
蔚来李斌：让每一个蔚来车主都觉得购买蔚来的车是正确选择

每日经济新闻 2025-07-07 17:30:53
0 跟贴 0
《腾讯云游戏安全直播圆满落幕！亿级 DAU 防护秘籍限时领》

安在 2025-11-13 19:25:11
0 跟贴 0
《唐朝诡事录3》不够看？这份烧脑悬疑书单，让你过足探案瘾！

集悦读 2025-11-13 18:01:36
0 跟贴 0
阿里云创始人王坚：只有把AI和算力送入太空，人类才有可能真正走出地球

每日经济新闻 2025-09-11 13:24:14
0 跟贴 0
轻量高效，即插即用：Video-RAG为长视频理解带来新范式

机器之心Pro 2025-10-20 18:23:17
0 跟贴 0
4本高能硬核图书：拆解人类思维的底层逻辑

听哲学 2025-11-13 14:50:04
11 跟贴 11
“听老王讲党课”火了，全网播放超200万次！

半岛官网 2025-11-13 23:00:18
0 跟贴 0
大爷在野河边钓鱼，没有花里胡哨的技术，收获真让人羡慕！

搞笑脱口秀 2025-11-13 15:45:59
1 跟贴 1

11月13日俄乌最新：壮士断腕

11月13日俄乌最新：壮士断腕

西楼饮月

2025-11-13 18:12:19

24GB+2TB ，华为Mate80Pro+ 大升级，性能很炸裂啊

24GB+2TB ，华为Mate80Pro+ 大升级，性能很炸裂啊

科技堡垒

2025-11-13 12:13:45

王曼昱4-1战胜王艺迪晋级女单四强，半决赛对阵陈梦

王曼昱4-1战胜王艺迪晋级女单四强，半决赛对阵陈梦

懂球帝

2025-11-13 20:21:11

歌手“阿珍”胸腔意外受电动座椅架挤压，抢救10余小时不幸去世，所在乐队来自大连

歌手“阿珍”胸腔意外受电动座椅架挤压，抢救10余小时不幸去世，所在乐队来自大连

极目新闻

2025-11-13 19:27:21

全运会男子50米蛙泳：覃海洋犯规成绩被取消，郑英昊脱颖而出摘金

全运会男子50米蛙泳：覃海洋犯规成绩被取消，郑英昊脱颖而出摘金

全景体育V

2025-11-13 20:07:30

爱泼斯坦档案再曝大瓜，前美财长、高盛律师痛批特朗普“粗俗”“恶心”

爱泼斯坦档案再曝大瓜，前美财长、高盛律师痛批特朗普“粗俗”“恶心”

凤凰网财经

2025-11-13 14:51:02

北京男子违停又突然开车门，“开门杀”致一骑车人抢救无效死亡，司机负全责被判1年2个月，视频曝光

北京男子违停又突然开车门，“开门杀”致一骑车人抢救无效死亡，司机负全责被判1年2个月，视频曝光

极目新闻

2025-11-13 16:29:14

歌手阿珍在工作过程中，因电动座椅架挤压身亡

歌手阿珍在工作过程中，因电动座椅架挤压身亡

鲁中晨报

2025-11-13 17:19:01

知名女星涉嫌超速驾驶致人受伤！此前确诊精神疾病

知名女星涉嫌超速驾驶致人受伤！此前确诊精神疾病

极目新闻

2025-11-13 15:15:31

意大利想要直接晋级美加墨世界杯，今晚至少要进摩尔多瓦15个球！

意大利想要直接晋级美加墨世界杯，今晚至少要进摩尔多瓦15个球！

田先生篮球

2025-11-13 17:46:15

两败俱伤！大陆市场700台光刻机全部回购？外媒：荷兰这次闹大了

两败俱伤！大陆市场700台光刻机全部回购？外媒：荷兰这次闹大了

闻识

2025-11-12 17:13:52

对高市早苗的危险言论，特朗普立马划清了界限｜京酿馆

对高市早苗的危险言论，特朗普立马划清了界限｜京酿馆

新京报

2025-11-13 13:00:03

香港名将何诗蓓全运会轻松夺冠，创香港游泳历史拿75万奖金

香港名将何诗蓓全运会轻松夺冠，创香港游泳历史拿75万奖金

体娱一家亲

2025-11-13 19:29:01

震惊！北大研究发现，男性每增加一个亲生子女，死亡风险降低4%

震惊！北大研究发现，男性每增加一个亲生子女，死亡风险降低4%

火山诗话

2025-11-13 11:37:14

重大利好出现，A股终于如期大涨！

重大利好出现，A股终于如期大涨！

君临财富

2025-11-13 16:12:46

中日两国必有一战，谁也无法调和，谁也无法阻挡中华民族统一大业

中日两国必有一战，谁也无法调和，谁也无法阻挡中华民族统一大业

易玄

2025-11-13 06:25:22

随着王楚钦4-2林高远，全运男单4强出炉！大概率以下2人会师决赛

随着王楚钦4-2林高远，全运男单4强出炉！大概率以下2人会师决赛

小火箭爱体育

2025-11-13 20:00:10

网红博主称从柬埔寨飞北京途中丢失350万元手镯和手表，悬赏百万现金寻找失物，航司和警方介入

网红博主称从柬埔寨飞北京途中丢失350万元手镯和手表，悬赏百万现金寻找失物，航司和警方介入

极目新闻

2025-11-13 21:51:21

外资重启“大撤退”？

美第奇效应

2025-11-13 01:05:51

燕梳楼：如果日本驱逐薛剑，就是向中国宣战！

燕梳楼：如果日本驱逐薛剑，就是向中国宣战！

燕梳楼频道

2025-11-13 12:44:36

AI产业主平台领航智能+时代

13860文章数 66246关注度

往期回顾全部

科技要闻

月产能突破百万片，中芯国际Q3净利增43.1%

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表警方介入

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表警方介入

体育要闻

跟豪门传了十年绯闻，他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭？

财经要闻

源峰25亿赌局！汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能欧拉5预售价10.98万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

家居

旅游

教育

军事航空

艺术要闻

黄君璧：仿古山水册

家居要闻

莫奈时间重构先锋概念

旅游要闻

陆游诞辰900周年绍兴陆游故里景区正式开放

教育要闻

那些初中没发力的孩子，后来都赢在了后劲

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版