网易首页 > 网易号 > 正文 申请入驻

T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构

0
分享至

编辑|冷猫

最近,或许是年底了,谷歌的发布变得有些密集。比如昨天,谷歌发布了在智能 / 成本上全球性价比最高的模型 Gemini 3 Flash。



在 Gemini 3 Flash 发布后,大家都以为谷歌今年的模型发布已经收官的时候,谷歌却又掏出了一个让大家都意想不到的模型更新:T5Gemma 2

T5Gemma 系列模型似乎没能给大众留下什么深刻印象。今年 7 月,谷歌第一次发布了 T5Gemma 模型系列,并且一口气发布了 32 个模型。

从模型名称可以看出,T5Gemma 系列模型与 T5 息息相关。T5(Text-to-Text Transfer Transformer) 是 Google 在 2019 年提出的一种编码器 - 解码器(Encoder–Decoder)大模型框架,「编解码器大模型」的思想源头,几乎都能追溯到 T5。

T5Gemma 使用了「适应(adaptation)」技术将已经完成预训练的仅解码器模型转换为编码器 - 解码器架构。

但遗憾的是,「编码器 - 解码器架构」始终没有成为大模型世界的主流,在「仅解码器」大语言模型快速迭代的大背景下难逃逐渐被边缘化的命运。

谷歌是为数不多仍在坚持编码器 - 解码器架构大模型的玩家。

今年上半年,谷歌发布了开放模型 Gemma 3 系列,性能强大,反响热烈,衍生出许多基于 Gemma 3 系列模型的优秀工作。这次更新的 T5Gemma 2 模型正是其中之一。



简而言之:T5Gemma 2,是谷歌新一代编码器 - 解码器模型,是首个多模态和长上下文的编码器 - 解码器模型,建立在 Gemma 3 的强大功能之上。

主要创新和升级功能包括:

  • 支持多模态
  • 扩展长上下文
  • 开箱即用,支持 140 多种语言
  • 效率提升的架构创新

同时,谷歌向社区发布了 270M–270M、1B–1B 以及 4B–4B 三种规模的预训练模型,是社区中首个支持超长上下文(最高 128K)的高性能编解码器大语言模型



  • 论文链接: https://arxiv.org/abs/2512.14856
  • HuggingFace 链接: https://huggingface.co/collections/google/t5gemma-2
  • 博客链接: https://blog.google/technology/developers/t5gemma-2

T5Gemma 2 延续了 T5Gemma 的「适应(adaptation)」训练路线:将一个预训练的纯解码器模型适配为编解码器模型;同时,底座采用 Gemma 3 模型,通过结合 Gemma 3 中的关键创新,将这一技术扩展到了视觉 - 语言模型领域。

新架构,新能力

高效的架构创新

T5Gemma 2 不仅仅是一次再训练。它在继承 Gemma 3 系列许多强大特性的同时,还进行了重要的架构变更:

1. 词嵌入绑定

在编码器与解码器之间 共享词嵌入参数。这一设计显著降低了模型的总体参数量,使我们能够在相同的显存 / 内存占用下容纳更多有效能力 —— 这对全新的 270M–270M 紧凑模型尤为关键。

2. 合并注意力

在解码器中,我们采用了合并注意力机制,将自注意力(self-attention)与交叉注意力(cross-attention)融合为单一、统一的注意力层。这一做法减少了模型参数和架构复杂度,提升了模型并行化效率,同时也有利于推理性能的提升。

新一代模型能力

得益于 Gemma 3 的能力,T5Gemma 2 在模型能力上实现了显著升级:

1. 多模态能力

T5Gemma 2 模型能够同时理解和处理图像与文本。通过引入一个高效的视觉编码器,模型可以自然地完成视觉问答和多模态推理等任务。

2. 超长上下文

我们对上下文窗口进行了大幅扩展。借助 Gemma 3 的局部 — 全局交替注意力机制(alternating local and global attention),T5Gemma 2 能够支持最长达 128K token 的上下文输入。

3. 大规模多语言支持

通过在规模更大、更加多样化的数据集上进行训练,T5Gemma 2 开箱即用即可支持 140 多种语言。

性能结果

T5Gemma 2 为紧凑型编码器 - 解码器模型设定了新的标准,在关键能力领域表现出色,继承了 Gemma 3 架构强大的多模态和长上下文特性。



Gemma 3、T5Gemma 和 T5Gemma 2 在五个独特能力上的预训练性能。

如上图所示,T5Gemma 2 展现出以下突出优势:

  • 强大的多模态性能:在多个基准测试中超越 Gemma 3。原本仅支持文本的 Gemma 3 基础模型(270M 与 1B) 成功适配为 高效的多模态编解码器模型。
  • 卓越的长上下文能力:相较于 Gemma 3 和 T5Gemma,在生成质量上取得了显著提升。通过引入独立的编码器,T5Gemma 2 在处理长上下文问题时表现更佳。
  • 全面提升的通用能力:在 代码、推理和多语言 等任务上,T5Gemma 2 整体上均优于其对应规模的 Gemma 3 模型。



训练后性能。这里的结果仅用于说明,研究团队对 T5Gemma 2 进行了最小的 SFT,未使用 RL。另外请注意,预训练和训练后基准是不同的,因此不同图表中的分数不可比较。



Gemma 3、T5Gemma 与 T5Gemma 2 的详细预训练结果。需要注意的是,Gemma 3 的 270M 与 1B 模型,以及 T5Gemma 的 2B–2B 和 9B–9B 模型均为纯文本模型。带有 “∗” 标记的结果为近似值,无法在不同论文之间直接比较。



Gemma 3、T5Gemma 与 T5Gemma 2 的详细后训练结果。尽管 T5Gemma 2 的后训练过程相对轻量化,但其在大多数能力维度上仍然优于 Gemma 3。

实验结果表明,该适配策略在不同模型架构与不同模态上都具有良好的通用性,同时也验证了编解码器架构在长上下文建模方面的独特优势。与 T5Gemma 类似,T5Gemma 2 在预训练阶段的性能可达到或超过其 Gemma 3 对应模型,而在后训练阶段则取得了显著更优的表现

我们能看到,编码器 - 解码器架构下的大模型并不弱于仅解码器架构的模型,甚至具备自己独特的优势。

谷歌继续坚持的编码器 - 解码器架构,能否打破被边缘化的现状,让我们拭目以待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

做一个合格的吃瓜群众
2026-04-21 16:14:06
口碑翻车8年后,这部游改烂片竟成HBO Max收视亚军,观看量暴增300%

口碑翻车8年后,这部游改烂片竟成HBO Max收视亚军,观看量暴增300%

赴一场山海啊
2026-06-01 01:08:08
大陆反制日菲,遭台当局阻拦,两岸军机爆发对峙,台空军收到噩耗

大陆反制日菲,遭台当局阻拦,两岸军机爆发对峙,台空军收到噩耗

凉了时光人
2026-06-03 04:27:25
维尼修斯续约僵局:4000万签字费背后,是皇马难跨越的姆巴佩阴影

维尼修斯续约僵局:4000万签字费背后,是皇马难跨越的姆巴佩阴影

落夜足球
2026-06-02 15:55:40
口交、肛交等进入式性服务是卖淫行为吗?最高院定调了!

口交、肛交等进入式性服务是卖淫行为吗?最高院定调了!

黯泉
2026-06-02 11:54:54
“考上有啥用?”33岁女环卫工考上研究生,母亲一句话问懵全网

“考上有啥用?”33岁女环卫工考上研究生,母亲一句话问懵全网

一丝不苟的法律人
2026-05-31 09:49:02
银行储户从乡下骑车1小时到县城 ,持身份证提升限额被要求出示户口簿,银行:系内部规定

银行储户从乡下骑车1小时到县城 ,持身份证提升限额被要求出示户口簿,银行:系内部规定

澎湃新闻
2026-06-02 14:59:38
1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

1951年,国民党官员妻子到访中南海,主席端详后严肃发问怎未带礼物

唠叨说历史
2026-06-01 19:49:35
西班牙队公布世界杯号码:中场加维接手9号球衣引发外界热议

西班牙队公布世界杯号码:中场加维接手9号球衣引发外界热议

星耀国际足坛
2026-06-02 22:59:59
无法接受?新加坡联合早报:中国不是你的祖国,你们有自己的祖国

无法接受?新加坡联合早报:中国不是你的祖国,你们有自己的祖国

凡知
2026-06-03 06:30:41
有他管不了,没他赢欧冠:恩里克一句实话,戳破了多少巨星神话?

有他管不了,没他赢欧冠:恩里克一句实话,戳破了多少巨星神话?

落夜足球
2026-06-02 13:12:41
反常!何超盈缺席弟弟婚礼,疑似与四房关系变淡,反倒亲近何超琼

反常!何超盈缺席弟弟婚礼,疑似与四房关系变淡,反倒亲近何超琼

TVB的四小花
2026-06-02 13:13:49
16岁成为体操女神,20岁“献身”七旬老人,何天儿如今过得怎样

16岁成为体操女神,20岁“献身”七旬老人,何天儿如今过得怎样

妙知
2026-06-03 01:20:49
“鸟叔”被移送检方

“鸟叔”被移送检方

澎湃新闻
2026-06-02 14:59:04
一个贪财一个好色,75岁张纪中再迎“噩耗”,杜星霖没那么单纯

一个贪财一个好色,75岁张纪中再迎“噩耗”,杜星霖没那么单纯

杰丝聊古今
2026-06-03 00:33:47
重磅!谷歌将在杭州落地一个“加速中心”

重磅!谷歌将在杭州落地一个“加速中心”

都市快报橙柿互动
2026-06-02 22:48:40
潮汕火锅免单后续!提前准备好5000字差评威胁,四人正脸曝光社死

潮汕火锅免单后续!提前准备好5000字差评威胁,四人正脸曝光社死

小鋭有话说
2026-06-02 18:46:05
为了杰伦布朗,火箭队需送出2主力1替补?若成功,全新阵容太豪华

为了杰伦布朗,火箭队需送出2主力1替补?若成功,全新阵容太豪华

熊哥爱篮球
2026-06-02 15:00:59
随着34岁J罗妙传+迪亚斯1球1助+3-1击败劲旅,哥伦比亚终结2连败

随着34岁J罗妙传+迪亚斯1球1助+3-1击败劲旅,哥伦比亚终结2连败

侧身凌空斩
2026-06-02 09:03:55
98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

小正说娱乐
2026-05-31 11:33:33
2026-06-03 07:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

旅游
本地
时尚
家居
公开课

旅游要闻

北京位列全球数字旅游引领型城市榜首

本地新闻

用剪纸的方式,打开江苏扬州

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

家居要闻

流线型轮廓 包容多元身形

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版