网易首页 > 网易号 > 正文 申请入驻

浙大校友重磅革新Transformer!多token注意力让LLM开挂,错误率归0

0
分享至

新智元报道

编辑:英智 桃子

【新智元导读】简单的任务,传统的Transformer却错误率极高。Meta FAIR团队重磅推出多token注意力机制(MTA),精准捕捉复杂信息,带来模型性能飞升!

注意力机制就像大模型的「慧眼」,帮模型在大量文本中找到关键信息。

不过,每个注意力权重只取决于单个查询和键向量的相似度。

找信息时,一次只能关注一个「小线索」,好比在庞大的图书馆里找一本书,却只能检索一个关键词。

最近,Meta FAIR团队提出了多token注意力机制,为LLM的性能带来质的飞跃。

论文链接:http://arxiv.org/abs/2504.00927

作者还特别提到,这不是愚人节玩笑,而是一篇真实的论文。

在实际应用中,很多时候相关的上下文信息没办法通过单一token确定。

比如,想查找一个同时提到「Alice」和「rabbit」的句子时,按照传统注意力机制,得把这两个信息压缩到一个查询向量里。

但这样做不仅增加了向量编码的难度,还可能导致信息丢失。

就算用不同注意力头分别查找「Alice」和「rabbit」,也没法有效整合这些注意力权重,这极大地限制了模型处理复杂信息的能力。

MTA是为了解决传统注意力机制的这个问题而设计的。

MTA三大关键创新

MTA让模型能同时依据多个查询和键向量来确定注意力权重,利用更丰富的信息,实现精准的注意力分配。

主要有三个关键部分:键-查询卷积、头混合卷积和带深度缩放的组归一化。


键-查询卷积
键-查询卷积是MTA的一大创新亮点。

通过二维卷积操作,模型可以把多个查询和键token的信息放在一起,计算出更准确的注意力权重:

其中是二维卷积操作,有自己的核权重和大小。

在传统的注意力计算中,注意力权重仅由当前的查询和键向量对决定。

而键-查询卷积打破了这种局限,会综合考虑附近查询和键的信息。

就拿「Where did Alice see the rabbit?」这个问题来说,要是用传统注意力机制,很难同时关注到「Alice」和「rabbit」这两个关键信息。

键-查询卷积通过合理设置卷积核大小,能让模型同时捕捉到这两个信息。

具体计算时,它会在键和查询的长度维度上进行卷积操作。为了不让未来的信息捣乱,计算时只使用过去的查询。

实际操作中,为了简化流程,采用了一种更简便的双重掩码方法。

键-查询卷积有两种方式,一种是在softmax之前进行卷积,另一种是在softmax之后。

在softmax之前卷积,能更好地融合不同查询和键的信息。

在softmax之后卷积,注意力权重之间的相互作用就变成加法了:

在实验中,默认用的是softmax之前卷积的方式。


信息共享:头混合卷积

除了键-查询卷积,MTA还有个很特别的头混合卷积,它的作用是在不同注意力头之间共享信息。

在传统的多头注意力机制里,各个头之间的信息相对独立。

头混合卷积就像一座桥梁,打破了这种孤立,让不同头的注意力权重可以分享信息。

具体计算时,混合注意力权重有两种方式,一种是在softmax之后,像

是卷积核权重。

另一种是在softmax之前,对注意力的对数几率进行混合:

通过信息共享,模型能从多个角度综合信息,理解文本的能力就更强了。


整合关键组件

前面介绍了两种混合注意力权重的方式,MTA把键-查询卷积和头混合卷积结合,形成了强大的信息处理系统。

如果两种混合方法都是在softmax之前,那么它们可以通过单个三维卷积操作实现,如图所示。

模型训练时,随着层数越来越多,会出现一个问题,就是残差流会变得很大,这让梯度传递不太顺畅,影响模型的训练效果。

带深度缩放的组归一化就是解决这个问题的。它会对每个头分别进行归一化操作,而且会根据层的深度进行调整。

这样能让模型训练更稳定,梯度传递得更好。

MTA机制革新Transformer

理论上MTA机制很厉害,实际效果如何呢?

为了验证MTA的有效性,研究人员开展了一系列实验,涵盖了从简单任务到复杂的长上下文任务等。


简单任务:小任务凸显大优势

有一个简单的任务,MTA在这个任务里的表现比传统Transformer好太多了。

模型需要在由多个随机字母组成的块序列中,找到包含特定几个字母的目标块,并输出相关信息。

这个任务看似简单,却能精准暴露传统注意力机制的问题。

传统Transformer不能很好地把多个信息整合起来,要把两个问题字母的信息压缩到一个查询向量中,这对它来说很困难,错误率极高。

MTA在这个任务上的表现堪称惊艳。

它借助键-查询卷积,先分别找到每个问题字母在序列中的位置,然后通过卷积把这些信息整合起来,精准定位目标块。

实验结果令人惊喜,MTA几乎以零错误率完成了任务,这充分展现了MTA在处理多信息检索任务时的实力,与传统注意力机制相比,有着跨越式的进步。


语言建模:全面提升

在语言建模实验中,研究团队训练了880M参数的模型,并与传统Transformer模型、差分Transformer(DIFF Transformer)做比较。

所有模型都在SlimPajama数据集上,用Lingua框架训练。

为提高训练效率,MTA在每第4层应用键-查询卷积,头卷积应用于所有层,并固定了卷积核的维度。

实验结果令人眼前一亮。在验证困惑度方面,用MTA训练的模型在各个验证数据集上都表现更好。

带层缩放的组归一化对MTA和DIFF Transformer的性能提升特别重要。

在一些流行的基准测试中,如BoolQ、PIQA等,MTA模型也超过了基线模型,平均得分更高。

这说明MTA能有效提升模型性能,无论是理解文本含义,还是回答问题,都更出色。


长文本处理的好帮手

研究团队对模型进行了长上下文微调,把上下文的长度从2048增加到4096,还调整了一些训练参数。

用了MTA的模型在困惑度评估里比基线模型好很多。

在LAMBADA任务里,MTA模型预测下一个单词的时候,能更好地利用上下文信息,预测得更加准确。

在写作助手、摘要生成等场景中,MTA能帮助模型更好地理解文章内容和逻辑,生成更符合要求的回复。


精准找到长距离信息

像「大海捞针」(Needle-In-A-Haystack)和BabiLong这样的长距离依赖任务里,MTA的优势就更明显了。

「大海捞针」任务要在很长的文本里找到特定的信息。

MTA模型在这个任务中表现特别好,无论是在2k还是4k的上下文窗口中,准确率都有显著提升。

尤其是在查找隐藏较深的目标信息时,优势更为突出。

BabiLong任务评估模型能不能理解长文本里分散的各种事实,并进行推理。

QA1-5任务中,MTA模型在有很多干扰文本的情况下,也能保持较高的准确率,准确找到关键信息,并进行推理。


消融实验

为了搞清楚MTA各个组件的作用,研究人员做了消融实验。

在键-查询卷积实验里,就算只有2层用了MTA增强,模型就能超过强大的基线模型,6层MTA在性能和复杂程度之间达到了较好的平衡。

在卷积核初始化的实验里,用单位矩阵初始化的MTA模型训练时收敛得更快,性能也更好。

组归一化和指数深度缩放对于提升模型性能很关键,不同大小的卷积核虽然会影响评估结果,但总体的卷积核模式相似。

改变卷积操作和softmax的先后顺序,对模型性能的影响较小。

作者介绍

Meta多token注意力论文中,论文二作是一位华人研究科学家Tianlu Wang。

她曾获得了弗吉尼亚大学计算机科学博士学位,导师是Vicente Ordóñez Román教授。在此之前,她还获得了浙大计算机科学学士学位。

Tianlu Wang研究兴趣在于,与探索机器学习模型中的公平性、鲁棒性和问责制相关话题,尤其是在计算机视觉和自然语言处理系统方面。

参考资料:

http://arxiv.org/abs/2504.00927

https://x.com/jaseweston/status/1907260086017237207

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春节聚了几次会才明白:人与人一旦走岔了,就再也回不去了

春节聚了几次会才明白:人与人一旦走岔了,就再也回不去了

洞见
2026-02-22 21:38:05
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
说句扎心的大实话,咱们在南海的“牌”,一开始烂到家了。

说句扎心的大实话,咱们在南海的“牌”,一开始烂到家了。

南权先生
2026-01-27 15:44:44
女子谈释永信过往,她们姐妹住少林寺3天2夜,争着往释永信房间跑

女子谈释永信过往,她们姐妹住少林寺3天2夜,争着往释永信房间跑

江山挥笔
2025-07-29 16:50:59
女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

梅子的小情绪
2025-12-19 14:04:18
杨瀚森再被下放,竞争对手大爆发,砍23+13助开拓者92-77大胜太阳

杨瀚森再被下放,竞争对手大爆发,砍23+13助开拓者92-77大胜太阳

小兰看体育
2026-02-23 17:46:59
全球第一!北大造出1纳米超低功耗铁电晶体管,中国芯迎重大突破

全球第一!北大造出1纳米超低功耗铁电晶体管,中国芯迎重大突破

Thurman在昆明
2026-02-23 18:18:54
美媒:中国首艘09V型核动力攻击潜艇现身渤海,搭载全新X型尾舵

美媒:中国首艘09V型核动力攻击潜艇现身渤海,搭载全新X型尾舵

百科密码
2026-02-23 16:23:49
美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

蜉蝣说
2025-12-01 11:20:58
春节期间人民币猛涨!先别高兴,要警惕今年外贸、股市能否接住!

春节期间人民币猛涨!先别高兴,要警惕今年外贸、股市能否接住!

趣味萌宠的日常
2026-02-23 15:41:02
96年,清华女硕士执意远嫁非洲,生下5个混血孩子,如今怎样了?

96年,清华女硕士执意远嫁非洲,生下5个混血孩子,如今怎样了?

起喜电影
2026-02-22 13:22:34
刚刚,全线大涨!中国资产,爆发!

刚刚,全线大涨!中国资产,爆发!

券商中国
2026-02-23 10:50:07
不堪被网友怒喷:这名昔日的巴西10号接班人,生涯按下了暂停键

不堪被网友怒喷:这名昔日的巴西10号接班人,生涯按下了暂停键

里芃芃体育
2026-02-23 00:10:06
闫学晶偷税背债被查后首露面,终迎重罚结局

闫学晶偷税背债被查后首露面,终迎重罚结局

余們搞笑段子
2026-01-23 01:09:25
儿子离家多年成三野参谋长,回乡却发现,母亲已是四野连级干部

儿子离家多年成三野参谋长,回乡却发现,母亲已是四野连级干部

兴趣知识
2026-01-06 01:52:56
江西孤儿靠乞讨长大成人,23岁时北京来人找他:你亲妈是个大首长

江西孤儿靠乞讨长大成人,23岁时北京来人找他:你亲妈是个大首长

雍亲王府
2026-02-23 11:10:06
大年初六,和几个大厂(字节、阿里)朋友聚会。突然不聊房子了

大年初六,和几个大厂(字节、阿里)朋友聚会。突然不聊房子了

蚂蚁大喇叭
2026-02-23 17:08:47
张帅弃双拼单终结连败显神威,王欣瑜排名实现突破首进TOP30

张帅弃双拼单终结连败显神威,王欣瑜排名实现突破首进TOP30

网球之家
2026-02-23 13:45:01
不装了!扛不住特朗普压力,打响反华第一枪,荷兰不给中方留退路

不装了!扛不住特朗普压力,打响反华第一枪,荷兰不给中方留退路

楠楠自语
2026-02-23 16:39:37
大多数上海老人退休金并不高,主要表现是在68岁到80岁...

大多数上海老人退休金并不高,主要表现是在68岁到80岁...

白浅娱乐聊
2026-02-18 17:18:38
2026-02-23 19:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14575文章数 66634关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

郑丽文:一旦台海爆发冲突 台湾将成最大输家

头条要闻

郑丽文:一旦台海爆发冲突 台湾将成最大输家

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

亲子
本地
旅游
公开课
军事航空

亲子要闻

5岁小男孩丰指一瞬间被挤碎,教孩子学会自我保护

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

旅游要闻

上海市春节假期接待游客2167.21万人次 同比增长8.36%

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版