网易首页 > 网易号 > 正文 申请入驻

腾讯优图实验室重磅突破:SSA技术让AI注意力机制既快又准的秘密

0
分享至


这项由英国伦敦国王学院的沈振毅、腾讯优图实验室的陆俊儒等研究团队共同完成的突破性研究,发表于2025年11月,研究编号为arXiv:2511.20102v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

大型语言模型就像一个非常聪明的学生,在阅读长篇文章时需要决定把注意力放在哪些词语上。传统的注意力机制就像要求学生同时关注文章中的每一个字,这样虽然全面,但会消耗大量精力,处理长文章时很快就会筋疲力尽。于是研究者们想出了稀疏注意力机制,让AI只关注最重要的部分内容,就像让学生只看关键段落一样。

然而,研究团队发现了一个令人困惑的现象。当他们训练AI使用稀疏注意力时,AI竟然变得不够"挑剔"了——本应该学会集中注意力的AI,反而比使用完整注意力的AI更加分散注意力。这就好比专门训练学生快速阅读的结果,学生反而变得更容易分心,这显然违背了训练的初衷。

研究团队深入分析后发现,问题出现在训练过程中。在稀疏注意力训练时,那些被认为不重要而被忽略的内容永远不会得到"纠错"的机会。就像一个学生在快速阅读训练中,对于那些被跳过的段落,永远不知道自己的判断是否正确。这些被忽略的部分无法从错误中学习,导致AI无法真正学会如何有效地"忽略"不重要的信息。

为了解决这个根本性问题,研究团队提出了SSA(Sparse Sparse Attention)技术。这个方法的巧妙之处在于,它让AI在训练时既要练习"快速阅读",也要练习"仔细阅读",然后让这两种能力互相指导和纠正。

**一、训练中的双重练习**

SSA技术的核心思想可以用学习钢琴来类比。传统方法要么只练习简单曲子(稀疏注意力),要么只练习复杂曲子(完整注意力)。而SSA让学生在每次练习时都有50%的机会练习简单曲子,50%的机会练习复杂曲子,但关键是要让两种练习方式产生的"音乐效果"尽可能接近。

具体来说,当AI处理一段文本时,系统会随机决定使用完整注意力还是稀疏注意力。如果使用完整注意力,系统会同时计算一个稀疏注意力的"影子版本",然后要求完整注意力的结果向稀疏注意力靠拢,这样完整注意力就学会了如何变得更加集中和挑剔。反过来,如果使用稀疏注意力,系统也会计算一个完整注意力的"影子版本",要求稀疏注意力的结果不要偏离完整注意力太远,确保重要信息不会被错误丢弃。

这种双向对齐的训练方式解决了传统方法的根本缺陷。那些在稀疏训练中被忽略的部分,现在通过完整注意力的"影子训练"获得了学习机会,AI终于能够学会如何正确地"无视"不重要的信息。

**二、注意力稀疏性的测量与发现**

为了证明他们的方法确实有效,研究团队需要衡量AI的注意力到底有多"集中"。他们开发了两个测量指标,就像给学生的专注程度打分一样。

第一个指标叫注意力熵,测量的是注意力分布的散乱程度。如果AI把注意力平均分配给所有词语,熵值就很高,说明很分散;如果AI只关注少数几个关键词,熵值就很低,说明很集中。第二个指标叫注意力稀疏性,直接测量AI在关注最重要的那部分内容时,到底抓住了多少真正重要的信息。

通过这些测量,研究团队发现了一个令人震惊的结果。使用传统稀疏训练的AI,其注意力稀疏性竟然比使用完整注意力训练的AI更低。这就像专门训练学生快速找重点的结果,学生反而比没训练过的同学更容易抓不住重点,完全颠覆了人们的直觉。

更令人惊讶的是,使用SSA训练的AI在注意力稀疏性方面表现最佳,超越了所有其他方法。这证明了双重训练确实让AI学会了真正的"挑剔"——既能在需要时快速找到重点,又不会错过真正重要的信息。

**三、性能表现的全面提升**

研究团队在多个任务上测试了SSA的表现,结果令人振奋。在语言建模任务中,SSA在使用稀疏注意力推理时达到了与完整注意力相媲美的性能,同时计算效率大幅提升。这就像一个学生既能快速阅读又能保持理解质量,真正做到了速度和准确性的完美平衡。

在常识推理任务上,SSA甚至超越了使用完整注意力的传统方法。研究人员测试了四个不同的推理任务:物理常识问答、常识句子补全、简单科学问题和挑战性科学问题。SSA在所有这些任务上都表现优异,证明了注意力的集中确实能提升AI的推理能力。

更有趣的是,SSA还展现出了优秀的"灵活性"。当给予不同的计算预算时,SSA的性能会平稳地随着可用资源的增加而提升。这就像一个优秀的学生,给他更多时间时能做得更好,给他较少时间时也不会崩溃,而是优雅地在限制条件下发挥最佳水平。

**四、长文本处理的惊人能力**

AI处理长文本一直是个头疼的问题,就像让学生阅读一本厚厚的百科全书一样困难。传统的完整注意力方法在处理超出训练长度的文本时往往会"崩溃",性能急剧下降。

然而,研究团队发现SSA在长文本处理方面有着令人惊喜的表现。在"大海捞针"测试中,AI需要在很长的文本中找到一个特定信息,就像在一本厚书中找到某一句话。SSA不仅在训练长度内表现优秀,在超出训练长度时也能保持稳定的检索能力。

更令人印象深刻的是,在长文本理解任务中,SSA始终保持着较低的困惑度(衡量AI理解文本难度的指标),而传统完整注意力方法的困惑度会急剧上升,表现出明显的"消化不良"症状。

研究团队深入分析发现,这种优异的长文本能力源于SSA有效缓解了"注意力陷阱"现象。在传统训练中,AI容易把过多注意力分配给文本开头的词语,就像学生总是过分关注文章的第一段而忽视后续重要内容。SSA通过双重训练机制有效避免了这种偏见,让AI能够更均衡地处理整个长文本。

**五、技术细节的巧妙设计**

SSA的技术实现充满了巧思。在每个训练步骤中,系统首先决定使用哪种注意力机制作为主要路径,然后计算对应的"影子路径"。这个影子路径不会影响最终的输出,只用于提供对齐信号。

对齐机制采用了双向设计。当完整注意力作为主路径时,系统计算一个稀疏注意力的影子版本,然后使用一种叫做"稀疏性损失"的技术,鼓励完整注意力的输出向稀疏注意力靠拢。同时,系统还使用"承诺损失"来防止稀疏注意力偏离完整注意力太远。

这种设计的美妙之处在于,它解决了直接对齐注意力分布的计算困难。直接比较两个注意力分布需要大量内存和计算资源,而SSA通过比较最终的表示输出来实现对齐,大大降低了计算成本。

在稀疏注意力的具体实现上,研究团队采用了块稀疏策略。文本被分成若干个块,每个查询只需要选择最相关的几个块进行计算。通过巧妙的数学技巧,块级别的相似度计算能够很好地近似词级别的注意力排序,既保证了效果又提高了效率。

**六、实验验证的严谨性**

研究团队进行了大量严谨的实验验证。他们使用了从300M到1B参数的不同规模模型,在100B词元的大规模语料上进行训练。为了确保比较的公平性,所有模型都采用了相同的架构和训练配置。

在消融研究中,研究团队系统地验证了SSA各个组件的重要性。他们发现,如果去掉双向对齐机制,性能会显著下降。如果只保留单向对齐,训练会变得不稳定。如果改变稀疏度设置,也需要仔细调整才能获得最佳效果。

特别值得注意的是,研究团队还测试了门控注意力机制的影响。他们发现这个机制对小模型影响有限,但对大模型的性能提升很明显。这个发现对于理解注意力机制在不同规模下的行为很有价值。

最终的实验结果显示,SSA在几乎所有测试中都达到了最佳或接近最佳的性能。在相同的稀疏度设置下,SSA的困惑度比其他方法低15-20%,在推理任务上的准确率提升2-5%。这些看似不大的数字,在AI领域代表着显著的技术进步。

研究团队的这项工作不仅解决了稀疏注意力训练中的核心问题,还为未来的长文本AI应用奠定了重要基础。随着AI需要处理的文本越来越长,从长篇小说到法律文件,从研究论文到技术手册,SSA技术可能会成为下一代AI系统的重要组成部分。

说到底,这项研究的价值不仅在于技术上的突破,更在于它揭示了AI学习过程中一个重要的原理:真正的效率不是简单的省略,而是在保证质量的前提下的智能选择。SSA让AI学会了这种智能选择的艺术,既能快速处理信息,又不会遗漏重要内容。对于普通用户而言,这意味着未来的AI助手将能更好地理解和处理长篇内容,无论是总结长文档还是回答复杂问题,都会变得更加准确和高效。

Q&A

Q1:SSA技术相比传统稀疏注意力方法有什么优势?

A:SSA的最大优势是解决了传统稀疏注意力训练中的"学习盲区"问题。传统方法在训练时会完全忽略某些内容,导致AI无法学会正确判断什么是重要的。SSA通过双重训练让AI既练习快速处理又练习完整处理,两种方式互相指导,最终让AI的注意力更加集中和准确。

Q2:SSA技术在处理长文本时为什么表现更好?

A:SSA能有效避免"注意力陷阱"现象,即AI过度关注文本开头而忽视后续重要内容的问题。通过双向对齐训练,SSA让AI学会了更均衡地分配注意力,在处理超出训练长度的文本时仍能保持稳定的理解能力,而传统方法往往会出现性能急剧下降的情况。

Q3:普通用户什么时候能体验到SSA技术带来的改进?

A:SSA技术目前还在研究阶段,但其核心思想已经为AI系统的改进指明了方向。随着这类技术的成熟和应用,未来的AI助手在处理长篇文档、进行复杂推理和回答详细问题时会变得更加准确高效,特别是在需要同时考虑速度和质量的场景中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国汽车第一大省“易主”:产量达到368.65万辆,终结广东九连冠

中国汽车第一大省“易主”:产量达到368.65万辆,终结广东九连冠

火星人杂谈
2026-01-25 20:22:37
牢A为什么突然爆红?因为他说出了杨振宁不敢明说的后半段!董明珠早就看透了一切

牢A为什么突然爆红?因为他说出了杨振宁不敢明说的后半段!董明珠早就看透了一切

小鱼爱鱼乐
2026-01-26 17:39:17
2026年倒查15年!这些人将面临严厉审查,你在其中吗?

2026年倒查15年!这些人将面临严厉审查,你在其中吗?

特约前排观众
2026-01-26 00:15:05
前10名大学中有8所来自中国!最新世界大学排名引发震惊,浙大超哈佛位列全球第一

前10名大学中有8所来自中国!最新世界大学排名引发震惊,浙大超哈佛位列全球第一

观威海
2026-01-26 19:22:32
重磅:乌克兰突袭攻入俄罗斯领土!摧毁库尔斯克指挥所

重磅:乌克兰突袭攻入俄罗斯领土!摧毁库尔斯克指挥所

项鹏飞
2026-01-26 17:11:27
三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

三十岁高颜值少妇卖淫:一次仅百元,时长不限,一画面信息量大

博士观察
2026-01-25 20:18:40
国安部披露:个别社交平台账号打着“历史科普”的旗号,通过未经核实的内容、渲染阴谋论等方式歪曲事实,企图让网民陷入历史虚无主义陷阱

国安部披露:个别社交平台账号打着“历史科普”的旗号,通过未经核实的内容、渲染阴谋论等方式歪曲事实,企图让网民陷入历史虚无主义陷阱

扬子晚报
2026-01-26 07:17:27
2025年外商投资创2014年以来最低值

2025年外商投资创2014年以来最低值

凯利经济观察
2026-01-26 13:11:38
央视暗访曝光!致命毒红薯已流遍20多省!种植户自己一口都不吃!

央视暗访曝光!致命毒红薯已流遍20多省!种植户自己一口都不吃!

今朝牛马
2026-01-26 22:00:31
有人企图煽动“国外的月亮更圆”的扭曲风气等,国安部披露

有人企图煽动“国外的月亮更圆”的扭曲风气等,国安部披露

中国网
2026-01-26 10:13:11
陈光标怒撕遮羞布:梁小龙哪里是病死,分明是被折腾死的!

陈光标怒撕遮羞布:梁小龙哪里是病死,分明是被折腾死的!

奇思妙想草叶君
2026-01-25 23:58:08
李湘背后,赵薇、黄有龙、佘智江的跨境黑金链

李湘背后,赵薇、黄有龙、佘智江的跨境黑金链

每日一见
2026-01-26 02:35:01
收手吧林雪!翻拍《功夫》票房仅57万,周星驰不是谁都能模仿的

收手吧林雪!翻拍《功夫》票房仅57万,周星驰不是谁都能模仿的

TVB的四小花
2026-01-27 04:07:35
郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

悄悄史话
2026-01-26 18:00:42
美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

书纪文谭
2026-01-26 15:25:20
女子哭诉:“北大硕士”男友让我帮他贷款,3年背贷超200万;男友否认,律师分析法律责任

女子哭诉:“北大硕士”男友让我帮他贷款,3年背贷超200万;男友否认,律师分析法律责任

大风新闻
2026-01-26 15:25:05
事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

新民晚报
2026-01-26 14:44:31
“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

鹰眼Defence
2026-01-26 17:27:05
胡锡进对牢A事件发声:大粪车路过我,尝不尝咸淡,那是我的自由

胡锡进对牢A事件发声:大粪车路过我,尝不尝咸淡,那是我的自由

火山诗话
2026-01-26 05:45:38
伊朗站在悬崖边缘:沉默的美军,正在酝酿一场终结战

伊朗站在悬崖边缘:沉默的美军,正在酝酿一场终结战

凤眼论
2026-01-26 18:34:36
2026-01-27 04:36:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1368文章数 157关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

教育
数码
旅游
时尚
本地

教育要闻

武汉燃气热力学校有艺考吗?答案揭晓!

数码要闻

苹果推出第二代AirTag 具备更远搜索距离、更响亮的扬声器等

旅游要闻

本市将打造中国入境旅游首选地

甜了10年,超多暧昧细节,全网求他俩原地结婚

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版