腾讯优图实验室重磅突破：SSA技术让AI注意力机制既快又准的秘密|稀疏性|知名企业|ssa技术

腾讯优图实验室重磅突破：SSA技术让AI注意力机制既快又准的秘密

2026-01-14 00:01:03　来源: 至顶AI实验室

北京举报

分享至

这项由英国伦敦国王学院的沈振毅、腾讯优图实验室的陆俊儒等研究团队共同完成的突破性研究，发表于2025年11月，研究编号为arXiv:2511.20102v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

大型语言模型就像一个非常聪明的学生，在阅读长篇文章时需要决定把注意力放在哪些词语上。传统的注意力机制就像要求学生同时关注文章中的每一个字，这样虽然全面，但会消耗大量精力，处理长文章时很快就会筋疲力尽。于是研究者们想出了稀疏注意力机制，让AI只关注最重要的部分内容，就像让学生只看关键段落一样。

然而，研究团队发现了一个令人困惑的现象。当他们训练AI使用稀疏注意力时，AI竟然变得不够"挑剔"了——本应该学会集中注意力的AI，反而比使用完整注意力的AI更加分散注意力。这就好比专门训练学生快速阅读的结果，学生反而变得更容易分心，这显然违背了训练的初衷。

研究团队深入分析后发现，问题出现在训练过程中。在稀疏注意力训练时，那些被认为不重要而被忽略的内容永远不会得到"纠错"的机会。就像一个学生在快速阅读训练中，对于那些被跳过的段落，永远不知道自己的判断是否正确。这些被忽略的部分无法从错误中学习，导致AI无法真正学会如何有效地"忽略"不重要的信息。

为了解决这个根本性问题，研究团队提出了SSA（Sparse Sparse Attention）技术。这个方法的巧妙之处在于，它让AI在训练时既要练习"快速阅读"，也要练习"仔细阅读"，然后让这两种能力互相指导和纠正。

**一、训练中的双重练习**

SSA技术的核心思想可以用学习钢琴来类比。传统方法要么只练习简单曲子（稀疏注意力），要么只练习复杂曲子（完整注意力）。而SSA让学生在每次练习时都有50%的机会练习简单曲子，50%的机会练习复杂曲子，但关键是要让两种练习方式产生的"音乐效果"尽可能接近。

具体来说，当AI处理一段文本时，系统会随机决定使用完整注意力还是稀疏注意力。如果使用完整注意力，系统会同时计算一个稀疏注意力的"影子版本"，然后要求完整注意力的结果向稀疏注意力靠拢，这样完整注意力就学会了如何变得更加集中和挑剔。反过来，如果使用稀疏注意力，系统也会计算一个完整注意力的"影子版本"，要求稀疏注意力的结果不要偏离完整注意力太远，确保重要信息不会被错误丢弃。

这种双向对齐的训练方式解决了传统方法的根本缺陷。那些在稀疏训练中被忽略的部分，现在通过完整注意力的"影子训练"获得了学习机会，AI终于能够学会如何正确地"无视"不重要的信息。

**二、注意力稀疏性的测量与发现**

为了证明他们的方法确实有效，研究团队需要衡量AI的注意力到底有多"集中"。他们开发了两个测量指标，就像给学生的专注程度打分一样。

第一个指标叫注意力熵，测量的是注意力分布的散乱程度。如果AI把注意力平均分配给所有词语，熵值就很高，说明很分散；如果AI只关注少数几个关键词，熵值就很低，说明很集中。第二个指标叫注意力稀疏性，直接测量AI在关注最重要的那部分内容时，到底抓住了多少真正重要的信息。

通过这些测量，研究团队发现了一个令人震惊的结果。使用传统稀疏训练的AI，其注意力稀疏性竟然比使用完整注意力训练的AI更低。这就像专门训练学生快速找重点的结果，学生反而比没训练过的同学更容易抓不住重点，完全颠覆了人们的直觉。

更令人惊讶的是，使用SSA训练的AI在注意力稀疏性方面表现最佳，超越了所有其他方法。这证明了双重训练确实让AI学会了真正的"挑剔"——既能在需要时快速找到重点，又不会错过真正重要的信息。

**三、性能表现的全面提升**

研究团队在多个任务上测试了SSA的表现，结果令人振奋。在语言建模任务中，SSA在使用稀疏注意力推理时达到了与完整注意力相媲美的性能，同时计算效率大幅提升。这就像一个学生既能快速阅读又能保持理解质量，真正做到了速度和准确性的完美平衡。

在常识推理任务上，SSA甚至超越了使用完整注意力的传统方法。研究人员测试了四个不同的推理任务：物理常识问答、常识句子补全、简单科学问题和挑战性科学问题。SSA在所有这些任务上都表现优异，证明了注意力的集中确实能提升AI的推理能力。

更有趣的是，SSA还展现出了优秀的"灵活性"。当给予不同的计算预算时，SSA的性能会平稳地随着可用资源的增加而提升。这就像一个优秀的学生，给他更多时间时能做得更好，给他较少时间时也不会崩溃，而是优雅地在限制条件下发挥最佳水平。

**四、长文本处理的惊人能力**

AI处理长文本一直是个头疼的问题，就像让学生阅读一本厚厚的百科全书一样困难。传统的完整注意力方法在处理超出训练长度的文本时往往会"崩溃"，性能急剧下降。

然而，研究团队发现SSA在长文本处理方面有着令人惊喜的表现。在"大海捞针"测试中，AI需要在很长的文本中找到一个特定信息，就像在一本厚书中找到某一句话。SSA不仅在训练长度内表现优秀，在超出训练长度时也能保持稳定的检索能力。

更令人印象深刻的是，在长文本理解任务中，SSA始终保持着较低的困惑度（衡量AI理解文本难度的指标），而传统完整注意力方法的困惑度会急剧上升，表现出明显的"消化不良"症状。

研究团队深入分析发现，这种优异的长文本能力源于SSA有效缓解了"注意力陷阱"现象。在传统训练中，AI容易把过多注意力分配给文本开头的词语，就像学生总是过分关注文章的第一段而忽视后续重要内容。SSA通过双重训练机制有效避免了这种偏见，让AI能够更均衡地处理整个长文本。

**五、技术细节的巧妙设计**

SSA的技术实现充满了巧思。在每个训练步骤中，系统首先决定使用哪种注意力机制作为主要路径，然后计算对应的"影子路径"。这个影子路径不会影响最终的输出，只用于提供对齐信号。

对齐机制采用了双向设计。当完整注意力作为主路径时，系统计算一个稀疏注意力的影子版本，然后使用一种叫做"稀疏性损失"的技术，鼓励完整注意力的输出向稀疏注意力靠拢。同时，系统还使用"承诺损失"来防止稀疏注意力偏离完整注意力太远。

这种设计的美妙之处在于，它解决了直接对齐注意力分布的计算困难。直接比较两个注意力分布需要大量内存和计算资源，而SSA通过比较最终的表示输出来实现对齐，大大降低了计算成本。

在稀疏注意力的具体实现上，研究团队采用了块稀疏策略。文本被分成若干个块，每个查询只需要选择最相关的几个块进行计算。通过巧妙的数学技巧，块级别的相似度计算能够很好地近似词级别的注意力排序，既保证了效果又提高了效率。

**六、实验验证的严谨性**

研究团队进行了大量严谨的实验验证。他们使用了从300M到1B参数的不同规模模型，在100B词元的大规模语料上进行训练。为了确保比较的公平性，所有模型都采用了相同的架构和训练配置。

在消融研究中，研究团队系统地验证了SSA各个组件的重要性。他们发现，如果去掉双向对齐机制，性能会显著下降。如果只保留单向对齐，训练会变得不稳定。如果改变稀疏度设置，也需要仔细调整才能获得最佳效果。

特别值得注意的是，研究团队还测试了门控注意力机制的影响。他们发现这个机制对小模型影响有限，但对大模型的性能提升很明显。这个发现对于理解注意力机制在不同规模下的行为很有价值。

最终的实验结果显示，SSA在几乎所有测试中都达到了最佳或接近最佳的性能。在相同的稀疏度设置下，SSA的困惑度比其他方法低15-20%，在推理任务上的准确率提升2-5%。这些看似不大的数字，在AI领域代表着显著的技术进步。

研究团队的这项工作不仅解决了稀疏注意力训练中的核心问题，还为未来的长文本AI应用奠定了重要基础。随着AI需要处理的文本越来越长，从长篇小说到法律文件，从研究论文到技术手册，SSA技术可能会成为下一代AI系统的重要组成部分。

说到底，这项研究的价值不仅在于技术上的突破，更在于它揭示了AI学习过程中一个重要的原理：真正的效率不是简单的省略，而是在保证质量的前提下的智能选择。SSA让AI学会了这种智能选择的艺术，既能快速处理信息，又不会遗漏重要内容。对于普通用户而言，这意味着未来的AI助手将能更好地理解和处理长篇内容，无论是总结长文档还是回答复杂问题，都会变得更加准确和高效。

Q&A

Q1：SSA技术相比传统稀疏注意力方法有什么优势？

A：SSA的最大优势是解决了传统稀疏注意力训练中的"学习盲区"问题。传统方法在训练时会完全忽略某些内容，导致AI无法学会正确判断什么是重要的。SSA通过双重训练让AI既练习快速处理又练习完整处理，两种方式互相指导，最终让AI的注意力更加集中和准确。

Q2：SSA技术在处理长文本时为什么表现更好？

A：SSA能有效避免"注意力陷阱"现象，即AI过度关注文本开头而忽视后续重要内容的问题。通过双向对齐训练，SSA让AI学会了更均衡地分配注意力，在处理超出训练长度的文本时仍能保持稳定的理解能力，而传统方法往往会出现性能急剧下降的情况。

Q3：普通用户什么时候能体验到SSA技术带来的改进？

A：SSA技术目前还在研究阶段，但其核心思想已经为AI系统的改进指明了方向。随着这类技术的成熟和应用，未来的AI助手在处理长篇文档、进行复杂推理和回答详细问题时会变得更加准确高效，特别是在需要同时考虑速度和质量的场景中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.