网易首页 > 网易号 > 正文 申请入驻

稀疏注意力再添一员,华为诺亚推出高效选择注意力架构ESA

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当 DeepSeek 的 NSA 与月之暗面的 MoBA 以稀疏注意力掀起长序列技术热潮,行业对 “效率革命” 的追逐迎来关键一跃 ——华为诺亚方舟实验室正式发布全新 ESA 算法(Efficient Selective Attention)。

论文地址:https://arxiv.org/pdf/2502.14477

通过稀疏化注意力的创新设计,ESA 突破了大模型在长文本处理中的瓶颈。ESA 不仅实现了数倍序列长度的拓展,还引入独创的动态计算范式,结合邻域影响力有效避免了单纯选择 top-ranked token 所带来的性能损失。通过对关键 token 的精确选择,ESA 在优化长序列处理效率的同时,提升了计算性能,为大模型在长序列任务中的应用带来了新的可能性。

在大语言模型的推理过程中,长序列模型的训练需要极高的算力和海量数据支持,理想的解决方案是通过短序列的训练成果外推到长序列。然而,随着序列长度的增加,注意力计算的复杂度呈平方级增长,这使得高效且准确的长序列推理成为了一大挑战。为此,研究人员提出了多种方法,以应对这一挑战。

ESA 方案正是在这一背景下提出的创新外推解决方案。ESA 通过对 query 和 key 的低维压缩,有效减少了 token 选择的计算复杂度。该方案通过灵活高效地选择关键 token 进行注意力计算,大幅度降低了 LLMs 在处理长文本时的计算负担,且在性能上与全注意力外推方法相当,甚至在高倍外推场景下优于全注意力算法,实现了上下文长度的有效扩展。

1. 高效外推

当大模型训练长度有限,随着序列长度的增长,一方面会出现 OOD (out-of-distribution) 的问题,另一方面注意力计算量会迅速增大。现有的研究表明,注意力矩阵具有稀疏性,对于长序列而言,稀疏程度进一步扩大。选择性注意力(Selective Attention)利用了稀疏性这一特性,选择部分 token 来计算注意力,结合外推的位置编码能将短序列模型应用到长序列任务上的同时,显著降低计算量。在计算稀疏注意力时细粒度的 token 选择方法能够更加灵活、精准地定位到关键信息。然而,token 粒度选择会引入巨大的计算开销。这引出了一个核心的问题:如何在选择性注意力方法中平衡灵活性与效率。针对这一挑战,ESA 方法通过将 query 和 key 进行低维压缩,显著降低 token 选择的计算复杂度,在外推场景下实现 token 粒度动态稀疏注意力机制。

具体而言,ESA 包括以下两个核心步骤:

高效选择:ESA 引入了一种基于 query 感知的 token 粒度选择机制,基于压缩后的 query 和 key 计算 token 的重要性分数,同时考虑周围 token 的影响(邻距影响力),以避免直接选择 top-ranked token 导致的性能下降。

注意力计算:在选择关键 token 后,ESA 使用被选中的 token 的完整的 query 和 key 进行注意力计算,而非对所有前序 token 进行计算,从而大幅降低复杂度。

2.ESA:基于 token 粒度的高效选择性注意力

ESA 的主要创新点在于通过 token 粒度选择性注意力机制,在保持模型准确率的同时显著降低计算复杂度。具体来说,与现有的长序列外推方法不同,ESA 提出了一种基于 token 的细粒度选择注意力,能够在 prefilling 和 decoding 阶段动态选择最关键的少量 token,而不是固定 block 选择或者永久丢弃不重要的 token。首先,ESA 将 query 和 key 经过简单的一层 MLP 压缩到原有维度的大约 3.2%,在低维空间计算重要性分数,显著降低计算复杂度;其次,根据重要性分数选择 topk 的 token,控制 key 的长度是固定的,这样将注意力计算由原有的平方复杂度降低为线性复杂度。虽然选择 token 是平方复杂度,但是由于将 query 和 key 压缩到了更低维的空间,使得对于算力要求大大降低。

ESA 算法示意图

ESA 的具体实现方式如下:输入序列的 token 被分为 4 部分,注意力包括全局注意力和 window 的局部注意力,初始 token 和 ESA 选择的 topk 中间 token 拼接起来计算全局注意力,localtoken 用于计算 window 的注意力,两部分注意力进行融合计算最终的注意力。ESA 按照 chunked-prefill 缓存 key 和 value,即基于当前 chunk 的 query 选择重要的中间 tokens,计算 token 的重要性时兼顾当前的所有 query;在解码阶段,只需要考虑当前的一个 token 的 query 即可。如果计算中间某个 token 重要性,需要计算和当前所有 token 的重要性,其中单个 token 的重要性用 query 和 key 的点积表示:

这里 H 是 head 的数量,为了降低复杂度 ESA 整合了所有的 head。为了进一步降低计算复杂度,不要求准确计算重要性分数,而是更关注相对大小,ESA 将 query 和 key 分别通过一层 MLP 进行压缩。ESA 采取 offline 的方式学习 MLP 的权重:

ESA 使用一个小的校准数据集用模型进行推理,保存中间的 query、key 和 value,用于训练降维 MLP,只增加了极少量的降低 query 和 key 大小的网络权重,且无需对模型微调。

为了确保分数的相对大小,避免某个 token 在重要性分数中占据主导地位,ESA 对分数进行修正:

进一步的,作者发现仅选择 topk 的 token 模型在大海捞针任务中只能检索到部分信息,提出了邻距影响力的概念,即对于某个中间的 token,其重要性分数不仅取决于自身的分数,还受到周围 token 的影响,更新后的分数为:

在选择完重要 token 后,ESA 使用完整的 query、key 和 value 计算注意力,最终的注意力输出如下所示:

ESA 的计算复杂度降低主要来源于低维的 query 和 key 计算重要性分数以及选择完成以后的线性注意力计算复杂度,经过理论计算,一步 attention 计算在长序列场景下能降低为原有的:

实际实验中我们将 query 和 key 压缩为原有的 3.2%,一步 attention 计算量在输入序列足够长时理论能降低至 1.6% 左右。

3. 实验结果

论文选择开源训练集 Pile 的 2 条 Books3 样本收集用于训练降维 MLP 的 qk 样本,query 和 key 从 4096 压缩为 128,压缩比例约为 l3.2%,注意力计算的窗口长度约为 6k。为了将开源的短序列模型应用到长序列中,ESA 沿用了 Infllm 的外推位置编码设置,使用 Llama-3-8B-Instruct 和 Mistral-7B-Instruct-v0.2,在多个公开的长序列基准测试中验证了 ESA 的性能,包括 Longbench、InfiniteBench、NeedleBench 等。作者对比了 full attention 的外推方法和同类型的基于 window 的外推方法,且同类型方法的 window 长度一致。实验结果表明,ESA 通过高效灵活选择重要的 token,总体性能在外推倍数足够大时候优于 full attention 的方法,且均明显优于同类型的方法,尤其在 multi needles 检索场景下例如数星星和 NeedleBench,在其他同类型方法失效的时候,ESA 仍然有较高的准确率。

ESA 不对每个 head 单独选择 token,而是将所有 head 整合到一起计算重要性分数,有利于降低计算复杂度,提升效率,为了验证这一操作对算法的影响,作者做的对比实验如下所示,可以看出这样的整合对于算法影响有限。

论文研究了邻距影响力的超参数影响,结果如下所示,对不同的测评集该参数的影响不同,取值较小有利于 multi needles 类型的检索任务,取值较大则有利于 single needle 类型任务,这可能是由于单针检索任务只需要关注 ground truth 所在的片段即可,增大邻距影响力有利于 attention 集中到较长的片段上。

4. 总结

ESA 有效平衡了长序列外推场景下的选择性注意力中的灵活性和计算效率,用于在不进行模型参数增量微调的情况下扩展上下文长度。ESA 的核心思想是在每个步骤中选择固定数量的最重要 token 来计算注意力,利用注意力矩阵的稀疏性。当输入序列足够长时,ESA 通过将 query 和 key 压缩为低维表征,有效降低选择 token 的计算复杂度。实验评估表明,ESA 能够有效处理长度为训练长度 4 倍甚至 25 倍的各种长序列任务。未来的研究需要探索更准确、更高效的选择重要 token 的方法,以及软硬件协同的高效外推方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国被严重“误判”!全世界都在对我们撒谎,真相很残酷

美国被严重“误判”!全世界都在对我们撒谎,真相很残酷

毛豆论道
2026-03-21 19:54:29
路虎车主把手伸到举报者单位,人民日报发声:势力再大,也没用!

路虎车主把手伸到举报者单位,人民日报发声:势力再大,也没用!

奇思妙想草叶君
2026-03-21 14:39:01
沈梦辰杜海涛正式解绑:四年婚姻,各自安好!

沈梦辰杜海涛正式解绑:四年婚姻,各自安好!

背包旅行
2026-03-21 15:06:56
贝克汉姆家大布:学历颜值双平平,却娶到白富美娇妻

贝克汉姆家大布:学历颜值双平平,却娶到白富美娇妻

述家娱记
2026-03-21 14:23:38
哈登20+6+10末节13分!骑士15分逆转双杀鹈鹕 米切尔27分

哈登20+6+10末节13分!骑士15分逆转双杀鹈鹕 米切尔27分

醉卧浮生
2026-03-22 09:27:27
反侦查能力太强!梅姨躲了20年,警方曾抛出“她或不存在”烟雾弹

反侦查能力太强!梅姨躲了20年,警方曾抛出“她或不存在”烟雾弹

火山詩话
2026-03-22 06:54:34
后续!壶口瀑布事件:景区已上门道歉,内部在查投诉人,网友辣评

后续!壶口瀑布事件:景区已上门道歉,内部在查投诉人,网友辣评

奇思妙想草叶君
2026-03-21 20:56:23
突发!英核动力潜艇已抵达阿拉伯海!此前,英、法、德、日本和韩国等八国发布联合声明!桥水基金创始人发文:霍尔木兹大决战即将爆发

突发!英核动力潜艇已抵达阿拉伯海!此前,英、法、德、日本和韩国等八国发布联合声明!桥水基金创始人发文:霍尔木兹大决战即将爆发

每日经济新闻
2026-03-22 10:07:06
杜兰特总分超乔丹!阿门压哨补篮火箭绝杀热火 阿德巴约32+21

杜兰特总分超乔丹!阿门压哨补篮火箭绝杀热火 阿德巴约32+21

醉卧浮生
2026-03-22 10:29:25
薛凯琪演唱会又放飞自我了,真会穿啊我的姐,迷死人 !

薛凯琪演唱会又放飞自我了,真会穿啊我的姐,迷死人 !

动物奇奇怪怪
2026-03-22 06:31:59
一针见血!黄健翔点评日本女足夺冠:四大核心逻辑,道出强大根源

一针见血!黄健翔点评日本女足夺冠:四大核心逻辑,道出强大根源

田先生篮球
2026-03-22 06:46:27
太过分?曝非洲足联要求33岁马内归还非洲杯MVP 老实人愤怒拒绝了

太过分?曝非洲足联要求33岁马内归还非洲杯MVP 老实人愤怒拒绝了

风过乡
2026-03-22 07:29:20
投诉德云社的愤怒先生,您的脆弱不能代表上海

投诉德云社的愤怒先生,您的脆弱不能代表上海

关尔东
2026-03-21 23:11:21
张水华终于夺得辞职后首冠!打破赛会纪录+获4万元奖金 63天赢7万

张水华终于夺得辞职后首冠!打破赛会纪录+获4万元奖金 63天赢7万

念洲
2026-03-22 09:55:34
郑钦文谈赛程调整:如果你不在顶端,你就无法决定自己的赛程

郑钦文谈赛程调整:如果你不在顶端,你就无法决定自己的赛程

懂球帝
2026-03-22 10:30:19
以军称正打击德黑兰中心地带“伊朗政权目标”

以军称正打击德黑兰中心地带“伊朗政权目标”

新京报
2026-03-22 09:05:06
伊朗用霍尔木兹海峡威胁全世界能源安全!特朗普要求48小时内必须开放,否则轰炸伊朗重要设施

伊朗用霍尔木兹海峡威胁全世界能源安全!特朗普要求48小时内必须开放,否则轰炸伊朗重要设施

爆角追踪
2026-03-22 10:20:59
刚从印度回国,谈谈一些可能让人不太舒服的真话,有些现实太扎心

刚从印度回国,谈谈一些可能让人不太舒服的真话,有些现实太扎心

复转这些年
2026-03-21 18:25:47
暴涨超20%,有商家暂停接单!广州网友:想不到它会涨价

暴涨超20%,有商家暂停接单!广州网友:想不到它会涨价

羊城攻略
2026-03-20 23:04:43
小学生校门口买“小火龙”后中毒呕吐!其含河豚毒素,紧急提醒

小学生校门口买“小火龙”后中毒呕吐!其含河豚毒素,紧急提醒

扬子晚报
2026-03-21 17:47:02
2026-03-22 11:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142590关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

八国已就霍尔木兹海峡发声 英核动力潜艇抵达阿拉伯海

头条要闻

八国已就霍尔木兹海峡发声 英核动力潜艇抵达阿拉伯海

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

家居
本地
教育
艺术
军事航空

家居要闻

时空交织 空间绮梦

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

教育要闻

“这真是玩手机玩的”,8岁女孩吃饭姿势怪异,网友都看不下去了

艺术要闻

张春桥的字藏多少心机?看似简单却暗藏玄机!

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版