网易首页 > 网易号 > 正文 申请入驻

中科大华为诺亚TAPPA:时序视角的统一解释框架

0
分享至

来源:市场资讯

(来源:机器之心Pro)

本论文的第一作者杨庆越是中国科学技术大学 2021 级硕博连读生,师从王杰教授,主要研究方向为大模型推理加速与高效推理系统。她曾在 NeurIPS、ICLR 等顶级会议发表论文 3 篇,获华为优秀实习生等荣誉。本工作完成于其在华为诺亚方舟实验室科研实习期间,与中国科学技术大学 MIRA Lab 和华为团队合作完成。

近日,中科大王杰教授团队(MIRA Lab)和华为诺亚方舟实验室(Huawei Noah's Ark Lab)联合提出了大模型注意力模式的统一分析框架 TAPPA,从时间序列视角统一解释自回归推理过程中多类注意力模式的形成机制,并提出训练无关的 q-similarity 指标,将理论分析转化为可应用的推理优化信号,在 KV 缓存压缩与结构化剪枝中实现更合理的资源分配与稳定的精度增益。

论文发表在人工智能顶级会议 International Conference on Learning Representations(ICLR 2026)。


注意力模式可以帮助理解和优化大模型

在大模型的自回归推理中,每一个头都会产生一个注意力分数矩阵。将它画成热力图后,常能看到一些重复出现的几何形状。最常见的例子包括检索式注意力头 (retrieval head),它会在很长的上下文里跳跃地寻找少数相关 token;sink 注意力头,它会在很长一段时间内持续聚焦到序列开头的少数位置;以及对角线型轨迹 (streaming head),它会沿着最近 token 附近形成稳定的局部带状结构。这些现象被统称为注意力模式(attention pattern)。

这些 pattern 对应了模型在推理时不同的功能分工,例如在长上下文中进行检索,维持开头锚点,或者以流式方式持续读取最新信息。并且 pattern 的结构性可以被用作推理优化的信号,例如在 KV Cache 优化中指导保留重要的历史 token。因此,研究 pattern 的行为和出现原因对于探究大模型行为逻辑和优化大模型效率非常重要。然而,已有研究往往只描述某一种现象或某一类头的行为,缺少统一的因果解释与可迁移的分析框架,因此这些信号也常以经验规则的形式出现。

从时序视角发现和揭秘注意力模式

我们先前工作AttentionPredictor [1] 从时间序列视角迈出了关键一步。它将解码过程看作注意力随时间演化的序列,从而以时序视角出发观察 pattern,归纳出了注意力在解码过程中重复的时序结构,例如重复访问,顺序访问与周期性访问。基于这一观察,AttentionPredictor 把每一步的注意力视为一个随时间演化的序列,并训练轻量预测器去预测下一步注意力分布。预测结果可直接服务于 KV Cache 的保留与淘汰。

本工作TAPPA[2] 延续并推进了这一条逻辑链,试图回答更根本的问题:这些 pattern 为什么会出现?在完全相同的注意力公式下,为什么不同 head 会呈现清晰的对角线、反复聚焦,或看似随机的检索式扫描?TAPPA 的目标是给出统一解释,并把解释转化为实用的推理优化信号。


图 1:TAPPA 总览。左侧是理论视角,右侧展示用 q-similarity 指导 KV 缓存压缩与结构化剪枝的效果。

TAPPA:Q、K 和 RoPE 联合分析

TAPPA 采用时间视角审视自回归推理。自回归生成每一步的新 token 都建立在此前已生成序列之上,因此跨步的 hidden state 与注意力分布天然构成一段时间序列。为了把这种变化拆解到可分析的来源,TAPPA 从注意力计算的内积结构出发:


在第 t 步解码时,历史 key 基本固定,注意力分布的主要变化来源于 query 的演化。于是,理解 pattern 的第一步是把 query 序列作为时间序列来研究,并分析 query 的时间连续性如何映射到注意力分布的连续性。

进一步地,即便 query 的变化规律已知,注意力热力图呈现为哪一种几何形状还取决于两类结构性因素。其一是Q 与 K 的几何关系如何在跨步传播,尤其是 Q 与 K 各自的时间连续性是否能够在内积中被保留。其二是RoPE 如何在不同频率通道上对相对位移施加相位调制。已有研究发现,在注意力内积中,少数 embedding 通道可能占主导并决定注意力形状。因此我们提出了 TAPPA(时序注意力模式分析框架),将 Q,K 与 RoPE 联合分析,一方面解释 pattern 的跨步演化来自 query 的时间连续性,另一方面解释具体几何形态由主导通道与 RoPE 的通道响应共同塑造。

核心发现:稳定模式与随机模式的来源区别

基于上述分析视角,TAPPA 首先关注一个更基础的问题:哪些注意力头更可能产生稳定且可复现的几何结构,哪些注意力头更可能呈现难以预测的检索式分散结构。为此,TAPPA 把注意力模式归为稳定模式 (predictable) 与随机模式 (unpredictable) 两类。稳定模式在时间轴上具有更强的连续性,跨步变化呈现清晰规律。随机模式缺乏稳定规律,常表现为跨步跳跃的检索式扫描。

TAPPA 的关键结论是,稳定模式与随机模式的分界与 query 的时间连续性紧密相关。为刻画这种连续性,论文使用 q-similarity 指标,用于衡量相邻或近邻步骤中 query 的自相似程度。直观上看,高 q-similarity 表示 query 在时间轴上变化更平滑,注意力更容易沿时间保持稳定结构;而低 q-similarity 表示 query 变化更剧烈,注意力更可能转向分散且难预测的检索式形态。


图 2:TAPPA 用统一的形成条件解释多类稀疏注意力模式,并把 q-similarity 作为是否可预测的因素。


图 3:高与低 q-similarity 对应的注意力图示例。高相似性更容易形成稳定结构,低相似性更接近检索式分布。

稳定模式内部:Q、K 连续性与 RoPE 如何塑造几何形态

在稳定模式内,论文进一步给出三类代表性形状的形成条件,它们来自 Q、K 的连续性与 RoPE 的共同作用。以顺序访问为例,顺序对角线并非只依赖 RoPE 的高频通道,而需要 Q 与 K 同时具有较高自相似性,从而使注意力沿时间稳定地 “滑动”(如图 4)。


图 4:顺序型对角线与 Q、K 自相似性的关系示例。高 Q 相似性与高 K 相似性共同推动顺序模式形成。

周期性斜线的等间隔现象同样来自 Q、K 连续性与 RoPE 的耦合:RoPE 会对不同相对位移引入通道级的相位调制,使得 Q 与 K 的匹配在特定步长处出现相位回归,从而触发注意力峰值以固定间隔重复出现。当 Q、K 的连续性使有效能量集中到少数主导通道时,主导通道的旋转周期便决定了多条平行斜线之间的间隔,即:


举例如图 5 所示,首先,通过 Key 维度的幅值剖面可以观察到低频 RoPE 通道在该注意力头占主导(图 5 (a)),此时注意力主要集中在主对角线附近,表现为典型的顺序型模式(图 5 (b))。当主导通道被人为调整到更高频率(m = 2 或 m = 5)时,注意力不再局限于单一主对角线,而是出现周期性的平行对角线(图 5 (c)(d)),且频率越高 (m 越小),斜线周期越小。


图 5: RoPE 配置如何塑造注意力模式。(a) Key 维度的幅值剖面显示某一 RoPE 通道占主导(示例为 m = 124)。(b) 在该主导通道下,注意力矩阵呈现近似单一主对角线的顺序型模式。(c)(d) 将主导通道切换到更高频率(m = 2 与 m = 5)后,注意力矩阵中出现周期性的平行对角线结构,且周期与频率相关。

把理解转化为优化:q-similarity 指导压缩与剪枝

TAPPA 将 q-similarity 作为代理信号,应用到 KV Cache 压缩和模型结构化剪枝两个推理优化场景。


图 6 我们方法相比 Expected Attention 的准确率提升。


表 1:TAPPA 与 ShortGPT 在相同剪枝比例下的任务准确率比较。

[1] Yang, Qingyue, et al. Attentionpredictor: Temporal patterns matter for kv cache compression. The Thirty-ninth Annual Conference on Neural Information Processing Systems.

[2] Yang, Qingyue, et al. Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis. arXiv arXiv:2601.21709, 2026.

[3] Devoto et al. Expected Attention: KV Cache Compression by Estimating Attention from Future Queries Distribution. arXiv:2510.00636, 2025.

[4] Men et al. ShortGPT: Layers in Large Language Models are More Redundant Than You Expect. arXiv:2403.03853, 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,开盘大跌!

刚刚,开盘大跌!

新浪财经
2026-03-02 09:22:36
巴方总统警告中国!只要中国敢出手反制,巴拿马就动手,后果自负

巴方总统警告中国!只要中国敢出手反制,巴拿马就动手,后果自负

安珈使者啊
2026-03-02 16:58:54
突发!薛之谦被实名举报了

突发!薛之谦被实名举报了

李东阳朋友圈
2026-03-02 22:47:02
内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

财联社
2026-03-01 03:39:04
江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

灿烂夏天
2025-02-10 20:20:13
都被史记骗了!春秋战国打仗有50万大军,明清凑15万兵力都费劲?

都被史记骗了!春秋战国打仗有50万大军,明清凑15万兵力都费劲?

老达子
2026-03-02 06:40:03
老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

老挝放弃中国提案,效仿韩国抄袭三峡大坝技术,大坝溃决后中国持何态度?

史海孤雁
2026-01-30 16:20:15
春节过后,超市里卖不完的礼品都去哪儿了?超市员工说出真相

春节过后,超市里卖不完的礼品都去哪儿了?超市员工说出真相

妙招酷
2026-03-03 00:08:15
五角大楼终于说了大实话!不到24小时,赖清德喊话大陆,太罕见了

五角大楼终于说了大实话!不到24小时,赖清德喊话大陆,太罕见了

议纪史
2026-03-01 22:05:03
郭晶晶不漂亮,但是很奇怪的是,她不论和哪个明星同框都不落下风

郭晶晶不漂亮,但是很奇怪的是,她不论和哪个明星同框都不落下风

乡野小珥
2026-03-01 12:47:37
人每隔七年,就会变成另外一个人

人每隔七年,就会变成另外一个人

尚曦读史
2026-02-16 09:52:35
俄乌战争惊现三大逆转!2026年决战时刻已到,中国必须警惕!

俄乌战争惊现三大逆转!2026年决战时刻已到,中国必须警惕!

汉唐智库
2026-03-03 00:07:39
15.18万起!丰田官宣:新车首次降价

15.18万起!丰田官宣:新车首次降价

高科技爱好者
2026-03-02 23:12:48
弗里茨称德约阿卡有赛程特权遭西班牙记者回怼,美国名将愤怒回应

弗里茨称德约阿卡有赛程特权遭西班牙记者回怼,美国名将愤怒回应

网球之家
2026-03-01 23:27:09
34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

34岁文莱最帅王子当父亲了,两年前结婚,漂亮王妃和他门当户对

小书生吃瓜
2026-02-15 22:41:52
以色列TA-35股指上涨超过3%

以色列TA-35股指上涨超过3%

每日经济新闻
2026-03-02 16:28:04
汪小菲责怪母亲发他和孩子的视频,网友评价:不要继承麻六记

汪小菲责怪母亲发他和孩子的视频,网友评价:不要继承麻六记

萱小蕾o
2026-03-02 13:31:09
伊朗前总统内贾德的死亡消息被其家属否认

伊朗前总统内贾德的死亡消息被其家属否认

财联社
2026-03-02 13:25:39
英法德:准备“从源头摧毁”伊朗军事能力

英法德:准备“从源头摧毁”伊朗军事能力

参考消息
2026-03-02 13:10:34
内存价格创下历史记录 手机涨价潮最快一周内“杀到”

内存价格创下历史记录 手机涨价潮最快一周内“杀到”

第一财经资讯
2026-03-02 10:50:48
2026-03-03 00:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2318514文章数 5644关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

数码
房产
旅游
艺术
时尚

数码要闻

高通MWC 2026发布多项通信技术,定档2029年开启6G商用

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

旅游要闻

热度飙升!非遗、冰雪…禹州元宵“文旅大餐”承包圆满佳节!

艺术要闻

这四位老人的花鸟画,竟让人欲罢不能!

今年春天一定要拥有的4件衣服,太好看了!

无障碍浏览 进入关怀版