网易首页 > 网易号 > 正文 申请入驻

ICML 2025|注意力机制中极大值:破解大语言模型上下文理解的关键

0
分享至


大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。

近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。

本研究由罗格斯大学张永锋教授的团队完成,一作为金明宇,罗格斯大学博士生,在 ACL、ICML、AAAI、NAACL、COLM、ICLR、EMNLP、COLING 等顶级会议上发表过论文。

  • 论文标题:Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
  • arXiv 链接:https://arxiv.org/pdf/2502.01563
  • 代码链接:https://github.com/MingyuJ666/Rope_with_LLM

研究亮点

极大值如何影响模型性能

当我们谈论大型语言模型的理解能力时,通常将其知识分为两类:参数知识(存储在模型权重中的事实和信息)和上下文知识(从当前输入文本中获取的信息)。本研究通过一系列精心设计的实验,揭示了自注意力模块中极大值的存在与上下文知识理解之间的关键联系。

四大核心发现

1. 极大值在 Q 和 K 中高度集中分布

研究发现,这些极大值在每个注意力头的特定区域高度集中。这一现象非常反常识,因为 LLM 内部每个注意力头的运算理论上应该是独立的,但这些极大值的分布却显示出惊人的一致性。研究团队通过可视化方法清晰地展示了这一分布特征,横跨多个层和头,这种规律性模式与传统认知形成鲜明对比。

更引人注目的是,这一极大值现象仅存在于使用 RoPE(旋转位置编码)的模型中,如 LLaMA、Qwen 和 Gemma 等主流模型。而在未使用 RoPE 的模型(如 GPT-2 和 OPT)中不存在这种模式。这一发现将极大值现象直接与位置编码机制建立了联系。

2. Q 和 K 中的极大值对理解上下文知识至关重要

通过设计「破坏性实验」,研究团队将极大值重置为平均值,观察模型性能变化。结果表明,这些极大值主要影响模型处理当前上下文窗口中的信息的能力,而非影响从参数中提取的知识。在需要上下文理解的任务上,破坏极大值会导致性能的灾难性下降。

例如,在「大海捞针」类型的任务中,模型需要从大量文本中检索特定信息。当极大值被破坏时,模型在此类任务上的表现几乎完全崩溃。这直接说明了极大值对上下文理解的关键作用。

相比之下,对于只需要参数知识的任务(如「中国首都是哪里」),破坏极大值对性能影响有限。这种对比鲜明的结果表明,极大值特别与上下文信息处理相关,而非参数知识检索。

3. 特定量化技术能更好地保存上下文知识理解能力

随着大型语言模型的普及,量化技术成为降低计算和存储需求的关键手段。然而,不同的量化方法对模型性能的影响各异。研究发现,专门处理极大值的量化方法(如 AWQ 和 SmoothQuant)能有效维持模型的上下文理解能力,而未特别处理极大值的方法则会导致性能明显下降(GMS8K 和 AQUA 数据集)。

这一发现为量化技术的设计和选择提供了重要指导,特别是对保留模型的上下文理解能力至关重要的应用场景。设计新的量化方法时应重点考虑保护 Q 和 K 中的大值,对于优先保持上下文理解能力的应用场景,AWQ 和 SmoothQuant 等方法更为合适。

4. 极大值集中现象由 RoPE 引起,并在早期层就已出现

研究通过深入分析发现,RoPE 位置编码使 Q 和 K 中的低频区域受位置信息影响较小,从而导致极大值集中现象。这种现象从模型的最初层就开始显现,并随着层数增加而变得更加明显。

由于 RoPE 只作用于 QK,而不作用于 V,这也解释了为什么只有 QK 存在极大值集中现象。这一发现不仅解释了极大值的来源,也揭示了 RoPE 在大型语言模型中的工作机制。并且我们检查了有 rope 的模型和没有 rope 的模型,结果如图所示,llama,qwen 都有集中的极大值;相反 gpt-2,jamba,opt 就没有。

实验结果

极大值对不同知识任务的差异化影响

研究团队设计了一系列实验,系统评估极大值对不同类型知识任务的影响。结果显示出明显的差异化效应:

A. 参数知识检索任务的韧性

当大值被破坏时:

  1. 城市类任务仍然保持 76%-88% 的准确率,仅下降 15-20%
  2. 体育、艺术和技术类别任务保持在 65%-75% 的表现
  3. 名人类别表现尤其稳定,各模型均保持 70% 以上的准确率

这些结果表明,参数知识检索主要依赖于模型权重中存储的知识,受极大值破坏的影响相对较小。

B. 上下文知识理解任务的灾难性下降

相比之下,依赖上下文理解的任务在极大值被破坏后表现灾难性下降:

1. 数学推理任务出现严重退化

  • GSM8K: 从 81.30% 降至 15.10%
  • Llama3-8B: 从 76.90% 降至 4.00%
  • Qwen2.5-7B: 从 86.60% 降至 16.10%

2. 密钥检索任务 (Passkey Retrieval) 准确率从 100% 直接崩溃至接近 0%

3. IMDB 情感分析从 94% 以上下降至个位数

这些对比鲜明的结果强有力地证明了极大值在上下文知识理解中的关键作用。

C. 非大值破坏的对照实验

为验证研究发现的可靠性,研究团队还设计了对照实验:当仅破坏非极大值部分时,所有任务的表现保持稳定,变化通常小于 ±1%。这进一步确认了极大值在上下文知识理解中的特殊重要性。

研究意义与影响

这项研究首次揭示了大型语言模型内部自注意力机制中极大值的存在及其功能,为理解模型如何处理上下文信息提供了新视角。研究结果对 LLM 的设计、优化和量化都具有重要启示:

  1. 模型设计方面:突显了位置编码机制(尤其是 RoPE)对模型理解上下文能力的影响,为未来模型架构设计提供了新思路。
  2. 模型优化方面:识别出极大值是上下文理解的关键组件,为针对性地提升模型上下文理解能力提供了可能路径。
  3. 模型量化方面:强调了保护极大值在模型压缩过程中的重要性,为开发更高效的量化方法提供了方向。

未来方向

该研究打开了多个值得进一步探索的方向:

  1. 探索是否可以通过特殊设计增强或调整极大值分布,从而提升模型的上下文理解能力。
  2. 研究极大值现象在不同架构、不同规模模型中的普遍性和特异性。
  3. 设计更有针对性的量化方法,专门保护与上下文理解相关的极大值。
  4. 探索极大值与模型其他特性(如对抗稳健性、推理能力等)之间的潜在联系。

这项研究不仅加深了我们对大型语言模型内部工作机制的理解,也为未来更高效、更强大的模型开发铺平了道路。通过揭示极大值的关键作用,研究者们为我们提供了解锁大语言模型上下文理解能力的一把新钥匙。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗伊斯兰革命卫队:针对美以的行动将在更深层次和更广维度展开

伊朗伊斯兰革命卫队:针对美以的行动将在更深层次和更广维度展开

环球网资讯
2026-03-04 03:18:42
科学城豪宅降价,50多位买家果断出手

科学城豪宅降价,50多位买家果断出手

地产K线官方
2026-03-03 16:21:11
96年,清华女硕士执意远嫁非洲,生下5个混血孩子,如今怎样了?

96年,清华女硕士执意远嫁非洲,生下5个混血孩子,如今怎样了?

起喜电影
2026-02-22 13:22:34
又挂了!伊朗防长和革命卫队总司令双遭斩首,指挥系统濒临瘫痪

又挂了!伊朗防长和革命卫队总司令双遭斩首,指挥系统濒临瘫痪

老马拉车莫少装
2026-03-01 00:01:08
舒淇米兰街头随性出街 简约穿搭气质绝了

舒淇米兰街头随性出街 简约穿搭气质绝了

述家娱记
2026-03-03 11:52:24
身处迪拜的中国公民称:迪拜机场航站楼被砸了个直径七八米大洞

身处迪拜的中国公民称:迪拜机场航站楼被砸了个直径七八米大洞

半岛晨报
2026-03-03 14:47:56
专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

蜉蝣说
2025-10-31 10:56:39
伊朗反抗阵营今何在?大部分“抵抗之弧”成员已参战:也门胡塞武装率先支援,黎巴嫩真主党高精度火箭弹还击,伊拉克武装袭击28次

伊朗反抗阵营今何在?大部分“抵抗之弧”成员已参战:也门胡塞武装率先支援,黎巴嫩真主党高精度火箭弹还击,伊拉克武装袭击28次

极目新闻
2026-03-03 11:51:45
仅陈玉珍一人登记,国民党金门县长初选上演“一个人的武林”

仅陈玉珍一人登记,国民党金门县长初选上演“一个人的武林”

海峡导报社
2026-03-03 15:06:18
新车 | 售141.20万元起/全系增方向盘加热,2026款路虎揽胜上市

新车 | 售141.20万元起/全系增方向盘加热,2026款路虎揽胜上市

小怪吃美食
2026-03-03 19:21:36
3月1日起全国执行!这些费用全取消,家家都能省!

3月1日起全国执行!这些费用全取消,家家都能省!

达文西看世界
2026-03-02 15:40:41
中伊通话后,内塔尼亚胡与特朗普发生严重分歧,最大赢家已经确定

中伊通话后,内塔尼亚胡与特朗普发生严重分歧,最大赢家已经确定

观星赏月
2026-03-04 05:25:23
飞天茅台电商价重回1499元

飞天茅台电商价重回1499元

大象新闻
2026-03-03 15:55:06
伊朗外长这番话,可能暗示一个大问题

伊朗外长这番话,可能暗示一个大问题

观察者网
2026-03-02 19:11:48
谢娜喊话薛之谦公开道歉,律师解读:若言论被公众“对号入座”可能需要道歉

谢娜喊话薛之谦公开道歉,律师解读:若言论被公众“对号入座”可能需要道歉

扬子晚报
2026-03-03 12:17:52
“三桶油”再度全线涨停 中国石化创近18年新高

“三桶油”再度全线涨停 中国石化创近18年新高

财联社
2026-03-03 11:31:25
没想到这么快,几个小时就举了白旗,弹尽粮绝,不投降就没命了!

没想到这么快,几个小时就举了白旗,弹尽粮绝,不投降就没命了!

科普100克克
2025-10-05 15:24:42
贾浅浅《开花》被获得全国诗歌一等奖的诗,写出了女性的原始欲

贾浅浅《开花》被获得全国诗歌一等奖的诗,写出了女性的原始欲

读睡
2026-02-20 16:29:43
联合国预测:中国人口可能会迅速萎缩,或将成全球面对的最大挑战

联合国预测:中国人口可能会迅速萎缩,或将成全球面对的最大挑战

蓝色海边
2026-03-03 13:15:47
一个美国人在网上发帖:为什么中国人觉得美国才是他们的家呢

一个美国人在网上发帖:为什么中国人觉得美国才是他们的家呢

贱议你读史
2026-02-23 00:35:40
2026-03-04 06:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12403文章数 142578关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

时尚
教育
亲子
艺术
军事航空

今年流行的“新老钱风”,优雅又时髦,太适合春天了!

教育要闻

华南师范大学自考揭秘!3大热门专业助你轻松上岸

亲子要闻

中国医生登神刊CA,揭示全球儿童癌症负担状况

艺术要闻

明朝皇帝怎么过元宵

军事要闻

伊朗:击中美空军基地大楼

无障碍浏览 进入关怀版