网易首页 > 网易号 > 正文 申请入驻

自注意力机制的“思维切换”:从位置记忆到语义理解的相变

0
分享至


摘要

众多实证研究已经发现,随着训练规模和数据量的增加,大语言模型中会自发涌现出不同的算法机制,从而显著提升模型的能力。然而,目前缺乏对这些机制如何产生的理论性刻画。本文在可解的点积注意力(dot-product attention)模型中,通过对具有可训练、低秩查询(query)与键(key)矩阵的非线性交互层进行严格的高维分析,给出了经验风险最小化(empirical risk minimization)非凸损失全局最优解的闭式特征化。研究表明,该最优解对应于两种截然不同的注意力机制:一种是“基于位置”的注意力(positional attention),即标记(token)根据其在序列中的位置相互作用;另一种是“基于语义”的注意力(semantic attention),即标记根据其语义内容相互作用。更重要的是,随着样本复杂度(sample complexity)的提升,模型会在这两种机制之间发生清晰的相变(phase transition)。最后,我们将点积注意力与只能实现位置机制的线性位置基线模型进行比较,验证在数据量充足时点积注意力凭借语义机制能够显著优于线性基线。

如果你对这一主题感兴趣,这周会带我们从神经科学的视角理解大模型的认知机制,欢迎你来参与!

关键词:点积注意力(dot-product attention),位置注意(positional attention),语义注意(semantic attention),样本复杂度(sample complexity),高维极限(high-dimensional limit),相变(phase transition)

彭晨丨作者

赵思怡丨审校


论文题目:A phase transition between positional and semantic learning in a solvable model of dot-product attention 论文链接:https://arxiv.org/abs/2402.03902 发表时间:2024年10月 论文来源:NeurIPS 2024

近年来,自注意力(self-attention)层成为从文本数据中抽取信息的核心结构,既能捕捉单词顺序暗含的位置信息,同时也能借助词嵌入理解单词语义。大量实验揭示,训练过程和数据量会决定注意力层究竟采用何种算法机制,但缺乏理论依据。受物理学中“相变”理论启发,本文构建了一个可解析、只含单层点积注意力的师生模型,并在高维极限下通过精确计算证明,模型会在“位置”与“语义”两种注意力机制之间发生清晰的相变,为神经网络中算法机制的涌现提供了首个严格理论刻画。

注意力层会发生涌现吗?

注意力层最早被提出用于并行处理序列数据,其核心思想是为序列中每对标记计算相似度得分,进而加权融合信息。在实践中,研究者通过对训练好的大规模语言模型进行机理可解释性(mechanistic interpretability)分析,发现注意力层能够实现多种算法——有时侧重于位置编码(positional attention),有时依赖于词向量之间的语义相似度(semantic attention)。这些机制的具体形成不仅与网络结构和训练算法相关,还与可获得的数据量密切挂钩。然而,就像物理学家在研究铁磁材料时提出的相变(phase transition)概念一样,人们尚不清楚在注意力层中,随着样本规模增长,那些定量指标会否出现突变,从而使得模型在位置与语义机制之间发生切换。本文正是在这样的背景下,借鉴统计物理中处理大规模粒子系统的方法,为注意力层的机制涌现提供理论支撑。

模型构建:可解的低秩点积注意力范式

为获得可解析的理论结果,研究者设计了一个简化的自注意力模型,仅包含一层点积注意力(dot-product attention),并对查询与键使用同一可训练矩阵,即共享权重(tied weights),且限制为低秩结构。基于理论机器学习常用的师生框架,“教师”注意力矩阵由内置的“位置机制”(positional component)和“语义机制”(semantic component)叠加而成,这保证了数据既包含清晰的位置依赖,也包含深层的语义关联。而“学生”模型在师生框架下,通过经验风险最小化在高维极限求解, 从带有位置编码(positional encodings)的输入中学习一种线性映射,从而逼近教师的混合注意力矩阵。该映射在数学上对应于最小化带 ℓ₂ 正则化的均方误差损失。


图 1. 注意力简化模型中的相变。(A)我们在师生环境中研究了一个关联的低秩注意模型。教师根据语义(作为标记内容x的函数)和位置(作为标记位置的函数)注意力矩阵,混合d维的L个单独令牌。学生只能使用位置编码p来拟合老师的位置属性。(B)教师损失景观的示意图,其中包含位置最小值和语义最小值。(C)我们发现,在渐近高维极限下,作为样本复杂性和教师组成的函数,全局最小值切换,构成了位置学习和语义学习之间的相变。

高维极限下的闭式特征化

在输入维度 d 与样本数量 n 同比增大、样本复杂度 α = n/d 保持常数的高维极限中,研究者运用广义近似消息传递(Generalized Approximate Message Passing, GAMP)算法的状态演化理论,以及对应的自洽方程,给出了训练损失与测试误差在最优解处的闭式表达。

GAMP:一种对高维贝叶斯估计或经验风险最小化问题能达到信息论最优的迭代方法

核心思想是,将高维的非凸优化问题“压缩”为若干维度固定的统计量求解,通过解这套自洽方程,即可直接判断全局最优解对应的位置/语义机制,并准确计算常数级误差值。该理论不仅展现出与有限维实验结果的高度一致性,还能预测不同样本复杂度下最优解的定性变化。

位置—语义表征相变

基于闭式特征化,研究者进一步考察了随样本复杂度 α 增长而发生的全局最优解切换现象。在“语义权重”较低的任务中,当 α 小于临界值 αc 时,全局最优解对应的学生模型只利用位置编码实现注意力;但一旦 α 超过 αc ,学生模型便会忽略位置编码,转而通过学习查询和键矩阵与教师语义权重的重叠,实现基于语义的注意力。这一现象与物理学中亚临界与超临界相变高度类比,体现了注意力层在算法机制层面上的“突变式”行为。

为了凸显语义机制的重要性,研究者将点积注意力模型与只能实现位置混合的全连接线性基线模型做了对比。结果显示,在样本复杂度低于 αl时,纯位置基线反而略优于点积注意力;但在 α > αl 区间,点积注意力凭借其学习到的语义机制,测试误差显著低于线性基线。这进一步说明,当数据量充足时,只有具备捕捉输入向量内在语义结构能力的注意力架构,才能发挥其优势。


图 2. 语义和位置训练损失之间的相变。(左)对于α = 1.5,同时缩放 d 和 n 时,θ 和 m 在不同位置分别收敛于位置局部极小值和语义局部极小值。(中)颜色图表示使用 Pytorch 实现的全批量梯度下降训练模型时,在 p1 或 Q⋆ 处初始化分别收敛时训练损失的差异。绿色虚线表示理论预测的阈值 αc(ω),超过该阈值时,语义解的损失低于位置解的损失。(右)颜色图表示使用 Pytorch 实现的全批量梯度下降训练注意力模型(13)时,在 Q⋆ 处初始化和密集线性基线在收敛时测试均方误差的差异。红色虚线表示理论预测的阈值样本复杂度αl(ω),超过该阈值时,点积注意力优于基线。

结论与展望

本文首次从严格的高维概率角度,为点积注意力层中位置与语义算法机制的涌现提供了闭式理论刻画,并揭示了两者之间的相变现象。这一发现不仅加深了我们对注意力机制本质的理解,也为设计和调优具有更好泛化能力的自注意力模型提供了新思路。

后续研究可在以下方向拓展:引入多头(multi-head)与跨注意力(cross-attention)结构;将模型应用于更贴近实际的非高斯、长序列场景;以及分析随机初始化和梯度下降算法在此损失景观中的轨迹与收敛性,以期全面理解从“随机猜测”到“全局最优”的动态过程。

大模型可解释性读书会

集智俱乐部联合上海交通大学副教授张拳石、阿里云大模型可解释性团队负责人沈旭、彩云科技首席科学家肖达、北京师范大学硕士生杨明哲和浙江大学博士生姚云志共同发起。本读书会旨在突破大模型“黑箱”困境,尝试从以下四个视角梳理大语言模型可解释性的科学方法论:

自下而上:Transformer circuit 为什么有效?

自上而下:神经网络的精细决策逻辑和性能根因是否可以被严谨、清晰地解释清楚?

复杂科学:渗流相变、涌现、自组织等复杂科学理论如何理解大模型的推理与学习能力?

系统工程:如何拥抱不确定性,在具体的业界实践中创造价值?

五位发起人老师会带领大家研读领域前沿论文,现诚邀对此话题感兴趣的朋友,一起共创、共建、共享「大模型可解释性」主题社区,通过互相的交流与碰撞,促进我们更深入的理解以上问题。无论您是致力于突破AI可解释性理论瓶颈的研究者,探索复杂系统与智能本质的交叉学科探索者,还是追求模型安全可信的工程实践者,诚邀您共同参与这场揭开大模型“黑箱”的思想盛宴。

读书会已于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享8-10周左右。

详情请见:

1.

2.

3.

4.

5.

6.

7.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西贝老板这么笨,是如何成为亿万富豪的?说白了就是胆大、运气好

西贝老板这么笨,是如何成为亿万富豪的?说白了就是胆大、运气好

水晶的视界
2025-09-18 20:55:18
石平太郎用汉语讲话:现在网上都在骂我是汉奸卖国贼,我无所谓

石平太郎用汉语讲话:现在网上都在骂我是汉奸卖国贼,我无所谓

另子维爱读史
2025-09-19 23:20:00
被央媒批评、脑袋空空、洋相百出,这5位“绝望的文盲”凭啥走红

被央媒批评、脑袋空空、洋相百出,这5位“绝望的文盲”凭啥走红

TVB的四小花
2025-09-19 05:37:43
“嘎子”谢孟伟快手账号被封,电影出品人:不再让他出演,已拍戏份换人重拍;曾有人穿假警服行骗被判刑

“嘎子”谢孟伟快手账号被封,电影出品人:不再让他出演,已拍戏份换人重拍;曾有人穿假警服行骗被判刑

极目新闻
2025-09-18 16:25:51
女优望乃留衣闪亮出道!童颜丰满身材每周2次

女优望乃留衣闪亮出道!童颜丰满身材每周2次

葫芦哥爱吐槽
2025-09-20 02:59:45
习近平同美国总统特朗普通电话

习近平同美国总统特朗普通电话

新华社
2025-09-19 22:52:09
万没想到!西贝“预制菜”风波后,这6道菜火了,因为预制不了

万没想到!西贝“预制菜”风波后,这6道菜火了,因为预制不了

神牛
2025-09-19 12:55:21
古代银票就一张纸,为何没人造假?你看看上面那行字,怎么造假?

古代银票就一张纸,为何没人造假?你看看上面那行字,怎么造假?

法老不说教
2025-09-19 21:24:02
拉夫罗夫:俄愿意有条件妥协

拉夫罗夫:俄愿意有条件妥协

参考消息
2025-09-19 17:40:05
年薪1000万!29岁维尔纳赛季至今0出场,巅峰身价8000万现剩700万

年薪1000万!29岁维尔纳赛季至今0出场,巅峰身价8000万现剩700万

直播吧
2025-09-19 17:41:04
已确认:全部关闭!退出中国市场

已确认:全部关闭!退出中国市场

中吴网
2025-09-16 22:31:40
F4巡回演唱会暂停,台媒:因朱孝天无法掌控

F4巡回演唱会暂停,台媒:因朱孝天无法掌控

极目新闻
2025-09-18 12:21:50
汗从哪出,病就从哪来!5 个部位出汗,对应不同脏腑问题,调理方法收好

汗从哪出,病就从哪来!5 个部位出汗,对应不同脏腑问题,调理方法收好

神奇故事
2025-09-18 22:59:06
切尔西7000万打水漂!曝穆德里克改练短跑 目标参加奥运会

切尔西7000万打水漂!曝穆德里克改练短跑 目标参加奥运会

球事百科吖
2025-09-20 04:23:21
媒体人:王治郅身份特殊无法全职进入国家队教练组,但每次都有召必到

媒体人:王治郅身份特殊无法全职进入国家队教练组,但每次都有召必到

懂球帝
2025-09-19 09:11:06
北京大学副校长明明是副厅级,何时成了中管干部?原来真的搞错了

北京大学副校长明明是副厅级,何时成了中管干部?原来真的搞错了

鬼菜生活
2025-09-19 10:41:20
欧冠1场1-5惨败,让土超冠军现形!怪不得能赢穆帅,本菲卡捡到宝

欧冠1场1-5惨败,让土超冠军现形!怪不得能赢穆帅,本菲卡捡到宝

球场没跑道
2025-09-19 10:25:40
2亿中场双核驱动!巴萨这组合真是欧洲技术流的天花板!

2亿中场双核驱动!巴萨这组合真是欧洲技术流的天花板!

田先生篮球
2025-09-19 15:32:09
世锦赛女子标枪:苏玲丹62米18晋级,卫冕冠军爆冷止步资格赛

世锦赛女子标枪:苏玲丹62米18晋级,卫冕冠军爆冷止步资格赛

全景体育V
2025-09-19 21:06:15
确定六人参选!国民党主席选举登记截止,明起审核资格

确定六人参选!国民党主席选举登记截止,明起审核资格

海峡导报社
2025-09-19 17:33:03
2025-09-20 08:31:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5361文章数 4651关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

韩国前第一夫人穿拘留所病号服坐轮椅就医 戴电子脚镣

头条要闻

韩国前第一夫人穿拘留所病号服坐轮椅就医 戴电子脚镣

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

旅游
数码
本地
艺术
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

数码要闻

750万小米空调升级10年免费包修:为用户节省15亿元

本地新闻

大学生军训哪家强,广西申请“出战”!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版