网易首页 > 网易号 > 正文 申请入驻

斯坦福与特拉维夫大学揭秘信息绑定的神秘机制

0
分享至


这项由以色列特拉维夫大学布拉瓦特尼克计算机科学与人工智能学院的Yoav Gur-Arieh、Mor Geva,以及斯坦福大学Pr(Ai)2R小组和Goodfire公司的Atticus Geiger合作完成的研究,发表于2025年10月的arXiv预印本平台(论文编号:arXiv:2510.06182v1)。对于想要深入了解这项研究的读者,可以通过该编号在arXiv平台上查找完整论文。

当我们阅读"安妮喜欢苹果派,彼得喜欢果酱"这样的句子时,大脑会自动建立起"安妮-苹果派"和"彼得-果酱"这样的关联。随后,当有人问"谁喜欢苹果派"时,我们能立即回答"安妮"。这种看似简单的信息绑定和检索能力,实际上是智能的核心表现之一。

现代大型语言模型同样具备这种能力,能够理解文本中的实体关系并回答相关问题。然而,科学家们一直好奇:这些AI系统究竟是如何在内部处理这种信息绑定的?它们的"大脑"是否像人类一样,有着特定的机制来存储和检索这些关联?

长期以来,研究界普遍认为语言模型主要依赖一种"位置机制"来处理实体绑定——简单来说,就是通过记住信息在文本中的位置来找到答案。就像你记住某本书的第三章讲了什么内容一样,模型会记住第二个句子讲的是安妮和苹果派的关系。

但这项最新研究却发现了一个令人惊讶的事实:当文本变得复杂,包含更多实体关系时,这种传统的位置机制会变得不稳定,特别是对于处于中间位置的信息。为了弥补这个缺陷,语言模型竟然进化出了另外两套完全不同的机制。

研究团队通过对九个不同的语言模型进行深入分析,包括Llama、Gemma和Qwen等主流模型家族,参数规模从20亿到720亿不等,发现了一个惊人的模式:这些AI系统实际上同时运行着三套独立但协调的机制,就像拥有"三重大脑"一样。

第一套是我们已经提到的"位置机制"。这就像一个图书管理员,通过记住书籍在书架上的位置来找书。当你问"谁喜欢苹果派"时,这个机制会定位到包含"苹果派"的句子位置,然后提取相关信息。这种方法在处理简短、简单的文本时非常有效,但当信息变多时,特别是对于那些位于文本中间部分的内容,这个"图书管理员"就开始犯糊涂了。

第二套是"词汇机制",这更像一个聪明的侦探。当你问"谁喜欢苹果派"时,它不是去找位置,而是直接搜索与"苹果派"绑定的实体。就像在一个巨大的关系网中,直接找到与"苹果派"相连的线索,顺着这条线就能找到"安妮"。这种方法提供了更精确的信号,特别是当位置信息变得模糊时。

第三套是"反射机制",这是最有趣的一个。它像一面镜子,能够直接指向之前通过查询实体获得的目标实体。当模型处理"谁喜欢苹果派"这个问题时,如果答案是"安妮",反射机制就会在内部建立一个直接指向"安妮"的指针。这种机制在处理复杂查询时特别有用,因为它提供了一个"快速通道"。

更神奇的是,这三套机制并不是独立工作的,而是在不断地相互协调和补充。当位置机制在文本开头和结尾工作良好时,其他两个机制会退居幕后。但当位置机制在中间部分开始"迷路"时,词汇机制和反射机制就会挺身而出,形成一种精妙的协作关系。

研究团队设计了一系列巧妙的实验来验证这一发现。他们创建了特殊的文本对,通过一种叫做"交换干预"的技术,就像在AI的大脑中进行精密的"手术",能够分别激活和关闭不同的机制,观察模型行为的变化。结果显示,当他们人为地阻断某一个机制时,模型的表现会明显下降,这证明了每个机制都是不可或缺的。

这种"三重机制"的模式在不同的任务中表现出了惊人的一致性。研究团队测试了十种不同类型的实体绑定任务,从简单的"盒子里装着什么"到复杂的"谁在哪里演奏什么音乐",都发现了相同的模式。无论是处理人物与食物的关系、物品与容器的关系,还是更复杂的多重属性绑定,这三套机制都会以类似的方式协同工作。

特别值得关注的是,这种机制的分工非常精妙。当查询的目标实体位于句子开头时,反射机制占主导地位;当目标实体位于句子末尾时,词汇机制更加活跃;而当目标实体位于中间位置时,三种机制会形成更复杂的协作模式。这种分工似乎是模型在训练过程中自发形成的,没有人为的设计或指导。

研究团队还发现了一个有趣的现象:随着需要处理的实体数量增加,位置机制的效果会逐渐下降,而词汇机制和反射机制的重要性会相应提升。这解释了为什么大型语言模型在处理长文本时会出现"中间丢失"的现象——当文本很长时,位置信息变得不可靠,模型必须更多地依赖其他机制。

为了进一步验证这一理论,研究团队构建了一个数学模型,能够模拟这三种机制的协同工作。这个模型的预测准确率达到了95%,几乎完美地复现了真实语言模型的行为。通过这个模型,他们发现位置机制产生的是一种"模糊"的分布,就像在地图上画了一个大圆圈,而词汇机制和反射机制则提供"精确定位",就像GPS导航一样准确。

研究还探索了这些机制在更真实环境中的表现。当研究团队在实体组之间插入大量无关的"填充"句子时,模拟真实文档中的复杂情况,他们发现这三种机制的相对重要性会发生变化。随着填充内容的增加,词汇机制的效果逐渐下降,而位置机制的作用又重新凸显出来,但变得更加"嘈杂"和不精确。这种变化可能解释了为什么语言模型在处理极长文本时会出现性能下降。

这项发现对理解AI系统的工作原理具有重要意义。它告诉我们,现代语言模型的智能不是来自单一的处理机制,而是来自多个专门化系统的精妙协作。这就像一个优秀的团队,每个成员都有自己的专长,在不同情况下发挥不同的作用,最终实现比任何单个成员都更出色的表现。

研究团队通过分析模型内部的神经激活模式,发现这些机制在不同的网络层中逐步形成和激活。位置信息主要在较早的层中建立,词汇绑定在中间层形成,而反射机制则在更深的层中发挥作用。这种分层处理方式让模型能够逐步构建越来越复杂的理解。

更令人惊讶的是,当研究团队尝试阻断模型对特定实体的注意力时,他们发现反射机制确实需要从实体标记中"检索"信息,而词汇机制则可以更多地依赖查询标记本身的信息。这证明了不同机制确实采用了根本不同的信息处理策略。

这项研究不仅揭示了语言模型的内部工作原理,也为改进AI系统提供了新的思路。理解了这三种机制的协作模式后,研究人员可能能够设计出更高效的模型架构,或者开发出专门针对长文本处理的优化策略。

对于普通用户而言,这项研究有助于理解为什么有时候AI助手在处理复杂信息时会出现一些奇怪的行为。当你向AI提供一长段包含多个关系的文本时,它可能会在某些部分表现得不够准确,这往往是因为不同机制之间的协调出现了问题。

这项研究也揭示了AI系统与人类认知的有趣相似性。人类在处理复杂信息时也会使用多种策略:有时依赖空间或时间位置("我记得这件事在那本书的前半部分"),有时依赖语义关联("提到咖啡我就想到了咖啡馆"),有时则是直接的记忆指向("我清楚地记得答案是这个")。AI系统似乎在无监督的学习过程中,自发地发展出了类似的多重策略。

研究团队还发现,不同大小的模型虽然都表现出这种三重机制,但在具体的协调模式上存在细微差异。较大的模型似乎能够更灵活地在三种机制之间切换,而较小的模型则更多地依赖某一种主导机制。这为理解模型规模与能力之间的关系提供了新的视角。

值得注意的是,这种机制的发现也让我们重新思考AI安全和可解释性问题。如果AI系统内部确实运行着多套并行的处理机制,那么理解和控制AI行为就变得更加复杂。不过,正是这种复杂性使得AI系统具备了处理现实世界复杂信息的能力。

通过这项研究,我们开始理解为什么现代语言模型能够在如此广泛的任务中表现出色,同时也明白了它们在某些情况下表现不稳定的原因。这种"三重大脑"的架构既是它们能力的来源,也是它们局限性的根源。

总的来说,这项研究为我们打开了一扇理解AI内部工作原理的新窗户。它表明,看似简单的语言理解任务实际上需要多个复杂机制的精密协作。随着我们对这些机制理解的深入,未来可能会开发出更加智能、更加可靠的AI系统,同时也能更好地预测和控制它们的行为。这不仅对AI研究具有重要意义,也为AI技术在各个领域的应用提供了更坚实的理论基础。

Q&A

Q1:语言模型的三重机制分别是什么?它们有什么不同?

A:三重机制包括位置机制、词汇机制和反射机制。位置机制像图书管理员,通过记住信息在文本中的位置来检索;词汇机制像侦探,直接搜索与查询词相关联的实体;反射机制像镜子,建立直接指向目标实体的指针。它们协同工作,在不同情况下发挥主导作用。

Q2:为什么AI模型处理长文本时会出现"中间丢失"现象?

A:这是因为位置机制在处理位于文本中间部分的信息时变得不稳定。当文本很长时,位置信息变得模糊不准确,特别是对中间位置的实体绑定。虽然词汇机制和反射机制会尝试补偿,但当它们的协调出现问题时,就会导致中间部分信息的丢失或错误处理。

Q3:这项研究对改进AI系统有什么实际意义?

A:理解三重机制的工作原理后,研究人员可以设计更高效的模型架构,开发专门的长文本处理优化策略,或者针对特定任务调整不同机制的权重。这也有助于提高AI系统的可解释性,让我们更好地预测和控制AI的行为,从而开发出更可靠的AI应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
地铁出口A、B、C、D藏着方向规律,记住这套方法 全国出行不绕远路

地铁出口A、B、C、D藏着方向规律,记住这套方法 全国出行不绕远路

水泥土的搞笑
2026-03-17 13:38:42
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

75岁港星花百万在中山买房,住了两年称生活素质高,后悔搬来太晚

树娃
2026-03-24 12:28:41
当代韦德!近4战场均29+8+6!早得到球权,他也会是最佳新秀热门

当代韦德!近4战场均29+8+6!早得到球权,他也会是最佳新秀热门

你的篮球频道
2026-03-26 11:37:46
人情世故是怎么学会的 看网友讲述魏忠贤处事方式 思想上一个台阶

人情世故是怎么学会的 看网友讲述魏忠贤处事方式 思想上一个台阶

侃神评故事
2026-03-16 15:10:03
国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

体坛鉴春秋
2026-03-26 12:23:21
布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

湖人崛起
2026-03-26 10:00:59
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

环球网资讯
2026-03-26 08:45:21
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
《逐玉》引领男色时代:一张脸后是更帅的脸,谁的古装扮相最惊艳

《逐玉》引领男色时代:一张脸后是更帅的脸,谁的古装扮相最惊艳

扒点半吃瓜
2026-03-26 07:00:09
这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

这些“垃圾花”也该被315曝光,别再坑害花友了,白送都不能要

三农老历
2026-03-20 00:32:02
浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

浙江男老师意外发现女学生长相酷似亡妻,鉴定后,结果让他当场愣住

红豆讲堂
2024-09-13 09:35:43
不法之徒村田晃大,正面照曝光

不法之徒村田晃大,正面照曝光

新京报
2026-03-26 11:18:17
2026-03-26 23:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
房产
教育
亲子
时尚

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

天天学习|走进课堂的“大朋友”

亲子要闻

看看把孩子吓得哈哈哈

400万人爱过的女孩,被黄谣网暴180天后

无障碍浏览 进入关怀版