网易首页 > 网易号 > 正文 申请入驻

AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

0
分享至

人类拥有一种强大的能力,能够理解多个实体之间复杂的关系并基于这些关系进行推理,这被称为组合关系推理(Compositional Relational Reasoning, CRR)。这种能力不仅是智能的标志,也是我们应对日常问题和复杂任务的核心技能。那么,像 GPT 这样的大型语言模型(LLM)是否具备这种能力?它们又是如何在内部处理这种任务的?为了回答这个问题,研究者开发了一个新的基准测试,称为广义关联回忆(Generalized Associative Recall, GAR),专门用来评估 LLM 在组合推理任务中的表现,并进一步研究模型如何解决这些任务。论文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京邮电大学和彩云科技合作完成。

论文标题: Benchmarking and Understanding Compositional Relational Reasoning of LLMs 论文地址: https://arxiv.org/abs/2412.12841 代码地址: https://github.com/Caiyun-AI/GAR

一、GAR 基准测试

研究者注意到,目前大多数用于测试 LLM 的任务要么过于简单,只能用于可解释性分析,无法真实反映模型在复杂推理场景下的表现,要么过于复杂,不适合深入研究模型的内部机制。因此,他们设计了 GAR,一个更加多样化和具有挑战性的基准测试。GAR 整合了多个经典任务(如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等),并通过不同的任务形式(如肯定 / 否定句、生成 / 分类任务)和难度等级,系统地考察模型的推理能力。

简单来讲(更多例子见下图 1 和图 2):

  • associate recall 就是从前文 “抄写”:前文说了 “小明有苹果”,后文再说 “小明有__”,就知道要填 “苹果”;

  • knowledge recall 就是记到 “脑子” 里的各种常识知识:苹果是一种__(水果),巴黎在__(法国)

  • IOI 就是排除(否定):【苹果、狗、苹果】哪个不是苹果?__(狗)

GAR 的特点是:

  1. 挑战性足够高:即使是最先进的 LLM,在 GAR 任务上的表现也并不理想,暴露了它们在组合推理能力上的缺陷。

  2. 适合深入研究:GAR 任务相对简单的生成过程,使得研究者能够更好地追踪模型内部的推理机制。

图 1 广义关联回忆(Generalized Associative Recall, GAR)任务构建框架。GAR 任务的设计流程包括三个步骤:选择关系模式(如 “same” 或 “kindOf”)、采样数据构建关系环(结合语义与语法关系)以及生成语句并引入语义和句法变体(如否定形式或主宾交换),图中左中右部分分别展示了关系环的构建、任务数据的生成与语句的多样化处理,体现了 GAR 在任务灵活性和复杂度上的优势

图 2 GAR 任务示例。任务分为两大类:生成式(填空题,补全最后一个词)和判别式(判断题,回答 Yes 或 No)
二、现有模型的表现

通过对主流开源(如 Llama-2/3 7B/13B/33B/70B)和闭源模型(如 GPT-3.5/4)的测试发现:

  • 任务难度显著影响表现:当任务的推理步骤或复杂度增加时,模型的正确率会明显下降

  • “组合性差距(Compositionality Gap)”:模型在回答任务的各个子问题时可能表现良好,但无法正确组合这些答案以得出最终结论。例如,模型能回答对 “【小明有苹果,小红有狗】小明有__(苹果)”(前文抄写),对 “苹果是一种__(水果)”(常识)和 “【小明、小红】里哪个不是小红?__ (小明)”(否定排除)也毫无压力,但把它们组合起来:“【小明有苹果,小红有狗】小红没有一种__ (水果)”,模型就很容易蒙圈(在不允许 CoT 的情况下)。

  • 模型规模与性能:虽然更大的模型在一些任务上表现更好,但它们的 “组合性差距” 往往更明显,这表明增加模型规模并不能完全解决这个问题。

图 3 (a) 不同 LLM 在 GAR 上的表现。本图比较了生成任务(Gen.)和分类任务(Cls.)的平均准确率和正确答案的预测概率,随着模型规模增大,准确率和答案概率均呈正相关增长

图 3 (b 左) GPT-4 和 Vicuna-33B 在不同难度的生成式任务上的表现,通过增加非相同语义关系和引入否定语义变体调整任务难度;(c 中) 组合性差距随模型规模的变化, Llama 系列模型随规模增大而表现出更大的组合性差距,反映出 LLM 在组合关系推理中的不足;(d 右) 语法变化差距随模型规模的变化,句法变体对模型性能影响较小,表明模型对语法变化的敏感性较低

GAR 任务还有个很有趣的特点:尽管它对最先进的 LLM 都具有挑战性,它对人类来说却非常简单:研究者评估,在具备必要知识(如国家 - 首都关系)的情况下,人类完成任务的准确率超过 90%。并且通过实验表明,LLM 回答错误并不是因为缺少这些事实性知识。这揭示了 LLM 在组合关系推理上存在某些根本性缺陷

三、模型内部的推理机制

为了更好地理解 LLM 如何解决 GAR 任务,研究者采用了归因补丁(attribution patching)的方法。这种技术可以帮助发现模型在推理过程中依赖的关键计算单元,特别是某些注意力头的作用。值得指出的是,这里无论任务难度、回路复杂度还是模型大小,都远超已有模型可解释性工作。研究发现:

  1. 核心回路:Vicuna-33B 模型中存在一组通用的核心回路,能够被不同任务重复利用。

  2. 注意力头的作用:研究者识别出两类关键注意力头(True head 和 False head),它们的激活状态分别表示抽象的 “真” 和 “假” 的概念。进一步的实验表明,这些头在不同任务和模型中都扮演了重要角色,是组合推理能力的基础。

图 4 (a 左) True head 子回路 (b 右) False head 子回路

图 4 (c) 判别回路

图 4 (d) 肯定式生成回路

图 4 (e) 否定式生成回路

研究者发现,无论哪种回路,从更高的层次看,都包含我们称之为 “relational loop” 的由注意力边组成的闭环。这和构造 GAR 任务时的关系环是一致的。研究者认为正是这些闭环的存在保证了可预测性

四、通过干预关键注意力头提升 LLM 表现

注意到 True/False 头在图 4 的所有回路中都有出现并扮演了关键角色。为了验证 Vicuna 模型中的 True/False 头的通用性和有效性,并探讨其在不同模型规模上的一致性。研究者选择了三个具有代表性的分类任务:由 GendersOfPersons 关系模式分别与 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三个关系模式组合作为数据源。首先,利用 attribution patching 识别不同规模的 Vicuna 模型(Vicuna-7B/13B/33B)的 True/False 头。随后,在模型推理过程中对 True/False 头进行干预:当答案为 Yes/No 时,对 True/False 头施加干预,同时屏蔽 False/True 头,以观察其对模型判断的影响。

图 5 (a 左) 干预 Vicuna-7B 的 True / False heads 提升判别任务的准确率,干预后模型准确率分别提高了 17%/14%/6%,证明 True/False 头在各个模型中均表现出一致的效果;(b 右) True / False heads 的激活区分真 / 假陈述,通过可视化 True 和 False 头的激活值,发现它们有效地区分了真假语句。这表明,True/False 头编码了真假概念,并在 GAR 任务中起到了判断语句真伪的关键作用

五、研究意义

这项研究首次明确指出了 LLMs 在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。这不仅加深了我们对 LLMs 工作原理的理解,也为模型改进提供了启发和洞见。例如:

  • 优化注意力机制:通过改进关键注意力头的功能,可以显著提升模型的推理能力,例如研究团队的 DCFormer 工作 [1] 的最早期想法就是分析 LLM 在类似 GAR 任务上的表现启发而来的。

  • 设计更具多样性的基准:在真实世界任务中测试和改进模型的组合推理表现。

参考文献

[1] Da Xiao 1 Qingye Meng 2 Shengping Li 2 Xingyuan Yuan. Improving Transformers with Dynamically Composable Multi-Head Attention. ICML 2024.

作者:倪睿康 来源:公众号【机器之心 】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

帮忙带娃被网暴后续,小姑子晒出多张证据,亲戚透露更多内情

丁丁鲤史纪
2026-01-07 11:13:43
日名模古谷惠大肠癌病逝! 「生前弃化疗」最后发文惹鼻酸

日名模古谷惠大肠癌病逝! 「生前弃化疗」最后发文惹鼻酸

ETtoday星光云
2026-01-07 17:42:07
再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

古事寻踪记
2026-01-07 07:18:22
美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

美国派16名特工暗杀斯诺登,驻澳特战队击退CIA,荣获集体一等功

富强巨靠谱
2025-02-26 09:30:43
终于轮到日本“强烈抗议”了:80年了,日本从未像今天这样憋屈

终于轮到日本“强烈抗议”了:80年了,日本从未像今天这样憋屈

剑道万古似长夜
2026-01-08 09:17:20
岳云鹏宣布退出2026春晚,不再参加

岳云鹏宣布退出2026春晚,不再参加

观察者海风
2026-01-07 17:11:33
挪媒:索帅若执教曼联周薪约5-6万镑,进欧冠奖金300-400万镑

挪媒:索帅若执教曼联周薪约5-6万镑,进欧冠奖金300-400万镑

懂球帝
2026-01-08 18:26:20
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
1分险胜火箭!开拓者弃用29岁中锋:沦为杨瀚森的替补!无缘出场

1分险胜火箭!开拓者弃用29岁中锋:沦为杨瀚森的替补!无缘出场

球场没跑道
2026-01-08 15:12:11
金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

魔法污
2026-01-07 14:45:03
中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

亿通电子游戏
2026-01-08 05:56:41
涉多起在菲律宾绑架杀害中国公民案件,“成功商人”施纯芳被捕遣返,其妻发声:不敢相信是认识的他

涉多起在菲律宾绑架杀害中国公民案件,“成功商人”施纯芳被捕遣返,其妻发声:不敢相信是认识的他

红星新闻
2026-01-07 18:21:34
性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

性能力与寿命关系被发现!男性40岁后,睾酮越高,死亡风险越低

药师说健康
2025-12-05 09:47:10
天助国际米兰:2-2,意甲争冠热门遭倒数第一阻击,落后榜首4分

天助国际米兰:2-2,意甲争冠热门遭倒数第一阻击,落后榜首4分

凌空倒钩
2026-01-08 07:44:57
期待!恒大传奇球星欲重返中国足坛,改行当经纪人,帮中超队引援

期待!恒大传奇球星欲重返中国足坛,改行当经纪人,帮中超队引援

国足风云
2026-01-08 13:38:14
日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

日本梅毒感染人数持续处于高位,年轻人聚众晒梅毒,为何会这样?

之乎者也小鱼儿
2026-01-07 13:51:26
包养情人无数,玩老婆闺蜜,娶初中同学女儿为妻,孙道存有多荒唐

包养情人无数,玩老婆闺蜜,娶初中同学女儿为妻,孙道存有多荒唐

瓜汁橘长Dr
2026-01-06 10:11:41
陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

陪睡陪玩只是冰山一角!万达蒸发800亿后,王思聪再次传出大丑闻

阿器谈史
2025-12-26 15:26:05
惋惜,38岁副教授坠亡

惋惜,38岁副教授坠亡

超级数学建模
2026-01-07 23:03:35
中国车企在新西兰爆卖,销量大涨91.8%

中国车企在新西兰爆卖,销量大涨91.8%

后视镜里de未来
2026-01-07 16:16:20
2026-01-09 00:27:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2300文章数 596关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

头条要闻

19岁小伙在柬疑被16万转卖 与母亲视频时按"酒窝"求救

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

时尚
家居
数码
健康
军事航空

珍珠专场|| 无论18岁还是80岁,总是会为它再一次心动

家居要闻

理性主义 冷调自由居所

数码要闻

华硕2026款超大屏核显本Vivobook 18面世,至高锐龙AI 9 465

这些新疗法,让化疗不再那么痛苦

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版