当我们谈论“AI 是否具备心智理论(Theory of Mind)”时,往往会陷入一种错觉,只要模型能解释“他为什么这么做”,那它就算是理解了人类的心理。但现实世界远比心理学测试题复杂得多。尤其在灾害、医疗、金融这些高风险场景里,人类的信念不是静止的,而是会随着信息变化不断更新、强化、冲突、甚至突然崩塌。大型语言模型虽然能给出看似合理的解释,却往往无法回答一个更关键的问题——人类的信念是如何一步步演化到当前状态的。
这篇来自 霍普金斯大学 、佛罗里达大学和犹他大学的跨学科团队的新研究成果《Learning Dynamic Belief Graphs for Theory-of-mind Reasoning》,正是试图解决这个问题。它提出了一个新的范式,让 AI 不再只是“猜测你现在在想什么”,而是“理解你的信念是如何随时间变化,并最终驱动你的行为”。
一句大白话总结就是别再让 AI 做心理测验式的静态推理了,让它学会“跟踪一个人的心路历程”。
01人工智能的“心智理论”困境
大型语言模型在 ToM 推理上的局限其实非常明显,只是我们平时不太愿意承认。
首先,它们的信念推断是静态的。给它一段描述,它就给你一个“此刻的信念判断”,但不会记住你之前说过什么,也不会考虑信念的累积效应。人类的信念可不是一帧一帧的截图,而是一条连续的轨迹。
它们把信念当成彼此独立的变量,现实中,“担心火势蔓延”会强化“需要撤离”的信念,“相信官方信息”会抑制“听邻居谣言”的信念,这些都是相互作用的。但 LLM 的推理往往是“一条信念一句话”,缺乏结构化的依赖关系。
它们缺乏因果一致性。模型推断的信念经常无法解释行为,而行为也无法反推信念。你问它“为什么这个人撤离”,它能给你一个理由;你问它“这个人会不会撤离”,它又能给你另一个理由,但这两个理由之间可能毫无逻辑联系。
在高风险场景中,这些问题会被无限放大。灾害响应中,人们的信念会随着观察变化而剧烈波动;医疗决策中,风险感知与信任关系会交织影响行动;金融危机中,恐慌情绪会在群体中传播。如果 AI 想真正理解人类行为,它必须学会处理这些动态信念结构,而不是停留在“静态猜测”的层面。
这项研究提出的核心问题也因此显得格外尖锐,如何让AI理解“人类信念是如何随时间演化的”?
这项研究的贡献可以说是把心理学、图模型、能量函数、LLM 语义理解和行为科学揉成了一套新的 ToM 推理框架。它的核心创新点有四个。
最重要的是“动态信念图”(Dynamic Belief Graph)。研究团队把信念建模成一个随时间演化的图结构,信念之间可以相互强化或抑制,整个系统像一个不断更新的认知网络,而不是一堆孤立的判断。
其次是“语义到势能的投影”(Semantic-to-Potential Projection)。这一步非常巧妙,它让 LLM 的语义embedding 不再只是“理解文本”,而是直接映射到图模型的 unary 和 pairwise potentials。换句话说,语言模型提供语义证据,图模型负责结构化推理,两者终于不再各说各话。
第三个创新是“行为驱动的信念学习”(Action-conditioned ELBO)。信念不是凭空推断的,而是必须能解释行为;行为反过来约束信念的学习。这让模型的信念轨迹具备了因果一致性,而不是随口编的心理分析。
最后,研究团队在真实的野火撤离数据上验证了模型。不是玩具环境,不是虚构故事,而是真实的高风险场景。这让模型的有效性更具说服力。
研究团队来自一个典型的跨学科团队,Ruxiao Chen(约翰斯·霍普金斯大学)、Susu Xu(约翰斯·霍普金斯大学,通讯研究团队)、Xilei Zhao(佛罗里达大学)、Thomas J. Cova(犹他大学)、Frank A. Drews(犹他大学)。
他们横跨系统工程、灾害科学、环境社会学、心理学,是一个“研究人类在极端情境下如何思考和行动”的黄金组合。
项目地址:https://anonymous.4open.science/r/ICML_submission-6373/
02ToM推理的技术脉络
要理解这项研究的意义,我们得先看看 ToM 推理的技术演化史。
传统的 Machine ToM 主要依赖 Bayesian Inverse Planning,把人类行为看作“理性代理”的结果,通过反演决策过程来推断信念和目标。
这种方法理论上非常优雅,因果结构清晰,但问题也很明显,需要手工定义状态空间、信念变量、转移结构,只能在小规模、玩具环境中运行,完全无法处理真实世界的复杂语义输入。
随着 LLM 的出现,研究者开始尝试让模型直接从文本中推断信念,代表性方法包括AutoToM、MuMToM 等。它们的优势是语义理解能力强,不需要手工定义信念空间,能处理开放世界的自然语言输入。但它们的缺陷也非常致命,信念是独立的,没有结构;信念是静态的,没有时间;推理完全依赖 prompt,容易漂移;信念无法解释行为,也无法被行为反推。
为了让模型具备“结构化的记忆”和“可解释的推理”,研究者开始引入深度马尔可夫模型(DMM)、能量模型(EBM)、因子图(Factor Graph)等方法。它们各有优势,但单独使用都无法解决 ToM 推理的核心难题。
这项研究的创新就在于把 LLM 的语义能力、DMM 的时间结构、因子图的依赖建模、EBM 的一致性约束融合成一个统一框架,让 AI 终于可以从“静态心理测验式推理”迈向“动态认知轨迹建模”。
03问题定义——从观察到信念,从信念到行为
如果说这项研究的目标是“让 AI 学会理解人类的心路历程”,那问题定义这一节就是它的“世界观设定”。研究团队把人类在高风险场景中的认知过程拆解成四类核心变量,它们共同构成了一个完整的认知循环,看到什么、怎么想、怎么变、最后做什么。
![]()
图1:信念轨迹随着高风险的观察而演变,在阈值交叉时触发行动。
最底层的是环境状态 St。它代表真实世界正在发生什么,比如火势是否逼近、是否收到官方警报、邻居是否开始撤离。这个状态通常是不可见的,或者说人类只能通过有限的观察去推测它。
接下来是观察文本 ot。这是人类在每个时间点实际看到、听到或感受到的信息。在论文的数据集中,这些观察来自真实的野火调查问卷,比如“看到烟雾”“收到紧急通知”“邻居开始撤离”等。模型就是通过这些文本来理解“此刻发生了什么”。
然后是信念向量 bt,这是整个框架的灵魂。它是一个 K 维二元向量,每一维代表一个具体的心理信念,比如“我家是否处于危险”“火势是否会蔓延”“官方信息是否可信”等。论文中 K=6,这个规模既能表达足够丰富的心理状态,又不会让计算变得不可控。
最后是行为 at。这是人类在每个时间点做出的选择,比如“继续观察”“准备撤离”“立即离开”。行为是信念的外显结果,也是模型最终要预测的目标。
这四个变量构成了一个完整的生成过程, 观察影响信念,信念随时间累积和变化,信念驱动行为,而行为又反过来揭示信念的合理性。整个系统是一个结构化的隐变量模型,信念是隐藏的、不可直接观测的,但它必须能解释行为,否则模型就会在训练中被 ELBO 惩罚。
这个模型不是在“猜信念”,而是在“学习一套能解释行为的信念动态”。这比传统的 LLM prompt 推理要严谨得多,也更接近真实的人类认知。
04模型核心,动态信念图(Dynamic Belief Graph)
如果说上一节定义了“世界观”,这一节就是研究的“战斗系统”。研究团队提出的动态信念图,是一个融合了图模型、能量函数和 LLM 语义理解的混合结构。它既有概率图模型的严谨性,又有语言模型的语义能力,是一个非常典型的“神经符号混合体”。
![]()
图2:结构化认知轨迹ToM框架概述。这里,st表示观察到的动作处的潜在环境状态,ot表示代理的观察,bt表示潜在的信念状态,et表示LLM提取的语义嵌入。
信念作为马尔可夫随机场(MRF)
研究把信念向量 bt 建模为一个马尔可夫随机场(MRF),其能量函数写成:
![]()
这里的 unary potential ϕi 表示单个信念的倾向性,而 pairwise potential ϕij 则表示信念之间的相互作用。
为什么要建模 pairwise interaction?因为人类的信念不是独立的。心理学研究早就告诉我们,风险感知、信任、威胁评估等信念之间存在强烈的强化或抑制关系。
例如,“看到烟雾”会强化“火势逼近”的信念, “相信官方信息”会抑制“听邻居谣言”的信念, “邻居撤离”会强化“需要行动”的信念。
如果模型不捕捉这些关系,它就无法解释真实的人类行为。
MRF 的好处是,它能自然表达这些依赖关系,同时允许信念在每个时间点形成一个结构化的整体,而不是一堆孤立的二元变量。
语义到势能的投影(Semantic-to-Potential Projection)
这一部分是研究最巧妙的设计之一。研究团队没有直接让模型学习势能,而是让 LLM 来提供语义证据,再把这些证据投影到 unary 和 pairwise potentials 上。
对于每个信念 bt,i,模型会向 LLM 提两个prompt,
一个假设上一时刻信念为真(Yes), 一个假设上一时刻信念为假(No)。
LLM 会返回两个 embedding,hYes 和hNo。然后模型根据当前观察 ot 生成一个语义embedding ht,并通过对比方式构造 unary potential 的基础部分:
这个对比结构非常关键,它避免了“语义翻转”(sign flipping)的问题。因为在无监督学习中,如果模型把“1”当成“否定”,把“0”当成“肯定”,数学上完全等价,但语义上就乱套了。通过对比 embedding,模型能保持信念语义方向的一致性。
pairwise embedding 则是通过 LLM 对信念对 (bi,bj) 的语义理解来生成,再映射到 pairwise potential:
![]()
这让模型能够捕捉信念之间的强化或抑制关系,而不是靠人工指定。
信念边缘概率的计算
由于信念是 K 维二元变量,所有可能的信念配置有 2K 种。研究中 K=6,因此总共有 64 种配置,完全可以枚举。
信念边缘概率的计算公式是
![]()
为什么 K=6 时可行?因为64 个配置 × 每个时间点 3 步 × 每个样本几十条记录,计算量完全在可控范围内。
如果 K=20,那就要 1,048,576 种配置,模型就炸了。研究团队显然是经过深思熟虑才选择 K=6 的。
05行为模型,信念如何驱动行动?
如果说动态信念图负责回答“人是怎么想的”,那行为模型就是回答“人为什么这么做”。这部分是研究中最“贴近现实”的地方,因为它直接把信念和行动绑在一起,让模型必须面对一个残酷事实,信念如果不能解释行为,那就是错的。
在这个框架里,每个行为都有自己的“信念条件嵌入”(belief-conditioned embedding)。这听起来有点抽象,但其实很好理解,不同的行为受不同的信念组合影响,比如“继续观察”可能受“火势不严重”的信念影响,而“立即撤离”则可能由“看到烟雾 + 邻居撤离 + 官方警告”共同触发。
为了捕捉这种差异,模型为每个行为构建一个独立的信念 token matrix。更妙的是,LLM 会为每个信念生成两个 embedding,一个是假设信念为真,一个是假设信念为假。然后模型根据当前信念的边缘概率,把这两个 embedding 混合成一个“信念条件行为 embedding”。
模型不是在问“这个行为是什么”,而是在问“如果这个人真的相信这些事情,他会怎么做”。这比传统的分类器要聪明得多。
为了进一步捕捉信念之间的组合效应,研究团队为每个行为都设计了一个独立的自注意力模块(Action-specific Self-Attention)。这一步非常关键,因为行为往往不是由单一信念触发的,而是由信念之间的非线性交互决定的。
比如“看到烟雾”本身可能不会让人撤离,但如果同时“邻居开始撤离”,那撤离的概率就会突然飙升。自注意力机制正是用来捕捉这种“1+1>2”的心理效应。
这也是为什么研究团队没有使用一个统一的注意力结构,而是为每个行为单独建模。不同的行为有不同的触发逻辑,不能混为一谈。
![]()
图3:针对中间行动和最终疏散决策的训练周期的行动预测准确性。
06推断模型与训练,ELBO如何让信念变得“可解释”?
动态信念图和行为模型构成了生成模型,但生成模型本身无法直接训练,因为信念是隐藏的、不可观测的。为了解决这个问题,研究团队引入了一个推断模型(Inference Model),它在训练时负责“猜测”信念。
推断模型可以看到行为,这一点非常重要。因为行为是信念的外显结果,知道行为就能更好地反推信念。生成模型不能看到行为,而推断模型可以,这种“非对称性”是变分推断的经典设计。
整个训练过程由 ELBO(Evidence Lower Bound)驱动,它包含两个部分。
第一个部分是行为似然项。它要求信念必须能够解释行为。如果模型推断的信念无法产生观察到的行为,ELBO 就会惩罚它。这让信念学习变得“行为一致”,而不是随便瞎猜。
第二个部分是 KL 项,它要求推断模型的信念分布必须与生成模型的信念先验保持一致。换句话说,推断模型不能“作弊”,不能为了拟合行为而生成不合理的信念。
![]()
图4:训练期间ELBO组件动态。动作似然项的演化以及推理后验和信念转移前验之间的KL分歧。
图 4 展示了训练动态,KL 项在早期迅速下降,说明推断模型和生成模型快速对齐;行为似然项稳步上升,说明信念越来越能解释行为。这种训练曲线非常健康,也说明模型确实在学习“合理的信念轨迹”。
07实验与结果,模型是否真的学到了“人类信念”?
为了验证模型的有效性,研究团队使用了真实的野火撤离调查数据,包括 Kincade Fire 和 Marshall Fire。这些数据包含了居民在灾害中的观察、信念、行为等信息,是研究 ToM 的绝佳素材。
![]()
图5:(a)模型预测信念与个人信念的人类评级之间的斯皮尔曼相关性。(b)成对信念结构学习的斯皮尔曼相关性。
这些场景非常适合 ToM 研究,因为它们具有三个特点,信息不完全、风险高、信念变化快。换句话说,这些场景能逼迫模型面对“真实的人类认知复杂性”。
在行为预测方面,模型在中间行为和最终撤离决策上都表现稳定,训练集和测试集的曲线几乎重合,说明模型没有过拟合,泛化能力很强。
在信念预测质量方面,研究团队使用 Spearman 相关来评估模型预测的信念与调查问卷中的自报告信念之间的关系。Spearman是一个 rank-based 指标,非常适合这种主观评分数据,因为它不要求绝对值一致,只要求排序一致。
结果显示,模型在大多数信念维度上都显著优于 AutoToM 和 FLARE。这说明动态信念图确实学到了“人类信念的排序结构”。
![]()
图6:消融结果对信念准确性和时间动力学的影响。(a)不同消融下的Spearman相关性。(b)信念结构学习和时间一致性的全球指标。
更令人惊喜的是,模型还恢复了信念之间的 pairwise 结构。也就是说,它不仅知道“哪些信念更强”,还知道“哪些信念会一起变化”。这在心理学中被称为“信念协变结构”,是理解人类行为的关键。
与 AutoToM 和 FLARE 相比,研究的方法在信念结构恢复上有明显优势。这说明结构化建模确实比 prompt-based 推理更可靠。
08为什么这是ToM推理的重要突破?
这项研究的意义不仅在于提出了一个新模型,更在于它重新定义了 ToM 推理的技术路线。
它让 ToM 推理从“静态信念”迈向“动态信念图”。信念不再是孤立的判断,而是一个随时间演化的结构化系统。
它让 ToM 推理从“LLM 直接推理”迈向“LLM + 结构化模型”。语言模型负责语义理解,图模型负责结构化推理,两者各司其职。
它让 ToM 推理从“解释行为”迈向“行为反向约束信念”。信念必须能解释行为,行为也必须能反推信念,这让模型具备了因果一致性。
它为未来的 ToM 研究提供了一个新的方向,不要再依赖 prompt,不要再依赖静态推理,而是构建一个能随时间更新、能表达信念关系、能被行为约束的认知轨迹模型。
一句话总结,这项研究不是在让AI更像人,而是在让AI更像一个“能理解人”的系统。(END)
参考资料:https://arxiv.org/abs/2603.20170
![]()
关于波动智能——
波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系,融合人工智能与意识科学,构建覆盖情绪识别、建模与推荐的智能引擎,自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法,形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”,其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构,赋能企业实现更高效的用户洞察与精准情绪交互,推动从功能驱动到意图驱动的产业范式升级。
亲爱的人工智能研究者,为了确保您不会错过*波动智能*的最新推送,请星标*波动智能*。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!
加入AI交流群请扫码加微信
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.