Grounding Agent Reasoning in Image Schemas: A NeurosymbolicApproach to Embodied Cognition
意象图式驱动的智能体推理:具身认知的神经符号方法
https://arxiv.org/pdf/2503.24110
![]()
摘要
尽管具身人工智能取得了进展,但智能体推理系统仍然难以捕捉人类自然用于理解和与环境互动的基本概念结构。为了解决这一问题,我们提出了一种新的框架,通过利用图像模式的形式化描述,将具身认知理论与智能体系统相结合。图像模式被定义为结构化人类认知的感知运动体验的重复模式。通过定制大型语言模型(LLM),将自然语言描述转换为基于这些感知运动模式的形式化表示,我们可以创建一个将智能体的理解建立在基本概念结构上的神经符号系统。我们认为,这种方法不仅提高了效率和可解释性,还通过共享的具身体验,使人类与智能体之间的互动更加直观。
关键词: 具身人工智能;具身认知;神经符号人工智能;图像模式;自然语言理解;智能体推理;心理模拟。
1 引言
到20世纪末,认知科学的经典范式受到了根本性的挑战,因为越来越多的证据表明,我们的大脑并不是像孤立的符号处理计算机那样运行,而是与我们在世界中的身体体验密不可分。这一点在我们理解和使用语言时表现得尤为明显。正如莱考夫(Lakoff)和约翰逊(Johnson)在《我们赖以生存的隐喻》[19]中开创性地指出,我们通过依赖身体体验作为源域来理解抽象概念(目标域)——我们通过位置来理解时间(“未来在我们前面”),通过大小来理解重要性(“这是一件大事”),以及通过空间方向来理解情绪状态(“我感到低落”)。
为了弥合身体体验与思维之间的差距,约翰逊[16]引入了图像模式——从我们的感知运动互动中抽象出来的重复模式,并展示了它们在结构化人类思维(无论是具体领域还是抽象领域)中的普遍作用。多年来,这一理论在多项研究中得到了有力的实验证实[24, 31],甚至在非语言领域(如数学)中也取得了成果[20]。一个常见的图像模式例子是“物体放入容器”(OBJECT_INTO_CONTAINER),它源自我们早期将物体放入容器(例如杯子和桶)的身体体验,后来成为理解字面句子(如“比尔在房子里”)、更抽象的句子(如“柏林在德国”或“陷入爱河”)以及数学表达式(如“2∈N”)的源域。最近的研究还探讨了这些图像模式如何被分解为更基本的组成部分,称为概念原语[24]。例如,要理解“支撑”这一概念,需要具备“上下”(UP/DOWN)和“接触”(CONTACT)的概念原语。
正如认知科学不得不超越纯粹的计算模型来解释人类的认知和语言能力一样,目前关于人工智能系统是否需要类似的基底来实现真正的语言理解和常识推理也存在争议[4, 36]。尽管一些最近的研究表明,大型语言模型(LLMs)可以通过文本本身掌握物理概念[28],但仍有理由对这种基于统计的学习是否能够捕捉人类概念理解的全部深度持怀疑态度[23, 25]。例如,[29]指出,采用上下文学习的大型语言模型在需要广泛说明的任务中面临重大挑战,尤其是在即使是人类标注者也必须仔细审查一套复杂的标注指南才能正确执行任务的情况下。通过模拟任务,[38]也展示了统计方法的基本概念局限性——这些局限性无论数据规模如何都依然存在。因此,为人工智能体配备这些概念化的具身体验结构成为一个关键目标,因为这不仅能够通过共享的具身体验实现更直观、更可解释的人机互动,而且正如[7]所建议的那样,这可能是将人工智能推向当前多模态系统之外的下一个主要范式所必需的一步。
然而,实现这种智能体的主要挑战在于形式化这些心理学理论和深度具身结构,并以一种有希望的方式将由此产生的符号语言与神经识别和隐喻映射技术相结合。在这项工作中,我们讨论了这种尝试的主要挑战,并提出了一种将符号语言与神经架构相结合以创建一个集成的神经符号框架的有前景的方法。与现有工作相比,我们的方法的主要优势在于对概念结构的完全形式化描述、使用现有的符号求解器来推理这些描述,以及在神经网络中深度集成以创建神经符号架构。
本文的其余部分安排如下:第2节从符号和机器学习的角度介绍了一些相关工作;第3节讨论了预期的形式化应该满足的主要属性,以便如第4节所示有效地捕捉构成图像模式结构的不同概念原语;第5节介绍了如何以有意义的方式将形式化与神经网络结合,以实现完全具身的智能体;第6节讨论了这种具身智能体在推理和自然语言理解方面获得的优势;第7节总结了本文。
2 相关工作
图像模式的形式化并不是一个新尝试——到20世纪末,弗兰克(Frank)和劳巴尔(Raubal)[12]已经对现有的形式化方法进行了综述。在随后的形式化方法中,值得关注的包括基于双图(bigraph)的表示方法[2]、利用WordNet词汇数据库的方法[18],以及基于定性演算的方法[5, 13]。定性演算通常对应于关系代数[11],它们非常适合用于图像模式的形式化任务,因为它们像人类的认知处理一样,抽象掉了精确的数值测量,而专注于相对关系。
赫德布洛姆(Hedblom)的工作显著推动了这一领域的发展,他通过结合区域连接演算(Region Connection Calculus)、定性轨迹演算(Qualitative Trajectory Calculus)、基本方向和线性时态逻辑,广泛利用了定性演算的适用性,以表示图像模式的空间和时间维度[13]。最近,赫德布洛姆等人提出了图像模式的系统化图表语言——图像模式图表语言(DISL)[14],这是一种为图像模式提供结构化视觉框架的系统化图表表示语言。
在机器学习领域关于图像模式和具身方法的研究中,沃霍维亚克(Wachowiak)等人的工作探讨了人工智能体如何捕捉语言背后隐含的人类直觉[41],并引入了将自然语言表达归类到图像模式的系统化方法[39]。最近大型语言模型(LLMs)的进步也被利用来提升具身学习任务中的表现,尤其是在具身指令遵循方面[34],同时标准化的基准测试正在出现,以系统地评估这些能力[21]。最后,[38]中开发的框架与我们的目标非常接近,它通过心理模拟和隐喻映射来实现语言理解。
3 形式化属性
如[24]中所述,图像模式可以分解为概念原语。例如,进入(GOING_IN)至少需要物体(OBJECT)、容器(CONTAINER)和路径(PATH)的概念。为了介绍我们的方法,我们使用了[14]中更近期的分类,如表1所示。可以看出,一些概念原语仅是空间的或时空的,而另一些是力动态原语,这些原语对应于无法用时空方式表示的具身感觉(例如,UMPH对应于施加力)。
属性1:由于图像模式可以结构化无限多样的物理配置和场景,任何用于表示它们的正式化方法都必须能够定性地编码关系(例如,在不知道确切位置或形状的情况下处于“内部”)[22]。这一要求在以前的正式化尝试中已被广泛认可。
属性2. 不同类型的对象可以参与一个图像模式,例如,原子“物体”(OBJECTS)可以是点,而“路径”(PATHS)可以是线。此外,为了定义某些实体(例如,“容器”可以是圆形、方形等),类型之间的排序可能很有用。因此,形式化方法应该是有序分类的,并支持定义类型化的关系。
属性3. 由于图像模式可以被理解为小故事,形式化方法应该支持时间的表达以及配置随时间的演变。
属性4. 形式化方法应该支持量化,以表达一般规则并断言对象的存在或不存在(例如,对于“空”(EMPTY)这一概念原语),以及支持逻辑连接词以有效地表达逻辑约束。
属性5. 最后,形式化方法应该支持默认操作符的使用,以模拟默认行为,例如重力或惯性定律(即,除非有动作导致它们改变,否则事物保持不变)[33]。重要的是,包含默认操作符使得形式化方法具有非单调性。
4 形式化图像模式
满足这些要求,或者可以通过额外扩展来实现这些要求的一个有前景的候选方案,是在非单调的可量化平衡逻辑中实现声明式空间推理框架(DSR)[6],该逻辑带有可评估函数[8, 9]。可量化平衡逻辑保留了一阶逻辑的语法,同时在语义上将否定解释为默认否定(即,失败的否定)[10]。可评估函数使得DSR框架能够嵌入其中,因为DSR框架从根本上依赖于参数化函数来表示对象(见图1,右上角),并通过这些参数上的多项式约束定义对象之间的定性关系(右下角)[30]。与第2节中提到的代数定性演算的常见用法不同,DSR框架允许组合异构对象,并且不对定义的关系集合施加任何条件。
![]()
关于时间建模,已经在文献[1]中提出了时间均衡逻辑的一阶扩展。为了即将到来的例子,我们考虑以下时间运算符:
下一步(next)
总是(always)
最终向前(eventually forward)
直到(until)
最终(final)
最终之前(eventually before)
最后,已经开发了许多与均衡逻辑密切相关的形式化方法[3],而关于有序逻辑的正式处理可以在文献[17]中找到。
在接下来的内容中,我们将解释如何在我们的形式化方法中处理概念原语,并提供一些它们的组合示例。我们的处理方法与文献[14]有相似之处,因为我们应用了图1中展示的分类。
实体对应于逻辑中的常量。实体OBJECT简单地对应于一个点。实体CONTAINER对应于任何可以用于“包含”关系的几何对象,如 inside、properPart 等。有序排序使我们能够将此实体定义为超类,即任何圆、矩形等都可以是CONTAINER实体。PATH实体被建模为具有起点和终点的线。例如,SOURCE_PATH_GOAL图像模式,它支持我们对由连续步骤组成的进程的理解(例如,学生学术旅程中学位的进展,棒球中通过各个垒的前进等),可以通过一系列位置来表示,如 ◊(l₁ ∧ ◊(l₂ ∧ ◊(... ∧ ◊ln))),其中 l₁ 和 ln 分别代表 START_PATH 和 END_PATH 作为特定位置,每个 li 代表一个中间位置。通过约束实际位置与前一个位置的◊运算符来获得前进运动。实体REGION可以通过距离函数◊或作为类似于上述CONTAINER实体来建模。最后,更抽象的概念DOWN可以被建模为放置在场景底部的线,或者直接编码在位移动作中。例如,重力可以被建模为 □(∀x(¬∃y on(x, y) → moveDown(x))),其中 x 和 y 是域中的任何实体。注意后一个公式中默认否定的使用。
关系原语主要对应于二元(或更高元)的关系。位置(LOCATION)可以通过位置或拓扑关系(例如,on、closeTo、inside等)来表达。如上所述,起始路径(START_PATH)和结束路径(END_PATH)可以被定义为点或几何区域,以限定路径实体。接触(CONTACT)、包含(CONTAINED)和部分(PART_OF)简单地对应于DSR框架中定义的拓扑逻辑关系,同样对于较小/较大(SMALLER/LARGER)作为大小关系。链接(LINK)可以通过距离Δ来定义,该距离不能超过某个阈值,或者作为实际接触相关对象的线段。最后,持久性(PERMANENCE)可以通过默认否定来表达,编码了如果我们不能证明某个实体的参数函数已更改,我们保留其实际状态的值。
尽管属性概念原语最初似乎对应于应用于实体的一元谓词,但它们通常需要复杂的公式。例如,空(EMPTY)对应于一个公式,其中我们声明对于一个容器(CONTAINER),没有实体在其内部。力动态概念原语主动-UMPH和被动-UMPH通过默认否定来建模。基本上,除非对一个对象施加了相反的力,否则后者在每个状态下都受到一个动作的约束(可能直到实现某个目标),使用U运算符。这种力的概念如上所述,出现在重力的表述中。最后,运动(MOTION)、静止(AT_REST)和(无)生命原语对应于修改/应用于实体位置的动作谓词沿着状态。
当这些概念原语结合时,它们形成了图像模式,每个图像模式在形式上对应于一个小理论T,封装了其基本结构并支持推理。这种完全形式化的特征可能还有助于澄清和标准化图像模式在该领域内的定义。从模型理论的角度来看,每个理论T的模型代表了结构的可能实例化,这与将模式用作模板以生成无限多具体图像和场景的想法相一致。
5 通过神经图像模式识别进行自然语言解析
在前几节中建立了表示图像模式的形式化基础之后,我们现在转向从自然语言中自动提取这些表示的挑战。我们的目标是开发一个系统,该系统可以将普通句子解析为上述非单调量化形式化表示。
与传统的语义解析相比,这项任务提出了独特的挑战。虽然传统的语义解析器通常将语言映射到经典逻辑系统[27, 42],但我们的系统必须捕捉语言中固有的具身、时空意义。例如,在处理[14]中提出的谜题中的句子“僧侣爬上山”时,系统不仅要识别涉及的实体,还要识别诸如SOURCE_PATH_GOAL和CONTACT等图像模式的复杂相互作用及其随时间的演变。
为了应对这一挑战,我们提议利用最近在大型语言模型(LLMs)和神经架构方面的进展。基于现代变压器的模型在理解语言结构和生成复杂输出方面表现出了显著的能力。我们可以利用它们强大的语言理解和生成能力,将自然语言描述转换为我们的图像模式形式化表示。开发这样一个系统的一个关键挑战是收集足够高质量的自然语言句子及其图像模式表示之间的映射数据。幸运的是,可以利用一些现有资源:
[39, 41]中的结构化数据库提供了用于训练、验证和测试的现成示例。
文献中的心理实验,例如[31],提供了关于人类参与者中图像模式诱发的经验数据。
可以通过策略性提示LLMs来生成自然语言句子的候选图像模式注释。
专家语言学家和认知科学家可以提供将语言成分映射到模式角色并识别活跃图像模式的金标准注释。
关于图像模式表示的形式化,我们提议采用两阶段方法。首先,我们可以利用LLMs强大的推理能力来生成已识别模式的初始形式化描述。我们的形式化遵循带有时间运算符的一阶逻辑,使其特别适合自动化生成,因为这些逻辑结构在LLMs的训练数据中得到了很好的表示。其次,我们可以在我们的收集的数据集上微调一个专门的翻译模型,该数据集将自然语言句子与其形式表示配对。该模型将学习直接将输入文本映射到我们形式化表示中的规范表达式。为了确保质量和一致性,我们提议采用迭代开发过程,其中模型输出与专家注释进行验证,并根据错误分析进行细化。
最后,评估这样一个系统需要超越简单的准确性指标。虽然与金标准注释的完全匹配提供了一种成功的衡量标准,我们还必须考虑部分匹配指标,以评估系统识别正确图像模式、分配适当角色和保持适当时间结构的能力。此外,还应评估系统在需要真正理解空间关系、运动事件和力成分的下游任务中的性能。
6 自然语言理解、推理和类比
所提出的模型可以作为具身人工智能系统中的一个关键组成部分,帮助弥合语言理解和与物理世界的互动之间的差距。图像模式,由于其基于身体经验和空间理解,提供了语言输入和物理行动之间的自然中间表示。通过在我们的正式符号中捕捉这些具身认知模式,我们使人工智能系统能够以直接连接到空间推理和运动规划的方式处理语言。这在自然语言理解和现实世界互动之间创造了更紧密的联系——系统不再将语言视为纯粹的符号操作,而是可以将语言意义建立在人类使用的空间和运动原语之上。
通过与人类认知过程更紧密的对齐,推理也将得到增强。通过在人类使用的相同图像模式表示上操作,人工智能系统可以更好地模拟和预测人类的理解与误解。例如,通过分析涉及哪些图像模式以及它们是否自然地映射到熟悉的具身经验,代理可以识别出人类可能难以理解某个概念的情况。此外,这些代理可以以类似于人类推理模式的方式进行推理。正如Shimojima在他对图表推理的分析[35]中所展示的,某些结论可以从视觉表示中自然地(或“免费”地)得出,而无需明确的逻辑规则。图像模式利用了相同的原理,因为实体之间的空间约束捕捉了目标领域中的逻辑约束[26]。为了在计算框架中实现这些推理,我们可以利用Clingo的答题集编程,如在相关工作领域[32, 37, 40]中部分探索的那样。Clingo处理非单调推理和纳入自定义理论(如描述图像模式的那些)的能力使其特别适合实现我们的形式化。
最后,我们的形式化可能在捕捉类比关系方面特别有用,其中概念结构可以映射到多个目标领域。考虑太阳系和(卢瑟福-玻尔)原子系统之间的经典类比,如句子“电子围绕原子核旋转”和“行星围绕太阳旋转”[15]所示。两者都可以使用相同的图像模式结构进行形式化,其中电子/行星与原子核/太阳之间的距离Δ(x, y)被限制在一定范围内,并且θ(x, y) < ◊θ(x, y)确保x相对于y的角度位置不断增加,捕捉了圆形轨道运动。这些形式化揭示的结构相似性解释了类比的认知力量——两种情况共享相同的基础图像模式结构。
7 结论和挑战
本文提出了一种全面的方法来弥合自然语言理解和具身认知之间的差距。基于图像模式的认知理论和大型语言模型的最新进展,我们已经概述了一种形式化方法,它捕捉了人类概念理解背后的基本空间、时间和力动态原语。虽然完整的形式化仍有待完全开发,但我们已经展示了如何系统地组合关键组件来表示复杂的概念结构。将这种形式化与现代变压器架构集成为将语言理解建立在具身经验中开辟了新的可能性。通过以计算上可行的形式捕捉图像模式,我们使系统能够以镜像人类认知模式的方式处理语言。所得到的表示支持自然形式的推理和类比映射,如从基本的包含关系到复杂类比的例子所展示的那样。我们的工作为开发能够以更类似人类的方式理解和推理语言的人工智能系统提供了基础。
原文链接:https://arxiv.org/pdf/2503.24110
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.