如何让大模型更“聪明”？科学家揭示大模型逻辑推理的关键缺陷|定理

如何让大模型更“聪明”？科学家揭示大模型逻辑推理的关键缺陷

2025-09-09 19:55:51　来源: DeepTech深科技

北京举报

分享至

近年来，尽管大模型在自然语言处理任务中表现出优异的性能，但一个不可忽视的问题是，其逻辑推理能力仍存在显著不足，严重限制了其在需要严谨推理的真实场景中的应用价值。

典型的表现是，模型可能同时输出相互矛盾的结论，例如同时肯定“喜鹊是鸟”和“喜鹊没有翅膀”。

近期，由北京大学、清华大学、荷兰阿姆斯特丹⼤学、美国卡内基梅隆⼤学和阿联酋穆罕默德·本·扎耶德人工智能大学组成的联合团队全面调研了大模型在逻辑推理方面的能力，总结了其在逻辑问答（Logical question answering）和逻辑一致性（Logical consistency）方面的挑战。

基于这些发现，研究人员提出了多种具有针对性的改进方案，并规划了未来研究的重点方向，为提升大模型在复杂逻辑场景下的推理能力提供了重要参考。

日前，相关论文以《赋能大语言模型的逻辑推理能力：一项全面综述》（Empowering LLMs with Logical Reasoning: A Comprehensive Survey）为题发表在预印本网站arXiv[1]，并被国际人工智能联合会议 2025（IJCAI，International Joint Conference on Artificial Intelligence）的综述论文赛道（Survey & Tutorial）接收（中稿率 19.6%）。阿姆斯特丹大学博士生成凤祥（清华大学刘奋荣教授团队硕士毕业生）是第一作者，北京大学助理教授李昊轩担任通讯作者。

大模型逻辑推理的挑战：逻辑问答与逻辑一致性

逻辑学解决问题的核心是，在给定一组约束条件的前提下，通过严谨的推理过程判断某个命题或结论的正确性。这一特性使其在运筹管理、决策制定等实际应用场景中具有重要价值：当面临资源限制、时间冲突等现实约束时，可以借助逻辑推理来评估决策的有效性，或从可行解空间中推导出最优方案。

基于这一理论框架，该综述论文创新性地将大模型面临的逻辑挑战系统性地划分为两大类别——逻辑问答能力和逻辑一致性问题，并进一步细分为基于求解器、基于提示、预训练与微调等具体方法。

在逻辑问答方面，主要挑战体现在处理复杂推理任务时的性能局限。例如，当需要基于上百个前提条件进行结论有效性判断时，大模型在演绎推理、归纳推理或溯因推理等不同推理模式中均可能出现错误。

在逻辑一致性方面，尽管大模型对单一简单问题的回答准确率较高，但在处理相关联问题时却可能产生自相矛盾的输出。比如著名的 Macaw 问答模型，当提问“喜鹊是鸟吗”？大模型回答“是”，然后继续提问“鸟有翅膀吗”？其回答“有”，但再问它“喜鹊有翅膀吗”？它却给出了与之前相矛盾的答案——“没有”。

李昊轩对 DeepTech 解释说道：“因为大模型的预训练语料很多是主观观点，而非客观事实，所以会出现否定一致性（Negation consistency）问题。”

该研究进一步指出，在逻辑学中若干经典推理范式对大模型提出了更高要求。首先是蕴涵一致性（Implication consistency），要求模型能够正确处理“若 P 则 Q”的条件推理；其次是传递一致性（Transitivity Consistency），即保持 P→Q→R 推导链条的连贯性。

特别值得注意的是事实一致性（Fact consistency）问题：当将通用大模型应用于医学或工业设计等垂直领域时，往往需要引入领域特定的知识库（如医学常识数据集）。这时候，模型需要精准实现事实核查任务，通过把输出和知识库中的权威事实比对，来避免物理规律冲突或事实性错误，以解决模型认知和专业知识的不一致性问题。

更高阶的挑战来自复合一致性（Compositional consistency）：理想的大模型除了实现单一逻辑维度的准确，还需要协调处理多种一致性要求的组合。

清华大学哲学系刘奋荣教授指出：“尽管这些规则在逻辑学和自然语言推理领域已被广泛接受，但大模型在实际应用中通常很难准确遵循。基于对这些现象的系统性分类研究，我们在理论构建以及方法论创新方面为领域发展做出了实质性贡献。”

如何获取更多高质量的逻辑样本？

当前大模型预训练和微调过程中存在一个根本性的方法论挑战：训练数据主要采用自然语言形式，而逻辑推理本质上更依赖符号语言表达。

这一差异导致现有研究主要聚焦于如何将符号语言通过语义赋予转化为自然语言表述。具体而言，若要将逻辑推理能力融入大模型的训练过程，必须首先完成符号语言到自然语言的系统转换，才能将这些逻辑数据整合进训练集。

李昊轩的主要研究方向是因果推理研究，因果推理主要解决的问题是，两个变量相关并不代表它们之间存在因果关系。他举例说道：“比如在炎热的夏天，冰淇淋销量高，犯罪率也高，但不能说是因为冰淇淋卖得多导致犯罪率高，或者犯罪率高导致冰淇淋卖得多。”

这一研究视角揭示了大模型在逻辑推理中的一个典型缺陷：尽管模型可能从训练数据中习得 A→B 和 B→C 的独立关系，但当缺乏直接的 A→C 示例时，模型往往无法自动推导出这一逻辑必然结论。根据经典逻辑的传递性原理，A→B 且 B→C 必然蕴含 A→C，但现有大模型通常只能进行表面模式匹配，而无法真正理解和应用这种逻辑规则。

针对这一局限性，研究团队提出了两条互补的技术路线：其一是数据增强路径，通过将 A→C 等逻辑关系显式转化为自然语言文本并扩充训练数据；其二是能力增强路径，重点提升模型自身的逻辑推理能力，使其能够基于已有知识自主推导新结论。

将形式逻辑规则系统性地赋能大模型具有独特优势：即使在数据稀缺条件下，模型仍可通过逻辑推理获得可靠结论。刘奋荣对 DeepTech 表示：“逻辑学经过两千多年的发展已形成一套严谨的推理规则体系，这些规则能够确保从前提安全地推导出结论。将这些经过时间检验的逻辑规则和大模型相结合，有望显著提升其推理能力。”目前，这一创新方向已成为团队的重点攻关领域。

提升大模型能力面临一个关键的技术平衡：如何在有效提升模型逻辑推理能力的同时，又不过度增加模型的复杂性？

对此，李昊轩介绍了合作团队具备的双重优势，希望从根本上提升模型的逻辑认知能力：一方面，人工智能团队精通各类高效训练范式，能够实现精准的模型微调；另一方面，刘奋荣团队在自然语言与逻辑语言的相互转换方面积累深厚，擅长通过逻辑规则增强模型的推理能力。

在此基础上，他们创新性地提出基于自动定理证明器混合推理框架。具体来说，先将自然语言问题向形式化符号表示转化，再基于自动定理证明器实现逻辑推导，最后把形式化推理结果再次转换回自然语言输出。

该系统智能决策性体现在，如果形式化转换完全一致的情况，会直接采用定理证明器 100% 准确的结果；而如果存在转换差异的情况，则会通过启动多数投票机制为结果提供可靠性保障。这样的设计将自动定理证明器的严格逻辑推理优势和大模型的自然语言处理特长“强强结合”。结果显示，这种混合方法可以显著将大模型在复杂逻辑任务中的表现提升。

审稿人认为，这项研究为领域提供了深刻的见解，并指出其所探讨的方向是“非常热门和重要的研究领域”。总体来说，该研究为提升大模型逻辑推理能力的提供了一种新的技术路径，与此同时，也为可信 AI 系统的构建提供了新思路，有望应用于医疗诊断、法律推理等领域。

参考资料：

1.https://arxiv.org/abs/2502.15652

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.