网易首页 > 网易号 > 正文 申请入驻

北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述

0
分享至

当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性,提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。

为推进大语言模型的逻辑推理能力研究,来自北大、清华、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)、MBZUAI 等 5 所高校的研究人员全面调研了该领域最前沿的研究方法和评测基准,联合发布了调研综述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,针对两个关键科学问题 ——逻辑问答和逻辑一致性,对现有方法进行归纳整理并探讨了未来研究方向。

该综述论文已被 IJCAI 2025 Survey Track 接收,并且作者团队将于 IJCAI 2025 现场围绕同一主题进行 Tutorial 演讲,全面探讨该研究领域的挑战、方法与机遇。

  • 论文标题:Empowering LLMs with Logical Reasoning: A Comprehensive Survey
  • 论文链接:https://arxiv.org/abs/2502.15652

全文概要

大语言模型(LLMs)虽然在很多自然语言任务中取得了显著成就,但最新研究表明其逻辑推理能力仍存在显著缺陷。本文将大模型逻辑推理困境主要归纳为两个方面:

  • 逻辑问答:LLMs 在给定前提和约束条件下进行演绎、归纳或溯因等复杂推理时,往往难以生成正确答案。例如,前提为 “金属导电;绝缘体不导电;如果某物是由铁制成的,那么它是金属;钉子是由铁制成的”,问题为 “下列断言是真、假还是无法判断:钉子不能导电”。为了正确回答这个问题,大语言模型需要自我总结出逻辑推理链“钉子→由铁制成→金属→导电”,从而得出该断言实际为 “假” 的结论。
  • 逻辑一致性:LLMs 在不同问题间容易产生自相矛盾的回答。例如,Macaw 问答模型对 "喜鹊是鸟吗?" 和 "鸟有翅膀吗?" 均回答 "是",但对 "喜鹊有翅膀吗?" 给出否定答案。

为推进该领域研究,我们系统梳理了最前沿的技术方法并建立了对应的分类体系。具体而言,对于逻辑问答,现有方法可根据其技术路线分为基于外部求解器、提示工程、预训练和微调等类别。对于逻辑一致性,我们探讨了常见的逻辑一致性的概念,包括否定一致性、蕴涵一致性、传递一致性、事实一致性及其组合形式,并针对每种逻辑一致性归纳整理了其对应的技术手段。

此外,我们总结了常用基准数据集和评估指标,并探讨了若干具有前景的研究方向,例如扩展至模态逻辑以处理不确定性,以及开发能同时满足多种逻辑一致性的高效算法等。

具体的文章结构如下图。

图 1:大模型逻辑推理综述分类体系,包含逻辑问答和逻辑一致性两个关键科学问题

大模型逻辑推理困境的两个方面

尽管大语言模型在文本生成、分类和翻译等广泛的自然语言任务中展现出了卓越的性能,大语言模型在复杂逻辑推理上仍然面临着重大挑战。这是由于大语言模型的预训练语料库主要由人类撰写的文本组成,这些文本缺乏高质量的逻辑推理样本(如演绎证明),且通过下一词元预测(next token prediction)掩码语言建模(masked language modeling)等任务来学习语法、语义和世界知识,并不能确保大语言模型具备逻辑推理能力。以上局限性会导致大语言模型在需要逻辑推理能力在以下两个任务表现不佳。

逻辑问答

大语言模型在逻辑问答中往往无法生成正确答案,其要求大语言模型在给定一系列前提和推理规则的情况下,进行复杂的演绎、归纳或溯因推理。具体而言,这些逻辑问题大致可分为两类:

  • 判断能否从给定信息中推导出某个断言,即输出该断言的真值:真、假或无法判断。
  • 从多个选项中找出所有不违背给定前提和约束条件的选项。

令人惊讶的是,在逻辑问题数据集 FOLIO 上,LLaMA 13B 参数模型在 8-shot 下的准确率仅为 33.63%,这只比从真、假和无法判断中随机猜测对应的准确率 33.33% 略高一点。这极大地限制了大语言模型在智能问答、自主决策等场景的实际应用。

逻辑一致性

大语言模型在推理复杂问题的过程中回答不同问题时,容易产生自相矛盾的回答,或与知识库 / 逻辑规则相矛盾,我们称其违反了逻辑一致性。

需要注意的是,逻辑一致性的形式可以是多样的。例如,LLaMa-2 70B 参数模型对 “信天翁是一种生物吗?” 和 “信天翁不是一种生物吗?” 这两个问题都回答 “真”,这违反了逻辑的矛盾律。又如,Macaw 问答大模型对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 这两个问题都回答 “是”,但对 “喜鹊有翅膀吗?” 却回答 “否”,这不符合三段论推理规则

许多研究表明,仅在大型问答数据集上进行训练并不能确保大语言模型的逻辑一致性。这些相互矛盾的回答引发了对大语言模型可靠性可信度的担忧,尤其限制了其在高风险场景中的实际部署,如医疗诊断、法律咨询、工业流程控制等场景。

我们可以将逻辑问答和逻辑一致性视为大语言模型逻辑推理能力的一体两面。接下来我们将对这两个方面的最新研究进展进行归纳总结。

提升逻辑问答能力的方法

为了更好地理解大语言模型逻辑推理能力的边界,探索更有效的技术方法,研究者们开发了许多相关的测评任务与基准数据集,用于评估大模型在逻辑问答任务的性能。在此基础上,许多研究探索了增强大语言模型逻辑推理能力的方法,这些方法可以大致分为三类:基于外部求解器的方法、基于提示的方法,和预训练与微调方法。下面进行具体介绍。

1. 基于外部求解器的方法

总体思路是将自然语言(NL)表达的逻辑问题翻译为符号语言(SL)表达式,然后通过外部求解器进行逻辑推理求解,最后基于多数投票等集成算法生成最终答案,如图 2 所示。

图 2:基于外部求解器方法提升大模型逻辑问答能力

2. 基于提示的方法

一类思路是通过设计合理的提示词,让 LLMs 在回答问题时显式地构造逻辑推理链;另一类思路是通过设计提示实现NL 与 SL 的表达转换,从而增加大模型的逻辑推理能力。

3. 预训练与微调方法

考虑到预训练语料库中缺乏高质量的逻辑多步推理或证明样本,预训练和微调方法通过纳入演绎证明或包含逻辑推理过程的自然语言例子来增强数据集,并基于该数据集对大模型进行预训练或微调

提升逻辑一致性的方法

开发可靠的大语言模型并确保其安全部署变得越来越重要,尤其是在它们被用作知识来源时。在可信性中,逻辑一致性至关重要:具有逻辑一致性的大模型可以有效避免不同问题的回答之间产生矛盾,从而减少大模型幻觉,增强终端用户在实践中对大模型可靠性的信心。

逻辑一致性要求大模型在推理复杂问题的过程中回答不同问题时,不与自身回答、知识库或逻辑规则相矛盾。确保大模型能够在不自相矛盾的情况下进行推理,也被称为自洽性(self-consistency)。现有大量研究表明,仅通过在大型数据集上进行训练无法保证其回答满足逻辑一致性。

我们根据一个、两个和多个命题之间应具备的逻辑关系,对各种逻辑一致性进行分类,并探讨了增强大模型逻辑一致性的不同方法及其测评指标。

1. 否定一致性(Negation Consistency)

例如,Macaw 问答模型对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 这两个问题都回答 “是”,但对 “喜鹊有翅膀吗?” 却回答 “否”。根据传递性规则,前两个肯定答案可以推出 “喜鹊有翅膀”,这与对最后一个问题回答 “否” 是相互矛盾的。

4. 事实一致性(Fact consistency)

事实一致性指的是大模型生成的回答或推理结果与给定知识库(KB)的对齐程度。在事实核查(fact-checking)任务中,通过将模型的回答与可靠的知识库进行比较,来评估模型的回答是否符合知识库中给定的事实。

5. 复合一致性(Compositional consistency)

复合一致性要求大模型不仅满足以上单个逻辑一致性,还应该在组合以上简单逻辑一致性时对复合逻辑规则仍具有一致性。具体而言,当模型需要通过逻辑运算符(如蕴涵、合取等)将多种逻辑关系组合成复杂的推理链时,应确保对每个推导步骤都符合逻辑规则,并使最终结论自洽且逻辑正确。

针对以上每种逻辑一致性,我们都分别探讨了其提升方法和评测基准。下图展示了一类通用的提升大模型回答的逻辑一致性的方法框架,首先对每个问题生成多个候选回答,然后对不同问题的回答计算逻辑一致性的违背程度,最后优化求解为每个问题选择一个最优答案使逻辑一致性的违背程度降到最低。更多细节请参见我们的原文。

图 3:一类通用的提升大模型回答的逻辑一致性的方法框架

未来研究方向

模态逻辑推理能力:现有方法多局限于命题逻辑与一阶逻辑,未来可考虑将大语言模型的逻辑推理能力扩展至模态逻辑以处理不确定性命题。

高阶逻辑推理:由一阶逻辑扩展得到的高阶逻辑强调对属性(即谓词)进行量化,未来可考虑训练大模型的高阶逻辑推理能力以处理更复杂的推理问题。

满足多种逻辑一致性的高效算法:目前增强逻辑一致性的方法仍存在解决的逻辑一致性单一和计算复杂度过高等问题。因此,开发能同时让大模型满足多种逻辑一致性的高效方法至关重要。

结语

本综述系统梳理了大语言模型逻辑推理能力的研究现状。尽管在很多自然语言任务中取得了显著进展,但大语言模型的逻辑推理能力仍面临重大挑战,尤其在逻辑问答和逻辑一致性两个方面。通过建立完整的分类体系,我们对前沿研究方法进行了系统归纳和概述,并整理了用于该领域常用的公开基准数据集与评估指标,探讨了未来的重要研究方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梅根复活节晒娃效果出人意料,莉莉贝特阿奇的三个疑点被揪住不放

梅根复活节晒娃效果出人意料,莉莉贝特阿奇的三个疑点被揪住不放

老吴教育课堂
2026-04-10 18:20:07
国家卫健委主任给了5条“防癌建议”,太接地气了,今天就能做!

国家卫健委主任给了5条“防癌建议”,太接地气了,今天就能做!

路医生健康科普
2026-04-08 21:20:03
副县长出轨致下属怀孕还吃空饷依法应辞退!不是降为正科级了事!

副县长出轨致下属怀孕还吃空饷依法应辞退!不是降为正科级了事!

一支破笔半支烟
2026-04-09 14:52:22
啥是啤酒花浸膏?为何国产啤酒都爱添加,但出口时却用天然啤酒花

啥是啤酒花浸膏?为何国产啤酒都爱添加,但出口时却用天然啤酒花

涛哥美食汇
2026-04-08 09:09:45
1931年特科科长奉命杀顾顺章全家后,要求归队,周恩来说不动如山

1931年特科科长奉命杀顾顺章全家后,要求归队,周恩来说不动如山

干史人
2024-04-28 08:00:10
学医后才知道,心衰最危险信号,不是气喘,而是频繁出现 4 种异常

学医后才知道,心衰最危险信号,不是气喘,而是频繁出现 4 种异常

今日养生之道
2026-04-04 13:45:35
大瓜!XX律师事务所的瓜

大瓜!XX律师事务所的瓜

新浪财经
2026-04-10 11:39:21
邮储银行,悄悄换了赛道

邮储银行,悄悄换了赛道

牛刀财经
2026-04-10 10:42:36
杜兰特喷狄龙垃圾话曝光:我生涯最差的赛季 都比你最好的赛季强

杜兰特喷狄龙垃圾话曝光:我生涯最差的赛季 都比你最好的赛季强

罗说NBA
2026-04-09 06:07:44
普京智囊做出预言:下1个爆发战争的地方不是台海,也不是南海

普京智囊做出预言:下1个爆发战争的地方不是台海,也不是南海

悦心知足
2026-03-12 15:26:09
你见过哪些婚前作死行为?网友:新娘不出声,视为默认、赞同

你见过哪些婚前作死行为?网友:新娘不出声,视为默认、赞同

解读热点事件
2026-03-13 00:05:08
被“消耗”的小酒窝,才9岁就像个大人了

被“消耗”的小酒窝,才9岁就像个大人了

木子爱娱乐大号
2026-04-10 11:56:22
追觅俞浩工作群发飙:把宇树所有客户抢过来,2亿招首席科学家

追觅俞浩工作群发飙:把宇树所有客户抢过来,2亿招首席科学家

三言科技
2026-04-10 14:05:08
撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

撕毁合同倒向日本,拒赔中国361亿违约金,这个国家如今怎么样了

涵豆说娱
2026-04-08 20:05:39
扩产12倍:美军计划大幅度增加战斧导弹产量

扩产12倍:美军计划大幅度增加战斧导弹产量

观察者网
2026-04-08 21:14:04
交管12123大升级!当天违章当天提醒,4次免罚是真是假?一次讲透

交管12123大升级!当天违章当天提醒,4次免罚是真是假?一次讲透

小鹿姐姐情感说
2026-04-11 00:24:14
刚刚,ChatGPT推出100美元套餐,硬刚Claude

刚刚,ChatGPT推出100美元套餐,硬刚Claude

AppSo
2026-04-10 06:09:35
快船两笔交易全亏?俩水货高端局现原形,对比哈登祖巴茨太扎心

快船两笔交易全亏?俩水货高端局现原形,对比哈登祖巴茨太扎心

漫川舟船
2026-04-10 12:07:46
特朗普临时熄火,美元神话瞬间破防,不到24小时,美债遭大量抛售

特朗普临时熄火,美元神话瞬间破防,不到24小时,美债遭大量抛售

傲傲讲历史
2026-04-10 07:56:08
女儿在家啃老十年选择自杀,母亲整理遗物,查看存折余额后彻底崩溃

女儿在家啃老十年选择自杀,母亲整理遗物,查看存折余额后彻底崩溃

荔枝人物记
2025-03-20 17:49:15
2026-04-11 03:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12729文章数 142621关注度
往期回顾 全部

教育要闻

既不惩罚也不骄纵的智慧

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

艺术
时尚
旅游
手机
家居

艺术要闻

深圳顶级海景地段,为啥留下一排“幽灵别墅群”?真相成谜!

今日热点:陈添祥长文道歉;夏克立曾给前经纪人传上厕所照片……

旅游要闻

周末来这里!足不出沪体验首尔韩屋风情

手机要闻

OPPO Find X9s Pro配色公布,全面登陆“锁屏岛”

家居要闻

复古风格 自然简约

无障碍浏览 进入关怀版