网易首页 > 网易号 > 正文 申请入驻

北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述

0
分享至

当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性,提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。

为推进大语言模型的逻辑推理能力研究,来自北大、清华、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)、MBZUAI 等 5 所高校的研究人员全面调研了该领域最前沿的研究方法和评测基准,联合发布了调研综述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,针对两个关键科学问题 ——逻辑问答和逻辑一致性,对现有方法进行归纳整理并探讨了未来研究方向。

该综述论文已被 IJCAI 2025 Survey Track 接收,并且作者团队将于 IJCAI 2025 现场围绕同一主题进行 Tutorial 演讲,全面探讨该研究领域的挑战、方法与机遇。

  • 论文标题:Empowering LLMs with Logical Reasoning: A Comprehensive Survey
  • 论文链接:https://arxiv.org/abs/2502.15652

全文概要

大语言模型(LLMs)虽然在很多自然语言任务中取得了显著成就,但最新研究表明其逻辑推理能力仍存在显著缺陷。本文将大模型逻辑推理困境主要归纳为两个方面:

  • 逻辑问答:LLMs 在给定前提和约束条件下进行演绎、归纳或溯因等复杂推理时,往往难以生成正确答案。例如,前提为 “金属导电;绝缘体不导电;如果某物是由铁制成的,那么它是金属;钉子是由铁制成的”,问题为 “下列断言是真、假还是无法判断:钉子不能导电”。为了正确回答这个问题,大语言模型需要自我总结出逻辑推理链“钉子→由铁制成→金属→导电”,从而得出该断言实际为 “假” 的结论。
  • 逻辑一致性:LLMs 在不同问题间容易产生自相矛盾的回答。例如,Macaw 问答模型对 "喜鹊是鸟吗?" 和 "鸟有翅膀吗?" 均回答 "是",但对 "喜鹊有翅膀吗?" 给出否定答案。

为推进该领域研究,我们系统梳理了最前沿的技术方法并建立了对应的分类体系。具体而言,对于逻辑问答,现有方法可根据其技术路线分为基于外部求解器、提示工程、预训练和微调等类别。对于逻辑一致性,我们探讨了常见的逻辑一致性的概念,包括否定一致性、蕴涵一致性、传递一致性、事实一致性及其组合形式,并针对每种逻辑一致性归纳整理了其对应的技术手段。

此外,我们总结了常用基准数据集和评估指标,并探讨了若干具有前景的研究方向,例如扩展至模态逻辑以处理不确定性,以及开发能同时满足多种逻辑一致性的高效算法等。

具体的文章结构如下图。

图 1:大模型逻辑推理综述分类体系,包含逻辑问答和逻辑一致性两个关键科学问题

大模型逻辑推理困境的两个方面

尽管大语言模型在文本生成、分类和翻译等广泛的自然语言任务中展现出了卓越的性能,大语言模型在复杂逻辑推理上仍然面临着重大挑战。这是由于大语言模型的预训练语料库主要由人类撰写的文本组成,这些文本缺乏高质量的逻辑推理样本(如演绎证明),且通过下一词元预测(next token prediction)掩码语言建模(masked language modeling)等任务来学习语法、语义和世界知识,并不能确保大语言模型具备逻辑推理能力。以上局限性会导致大语言模型在需要逻辑推理能力在以下两个任务表现不佳。

逻辑问答

大语言模型在逻辑问答中往往无法生成正确答案,其要求大语言模型在给定一系列前提和推理规则的情况下,进行复杂的演绎、归纳或溯因推理。具体而言,这些逻辑问题大致可分为两类:

  • 判断能否从给定信息中推导出某个断言,即输出该断言的真值:真、假或无法判断。
  • 从多个选项中找出所有不违背给定前提和约束条件的选项。

令人惊讶的是,在逻辑问题数据集 FOLIO 上,LLaMA 13B 参数模型在 8-shot 下的准确率仅为 33.63%,这只比从真、假和无法判断中随机猜测对应的准确率 33.33% 略高一点。这极大地限制了大语言模型在智能问答、自主决策等场景的实际应用。

逻辑一致性

大语言模型在推理复杂问题的过程中回答不同问题时,容易产生自相矛盾的回答,或与知识库 / 逻辑规则相矛盾,我们称其违反了逻辑一致性。

需要注意的是,逻辑一致性的形式可以是多样的。例如,LLaMa-2 70B 参数模型对 “信天翁是一种生物吗?” 和 “信天翁不是一种生物吗?” 这两个问题都回答 “真”,这违反了逻辑的矛盾律。又如,Macaw 问答大模型对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 这两个问题都回答 “是”,但对 “喜鹊有翅膀吗?” 却回答 “否”,这不符合三段论推理规则

许多研究表明,仅在大型问答数据集上进行训练并不能确保大语言模型的逻辑一致性。这些相互矛盾的回答引发了对大语言模型可靠性可信度的担忧,尤其限制了其在高风险场景中的实际部署,如医疗诊断、法律咨询、工业流程控制等场景。

我们可以将逻辑问答和逻辑一致性视为大语言模型逻辑推理能力的一体两面。接下来我们将对这两个方面的最新研究进展进行归纳总结。

提升逻辑问答能力的方法

为了更好地理解大语言模型逻辑推理能力的边界,探索更有效的技术方法,研究者们开发了许多相关的测评任务与基准数据集,用于评估大模型在逻辑问答任务的性能。在此基础上,许多研究探索了增强大语言模型逻辑推理能力的方法,这些方法可以大致分为三类:基于外部求解器的方法、基于提示的方法,和预训练与微调方法。下面进行具体介绍。

1. 基于外部求解器的方法

总体思路是将自然语言(NL)表达的逻辑问题翻译为符号语言(SL)表达式,然后通过外部求解器进行逻辑推理求解,最后基于多数投票等集成算法生成最终答案,如图 2 所示。

图 2:基于外部求解器方法提升大模型逻辑问答能力

2. 基于提示的方法

一类思路是通过设计合理的提示词,让 LLMs 在回答问题时显式地构造逻辑推理链;另一类思路是通过设计提示实现NL 与 SL 的表达转换,从而增加大模型的逻辑推理能力。

3. 预训练与微调方法

考虑到预训练语料库中缺乏高质量的逻辑多步推理或证明样本,预训练和微调方法通过纳入演绎证明或包含逻辑推理过程的自然语言例子来增强数据集,并基于该数据集对大模型进行预训练或微调

提升逻辑一致性的方法

开发可靠的大语言模型并确保其安全部署变得越来越重要,尤其是在它们被用作知识来源时。在可信性中,逻辑一致性至关重要:具有逻辑一致性的大模型可以有效避免不同问题的回答之间产生矛盾,从而减少大模型幻觉,增强终端用户在实践中对大模型可靠性的信心。

逻辑一致性要求大模型在推理复杂问题的过程中回答不同问题时,不与自身回答、知识库或逻辑规则相矛盾。确保大模型能够在不自相矛盾的情况下进行推理,也被称为自洽性(self-consistency)。现有大量研究表明,仅通过在大型数据集上进行训练无法保证其回答满足逻辑一致性。

我们根据一个、两个和多个命题之间应具备的逻辑关系,对各种逻辑一致性进行分类,并探讨了增强大模型逻辑一致性的不同方法及其测评指标。

1. 否定一致性(Negation Consistency)

例如,Macaw 问答模型对 “喜鹊是鸟吗?” 和 “鸟有翅膀吗?” 这两个问题都回答 “是”,但对 “喜鹊有翅膀吗?” 却回答 “否”。根据传递性规则,前两个肯定答案可以推出 “喜鹊有翅膀”,这与对最后一个问题回答 “否” 是相互矛盾的。

4. 事实一致性(Fact consistency)

事实一致性指的是大模型生成的回答或推理结果与给定知识库(KB)的对齐程度。在事实核查(fact-checking)任务中,通过将模型的回答与可靠的知识库进行比较,来评估模型的回答是否符合知识库中给定的事实。

5. 复合一致性(Compositional consistency)

复合一致性要求大模型不仅满足以上单个逻辑一致性,还应该在组合以上简单逻辑一致性时对复合逻辑规则仍具有一致性。具体而言,当模型需要通过逻辑运算符(如蕴涵、合取等)将多种逻辑关系组合成复杂的推理链时,应确保对每个推导步骤都符合逻辑规则,并使最终结论自洽且逻辑正确。

针对以上每种逻辑一致性,我们都分别探讨了其提升方法和评测基准。下图展示了一类通用的提升大模型回答的逻辑一致性的方法框架,首先对每个问题生成多个候选回答,然后对不同问题的回答计算逻辑一致性的违背程度,最后优化求解为每个问题选择一个最优答案使逻辑一致性的违背程度降到最低。更多细节请参见我们的原文。

图 3:一类通用的提升大模型回答的逻辑一致性的方法框架

未来研究方向

模态逻辑推理能力:现有方法多局限于命题逻辑与一阶逻辑,未来可考虑将大语言模型的逻辑推理能力扩展至模态逻辑以处理不确定性命题。

高阶逻辑推理:由一阶逻辑扩展得到的高阶逻辑强调对属性(即谓词)进行量化,未来可考虑训练大模型的高阶逻辑推理能力以处理更复杂的推理问题。

满足多种逻辑一致性的高效算法:目前增强逻辑一致性的方法仍存在解决的逻辑一致性单一和计算复杂度过高等问题。因此,开发能同时让大模型满足多种逻辑一致性的高效方法至关重要。

结语

本综述系统梳理了大语言模型逻辑推理能力的研究现状。尽管在很多自然语言任务中取得了显著进展,但大语言模型的逻辑推理能力仍面临重大挑战,尤其在逻辑问答和逻辑一致性两个方面。通过建立完整的分类体系,我们对前沿研究方法进行了系统归纳和概述,并整理了用于该领域常用的公开基准数据集与评估指标,探讨了未来的重要研究方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皮蛋被发现!医生研究发现:吃得越多,糖尿病患者血管或越干净

皮蛋被发现!医生研究发现:吃得越多,糖尿病患者血管或越干净

新时代的两性情感
2026-06-16 16:29:37
快讯!乌克兰突然宣布了!

快讯!乌克兰突然宣布了!

故事终将光明磊落
2026-07-02 13:06:27
为什么华文小报的“权威”站台需警惕?

为什么华文小报的“权威”站台需警惕?

烽火瞭望者
2026-07-02 06:39:07
警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

警惕:上了年纪再过性生活,最怕这2点!保护男性精气,做好4点

健康之光
2026-07-02 19:40:04
美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

一种观点
2026-06-29 15:21:59
凡是.......,都是汉奸

凡是.......,都是汉奸

西楼饮月
2026-07-02 22:25:34
“只要大陆敢打,我就敢送”,他公开宣称

“只要大陆敢打,我就敢送”,他公开宣称

安安说
2026-05-24 15:20:17
前勇士弃将成湖人外线答案?库明加或低价加盟辅佐东契奇

前勇士弃将成湖人外线答案?库明加或低价加盟辅佐东契奇

竞技风云录
2026-07-03 01:25:50
黄一鸣女儿闪闪签约MCN,担任形象大使!直播被封禁,或转战线下

黄一鸣女儿闪闪签约MCN,担任形象大使!直播被封禁,或转战线下

露珠聊影视
2026-07-02 19:02:37
我惊呆了!网传复旦经管院某专业硕士毕业生就业率仅40%…

我惊呆了!网传复旦经管院某专业硕士毕业生就业率仅40%…

慧翔百科
2026-06-30 11:36:26
飞速出手!詹姆斯前脚刚走4个小时,快船立马就把伦纳德给卖了!

飞速出手!詹姆斯前脚刚走4个小时,快船立马就把伦纳德给卖了!

梦忆之浅
2026-07-02 08:41:54
美退役军官警告:若泽连斯基进攻白俄罗斯,乌克兰将在30天内投降

美退役军官警告:若泽连斯基进攻白俄罗斯,乌克兰将在30天内投降

莫地方
2026-07-03 00:06:47
天安门城楼上先后挂过12个人的画像,奇怪的是,有人只挂了一天

天安门城楼上先后挂过12个人的画像,奇怪的是,有人只挂了一天

抽象派大师
2026-07-03 02:07:07
豪门私生子迎来大结局?王思聪被蹭了几年流量,终于解脱了

豪门私生子迎来大结局?王思聪被蹭了几年流量,终于解脱了

何氽简史
2026-07-02 16:10:52
克里米亚的俄罗斯人大规模出逃,车队排了十公里!

克里米亚的俄罗斯人大规模出逃,车队排了十公里!

知兵
2026-07-01 22:01:28
法国队内讧!世界杯天才当众无视主教练,德尚脸都黑了!

法国队内讧!世界杯天才当众无视主教练,德尚脸都黑了!

奶盖熊本熊
2026-07-02 01:13:00
中老年人同居一定要记住:没有生理上的需求,就不要再去搭伙了?

中老年人同居一定要记住:没有生理上的需求,就不要再去搭伙了?

游戏收藏指南
2026-06-05 17:44:29
1亿转会背后:纽卡的规则困局

1亿转会背后:纽卡的规则困局

硬核玩家2哈
2026-07-03 03:22:31
爵士在将沃克·凯斯勒交易至湖人后,随即签下了一位前湖人中锋

爵士在将沃克·凯斯勒交易至湖人后,随即签下了一位前湖人中锋

好火子
2026-07-02 05:51:01
今年最热时间变了!全年高温顶峰不在七月初,别再按老办法防暑

今年最热时间变了!全年高温顶峰不在七月初,别再按老办法防暑

荆医生科普
2026-07-02 15:53:16
2026-07-03 03:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13419文章数 142686关注度
往期回顾 全部

教育要闻

大名县第三中学2026年招生简章

头条要闻

商户在西安赛格商场坠亡 好友:他曾变卖门店发工资

头条要闻

商户在西安赛格商场坠亡 好友:他曾变卖门店发工资

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

科技要闻

马斯克不承认,但SpaceX就该造AI手机

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

本地
房产
艺术
数码
公开课

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

艺术要闻

一念天堂,一念地狱:你的心是什么样,世界就什么样

数码要闻

卓威同步发布XQ2766X显示器:27" QHD 360Hz TN

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版