网易首页 > 网易号 > 正文 申请入驻

如何让大模型更“聪明”?科学家揭示大模型逻辑推理的关键缺陷

0
分享至

近年来,尽管大模型在自然语言处理任务中表现出优异的性能,但一个不可忽视的问题是,其逻辑推理能力仍存在显著不足,严重限制了其在需要严谨推理的真实场景中的应用价值。

典型的表现是,模型可能同时输出相互矛盾的结论,例如同时肯定“喜鹊是鸟”和“喜鹊没有翅膀”。

近期,由北京大学 、清华大学、荷兰阿姆斯特丹⼤学、美国卡内基梅隆⼤学和阿联酋穆罕默德·本·扎耶德人工智能大学组成的联合团队全面调研了大模型在逻辑推理方面的能力,总结了其在逻辑问答(Logical question answering)和逻辑一致性(Logical consistency)方面的挑战。

基于这些发现,研究人员提出了多种具有针对性的改进方案,并规划了未来研究的重点方向,为提升大模型在复杂逻辑场景下的推理能力提供了重要参考。

日前,相关论文以《赋能大语言模型的逻辑推理能力:一项全面综述》(Empowering LLMs with Logical Reasoning: A Comprehensive Survey)为题发表在预印本网站arXiv[1],并被国际人工智能联合会议 2025(IJCAI,International Joint Conference on Artificial Intelligence)的综述论文赛道(Survey & Tutorial)接收(中稿率 19.6%)。阿姆斯特丹大学博士生成凤祥(清华大学刘奋荣教授团队硕士毕业生)是第一作者,北京大学助理教授李昊轩担任通讯作者。

大模型逻辑推理的挑战:逻辑问答与逻辑一致性

逻辑学解决问题的核心是,在给定一组约束条件的前提下,通过严谨的推理过程判断某个命题或结论的正确性。这一特性使其在运筹管理、决策制定等实际应用场景中具有重要价值:当面临资源限制、时间冲突等现实约束时,可以借助逻辑推理来评估决策的有效性,或从可行解空间中推导出最优方案。

基于这一理论框架,该综述论文创新性地将大模型面临的逻辑挑战系统性地划分为两大类别——逻辑问答能力和逻辑一致性问题,并进一步细分为基于求解器、基于提示、预训练与微调等具体方法。

在逻辑问答方面,主要挑战体现在处理复杂推理任务时的性能局限。例如,当需要基于上百个前提条件进行结论有效性判断时,大模型在演绎推理、归纳推理或溯因推理等不同推理模式中均可能出现错误。

在逻辑一致性方面,尽管大模型对单一简单问题的回答准确率较高,但在处理相关联问题时却可能产生自相矛盾的输出。比如著名的 Macaw 问答模型,当提问“喜鹊是鸟吗”?大模型回答“是”,然后继续提问“鸟有翅膀吗”?其回答“有”,但再问它“喜鹊有翅膀吗”?它却给出了与之前相矛盾的答案——“没有”。

李昊轩对 DeepTech 解释说道:“因为大模型的预训练语料很多是主观观点,而非客观事实,所以会出现否定一致性(Negation consistency)问题。”

该研究进一步指出,在逻辑学中若干经典推理范式对大模型提出了更高要求。首先是蕴涵一致性(Implication consistency),要求模型能够正确处理“若 P 则 Q”的条件推理;其次是传递一致性(Transitivity Consistency),即保持 P→Q→R 推导链条的连贯性。

特别值得注意的是事实一致性(Fact consistency)问题:当将通用大模型应用于医学或工业设计等垂直领域时,往往需要引入领域特定的知识库(如医学常识数据集)。这时候,模型需要精准实现事实核查任务,通过把输出和知识库中的权威事实比对,来避免物理规律冲突或事实性错误,以解决模型认知和专业知识的不一致性问题。

更高阶的挑战来自复合一致性(Compositional consistency):理想的大模型除了实现单一逻辑维度的准确,还需要协调处理多种一致性要求的组合。

清华大学哲学系刘奋荣教授指出:“尽管这些规则在逻辑学和自然语言推理领域已被广泛接受,但大模型在实际应用中通常很难准确遵循。基于对这些现象的系统性分类研究,我们在理论构建以及方法论创新方面为领域发展做出了实质性贡献。”

如何获取更多高质量的逻辑样本?

当前大模型预训练和微调过程中存在一个根本性的方法论挑战:训练数据主要采用自然语言形式,而逻辑推理本质上更依赖符号语言表达。

这一差异导致现有研究主要聚焦于如何将符号语言通过语义赋予转化为自然语言表述。具体而言,若要将逻辑推理能力融入大模型的训练过程,必须首先完成符号语言到自然语言的系统转换,才能将这些逻辑数据整合进训练集。

李昊轩的主要研究方向是因果推理研究,因果推理主要解决的问题是,两个变量相关并不代表它们之间存在因果关系。他举例说道:“比如在炎热的夏天,冰淇淋销量高,犯罪率也高,但不能说是因为冰淇淋卖得多导致犯罪率高,或者犯罪率高导致冰淇淋卖得多。”

这一研究视角揭示了大模型在逻辑推理中的一个典型缺陷:尽管模型可能从训练数据中习得 A→B 和 B→C 的独立关系,但当缺乏直接的 A→C 示例时,模型往往无法自动推导出这一逻辑必然结论。根据经典逻辑的传递性原理,A→B 且 B→C 必然蕴含 A→C,但现有大模型通常只能进行表面模式匹配,而无法真正理解和应用这种逻辑规则。

针对这一局限性,研究团队提出了两条互补的技术路线:其一是数据增强路径,通过将 A→C 等逻辑关系显式转化为自然语言文本并扩充训练数据;其二是能力增强路径,重点提升模型自身的逻辑推理能力,使其能够基于已有知识自主推导新结论。

将形式逻辑规则系统性地赋能大模型具有独特优势:即使在数据稀缺条件下,模型仍可通过逻辑推理获得可靠结论。刘奋荣对 DeepTech 表示:“逻辑学经过两千多年的发展已形成一套严谨的推理规则体系,这些规则能够确保从前提安全地推导出结论。将这些经过时间检验的逻辑规则和大模型相结合,有望显著提升其推理能力。”目前,这一创新方向已成为团队的重点攻关领域。

提升大模型能力面临一个关键的技术平衡:如何在有效提升模型逻辑推理能力的同时,又不过度增加模型的复杂性?

对此,李昊轩介绍了合作团队具备的双重优势,希望从根本上提升模型的逻辑认知能力:一方面,人工智能团队精通各类高效训练范式,能够实现精准的模型微调;另一方面,刘奋荣团队在自然语言与逻辑语言的相互转换方面积累深厚,擅长通过逻辑规则增强模型的推理能力。

在此基础上,他们创新性地提出基于自动定理证明器混合推理框架。具体来说,先将自然语言问题向形式化符号表示转化,再基于自动定理证明器实现逻辑推导,最后把形式化推理结果再次转换回自然语言输出。

该系统智能决策性体现在,如果形式化转换完全一致的情况,会直接采用定理证明器 100% 准确的结果;而如果存在转换差异的情况,则会通过启动多数投票机制为结果提供可靠性保障。这样的设计将自动定理证明器的严格逻辑推理优势和大模型的自然语言处理特长“强强结合”。结果显示,这种混合方法可以显著将大模型在复杂逻辑任务中的表现提升。

审稿人认为,这项研究为领域提供了深刻的见解,并指出其所探讨的方向是“非常热门和重要的研究领域”。总体来说,该研究为提升大模型逻辑推理能力的提供了一种新的技术路径,与此同时,也为可信 AI 系统的构建提供了新思路,有望应用于医疗诊断、法律推理等领域。

参考资料:

1.https://arxiv.org/abs/2502.15652

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

学医后才知道,保护心血管最好的运动,不是快走慢跑,而是这个

垚垚分享健康
2026-03-26 13:09:39
奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

懂球帝
2026-03-26 11:24:21
巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

巴蒂:曾想成为大罗那样的前锋但我做不到;哈兰德让我很惊讶

懂球帝
2026-03-26 11:02:09
一路走好!中医大师黄贵华疑因心脏骤停去世,和张雪峰有相同习惯

一路走好!中医大师黄贵华疑因心脏骤停去世,和张雪峰有相同习惯

冷紫葉
2026-03-26 18:24:16
英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

潇湘晨报
2026-03-26 16:25:20
美军继续调兵,伊朗已在哈尔克岛布雷备战!鸽派将军们坚持打下去

美军继续调兵,伊朗已在哈尔克岛布雷备战!鸽派将军们坚持打下去

鹰眼Defence
2026-03-26 16:06:38
美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

美军第82空降师3000人出兵,危急时刻,伊朗特种兵亮剑56冲和FPV

沧海旅行家
2026-03-26 13:11:41
高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

高速停车区卫生间,满地手纸无从下脚;甘肃高速回应:是个待开发停车区,已打扫干净

大风新闻
2026-03-26 18:19:03
蛊惑人心 1:独狼瘸东

蛊惑人心 1:独狼瘸东

金昔说故事
2026-03-26 19:57:07
经济学家巴曙松被带走调查?港交所回应

经济学家巴曙松被带走调查?港交所回应

澎湃新闻
2026-03-25 20:01:16
60年前,金门战役里被俘的3000名我军将士,如今都怎么样了

60年前,金门战役里被俘的3000名我军将士,如今都怎么样了

老范谈史
2026-03-17 09:58:57
纪念张雪峰的三个理由

纪念张雪峰的三个理由

阿亮评论
2026-03-25 09:20:28
骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

骑士两大败因出炉,哈登赛季新高!阿特金森直言不讳,米切尔无奈

鱼崖大话篮球
2026-03-26 11:49:12
A股最惨股票!43个跌停从106元跌到0.07元,股民被连根拔起

A股最惨股票!43个跌停从106元跌到0.07元,股民被连根拔起

财经市界
2026-03-10 08:42:16
小米把这套系统藏了15年,今天终于拔了插头

小米把这套系统藏了15年,今天终于拔了插头

我是一个粉刷匠2
2026-03-26 10:29:50
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

魔都姐姐杂谈
2026-03-26 10:53:11
“14天12板”!000908,复牌后上演“地天板”

“14天12板”!000908,复牌后上演“地天板”

大众证券报
2026-03-26 17:58:54
浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

浅色系穿搭!这个组合让你在健身房瞬间吸引眼球!

独角showing
2025-12-31 21:08:57
男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

念洲
2026-03-26 13:12:32
2026-03-26 20:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
亲子
家居
艺术

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

这就是引导型老师的厉害吗?

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版