网易首页 > 网易号 > 正文 申请入驻

比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】来自中德的研究团队发布最新成果,给大模型外挂「逻辑脑」:用答案集编程当慢思考,LLM当快直觉,空间推理准确率一口气提高四成多。这套会自我修正的「神经-符号」双系统,让AI既能说清每一步逻辑,又能跨任务迁移,向更可靠的通用推理迈出关键一步。

大语言模型(LLMs)已在文本生成、代码编写乃至多模态任务中展现出惊人的能力,但在涉及严谨逻辑与物理的空间推理任务上,它们仍显得力不从心。

比如,当模型需要理解多个物体之间的相对位置关系,并在复杂语境下进行多步骤推理时,往往容易出现「逻辑断裂」:可能在中间步骤中虚构错误事实,或偏离目标,最终导致答案不可靠。

这一问题在空间推理任务中尤为突出。空间推理要求模型能像人一样,推演出「桌子在椅子左边,灯在桌子上方,因此灯也在椅子左边」这样的复杂链条。

然而,尽管「思维链(Chain-of-Thought)」等提示工程方法在一定程度上提升了模型的推理表现,但在多步骤、动态变化的场景中,它们依旧难以保证逻辑一致性。

为了弥合神经网络的模式识别能力与符号系统严谨逻辑之间的鸿沟,来自德国图宾根大学、斯图加特大学(王荣)和同济大学(孙坤)的科研人员合作研究发表在著名的人工智能和深度学期刊《神经网络》(Neural Networks)上,该研究提出了一种创新的神经-符号(neural-symbolic)框架。


论文链接:

https://www.sciencedirect.com/science/article/pii/S0893608025009025

该框架通过一个精巧的自动迭代反馈循环(而非手动),成功地将大语言模型与一种名为「答案集编程」(Answer Set Programming, ASP)的声明式逻辑编程系统相结合,显著提升了机器的空间推理能力。

研究人员借鉴了认知科学中的「双过程理论」,该理论认为人类思维分为两个系统:系统1负责快速、直观的联想式思考,而系统2则进行缓慢、审慎的规则化推理。

在这套新框架中,LLM强大的语言理解和模式识别能力扮演了类似「系统1」的角色;而ASP作为符号推理的主干,则承担了「系统2」的职责,负责精确、可验证的逻辑推导。

基于DSPy框架的神经-符号管道框架

该框架的工作流程可以概括为一种「翻译-执行-修正」的协同模式:

1)翻译 (Semantic Parsing):首先,LLM接收自然语言形式的上下文和问题,并将其翻译成ASP能够理解的、结构化的逻辑事实与规则代码。

2)执行 (Logical Reasoning):接着,ASP求解器接管这些逻辑代码,利用其强大的非单调推理能力(即在信息不完整的情况下进行推理),计算出所有满足约束条件的稳定解。

3)修正 (Iterative Feedback):这是整个系统的核心创新。以往的神经-符号方法中,LLM生成的逻辑代码常常因语法或逻辑错误而导致整个系统失败,成功率有时低至17%

新框架引入了LLM与ASP求解器之间的迭代反馈循环。如果ASP在执行中发现错误,系统会将错误信息反馈给LLM,指导其对生成的逻辑程序进行多轮修正,直至代码在语法和语义上都完全正确。

整个系统基于模块化的DSPy框架构建,它为LLMs和符号求解器之间的无缝双向交互提供了支持,使得这种复杂的协同工作流得以实现。


自然语言查询转换为ASP表示的过程

在复杂基准测试中表现卓越

研究团队在两个不同类型的基准任务上检验了框架:

StepGame:结构化的合成数据集,用于测试多步推理。

SpartQA:语言与逻辑复杂度极高,包含 3D 空间关系、多重量词(如「所有」「仅仅」)等挑战。

结果显示,该框架在StepGame上的准确率达到82–93%,在SpartQA上为71–80%。

相比直接提示和思维链方法,准确率最高分别提升了43%和25%

更重要的是,这一框架使得推理过程透明、可追溯。每一步逻辑都能通过符号系统进行验证和修正,避免了「黑箱式」推理难以解释的问题。


在测试数据集SpartQA上LLMs与符号求解器的迭代反馈表现

通往更可靠通用AI的潜力

研究团队强调,这项成果的意义不仅在于攻克空间推理,更在于提供了一种神经网络与符号逻辑深度融合的范式。

这条路径有望解决 AI 长期存在的可解释性、可靠性与泛化性难题。

尤其值得一提的是,该技术展现出很强的泛化能力:不仅能处理空间推理任务,还可以扩展到各种需要严谨逻辑链条的复杂任务场景,如法律推理、多模态推理、工程规划乃至科学研究等。

通过为LLMs配备外部「逻辑脑」,系统可以在语言理解与逻辑推理之间实现类似人类的「双系统」协作,不仅能产出更高质量的答案,还能展现出明确的逻辑链条。

这种具备自我修正与类人多组件推理能力的混合架构,这种能自我修正、跨任务泛化的「人类式推理」新路径被认为是迈向通用人工智能(AGI)的重要一步。

换句话说,这项研究让大模型从「能说会道」,真正走向「能想会推理」,并具备跨任务迁移与应用的潜力。

参考资料:https://www.sciencedirect.com/science/article/pii/S0893608025009025

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
颠沛流离!施罗德将效力生涯第11支球队,近五年已换9次东家

颠沛流离!施罗德将效力生涯第11支球队,近五年已换9次东家

林子说事
2026-02-01 12:47:27
75岁谭咏麟街头买金鱼!与老板老友式寒暄,无保镖接地气引狂赞

75岁谭咏麟街头买金鱼!与老板老友式寒暄,无保镖接地气引狂赞

丁睋解说
2026-02-01 19:16:53
工行、农行、中行、建行、交行,集体发布风险提示

工行、农行、中行、建行、交行,集体发布风险提示

新京报政事儿
2026-02-01 17:31:11
伊朗多个城市发生爆炸,特朗普和以色列已经做出决定

伊朗多个城市发生爆炸,特朗普和以色列已经做出决定

山河路口
2026-02-01 13:27:11
SpaceX申请100万颗太空算力卫星;星舰V3首飞、升级解析……眼花缭乱的消息更新

SpaceX申请100万颗太空算力卫星;星舰V3首飞、升级解析……眼花缭乱的消息更新

问问马斯克AskMusk
2026-01-31 20:50:22
输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

体育哲人
2026-02-01 22:09:44
刚结束访华,斯塔默直奔日本,高市已设下晚宴,中方只回了6个字

刚结束访华,斯塔默直奔日本,高市已设下晚宴,中方只回了6个字

策前论
2026-01-31 20:17:49
范志毅也没想到,出狱10年的祁宏,如今摇身一变,又成了足球总监

范志毅也没想到,出狱10年的祁宏,如今摇身一变,又成了足球总监

青梅侃史啊
2026-02-01 17:38:12
陈晓版秦始皇嬴政一曝光,观众坐不住了,就这书生气质能演始皇帝

陈晓版秦始皇嬴政一曝光,观众坐不住了,就这书生气质能演始皇帝

春天来了啊
2025-12-16 19:05:22
“机关枪巡洋舰”,太平洋战争中美军“海伦娜”号巡洋舰的传奇

“机关枪巡洋舰”,太平洋战争中美军“海伦娜”号巡洋舰的传奇

知兵堂军事
2026-02-01 10:48:24
我国豪掷5100亿打造面积相当于三个纽约的雄安新城,如今怎么样了

我国豪掷5100亿打造面积相当于三个纽约的雄安新城,如今怎么样了

荆楚寰宇文枢
2026-01-31 22:59:15
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
胆子太大!全网最年轻“行贿者”曝光,消防员拒收10元“封口费”

胆子太大!全网最年轻“行贿者”曝光,消防员拒收10元“封口费”

火山诗话
2026-02-01 10:57:03
35球15助,库尼亚英超生涯已直接参与50球

35球15助,库尼亚英超生涯已直接参与50球

懂球帝
2026-02-01 23:34:39
爱泼斯坦在厨房追逐女孩视频被公开

爱泼斯坦在厨房追逐女孩视频被公开

观威海
2026-02-01 11:46:04
绿皮火车突然火了!深圳北到信阳东18小时只需177元,评论区炸锅

绿皮火车突然火了!深圳北到信阳东18小时只需177元,评论区炸锅

火山诗话
2026-02-01 18:03:02
假装落魄回乡,亲友纷纷躲避,唯独当年被我退婚的女人送来积蓄

假装落魄回乡,亲友纷纷躲避,唯独当年被我退婚的女人送来积蓄

云端小院
2026-02-01 09:49:57
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
冲进前四!深圳大胜江苏近7战6胜 王浩然两双庞峥麟15+3+4

冲进前四!深圳大胜江苏近7战6胜 王浩然两双庞峥麟15+3+4

醉卧浮生
2026-02-01 21:55:49
1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

磊子讲史
2026-01-14 10:12:21
2026-02-02 00:15:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2059493文章数 5310关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
艺术
手机
健康
军事航空

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

艺术要闻

意大利画家尼古拉·辛巴里,色块之美震撼人心!

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

耳石症分类型,症状大不同

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版