网易首页 > 网易号 > 正文 申请入驻

【人工智能】AI 推理的幻象:为什么思维链可能并非我们所想的那样

0
分享至



大型语言模型 (LLM) 以其逐步分解复杂问题的能力令人印象深刻。当我们要求 LLM 解决数学问题时,它们会展示其工作成果,逐步完成每个逻辑步骤,最终得出答案。这种被称为“思维链 (CoT)”推理的方法,使人工智能系统的思维过程更像人类。但如果这种令人印象深刻的推理能力实际上只是一种幻觉呢?亚利桑那州立大学的一项新研究表明,看似真正的逻辑思维可能是一种复杂的模式匹配技术。在本文中,我们将探讨这一发现,并分析其对我们设计、评估和信任人工智能系统方式的影响。

01

当前理解的问题

思路链提示已成为人工智能推理领域最受认可的进步之一。它通过展示中间步骤的工作,使模型能够解决从数学问题到逻辑谜题的各种问题。这种看似合理的推理能力让许多人相信,人工智能系统正在发展出类似于人类思维的推理能力。然而,研究人员已经开始质疑这种观点。

在最近的一项研究中,他们观察到,当被问及诸如美国建国年份是闰年还是平年之类的问题时,LLM 给出的答案并不一致。虽然他们正确地指出了1776年能被4整除的原因,并指出那是闰年,但模型仍然得出结论,认为美国建国年份是平年。在这种情况下,模型展现了对规则的了解,并展示了逻辑步骤,但却得出了自相矛盾的结论。

这些例子表明,表面上的推理和实际的逻辑推理之间可能存在根本差距。

02

理解人工智能推理的新视角

本研究的一项关键创新是引入“数据分布透镜”来检验思路链 (CoT) 推理。研究人员假设,CoT 是一种先进的模式匹配技术,它基于训练数据中的统计规律而非真正的逻辑推理。该模型生成的推理路径与其之前所见的路径近似,而非执行逻辑运算。

为了验证这一假设,研究人员创建了一个受控的实验环境 DataAlchemy。他们没有使用复杂的训练历史来测试预训练的 LLM,而是在精心设计的任务上从头开始训练较小的模型。这种方法消除了大规模预训练的复杂性,并能够系统地测试分布变化如何影响推理性能。

研究人员专注于涉及字母序列的简单转换任务。例如,他们训练模型应用诸如旋转字母表中的字母(A 变为 N,B 变为 O)或在序列中移动位置(APPLE 变为 EAPPL)等操作。通过组合这些操作,研究人员创建了复杂程度各异的多步骤推理链。这种方法赋予了他们精准的优势。他们可以精确控制模型在训练过程中学习的内容,然后测试它们在新情况下的泛化能力。对于在海量多样化数据集上训练的大型商用 AI 系统来说,这种程度的控制是无法实现的。

03

当人工智能推理失效时

研究人员在三个关键维度上测试了 CoT 推理,现实世界的应用可能与训练数据不同。

任务泛化考察了模型如何处理从未遇到过的新问题。在对与训练数据完全相同的转换进行测试时,模型取得了完美的性能。然而,细微的变化会导致其推理能力严重下降。即使新任务是由熟悉的操作组合而成,模型也无法正确应用其学习到的模式。

最令人担忧的发现之一是,模型经常会生成格式完美、看似合乎逻辑的推理步骤,但却得出错误的答案。在某些情况下,它们会通过巧合生成正确答案,但遵循完全错误的推理路径。这些发现表明,模型本质上只是匹配表面模式,而不是理解底层逻辑。

长度泛化测试了模型能否处理比训练中更长或更短的推理链。研究人员发现,以长度 4 训练的模型在以长度 3 或 5 进行测试时完全失败,尽管这些变化相对较小。此外,这些模型会试图通过不恰当地添加或删除步骤来强制其推理到熟悉的模式长度,而不是适应新的要求。

格式泛化评估了对问题呈现方式表面变化的敏感性。即使是插入噪声标记或略微修改提示结构等细微变化也会导致性能显著下降。这揭示了模型对训练数据中精确格式模式的依赖程度。

04

脆性问题

在所有三个维度上,研究揭示了一个一致的模式:CoT推理在应用于与训练示例相似的数据时效果良好,但即使在适度的分布变化下也会变得脆弱且容易失败。这种表面上的推理能力本质上是一种“脆弱的海市蜃楼”,当模型遇到不熟悉的情况时就会消失。

这种脆弱性可以表现在几个方面。模型可以生成流畅、结构良好的推理链,但这些推理链实际上却是完全错误的。它们可能遵循完美的逻辑形式,却缺乏基本的逻辑联系。有时,它们通过数学巧合得出正确答案,却展现出有缺陷的推理过程。

研究还表明,对少量新数据进行监督微调可以快速恢复性能,但这仅仅扩展了模型的模式匹配能力,而没有发展真正的推理能力。这就像学习解决一类新型数学问题时,仅仅记住具体的例子,而不是理解其背后的数学原理。

05

现实世界的影响

这些发现可能会对我们如何部署和信任人工智能系统产生重大影响。在医学、金融或法律分析等高风险领域,生成看似合理但本质上存在缺陷的推理的能力可能比简单的错误答案更危险。逻辑思维的出现可能会导致用户对人工智能的结论产生不必要的信任。

该研究为人工智能从业者提供了几条重要的指导原则。首先,组织不应将CoT视为通用的问题解决方案。使用与训练集类似的数据的标准测试方法不足以评估真正的推理能力。相反,严格的分布外测试对于理解模型的局限性至关重要。

其次,模型容易生成“流畅的胡言乱语”,这需要人工的仔细监督,尤其是在关键应用中。人工智能生成的推理链的连贯结构可以掩盖一些可能不会立即显现的基本逻辑错误。

06

超越模式匹配

或许最重要的是,这项研究挑战了人工智能界,使其超越表面改进,转向开发具有真正推理能力的系统。当前依赖于扩展数据和参数的方法,如果主要构建复杂的模式匹配系统,可能会遭遇根本性的限制。

这项研究并不会削弱当前人工智能系统的实际效用。大规模模式匹配对许多应用而言都非常有效。然而,它强调了理解这些能力的真正本质的重要性,而不是在根本不存在类似人类推理的地方强行赋予其能力。

07

前进的道路

这项研究提出了关于人工智能推理未来的重要问题。如果当前的方法从根本上受到训练分布的限制,那么哪些替代方法可以带来更强大的推理能力?我们如何开发能够区分模式匹配和真正逻辑推理的评估方法?

研究结果还强调了人工智能开发中透明度和适当评估的重要性。随着这些系统变得越来越复杂,其输出越来越令人信服,如果不加以正确理解,表观能力与实际能力之间的差距可能会变得越来越危险。

总结

LLM 中的思路链推理通常反映的是模式匹配,而非真正的逻辑。虽然输出结果可能看似令人信服,但在新的条件下可能会失效,这引发了医学、法律和科学等关键领域的担忧。这项研究强调了对更完善的测试和更可靠的人工智能推理方法的需求。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-08-15

2025-08-14

2025-08-13

商业赞助


点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孟鹤堂用半年商演的全部收入,买了件38万的蟒袍送给郭德纲。

孟鹤堂用半年商演的全部收入,买了件38万的蟒袍送给郭德纲。

荆楚寰宇文枢
2026-01-25 23:08:14
张雪峰:本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机…考研是唯一出路!

张雪峰:本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机…考研是唯一出路!

李东阳朋友圈
2025-08-22 09:31:34
重庆一中学家委会负责人要求每人交263.3元,再换成现金给班主任且使用明细不公示 ,家长报警

重庆一中学家委会负责人要求每人交263.3元,再换成现金给班主任且使用明细不公示 ,家长报警

扬子晚报
2026-01-31 20:22:18
什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

什么是性成瘾?患者自述:比烟瘾、酒瘾厉害多了,比戒毒还难

泠泠说史
2025-10-30 15:20:45
2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

2月4日立春,今年立春不一般,5个生肖要躲春,别忘:吃3样忌3事

小茉莉美食记
2026-01-30 07:27:46
《太平年》突停更引全网骂战,央视排播调整才是真因

《太平年》突停更引全网骂战,央视排播调整才是真因

启迪你的思维
2026-02-01 13:03:44
汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

无心小姐姐
2026-01-27 00:44:27
欠李嘉诚一个道歉?巴拿马强行收回两个港口,怪大公报?

欠李嘉诚一个道歉?巴拿马强行收回两个港口,怪大公报?

数字财经智库
2026-02-01 17:05:08
别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

陈洪标写字说画
2026-01-27 22:31:02
难以置信!广东有人在李亚鹏直播间抢购34000多普洱,追问怎么喝

难以置信!广东有人在李亚鹏直播间抢购34000多普洱,追问怎么喝

火山诗话
2026-01-31 11:52:11
宁静做梦也没想到,美国前夫留给她的儿子,如今竟成她唯一的依靠

宁静做梦也没想到,美国前夫留给她的儿子,如今竟成她唯一的依靠

兴史兴谈
2026-01-28 09:07:06
前几天在贾鲁河自杀的26岁女孩是郑州一大医院神经外科护士?

前几天在贾鲁河自杀的26岁女孩是郑州一大医院神经外科护士?

金水路7号站
2026-02-01 08:14:50
有教授称:有钱人死得可能比穷人更快,花大钱治病,结果适得其反

有教授称:有钱人死得可能比穷人更快,花大钱治病,结果适得其反

我心纵横天地间
2026-02-01 13:07:35
杨兰兰最新:不上课、不社交、英语差,喜欢买买买,香奈儿VVIP

杨兰兰最新:不上课、不社交、英语差,喜欢买买买,香奈儿VVIP

麦大人
2025-10-09 16:23:06
“肺部有癌,嘴巴先知”!嘴上出现这3种异常,千万不要掉以轻心

“肺部有癌,嘴巴先知”!嘴上出现这3种异常,千万不要掉以轻心

熊猫医学社
2026-02-01 11:30:03
Kimi公开喊话百度:搜官网前4条全是广告!有网友称被坑199元

Kimi公开喊话百度:搜官网前4条全是广告!有网友称被坑199元

新浪财经
2026-02-01 16:43:37
铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

铁了心对付中国!暴跌58%,俄罗斯大幅加税,中国汽车出口骤降

真的好爱你
2026-02-01 04:53:15
贺江川落马,在北京国企圈子里,妥妥是金字塔尖的大佬。

贺江川落马,在北京国企圈子里,妥妥是金字塔尖的大佬。

百态人间
2025-12-19 16:54:12
恩爱难抵残酷现实,向太撕开刘德华婚姻滤镜,朱丽蒨承受了太多

恩爱难抵残酷现实,向太撕开刘德华婚姻滤镜,朱丽蒨承受了太多

TVB的四小花
2026-02-01 05:33:21
很多人以为今天的中国军力碾压日本,所以我们安全了,大错特错!

很多人以为今天的中国军力碾压日本,所以我们安全了,大错特错!

扶苏聊历史
2025-11-29 09:57:40
2026-02-01 23:07:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
时尚
健康
艺术
军事航空

教育要闻

99分、100分一大片?南京期末考试出分!

“多巴胺风”又又又火了!这样穿时髦又减龄

耳石症分类型,症状大不同

艺术要闻

意大利画家尼古拉·辛巴里,色块之美震撼人心!

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版