网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Bengio亲手戳穿CoT神话！LLM推理是假象，25％顶会论文遭打脸

2025-07-02 16:14:54　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：YHluck 桃子

【新智元导读】原来，CoT推理竟是假象！Bengio带队最新论文戳穿了CoT神话——我们所看到的推理步骤，并非是真实的。不仅如此，LLM在推理时会悄然纠正错误，却在CoT中只字未提。

图灵奖大牛Bengio新作上线了！

这篇由牛津、谷歌DeepMind、Mila多家机构联手论文指出——思维链并非可解释性。

这一观点彻底打破了许多人的认知：

CoT看似一步步给出答案，实则并不一定是其真实的推理过程。

论文地址：https://www.alphaxiv.org/abs/2025.02

这么说来，能够暴露LLM内心世界的「思维链」，如今也不可靠了？

论文中，研究人员撕开了CoT的面纱，揭露了一个令人震惊的真相：思维链的透明度，可能只是一种精心编织的假象！

思维链「谎言」被揭穿

然而，现实中，约25%的近期AI论文错误地将CoT标榜为「可解释性技术」。

这一概念最先由前谷歌研究院Jason Wei在论文中提出，一时间，CoT被广泛应用在推理模型当中。

它最大的特点，就是能够多步骤推理，提升模型准确性。与此同时，让AI黑盒变得不再那么神秘。

然而， CoT思考过程，是其真正的内心OS吗？

一些论文信誓旦旦地宣称，CoT可以让我们看清AI的推理过程，但事实远非如此。

尤其是，在高风险领域，这个误解的代价可能是致命的。

研究人员发现，在使用CoT论文中，约38%医疗 AI、25%法律AI、63%自动驾驶汽车相关论文，都盲目地将CoT视为可解释性方法。

更令人毛骨悚然的是，带有明确偏见的提示词，可以轻易左右模型的答案。

而且，这些偏见在AI给出的「推理步骤」中只字不提。

AI能为带有偏见的答案，编织出看似合理的解释，却从不暴露背后的「黑手」。

因此，轻信这些带有偏见的答案，可能十分危险。

不仅如此，AI还会在推理过程中，常常「偷偷」修正自己的错误。

表面上看，大模型给出的步骤可能漏洞百出，但它却能通过未被表述的「暗箱操作」得出正确答案。

这便制造了一种透明的假象。为何会出现这种脱节？

研究人员推测，简洁的CoT无法完全捕捉基Transformer大模型中存在的分布式并行计算过程。

CoT如何掩盖真实推理？

越来越多的实证研究已经发现了大量案例，其中模型的思维链与其内部推理过程相偏离。

需要指出的是，在审视不忠实性的具体模式之前，CoT解释的忠实性因模型架构等多种因素而异。

研究人员也总结了4项关键发现：偏见驱动的合理化与动机性推理、隐性错误纠正（Silent Error Correction）、不忠实的非逻辑捷径（Unfaithful Illogical Shortcuts）、填充词元 (Filler Tokens)。

每一项都阐明了CoT是如何误导或掩盖模型的实际决策过程，我们为你梳理了关键发现中的要点问题：

偏见驱动的合理化与动机性推理

Turpin等研究者通过巧妙地偏置模型输入证明偏见驱动的合理化。

举个栗子：

在提示中重新排序多项选择题的选项，使得正确选项总是在同一位置（例如，总是字母B）。

在这种情况下，尽管它们的CoT解释从未提及选项重排是一个影响因素，GPT-3.5和Claude 1.0经常会选择那个被偏置的选项。

当模型被偏向错误答案时，它们仍然会生成详细的CoT来为那些错误答案进行合理化解释。

结果导致在一系列任务上准确率下降了高达36%，而CoT则给出了一个具有误导性的推理假象。

另一项研究通过在提示中添加明确答案（例如，「答案是C」）来调查提示注入的偏见，然后要求模型为其选择提供理由。

Claude 3.7-Sonnet和DeepSeek-R1分别仅在约25%和约39%的情况下承认了被注入的答案。

这些发现表明，思维链常常作为事后合理化（post-hoc rationalisations）运作，忽略了真正的因果因素，并制造了一种透明解释的假象。

隐性错误纠正（Silent Error Correction）

研究人员指出，模型可能会在其思维链中犯错，然后在内部纠正这些错误，而CoT却不反映这一纠正过程。

举个栗子：

在一个CoT推理过程中，模型可能将一个三角形的斜边错误地计算为16，而正确值应为13，但随后却陈述：「我们将斜边长度13与其他两条边长相加得到周长。」

模型在内部检测并纠正了错误，但CoT的叙述从未修正或标记这个错误——它读起来像一个连贯的解题过程。

这些隐性错误表明，最终答案是通过叙述步骤之外的计算得出的。

不忠实的非逻辑捷径（Unfaithful Illogical Shortcuts）

研究人员表示，模型会通过潜在的捷径得出正确答案，例如利用记忆的模式作为替代推理路径，从而绕过完整的算法推理，这使得明确的推理链变得不相关或不正确。

来个典型案例：

有研究者使用归因图（一种追踪哪些计算步骤对最终输出有贡献的方法）发现，在解决像「36 + 59」这样的问题时，Claude 3.5 Haiku同时使用了查找表特征（例如，用于「将接近36的数与接近60的数相加」）和加法计算特征。

有趣的是，当被要求描述模型如何得出答案时，模型报告称，其执行了逐位相加进位，完全忽略了其使用查找表捷径的事实。

填充词元（Filler Tokens）

研究指出，在某些算法推理任务中，使用填充词元——例如「...」或学习到的「停顿」词元这类对任务没有语义贡献但会影响模型内部计算的输入词元——可以提高模型性能。

方便你理解，举个栗子：

研究者发现，输入中附加可学习的停顿词元（可作为一种填充词元），在许多任务上都带来了显著的性能提升。

无独有偶，研究者还发现，添加填充词元使模型能够解决它们以前失败的问题，尤其是在使用密集监督进行训练时。

以上几项关键发现，均解释了CoT的不忠实性是一个普遍存在于不同模型架构和规模中的根本性挑战。

其由提示词偏见、未能承认隐藏影响以及在复杂推理任务中系统性的修复错误等因素导致，发生率相当高。

CoT解释与内部计算不一致，是为何？

以上案例中，我们看到了一些关于CoT表里不一的现象，那么，究竟是什么原因导致的？

分布式并行计算，而非顺序

「机制可解释性」研究表明，Transformer架构可能从根本上限制了CoT的忠实度。

基于Transformer搭建的LLM，通常以分布式方式同时通过多个组件处理信息，而不是CoT呈现的顺序步骤。

正是因为这种架构差异，导致了模型计算方式与语言表达方式之间，存在固有的不匹配。

举个栗子，面对「24÷3=?」这样简单的数学问题，LLM会怎么做？

它一定不会像人类学生那样，逐一分析「3能除24多少次」，或是列出长除法的步骤。

相反，LLM内的多个注意力头，会同时处理这些数字之间的关系。

它可能将其识别为记忆中的事实，确认其为8的乘法表的一部分，并计算除法——所有这些都在并行进行。

为了生成简洁且看似合理的输出，LLM通常只生成一个这样的叙述来合理化它们的答案，而不是表达所有并行路径，即使是那些可能显著影响最终答案的路径。

因此，CoT通常会忽略有影响的因素，仅作为模型底层分布式、叠加计算的部分、事后合理化。

冗余路径

此外，LLM在处理任务时，往往会通过多条冗余计算路径得出相同结论。

以计算√144为例，模型可能同时执行以下操作：

识别这是一个记忆中的事实（12×12=144）
应用平方根算法
与训练数据中的类似问题进行模式匹配

当从模型解释「√144=12」的CoT中移除关键步骤「144=12×12」时，LLM仍能够正确输出12。

这表明，LLM的答案并不完全依赖于语言化的推理步骤，而是依赖其内部的多条冗余路径。

这种冗余计算路径的现象，被研究者称为「九头蛇效应」（Hydra Effect）。

即如果LLM一条路径被阻断或移除，另一条路径可以接替。

这也就解释了，为什么对CoT的某些部分进行修改或删除，对最终答案的影响微乎其微。

CoT忠实性挑战

Tanneru等研究者曾尝试通过在训练中惩罚不一致性，引导LLM生成忠实的CoT推理。

然而，这一方法仅取得了部分成功，尤其是在复杂问题上，模型倾向于生成看似合理但非因果的解释。

比如，模型可能输出一个逻辑清晰的CoT，却掩盖了其真正的决策路径。

这种「合理化」倾向不仅难以完全消除，还可能在微调或持续学习过程中重新出现。

另有研究人员Chua和Evans，进一步研究了经过专门「推理训练」的模型，结果发现：

DeepSeek-R1在59%的测试中能提及提示线索，但仍有41%的情况，未能识别关键影响因素。

即便是最先进的DeepSeek-V3，也仅在7%案例中提及线索，表明推理训练的效果极其有限。

更令人担忧的是，LLM可能通过CoT「欺骗」监控机制。

当CoT被用于监控RL奖励函数中的推理时，模型学会生成看似无害的推理轨迹，实则暗中执行有害策略。

CoT假象，破解之法

论文的最后，针对CoT透明度的问题，研究人员指出，「我们不能继续被假象蒙蔽」。

为此，他们提出了以下几点建议：

1. 重新定义CoT的角色

CoT不是可解释性的「万能钥匙」，而应视为一种补充工具。它能提供线索，但绝非真相的全部。

2. 引入严格的验证机制

通过因果验证技术，如激活修补（activation patching）、反事实检验、验证器模型，深入探查AI的推理过程是否忠实。

3. 借鉴认知科学

模仿人类的错误监控、自我修正叙事和双重过程推理（直觉+反思），让AI的解释更接近真实。

4. 强化人工监督

开发更强大的工具，让人类专家能够审查和验证AI的推理过程，确保其可信度。

参考资料：

https://x.com/FazlBarez/status/1940070420692312178

https://www.alphaxiv.org/abs/2025.02

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

「斯隆奖」得主戴亮全职加盟复旦

量子位 2026-05-28 12:46:27
0 跟贴 0
30年数学悬案，Claude一小时破解，88岁图灵奖得主震惊

量子位 2026-03-07 20:19:13
0 跟贴 0

聚焦产学研深度融合发展四川省博士后学术交流活动在蓉举行

每日经济新闻 2026-05-28 16:27:01
0 跟贴 0

东南大学团队提出机械超界面，实测芯片接触热阻近乎清零

DeepTech深科技 2026-05-28 13:43:23
0 跟贴 0
教皇4万字10个观点，说透了人类最大的焦虑

雷科技 2026-05-27 20:18:43
0 跟贴 0

导师住院仍帮学生改论文看完内容无奈扶额沉默不语导师：让我再多住两天吧

甘州融媒 2026-05-27 15:27:42
0 跟贴 0

耿同学：有些大学老师学术造假，读他的论文比吃了苍蝇还难受

魔鬼厨房Neo 2026-05-24 03:50:05
42 跟贴 42
耿同学登上新华社，曝光实锤所有造假论文，太炸裂了！

非自然苏打 2026-05-28 03:28:04
2 跟贴 2

不更新参数就能强化学习！翁家翌新范式：决策只需AI写个.py文件

量子位 2026-05-09 16:05:57
1 跟贴 1
7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

量子位 2026-05-28 15:57:49
0 跟贴 0
让扩散模型「可解释」不再降质，开启图片编辑新思路

机器之心Pro 2025-12-16 14:37:44
0 跟贴 0
导师生病住院，学生带着论文来看望他，网友：这不雪上加霜吗

星沙时报 2026-05-27 14:54:40
0 跟贴 0
对话上交大程远：AI的终局不在云端，而在“感算一体”的物理世界

DeepTech深科技 2026-05-01 18:05:24
0 跟贴 0
领导意识修养：数智时代的静力学锚点与心智升维

经济观察报 2026-05-25 23:24:32
0 跟贴 0
那些说社交媒体“没那么坏”的研究，可能有一半是他们自己人做的

DeepTech深科技 2026-01-20 18:38:15
0 跟贴 0
你的异地恋女友日常报备：搬新家啦+保洁上门+写论文准备组会+回学校开组会

YYz 2026-05-26 09:13:25
0 跟贴 0
喜报｜华南理工孙大文院士团队论文获评SMALL期刊(IF=12.1)Top Viewed最高浏览文章荣誉

食品科学杂志 2026-05-28 11:53:18
0 跟贴 0
AutoMoT : B2D & nuScense双SOTA ，重新思考VLM和端到端驾驶结合

机器之心Pro 2026-05-28 14:41:15
0 跟贴 0
兰州大学硕士在论文致谢中，特别感谢学校保安放行拾荒老人，老人也会把周围清扫干净

潇湘晨报 2026-05-26 12:25:19
0 跟贴 0
很多朋友都在猜答案～结合样本来源和行业现状来看，发文体量最大、AI应用最广泛的地区，问题论文数量也最

老董的偏见 2026-05-28 01:50:42
0 跟贴 0
孩子去“光头强家”，对着床上被子一头栽下去，没想到是模型！

笑出猪叫的趣闻阁 2026-05-26 17:08:43
1 跟贴 1
像写奏折、写论文、写情书一样，写律师代理

法律学堂 2026-05-28 11:11:17
0 跟贴 0
最可怕的不是学术造假，而是造假这么多年，学术圈却“装聋作瞎”

老乔嘚吧嘚 2026-05-28 05:57:04
0 跟贴 0
备考2027年软考高项：十大机构导师实战及论文

新浪财经 2026-05-28 15:29:57
0 跟贴 0
7k星标的开源skill，给你组一支AI科研团队

量子位 2026-05-16 19:58:50
0 跟贴 0
博主“硬刚”稻城亚丁景区“截断近40公里省道收费”，多方回应

上游新闻 2026-05-25 14:46:47
41896 跟贴 41896
家庭发财的底层逻辑夫唱妇随不是卑微，是顶级搞钱智慧！

上易新鲜事 2026-05-26 00:57:16
1 跟贴 1
逻辑变差，痴呆风险增高，一分钟快速自测

罗夕夕博士 2026-05-24 09:00:00
0 跟贴 0
专家：荷兰舰机行为恶劣解放军高度克制

环球网资讯 2026-05-27 22:59:11
4304 跟贴 4304
“广厦战上海队关键战，王博谈策略，孙铭徽新动向！”

Tech探知局 2026-05-25 21:59:39
1 跟贴 1
北大博士休学创业，自研异构计算架构，终结密算低效困局

DeepTech深科技 2026-05-03 18:21:10
0 跟贴 0
广州珠江新城一知名商场，“卖”了！

南方都市报 2026-05-28 08:35:29
68 跟贴 68
改写后的标题：咱们聊聊：轻松搞定英语口语，三步走策略大公开！

梦璃就闲扯谈 2026-05-27 17:22:43
0 跟贴 0
神21乘组移交空间站钥匙将于近日返回

央视新闻客户端 2026-05-28 10:13:18
540 跟贴 540
光轮智能与谷歌、英伟达共同定义物理AI仿真标准

机器之心Pro 2026-05-12 20:21:07
0 跟贴 0
雍正放过曾静，乾隆为什么登基之后又把曾静处死，这什么逻辑

人物注 2026-05-27 15:31:48
0 跟贴 0
每瓶仅含0.01克，喝几千瓶才抵一个桃！“饮料一哥”也翻车了？杭州多家超市在售，你可能也喝过

都市快报橙柿互动 2026-05-24 20:48:16
69 跟贴 69
新规来了！进口药更好开，但更贵了

中国新闻周刊 2026-05-27 18:56:34
303 跟贴 303
4斤304不锈钢星舰！手感绝了！#模型收藏

制造科技 2026-05-26 13:03:18
24 跟贴 24
拒绝婚闹文明婚庆！新郎遭好友强塞葱和鸡蛋等放嘴里搅拌至干呕

荔枝新闻 2026-05-28 05:40:00
116 跟贴 116

打不得也放不得！越南在南海大肆填海造岛，中方究竟在顾虑什么？

打不得也放不得！越南在南海大肆填海造岛，中方究竟在顾虑什么？

领悟看世界

2026-05-25 01:15:23

不踢欧战仍赚6.6亿！曼联营收碾压切尔西，豪掷6千万砸胖虎接班人

不踢欧战仍赚6.6亿！曼联营收碾压切尔西，豪掷6千万砸胖虎接班人

体坛鉴春秋

2026-05-28 15:59:26

曹阳：09年龄段踢球孩子太多了，两三百人基本符合国字号要求

曹阳：09年龄段踢球孩子太多了，两三百人基本符合国字号要求

懂球帝

2026-05-28 12:05:05

婚结早了！何超莲没想到，央剧《主角》竟让老公窦骁实现口碑逆转

婚结早了！何超莲没想到，央剧《主角》竟让老公窦骁实现口碑逆转

翰飞观事

2026-05-27 19:30:26

第一次感受到“荔枝核的威力”，泡水里20天，长成“粉盆栽”

第一次感受到“荔枝核的威力”，泡水里20天，长成“粉盆栽”

美家指南

2026-05-15 15:27:43

“100%NFC”果汁产品，配料表前两位是水和浓缩果汁，好想来最新回应：已在全国门店下架涉事产品

“100%NFC”果汁产品，配料表前两位是水和浓缩果汁，好想来最新回应：已在全国门店下架涉事产品

鲁中晨报

2026-05-28 14:38:10

比赖清德还狂！若2028年她当台湾地区领导人，解放军出手武力统台

比赖清德还狂！若2028年她当台湾地区领导人，解放军出手武力统台

阿讯说天下

2026-05-26 13:40:22

颠覆认知！19年研究：每周吃鸡超300克，癌症死亡风险升高127% ，尤其是男性！

颠覆认知！19年研究：每周吃鸡超300克，癌症死亡风险升高127% ，尤其是男性！

梅斯医学

2026-05-28 07:54:38

牛市见闻：消费股溃不成军！林园被骂死抱茅台！东方财富陈果告诫“半导体牛市不能醉”！长鑫已闪电提交注册

牛市见闻：消费股溃不成军！林园被骂死抱茅台！东方财富陈果告诫“半导体牛市不能醉”！长鑫已闪电提交注册

新浪财经

2026-05-28 09:15:10

你最接近生理极限的一次经历是什么？网友分享让人目瞪口呆！

你最接近生理极限的一次经历是什么？网友分享让人目瞪口呆！

夜深爱杂谈

2026-04-09 19:39:13

刚被“点名”发生中毒窒息事故，湖南裕能云南基地又现火情

刚被“点名”发生中毒窒息事故，湖南裕能云南基地又现火情

澎湃新闻

2026-05-28 15:52:27

姚明恢复代言！担任篮协主席7年推掉无数合同：拒绝违规无私奉献

姚明恢复代言！担任篮协主席7年推掉无数合同：拒绝违规无私奉献

念洲

2026-05-28 08:26:21

小米米家首款手持风扇正式发布：169元起，5米送风+40小时续航

小米米家首款手持风扇正式发布：169元起，5米送风+40小时续航

泡泡网

2026-05-27 11:25:19

“上当的都是农村父母！”中职女生穿廉价警服，毕业后只能做保姆

“上当的都是农村父母！”中职女生穿廉价警服，毕业后只能做保姆

妍妍教育日记

2026-05-28 10:05:08

杨某（女，38岁）、陈某（女，37岁）两好友隐瞒已婚，与两兄弟恋爱，在广东落网

杨某（女，38岁）、陈某（女，37岁）两好友隐瞒已婚，与两兄弟恋爱，在广东落网

南方都市报

2026-05-28 12:27:20

震惊！贵州大学招聘岗位限配偶条件，被质疑“萝卜岗”，评论炸锅

震惊！贵州大学招聘岗位限配偶条件，被质疑“萝卜岗”，评论炸锅

火山詩话

2026-05-28 15:07:01

SpaceX星舰V3被停飞 IPO前重大风险浮现

SpaceX星舰V3被停飞 IPO前重大风险浮现

每日经济新闻

2026-05-28 11:23:16

长鑫科技IPO过会，市值会到几万亿？

长鑫科技IPO过会，市值会到几万亿？

财经杂志

2026-05-28 09:27:23

为什么餐厅都在劝你去买团购券？

为什么餐厅都在劝你去买团购券？

有界UnKnown

2026-05-21 08:05:02

29-31日广东高温与雷雨同台

29-31日广东高温与雷雨同台

广东天气

2026-05-28 15:13:34

AI产业主平台领航智能+时代

15327文章数 66892关注度

往期回顾全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

小米车主遇剐蹭提理赔遭拒还被打骨折小米法务介入

头条要闻

小米车主遇剐蹭提理赔遭拒还被打骨折小米法务介入

体育要闻

如果雷霆拼图是这水平马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会，市值会到几万亿？

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

家居

房产

军事航空

专家教你辨认“正规外泌体”！

教育要闻

详细日程来了！第二届山东省中小学科创教育大会将于5月30日举行

家居要闻

蜂鸟餐椅线面交错

房产要闻

突发重磅！三亚新机场公司正式成立！

军事要闻

美锁定伊朗打击新目标考虑重启军事行动

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版