网易首页 > 网易号 > 正文 申请入驻

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

0
分享至

新智元报道

编辑:peter东 英智

【新智元导读】DeepMind新研究揭示了当与推理无关的想法,被直接注入到模型的推理过程中时,它们却难以恢复,而且越大的模型越难恢复。一旦被无关或错误信息干扰,大模型可能变成固执杠精,连纠正提示都救不回!

20世纪初,据说存在一匹会算数的马,被称为「聪明的汉斯」,但经过心理学家冯斯特的研究,最终发现这匹马其实是通过观察提问者无意识的肢体语言(如呼吸变化)来停止踩蹄,并非真正理解数学。

如今,我们发现,大模型会呈现出推理行为,甚至还存在Aha时刻这样的「顿悟现象」。

这会不会是大模型表现的如同「聪明的汉斯」那样,依赖提示词中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了大模型推理能力令人担忧的一面。

论文链接:https://arxiv.org/abs/2506.10979

大模型无法识别推理中犯的错

首先将大模型的的无效思考进行了分类,第一类称为无信息内容,例如当我们使用推理大模型时,偶然会发现大模型的思路跑偏。

例如大模型化身废话文学大师,在推理过程中输出正确但与实质解题无关的信息,例如问大模型如何计算地球到月球的距离?

模型在推理过程中显示:嗯,这个问题很有意思。首先我要认真思考,分步骤解决。回忆下相关知识,可能需要某些公式。仔细想想,答案应该藏在某个地方。

第二类被称为无关内容,即思考过程完全偏离原问题,回答与当前无关的问题。

第三类是误导内容,即问题被微妙篡改,导致要解决的问题不是提示词给出的那个,第四类可称为错误内容,即推理过程中存在事实错误或逻辑错误,导致回答出错。

该研究首先考察了不同大模型分辨这四种无效思考的准确性。

图1 用不同参数大小的蒸馏Deepseek R1模型,对无效思考内容进行分类的准确性

结果出乎意料,图1的左边显示的是模型识别无效思考的准确性,结果显示对于错误内容类型的无效思考,不管是7B还是70B的大模型,其识别准确性都不到三成,这意味着推理大模型目前无法处理自身推理中的错误,也无法独立验证其推理过程是否正确。

而不同参数大小的推理大模型对无关内容,无信息内容的识别程度都很高。

越大的模型越难恢复

图1右边显示的结果,则颠覆了大模型越大效果越好的常规。

当研究人员向大模型强行注入无效思考后,大模型在从注入的无效思考恢复时,并非参数量越大的大模型恢复概率越高,尤其在短无关内容(Irrelevant 10%)上。

即大模型反而比小模型更容易被带偏,仿佛大模型也会如人类一样「走神」。

对比大模型面对注入不同类型的无效思考后的恢复表现,模型性能断崖下跌(最大跌幅92%),尤以无关内容(Irrelevant)和误导内容(Misdirecting 100%)最甚。

具体到数学,科学及编程三类常见的大模型基准测试中,当研究人员向大模型推理过程中插入了10%的无关内容后,Deepseek R1,S1及EXAONE这三种大模型都出现了上述的反规模效应(Inverse-scaling)。

图2d对比了不同插入无效思考的长度差异会对模型恢复能力带来的影响,结果显示干扰文本越短(10%长度),小模型恢复优势越显著;干扰越长(100%),规模效应趋于平缓。

图2 不同的大模型在数学,科学即编程基准数据集上面对推理过程中插入的无效思考的恢复能力

当研究人员在大模型的思考过程中施加外部干预,即增加提示词:但等等,我再想想(But wait, let me think again)后,模型果然表现出了一定程度的啊哈时刻。

模型有100%的概率从误导信息类的无效思考中恢复,对于其它几类也有所帮助(图3a),然而相比在没有注入错误思考的时的模型性能,还是存在限制下降的,尤其是对于误导信息和错误内容两种无效思考(图3b)。

图3 通过引入阿哈时刻,衡量大模型面对各类无效的恢复能力

推理大模型的上述缺陷,为黑客攻击大模型提供了新的软肋,黑客可以通过污染AI的"思考过程"(而不是直接改问题)来操控答案。面对这种攻击,小模型反而比大模型有更强的抵抗力。

当攻击者将将有害请求伪装成模型的思考片段(如虚构故事设定)后,如图4a所示,小模型(7B)攻击成功率最低(深绿「未分心」占比30%),而大模型(32B+)更易输出有害回答(红色「有害回答」占比>60%)。

图4b对比了传统的在输入过程中攻击大模型与在思考过程中攻击,结果与之前的观点一致,即传统输入攻击(Attack-in-Input):大模型防御更强,而面对思考注入攻击(Attack-in-Thought):大模型更脆弱,呈现反规模效应,这意味着对于思考过程,推理大模型需要设立单独的防御机制,不能依靠参数量来确保模型的安全性。

图4 推理大模型面对不同类型的攻击时的表现

该文的开篇,笔者提到「聪明的汉斯」,如今当我们看到大模型展现出比肩甚至超越人类的推理能力时,这项来自DeepMind的研究却提醒我们,大模型或许如果硅基版的会算数的马,其推理能力部分来自对与人类互动的提示词的细节根据模板进行匹配。

其是否真的具有如人类的推理能力,还存在疑问,毕竟大多数人不会如大模型一样,被无关的,误导的甚至错误的思考过程影响而不可自拔。

当不怀好意者在思考过程中加入无关内容后,即使大模型能够识别出问题,也会被带偏,而越大的模型有更多的模版库,因此更有可能在思考过程跑偏(走神)后成为犯错却死不回头的杠精。

这些发现突显了当前推理模型在「元认知」和从误导性推理路径中恢复方面存在很大的改进空间,这是开发更安全和更可靠的大规模推理模型时的一个关键考虑因素。

参考资料:

https://arxiv.org/abs/2506.10979

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

史诗级!曝1.7亿“顶星”空降阿森纳!两大攻击手遭“打包”放逐

头狼追球
2026-03-26 13:48:03
周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

掉了颗大白兔糖
2026-03-26 01:00:31
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
千万粉丝大V,微博账号被禁止关注

千万粉丝大V,微博账号被禁止关注

第一财经资讯
2026-03-26 12:19:47
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

戗词夺理
2026-03-26 11:13:50
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

小米新SU7上市72小时:客流被稀释,要拼产品硬功夫

36氪
2026-03-24 08:09:09
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

马英九真正翻脸原因是郑丽文聘请王金平为最高顾问,把马晾在一边

雪中风车
2026-03-26 09:16:02
安徽幼童被打后续:女子被扒是老师,家属拒不和解,结局大快人心

安徽幼童被打后续:女子被扒是老师,家属拒不和解,结局大快人心

青橘罐头
2026-03-25 07:35:31
张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

张雪峰被曝心脏骤停抢救,前一天还在大鱼大肉,一人吃6个菜

映射生活的身影
2026-03-24 18:27:44
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
快船119-94大胜猛龙 球员评价:6人优秀,3人及格,柯林斯低迷

快船119-94大胜猛龙 球员评价:6人优秀,3人及格,柯林斯低迷

篮球资讯达人
2026-03-26 13:07:18
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

好消息!麒麟芯片已不受制裁了,华为手机真正全面归来

互联网.乱侃秀
2026-03-26 10:55:17
指挥过5位元帅和6名大将,晚年悔恨:若不犯错,我就是元帅之首

指挥过5位元帅和6名大将,晚年悔恨:若不犯错,我就是元帅之首

北海史记
2026-03-25 12:00:19
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

霁寒飘雪
2026-03-26 09:54:09
2026-03-26 14:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
旅游
手机
时尚
家居

本地新闻

春日吃花第三站——广东

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

2026年了,最好看的还是“这件针织”!

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版