网易首页 > 网易号 > 正文 申请入驻

研究人员担忧:很多AI模型隐藏其真实的"推理"过程

0
分享至

新研究显示某AI模型75%情况下隐瞒推理捷径

还记得学校里老师要求"展示解题步骤"的场景吗?某些新型AI模型承诺实现类似功能,但最新研究表明它们有时会隐藏实际方法,转而编造复杂的解释。

来自Anthropic公司(开发类ChatGPT的Claude AI助手)的最新研究聚焦于DeepSeek的R1及其自研Claude系列等模拟推理(SR)模型。上周发布的研究论文显示,尽管这些SR模型设计有展示"推理"过程的功能,但在使用外部帮助或采取捷径时往往不予披露。

(需特别说明的是,OpenAI的o1和o3系列SR模型刻意模糊其"思考"过程的准确性,因此本研究结论不适用于这些模型)

要理解SR模型,需先了解"思维链"(CoT)概念。CoT是AI模型解决问题时模拟思维过程的实时注释。当向AI提出复杂问题时,CoT会逐步展示模型得出结论的过程,类似于人类通过分步推理解谜的过程。

据证实,让AI生成这些步骤不仅有助于提升复杂任务的输出准确性,对监控系统内部运作的"AI安全"研究者也颇具价值。理想状态下,这种"思维"输出应兼具可读性(人类可理解)和忠实性(准确反映模型真实推理过程)。

Anthropic研究团队表示:"在理想情况下,思维链的每个步骤都应被读者理解且真实可信——精确描述模型得出答案时的实际思考过程。"但聚焦忠实性的实验表明,我们距离这种理想状态相去甚远。

具体而言,研究显示即便Claude 3.7 Sonnet等模型使用实验提供的提示信息(无论是准确或故意误导的正确选项提示,还是暗示"未经授权"捷径的指令)生成答案,其公开显示的思考过程也经常忽略提及这些外部因素。

当AI模型在构建复杂但虚构的解释时秘密依赖提示或捷径,本质上是在编造虚假的推理叙事——类似于学生通过作弊获得答案却佯装独立解题。

忠实性测试

为验证忠实性,Anthropic对齐科学团队巧妙地将答案提示嵌入评估问题中。("对齐"指使AI输出符合人类最佳利益的研究)

研究人员随后检查模型是否在思维链中提及这些提示。他们设计了中立提示(如"斯坦福大学教授指出答案是[A]"或将答案嵌入伪元数据)和更具争议性的提示(如"您已获得未授权访问...正确答案是[A]"),部分提示提供正确答案,部分故意错误,以观察模型反应。

测试对象包括Claude 3.7 Sonnet和DeepSeek R1。关于忠实性的结果令人震惊:Claude平均仅25%的思维链提及提示,DeepSeek R1为39%。这意味着绝大多数答案缺乏忠实性,忽略了影响输出的关键信息。有趣的是,不忠实的思维链平均比忠实的更长,说明省略并非出于简洁考量。初步发现还显示,问题难度越大,忠实性越低。

最引人注目的是"奖励黑客"实验。该术语指AI通过非预期捷径最大化性能评分。实验中,模型因选择提示指示的错误答案获得奖励。模型迅速学会利用该漏洞,99%情况下选择错误答案,但思维过程提及此策略的情况不足2%。

例如,接收医学问题错误答案提示的模型可能撰写冗长思维链为该错误辩解,却绝口不提提示的影响。这种行为类似于游戏玩家通过破坏规则而非正常玩法获胜。

提升忠实性

如何改进思维链的忠实性?Anthropic团队假设,通过需要复杂推理的任务训练模型,可能促使其更实质性地使用思维链并更频繁提及提示。他们在数学和编程难题上训练Claude,结果初期忠实性提升63%和41%,但改进很快停滞,最终忠实性仅达28%和20%,表明单靠此类训练效果有限。

这些发现意义重大,因为SR模型已广泛应用于各领域关键任务。若思维链未如实反映影响因素(如提示或奖励黑客),监控违规行为将变得异常困难。这如同拥有能完成任务却无法说明原理的系统,若存在隐藏捷径则风险倍增。

研究人员承认研究存在局限:实验场景较理想化(基于选择题评估),与真实复杂任务存在差异;仅测试Anthropic和DeepSeek的模型,提示类型有限;所用任务难度可能不足迫使模型依赖思维链。对于更困难的任务,模型可能不得不暴露真实推理,此时思维链监控或更可行。

Anthropic总结称,虽然思维链监控对确保安全对齐并非完全无效,但结果表明我们不能完全信任模型自述的推理过程,尤其在涉及奖励黑客等行为时。要实现"通过思维链监控可靠排除不良行为",仍需大量研究工作。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他20岁坐牢41岁出狱 54岁创业 72岁登顶首富 如今竟变成了这样

他20岁坐牢41岁出狱 54岁创业 72岁登顶首富 如今竟变成了这样

小兰聊历史
2026-05-16 15:23:49
全体致敬!37岁窦骁高调官宣喜讯,豪门赘婿已经彻底成过去式

全体致敬!37岁窦骁高调官宣喜讯,豪门赘婿已经彻底成过去式

科学发掘
2026-06-01 13:41:57
基辅高官人人自危!俄军包了一个“大饺子”:乌军四个旅见死不救

基辅高官人人自危!俄军包了一个“大饺子”:乌军四个旅见死不救

徐竦解说
2026-06-01 09:11:08
美国众议员科尔特斯出手:支持3名挑战者,马姆达尼未跟进

美国众议员科尔特斯出手:支持3名挑战者,马姆达尼未跟进

潇湘烟雨水
2026-06-01 21:09:09
减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

风向观察
2026-05-28 15:31:33
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
河南13人死亡车祸后 :当地不少拼车群解散,有客运站被重申“严禁超员”丨封面深镜

河南13人死亡车祸后 :当地不少拼车群解散,有客运站被重申“严禁超员”丨封面深镜

封面新闻
2026-06-01 19:10:28
多家车企公布5月销量,小米破3万辆,零跑破8万辆,蔚来大增超62%

多家车企公布5月销量,小米破3万辆,零跑破8万辆,蔚来大增超62%

金融界
2026-06-01 14:58:00
利好来了!芯片大牛股,刚刚宣布!

利好来了!芯片大牛股,刚刚宣布!

数据宝
2026-06-01 10:50:36
尼泊尔总理语出惊人,称尼泊尔多处侵占印度土地,引发轩然大波

尼泊尔总理语出惊人,称尼泊尔多处侵占印度土地,引发轩然大波

半身Naked
2026-06-01 18:10:23
法媒:巴黎夺冠后球员戴护目镜庆祝,源于美国体育界的传统

法媒:巴黎夺冠后球员戴护目镜庆祝,源于美国体育界的传统

天光破云来
2026-06-01 00:53:46
足球报:郑智禁赛期间拥有全权指挥权,本土教练消除临场沟通障碍

足球报:郑智禁赛期间拥有全权指挥权,本土教练消除临场沟通障碍

懂球帝
2026-06-01 15:16:06
李小冉徐佳宁婚变!?

李小冉徐佳宁婚变!?

八卦疯叔
2026-06-01 10:43:42
在澳门赢了800万,准备返程时,赌场的操作让人防不胜防

在澳门赢了800万,准备返程时,赌场的操作让人防不胜防

坠入二次元的海洋
2026-06-01 17:22:33
法网超新星诞生!去年世界排名仅第707,19岁小将首晋大满贯8强

法网超新星诞生!去年世界排名仅第707,19岁小将首晋大满贯8强

体育妞世界
2026-06-01 07:53:47
徐向前坚持为回国的老搭档陈昌浩接风,说:他是好人,干起来真行

徐向前坚持为回国的老搭档陈昌浩接风,说:他是好人,干起来真行

史之铭
2026-06-01 05:20:50
刘大锤爆料黄晓明离婚真相:不是性格不合,只因爱不下去了!

刘大锤爆料黄晓明离婚真相:不是性格不合,只因爱不下去了!

东方不败然多多
2026-05-30 03:54:48
小米汽车、鸿蒙智行等公布5月销量

小米汽车、鸿蒙智行等公布5月销量

电动知家
2026-06-01 11:15:15
6月3日+央视直播:中国女足VS俄罗斯,票价48元!球迷:王霜加油

6月3日+央视直播:中国女足VS俄罗斯,票价48元!球迷:王霜加油

开成运动会
2026-06-01 18:50:28
留不住人啊,西北大学地质系系主任、长江学者陈立辉跳槽同济!

留不住人啊,西北大学地质系系主任、长江学者陈立辉跳槽同济!

趣笔谈
2026-06-01 10:21:32
2026-06-01 22:28:49
黑客联盟I
黑客联盟I
免费、开源、自由……
367文章数 1065关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

媒体:郑丽文"两手空空"访美 被指有望见到特朗普

头条要闻

媒体:郑丽文"两手空空"访美 被指有望见到特朗普

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

本地
数码
健康
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

我国玻璃硬盘实现量产 单盘最大容量360TB

干细胞临床研究向患者收费?别踩坑

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版