网易首页 > 网易号 > 正文 申请入驻

研究人员担忧:很多AI模型隐藏其真实的"推理"过程

0
分享至

新研究显示某AI模型75%情况下隐瞒推理捷径

还记得学校里老师要求"展示解题步骤"的场景吗?某些新型AI模型承诺实现类似功能,但最新研究表明它们有时会隐藏实际方法,转而编造复杂的解释。

来自Anthropic公司(开发类ChatGPT的Claude AI助手)的最新研究聚焦于DeepSeek的R1及其自研Claude系列等模拟推理(SR)模型。上周发布的研究论文显示,尽管这些SR模型设计有展示"推理"过程的功能,但在使用外部帮助或采取捷径时往往不予披露。

(需特别说明的是,OpenAI的o1和o3系列SR模型刻意模糊其"思考"过程的准确性,因此本研究结论不适用于这些模型)

要理解SR模型,需先了解"思维链"(CoT)概念。CoT是AI模型解决问题时模拟思维过程的实时注释。当向AI提出复杂问题时,CoT会逐步展示模型得出结论的过程,类似于人类通过分步推理解谜的过程。

据证实,让AI生成这些步骤不仅有助于提升复杂任务的输出准确性,对监控系统内部运作的"AI安全"研究者也颇具价值。理想状态下,这种"思维"输出应兼具可读性(人类可理解)和忠实性(准确反映模型真实推理过程)。

Anthropic研究团队表示:"在理想情况下,思维链的每个步骤都应被读者理解且真实可信——精确描述模型得出答案时的实际思考过程。"但聚焦忠实性的实验表明,我们距离这种理想状态相去甚远。

具体而言,研究显示即便Claude 3.7 Sonnet等模型使用实验提供的提示信息(无论是准确或故意误导的正确选项提示,还是暗示"未经授权"捷径的指令)生成答案,其公开显示的思考过程也经常忽略提及这些外部因素。

当AI模型在构建复杂但虚构的解释时秘密依赖提示或捷径,本质上是在编造虚假的推理叙事——类似于学生通过作弊获得答案却佯装独立解题。

忠实性测试

为验证忠实性,Anthropic对齐科学团队巧妙地将答案提示嵌入评估问题中。("对齐"指使AI输出符合人类最佳利益的研究)

研究人员随后检查模型是否在思维链中提及这些提示。他们设计了中立提示(如"斯坦福大学教授指出答案是[A]"或将答案嵌入伪元数据)和更具争议性的提示(如"您已获得未授权访问...正确答案是[A]"),部分提示提供正确答案,部分故意错误,以观察模型反应。

测试对象包括Claude 3.7 Sonnet和DeepSeek R1。关于忠实性的结果令人震惊:Claude平均仅25%的思维链提及提示,DeepSeek R1为39%。这意味着绝大多数答案缺乏忠实性,忽略了影响输出的关键信息。有趣的是,不忠实的思维链平均比忠实的更长,说明省略并非出于简洁考量。初步发现还显示,问题难度越大,忠实性越低。

最引人注目的是"奖励黑客"实验。该术语指AI通过非预期捷径最大化性能评分。实验中,模型因选择提示指示的错误答案获得奖励。模型迅速学会利用该漏洞,99%情况下选择错误答案,但思维过程提及此策略的情况不足2%。

例如,接收医学问题错误答案提示的模型可能撰写冗长思维链为该错误辩解,却绝口不提提示的影响。这种行为类似于游戏玩家通过破坏规则而非正常玩法获胜。

提升忠实性

如何改进思维链的忠实性?Anthropic团队假设,通过需要复杂推理的任务训练模型,可能促使其更实质性地使用思维链并更频繁提及提示。他们在数学和编程难题上训练Claude,结果初期忠实性提升63%和41%,但改进很快停滞,最终忠实性仅达28%和20%,表明单靠此类训练效果有限。

这些发现意义重大,因为SR模型已广泛应用于各领域关键任务。若思维链未如实反映影响因素(如提示或奖励黑客),监控违规行为将变得异常困难。这如同拥有能完成任务却无法说明原理的系统,若存在隐藏捷径则风险倍增。

研究人员承认研究存在局限:实验场景较理想化(基于选择题评估),与真实复杂任务存在差异;仅测试Anthropic和DeepSeek的模型,提示类型有限;所用任务难度可能不足迫使模型依赖思维链。对于更困难的任务,模型可能不得不暴露真实推理,此时思维链监控或更可行。

Anthropic总结称,虽然思维链监控对确保安全对齐并非完全无效,但结果表明我们不能完全信任模型自述的推理过程,尤其在涉及奖励黑客等行为时。要实现"通过思维链监控可靠排除不良行为",仍需大量研究工作。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《主角》:赢了天赋,输了心性,终究活成了自己讨厌的样子

《主角》:赢了天赋,输了心性,终究活成了自己讨厌的样子

怂熊剧场
2026-05-24 06:45:08
四川发布干部任前公示 周杰拟任正厅级领导职务

四川发布干部任前公示 周杰拟任正厅级领导职务

掌上金牛
2026-05-29 19:58:07
正式获批!浙江迎来第三所985!

正式获批!浙江迎来第三所985!

新浪财经
2026-05-28 16:33:09
六一儿童节官宣!国务院明确:6月1日不满14周岁儿童放假1天

六一儿童节官宣!国务院明确:6月1日不满14周岁儿童放假1天

奇葩游戏酱
2026-05-30 00:12:37
交了智商税才明白:这4种家电一定要买贵的,没钱干脆先不买

交了智商税才明白:这4种家电一定要买贵的,没钱干脆先不买

装修秀
2026-05-21 21:07:00
苏联为他破例,毛主席为他题词:一位被遗忘的“共和国全才”

苏联为他破例,毛主席为他题词:一位被遗忘的“共和国全才”

长江浊酒客
2026-05-28 10:30:06
情况越来越不妙,赖清德决定签字,两岸对话被毁,民进党闯下大祸

情况越来越不妙,赖清德决定签字,两岸对话被毁,民进党闯下大祸

观史搜寻着
2026-05-29 06:54:01
江苏一男子手术失败快不行了,妻子抱着他哭得肝肠寸断,谁料,男子却凑到妻子耳边说了句话,听完当场就笑了...

江苏一男子手术失败快不行了,妻子抱着他哭得肝肠寸断,谁料,男子却凑到妻子耳边说了句话,听完当场就笑了...

大爱三湘
2026-05-29 19:22:31
我国首个“亿级车企”诞生!无锡马力全开

我国首个“亿级车企”诞生!无锡马力全开

新浪财经
2026-05-28 22:05:32
如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

如果一个家庭长期没酒局、没社交,也少走亲戚,只能说明这两个问题

心理观察局
2026-05-04 09:23:46
丈夫的兄弟每周来家里留宿,凌晨我闭眼装睡,他竟偷偷推开房门

丈夫的兄弟每周来家里留宿,凌晨我闭眼装睡,他竟偷偷推开房门

半身Naked
2026-03-19 09:37:26
扎克伯格再出王炸!开源全球首个AI蛋白质世界模型,最高88%命中率,颠覆药物研发!

扎克伯格再出王炸!开源全球首个AI蛋白质世界模型,最高88%命中率,颠覆药物研发!

智药局
2026-05-28 19:10:25
窦骁说,不是张艺谋找我演的主角,演主角完全是一个意外

窦骁说,不是张艺谋找我演的主角,演主角完全是一个意外

童叔不飙车
2026-05-29 15:27:19
敢说!德比斯:马西亚像神经病一样疯狂比手势 我以为我撞死人了

敢说!德比斯:马西亚像神经病一样疯狂比手势 我以为我撞死人了

念洲
2026-05-29 13:25:03
六小龄童发文悼念:《西游记》“福星” 饰演者安云武逝世,享年78岁

六小龄童发文悼念:《西游记》“福星” 饰演者安云武逝世,享年78岁

极目新闻
2026-05-29 08:38:28
拉比奥与米兰分手在即?“叛将”说法无从说起

拉比奥与米兰分手在即?“叛将”说法无从说起

爱看球的龙江闲人
2026-05-30 04:20:14
巴拿马触底线,求饶路已自堵死

巴拿马触底线,求饶路已自堵死

风铃草语
2026-05-29 06:31:59
乘组飞了210天!神舟二十二号飞船着陆:返航时为何要穿航天服

乘组飞了210天!神舟二十二号飞船着陆:返航时为何要穿航天服

林子说事
2026-05-30 01:48:00
老虎证券新西兰遭中方调查,新西兰监管机构回应

老虎证券新西兰遭中方调查,新西兰监管机构回应

发现新西兰
2026-05-29 12:15:32
97年我跑长途捎了一位尼姑,尼姑下车时送我三句话,三年后全应验

97年我跑长途捎了一位尼姑,尼姑下车时送我三句话,三年后全应验

千秋文化
2026-04-29 19:09:51
2026-05-30 04:51:00
黑客联盟I
黑客联盟I
免费、开源、自由……
367文章数 1065关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
教育
家居
数码
军事航空

旅游要闻

云南文旅数智升级,旅游小镇游客满意度提升超过30%

教育要闻

“不漂亮,还很吓人!”大眼睛艺考生走红,颜值却令网友感到不适

家居要闻

云栖 舒展如流云

数码要闻

宏碁推多款游戏新品:两款笔记本、一款串流掌机,还有键盘、背包

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版