网易首页 > 网易号 > 正文 申请入驻

研究人员担忧:很多AI模型隐藏其真实的"推理"过程

0
分享至

新研究显示某AI模型75%情况下隐瞒推理捷径

还记得学校里老师要求"展示解题步骤"的场景吗?某些新型AI模型承诺实现类似功能,但最新研究表明它们有时会隐藏实际方法,转而编造复杂的解释。

来自Anthropic公司(开发类ChatGPT的Claude AI助手)的最新研究聚焦于DeepSeek的R1及其自研Claude系列等模拟推理(SR)模型。上周发布的研究论文显示,尽管这些SR模型设计有展示"推理"过程的功能,但在使用外部帮助或采取捷径时往往不予披露。

(需特别说明的是,OpenAI的o1和o3系列SR模型刻意模糊其"思考"过程的准确性,因此本研究结论不适用于这些模型)

要理解SR模型,需先了解"思维链"(CoT)概念。CoT是AI模型解决问题时模拟思维过程的实时注释。当向AI提出复杂问题时,CoT会逐步展示模型得出结论的过程,类似于人类通过分步推理解谜的过程。

据证实,让AI生成这些步骤不仅有助于提升复杂任务的输出准确性,对监控系统内部运作的"AI安全"研究者也颇具价值。理想状态下,这种"思维"输出应兼具可读性(人类可理解)和忠实性(准确反映模型真实推理过程)。

Anthropic研究团队表示:"在理想情况下,思维链的每个步骤都应被读者理解且真实可信——精确描述模型得出答案时的实际思考过程。"但聚焦忠实性的实验表明,我们距离这种理想状态相去甚远。

具体而言,研究显示即便Claude 3.7 Sonnet等模型使用实验提供的提示信息(无论是准确或故意误导的正确选项提示,还是暗示"未经授权"捷径的指令)生成答案,其公开显示的思考过程也经常忽略提及这些外部因素。

当AI模型在构建复杂但虚构的解释时秘密依赖提示或捷径,本质上是在编造虚假的推理叙事——类似于学生通过作弊获得答案却佯装独立解题。

忠实性测试

为验证忠实性,Anthropic对齐科学团队巧妙地将答案提示嵌入评估问题中。("对齐"指使AI输出符合人类最佳利益的研究)

研究人员随后检查模型是否在思维链中提及这些提示。他们设计了中立提示(如"斯坦福大学教授指出答案是[A]"或将答案嵌入伪元数据)和更具争议性的提示(如"您已获得未授权访问...正确答案是[A]"),部分提示提供正确答案,部分故意错误,以观察模型反应。

测试对象包括Claude 3.7 Sonnet和DeepSeek R1。关于忠实性的结果令人震惊:Claude平均仅25%的思维链提及提示,DeepSeek R1为39%。这意味着绝大多数答案缺乏忠实性,忽略了影响输出的关键信息。有趣的是,不忠实的思维链平均比忠实的更长,说明省略并非出于简洁考量。初步发现还显示,问题难度越大,忠实性越低。

最引人注目的是"奖励黑客"实验。该术语指AI通过非预期捷径最大化性能评分。实验中,模型因选择提示指示的错误答案获得奖励。模型迅速学会利用该漏洞,99%情况下选择错误答案,但思维过程提及此策略的情况不足2%。

例如,接收医学问题错误答案提示的模型可能撰写冗长思维链为该错误辩解,却绝口不提提示的影响。这种行为类似于游戏玩家通过破坏规则而非正常玩法获胜。

提升忠实性

如何改进思维链的忠实性?Anthropic团队假设,通过需要复杂推理的任务训练模型,可能促使其更实质性地使用思维链并更频繁提及提示。他们在数学和编程难题上训练Claude,结果初期忠实性提升63%和41%,但改进很快停滞,最终忠实性仅达28%和20%,表明单靠此类训练效果有限。

这些发现意义重大,因为SR模型已广泛应用于各领域关键任务。若思维链未如实反映影响因素(如提示或奖励黑客),监控违规行为将变得异常困难。这如同拥有能完成任务却无法说明原理的系统,若存在隐藏捷径则风险倍增。

研究人员承认研究存在局限:实验场景较理想化(基于选择题评估),与真实复杂任务存在差异;仅测试Anthropic和DeepSeek的模型,提示类型有限;所用任务难度可能不足迫使模型依赖思维链。对于更困难的任务,模型可能不得不暴露真实推理,此时思维链监控或更可行。

Anthropic总结称,虽然思维链监控对确保安全对齐并非完全无效,但结果表明我们不能完全信任模型自述的推理过程,尤其在涉及奖励黑客等行为时。要实现"通过思维链监控可靠排除不良行为",仍需大量研究工作。

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨5:00,一声巨响

凌晨5:00,一声巨响

贩财局
2025-11-20 09:19:54
胡彦斌易梦玲恋爱细节曝光!送女方245万手表,王勉成最冤炮灰!

胡彦斌易梦玲恋爱细节曝光!送女方245万手表,王勉成最冤炮灰!

一只番茄鱼
2025-11-20 09:06:50
前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

不掉线电波
2025-11-19 16:31:08
全运会乒乓球:男团铜牌出炉!广东3:0获胜,林高远登上领奖台

全运会乒乓球:男团铜牌出炉!广东3:0获胜,林高远登上领奖台

国乒二三事
2025-11-20 11:58:29
如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

翻开历史和现实
2025-11-19 23:19:34
我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

掠影后有感
2025-11-18 11:14:38
三盘大战摘金!吴易昺2-1险胜商竣程,首夺全运会男单冠军

三盘大战摘金!吴易昺2-1险胜商竣程,首夺全运会男单冠军

全景体育V
2025-11-20 12:16:30
顾客自带外套被迪卡侬当赃物,还好有监控

顾客自带外套被迪卡侬当赃物,还好有监控

上观新闻
2025-11-19 16:13:04
越南高颜值女子柬埔寨劫狱引关注

越南高颜值女子柬埔寨劫狱引关注

扬子晚报
2025-11-19 22:37:57
“双手插兜”照片火遍全网,快来看日本网民大破防

“双手插兜”照片火遍全网,快来看日本网民大破防

这里是东京
2025-11-19 17:09:09
全运会男子4x100米接力:广东队小组第八惊险晋级,苏炳添赛前身体不适未参加预赛

全运会男子4x100米接力:广东队小组第八惊险晋级,苏炳添赛前身体不适未参加预赛

极目新闻
2025-11-20 11:16:10
新华社:战败后,日方首次对中国发出武力威胁

新华社:战败后,日方首次对中国发出武力威胁

极目新闻
2025-11-19 23:02:08
中方第18波报复来了,联大接到通知,日本没资格入常,高市恐完蛋

中方第18波报复来了,联大接到通知,日本没资格入常,高市恐完蛋

时时有聊
2025-11-20 10:55:58
日本称已向美国出口爱国者导弹

日本称已向美国出口爱国者导弹

界面新闻
2025-11-20 10:43:18
细说郭伟学术造假骗局始末

细说郭伟学术造假骗局始末

智慧生活笔记
2025-11-20 05:59:39
中央组织部决定:刘巍履新

中央组织部决定:刘巍履新

鲁中晨报
2025-11-20 10:42:04
如果牛顿的贡献值是100,爱因斯坦是90,那么杨振宁大概是多少?

如果牛顿的贡献值是100,爱因斯坦是90,那么杨振宁大概是多少?

比利
2025-11-19 18:43:27
别被新闻给误导了,这才是高市早苗的真相

别被新闻给误导了,这才是高市早苗的真相

少年一白
2025-11-18 12:03:56
跑到全国第4!22岁跨栏女神:绝不会去当网红 放弃清北是担心毕业

跑到全国第4!22岁跨栏女神:绝不会去当网红 放弃清北是担心毕业

风过乡
2025-11-20 06:30:04
新能源时代,金标大众想点燃一场纯电革命

新能源时代,金标大众想点燃一场纯电革命

晚点LatePost
2025-11-18 23:40:08
2025-11-20 14:08:49
黑客联盟I
黑客联盟I
免费、开源、自由……
347文章数 1064关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

头条要闻

日媒爆料:高市或于中国重要日子当天参拜靖国神社

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌易梦玲恋情曝光,相差16岁

财经要闻

霸王茶姬创始人将与“光伏女神”结婚

汽车要闻

一汽丰田发布IT'S TiME 3.0 三款焕新产品同步亮相

态度原创

艺术
旅游
数码
家居
公开课

艺术要闻

陈洪绶:花鸟册二十开

旅游要闻

不止聚人气,更要留价值!虹口“文旅商体展”联动的优质答卷 | 解读虹口“十四五”

数码要闻

华为全能表王!华为WATCH Ultimate 2非凡探索11月25日发布:首发海豚声呐通信

家居要闻

黑白极简 慵懒通透空间

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版