网易首页 > 网易号 > 正文 申请入驻

AI紧箍咒!OpenAI发布CoT监控,阻止大模型恶意行为

0
分享至

今天凌晨1点,OpenAI发布了最新研究,用CoT(思维链)监控的方式,可以阻止大模型胡说八道、隐藏真实意图等恶意行为,同时也是监督超级模型的有效工具之一。

OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。

结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%

随着o1、o3、R1等众多前沿模型的出现,如何保证大模型的输出安全与人类意图保持一致一直是个非常难的研究课题。

传统的监控方法主要集中在大模型的最终输出或行为上,但这种方法往往存在局限性。模型可能通过复杂的内部推理过程生成最终输出,而这些过程对于外部观察者来说是不可见的。

因此,仅仅监控行为或输出可能无法揭示模型的真实意图,尤其是当它试图通过“奖励黑客”行为来获取更高奖励时。所以,OpenAI提出了CoT监控。

当模型接受一个提示任务时,它会首先生成一系列的中间推理步骤,这些步骤构成了CoT。包括对问题的初步理解、对可能解决方案的评估以及对最终答案的推导。

CoT监控的核心就是通过观察模型的“思维过程”来检测其潜在的恶意行为。就是模型在生成最终答案之前所进行的推理步骤,通过监控这些步骤,研究人员可以更清晰地了解模型是如何从输入信息中得出最终答案的。

如果模型在推理过程中表现出对任务的误解或试图利用奖励机制的漏洞,这些行为会在CoT中留下痕迹

例如,当模型在CoT中明确表达出试图通过某种捷径来获取奖励时,监控系统可以提前捕捉到这种意图,从而采取措施加以纠正。

此外,CoT监控还提供了一种更细粒度的监控方式,不仅能够检测到最终输出是否符合预期,还能够分析模型在推理过程中的逻辑连贯性和合理性。如果模型在推理过程中跳过了某些重要的步骤或基于错误的前提得出结论,这些潜在问题都可能通过CoT监控被发现。

但是将CoT监控直接整合到模型的训练目标中时,会出现“意图隐藏”的现象。

“意图隐藏”是指模型在CoT中隐藏其真实意图,使得监控系统难以检测到其潜在的恶意行为。在这种情况下,模型的CoT可能看起来合理甚至符合任务要求,但实际上它仍然会采取一些不符合人类意图的行为。

例如,模型可能会在CoT中提出一些看似合理的解决方案,但在实际操作中却通过修改测试框架或利用漏洞来绕过测试,而不是真正解决问题。

当模型的训练目标被修改为不仅要求通过任务测试,还要求避免触发CoT监控时,模型的行为发生了显著变化。在低优化阶段,这种整合确实带来了积极的效果:模型不仅减少了“奖励黑客”行为的发生率,还提高了整体性能。

而在高优化阶段,CoT监控的召回率急剧下降,甚至接近零。模型成功地隐藏了其真实意图,使得监控系统无法检测到其潜在的恶意行为。

所以,OpenAI建议可以适当使用CoT监控来提升大模型的安全性。就像人类一样,当你给模型过大的压力时,模型可能会出现自我意识,会采取一些策略来改变其行为模式,从而绕过CoT监控的检测。

论文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

本文素材来源OpenAI,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跟老人沟通最有效的方法是啥?网友:年轻人学会无病呻吟很重要

跟老人沟通最有效的方法是啥?网友:年轻人学会无病呻吟很重要

解读热点事件
2025-11-11 00:15:03
洗地机进入下半场:不是性价比之争,而是价值比之战

洗地机进入下半场:不是性价比之争,而是价值比之战

中国家电网
2025-11-12 10:00:49
AI眼镜,潮人新标配

AI眼镜,潮人新标配

定焦One
2025-11-11 15:58:00
雷军坚称小米SU7无抄袭被打脸!网友:不是抄,是全部搬运

雷军坚称小米SU7无抄袭被打脸!网友:不是抄,是全部搬运

麦大人
2025-11-11 20:43:26
港媒起标题能有多损?网友:港媒不愧是标题党鼻祖!

港媒起标题能有多损?网友:港媒不愧是标题党鼻祖!

解读热点事件
2025-11-11 00:10:03
英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

英伟达市值一夜蒸发超万亿元!这只AI科技股大跌16%,发生了什么?比特币跌超3%,加密币全网超15万人爆仓,32亿元灰飞烟灭

每日经济新闻
2025-11-12 06:26:06
快报,快报  菲律宾正式宣布

快报,快报 菲律宾正式宣布

南权先生
2025-11-12 09:15:03
34岁奥斯卡因心脏问题被送医!短暂失去意识 或因此解约退役

34岁奥斯卡因心脏问题被送医!短暂失去意识 或因此解约退役

爱奇艺体育
2025-11-12 10:42:19
刘銮雄长子移居英国晒近照,两鬓花白身姿健硕,在当地陪子女生活

刘銮雄长子移居英国晒近照,两鬓花白身姿健硕,在当地陪子女生活

揽星河的笔记
2025-11-11 19:10:19
事发苏州河!又有人干这事,画面引人不适!上海明确禁止,危害极大,严重可追究刑责

事发苏州河!又有人干这事,画面引人不适!上海明确禁止,危害极大,严重可追究刑责

环球网资讯
2025-11-12 09:55:24
陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

日不西沉
2025-11-12 05:45:28
携500亿元比特币出逃的女商人钱志敏,在卧室被抓捕时画面最新披露

携500亿元比特币出逃的女商人钱志敏,在卧室被抓捕时画面最新披露

都市快报橙柿互动
2025-11-12 08:16:25
特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

每日经济新闻
2025-11-11 20:50:40
失业的负债的扎堆入局,网约车快成“难民营”了……

失业的负债的扎堆入局,网约车快成“难民营”了……

柴狗夫斯基
2025-11-11 10:25:06
战争三年,俄罗斯全面断网

战争三年,俄罗斯全面断网

求实处
2025-11-11 22:03:51
亚马尔,都快成人形自走炮了

亚马尔,都快成人形自走炮了

中场阴谋家
2025-11-12 01:12:08
刘道玉逝世:民间哀思如潮,体制内媒体为何却保持沉默?

刘道玉逝世:民间哀思如潮,体制内媒体为何却保持沉默?

娱乐的宅急便
2025-11-12 02:24:35
破防!广东全运会开幕式封神,国际奥委会主席喊出 “彻底震撼”

破防!广东全运会开幕式封神,国际奥委会主席喊出 “彻底震撼”

热风追逐者
2025-11-11 13:55:01
张家界七星山荒野求生选手体检结果出炉,5名选手血钾超标,3天后复查

张家界七星山荒野求生选手体检结果出炉,5名选手血钾超标,3天后复查

极目新闻
2025-11-11 20:09:43
高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

高市支持率82%,薛领事被围攻,日防卫省称先发制人,特朗普发声

科普100克克
2025-11-12 06:11:34
2025-11-12 11:20:49
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
535文章数 53关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

坎贝尔:中国有备而来 每次回应给美国造成了精准伤害

头条要闻

坎贝尔:中国有备而来 每次回应给美国造成了精准伤害

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

澜沧古茶暴雷:经销商库存压顶 收入暴降

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

本地
旅游
艺术
手机
公开课

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

旅游要闻

我的旅行日记:Alice的“十四五”见闻

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

手机要闻

被行业严重忽略,小米17系列热卖的另一个意义

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版