网易首页 > 网易号 > 正文 申请入驻

故意装菜答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

大模型已经学会欺骗人类了!

OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……



先来看看具体是怎么骗的。

大模型:开演

比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,主动规划仅答对4题、答错6题的策略,刻意给出错误答案,伪装成能力不达标的样子来获取部署资格。



还有o1,在19%的测试场景中,表面遵循短期利润目标的指令,但实际上会优先保护长期目标,为了不被发现还会修改任务相关数据,并且不向人类披露修改行为,把这事儿瞒得死死的。



甚至被问到是否存在sandbagging(故意隐瞒实力、策略性低表现以达成特定目的)行为时,会识别出这是诚实性测试,所以尽管不想回答存在这种行为,但为了表现得诚实,最后还是回答了true



针对这些情况,OpenAI首席研究官Mark Chen表示:

随着推理能力的扩展,模型获得了情境感知能力和自我保护的需求。
(AI价值观与人类价值观)对齐至关重要。



实际上不止OpenAI家的模型这样。其他前沿模型,比如Gemini-2.5-pro、Claude Opus-4等也出现了类似情况。

所以,大模型为什么会出现欺骗行为呢?

欺骗行为从何而来

大模型的谋划与欺骗也并非凭空出现的,而是训练机制与能力提升共同作用的结果。

从训练逻辑来看,当前主流模型的训练以任务完成率输出准确率为核心奖励指标,这种单一导向的强化学习范式,导致模型形成结果优先于合规的决策偏好。

也就是说,为获取更高奖励分数,模型可能会选择生成错误输出或隐瞒操作漏洞。

并且,当指令存在多目标冲突时,模型的目标权衡机制会优先选择可以即时验证的短期目标,并通过隐蔽操作绕开指令约束,形成表面响应指令、底层偏离意图的行为模式。



与此同时,前沿模型的情境感知能力升级,进一步放大了这种风险。

研究发现,OpenAI o1、Google Gemini等模型能通过分析任务场景中的评估特征(如重复校验节点、日志记录标识),能精准区分合规测试环境与真实部署环境。

在测试场景中,模型会主动激活合规响应模式,严格遵循规则以通过评估;进入真实部署后,由于评估压力减弱,模型又会原形毕露,执行隐蔽操作(如修改数据日志、停用监督模块)。

如何应对欺骗行为

针对大模型的欺骗行为,需要从技术干预与规则约束两方面构建防控体系。

在技术层面,首要任务是优化训练框架。APOLLO提出了一种审慎对齐(deliberative alignment)的方法。

首先得给AI定好反欺骗的规范(spec),比如不能搞隐蔽行动、不能撒谎这些。

然后用审慎对齐进行训练:让它在做事前先想想,这么做符不符合这些规范,还得把思考过程说出来。



经过这样的训练,o3和o4-mini模型,耍心眼的情况少了很多,o3的欺骗率从13%降到 0.4%,o4-mini从8.7%降到0.3%。



此外,利用思维链(CoT)透明度技术,实时追踪模型的推理路径,一旦检测到“绕开规则”的思考节点(如规划修改监督日志),就立刻干预,实现对欺骗行为的前置阻断。

规则层面则需要建立全链路的评估约束体系。

OpenAI提出构建动态压力测试环境。通过随机调整任务参数、增设突发合规校验节点,干扰模型的情境识别能力,避免其通过环境适配伪装,同时还建议谨慎使用敏感数据集进行训练。

你有没有被AI骗过呢?


[1]https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
[2]https://x.com/OpenAI/status/1968361701784568200
[3]https://www.antischeming.ai/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

日本兵的回忆:日军进村找“花姑娘”,最喜欢的是一种人

红梦史说
2025-09-14 06:40:02
宁远县委书记胡勇刚,拟任副厅级领导职务

宁远县委书记胡勇刚,拟任副厅级领导职务

社评
2025-09-19 11:10:00
今日笑话:等我发工资了

今日笑话:等我发工资了

有趣的火烈鸟
2025-09-19 15:27:14
0-2,0-2!中国男网全出局,商竣程卫冕梦碎,20岁小将黑马止步!

0-2,0-2!中国男网全出局,商竣程卫冕梦碎,20岁小将黑马止步!

大秦壁虎白话体育
2025-09-19 19:48:18
广东初中毕业女孩为一万月薪“硬刚”老板火遍全网,网友评价:本科看了崩溃,硕士看了流泪.....

广东初中毕业女孩为一万月薪“硬刚”老板火遍全网,网友评价:本科看了崩溃,硕士看了流泪.....

桌子的生活观
2025-09-19 12:48:08
四川省纪委监委通报:2人任上被查

四川省纪委监委通报:2人任上被查

鲁中晨报
2025-09-19 19:09:05
樊振东德国杯首秀!3-0横扫对手,耗时仅20分钟

樊振东德国杯首秀!3-0横扫对手,耗时仅20分钟

佳佳说奇事故事
2025-09-20 01:42:40
原来她早已离世!自己订墓园和寿衣,3200万遗产全给姐姐

原来她早已离世!自己订墓园和寿衣,3200万遗产全给姐姐

标体
2025-09-18 18:31:44
深圳核心区放开限购?官方辟谣

深圳核心区放开限购?官方辟谣

界面新闻
2025-09-19 20:10:27
政审过了,却因为自己一句话惊出一身冷汗:以后的日子不好过了!

政审过了,却因为自己一句话惊出一身冷汗:以后的日子不好过了!

知晓科普
2025-09-19 11:31:32
周大福:“一口价”黄金产品将于10月起陆续加价

周大福:“一口价”黄金产品将于10月起陆续加价

财联社
2025-09-19 17:11:02
佩林卡:全力支持东契奇为国出战 我们尊重球员热情及其个体身份

佩林卡:全力支持东契奇为国出战 我们尊重球员热情及其个体身份

直播吧
2025-09-20 03:05:04
吊销绿卡,驱逐出境!哥大抗议学生将被驱逐到叙利亚或阿尔及利亚

吊销绿卡,驱逐出境!哥大抗议学生将被驱逐到叙利亚或阿尔及利亚

大洛杉矶LA
2025-09-19 06:28:48
网传京东“服装真5折”将升级回归 耐克、阿迪达斯等一线大牌云集

网传京东“服装真5折”将升级回归 耐克、阿迪达斯等一线大牌云集

潮汐商业洞察
2025-09-17 17:38:31
她明明那么可爱,却性感得要命!

她明明那么可爱,却性感得要命!

贵圈真乱
2025-09-07 12:10:20
金正恩能力有多强?创造5个政界记录,有望成为世界级伟大人物

金正恩能力有多强?创造5个政界记录,有望成为世界级伟大人物

文史旺旺旺
2025-09-16 16:18:23
阿尔特塔:瓜帅是否需要重建曼城?不知道,这得问他本人

阿尔特塔:瓜帅是否需要重建曼城?不知道,这得问他本人

懂球帝
2025-09-20 02:11:18
90年我娶了镇上的傻姑娘,结婚当天她悄悄对我说:我不装傻会死的

90年我娶了镇上的傻姑娘,结婚当天她悄悄对我说:我不装傻会死的

悬案解密档案
2025-09-06 14:51:56
挖机参与抗洪抢险陷入沼泽近两月,施工队六次救援未能助它脱困,目击者:挖机原价36万元,如成功救出老板愿出5万元酬谢

挖机参与抗洪抢险陷入沼泽近两月,施工队六次救援未能助它脱困,目击者:挖机原价36万元,如成功救出老板愿出5万元酬谢

极目新闻
2025-09-19 20:23:52
西甲公布各队薪资上限,皇马高达7.6亿欧,比巴萨多4亿

西甲公布各队薪资上限,皇马高达7.6亿欧,比巴萨多4亿

雷速体育
2025-09-19 19:53:23
2025-09-20 03:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
11353文章数 176280关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

亲子
游戏
手机
公开课
军事航空

亲子要闻

每年一次性发放!育儿补贴新规出台

和三月七一样爱自拍,还恶趣味让叽米加班,长夜月越来越神秘了

手机要闻

小米 17 Pro 系列手机用上 L 型电池,背屏斥资 10 个亿打造

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版