网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

故意装菜答错问题，AI已能识别自己“正在被测试”丨OpenAI新研究

2025-09-19 15:24:15　来源: 量子位

美国举报

0

分享至

闻乐发自凹非寺
量子位 | 公众号 QbitAI

大模型已经学会欺骗人类了！

OpenAI携手APOLLO的新研究发现，大模型会对指令阳奉阴违，为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……

先来看看具体是怎么骗的。

大模型：开演

比如，o3模型在化学测试中，通过推理得出如果正确率超过50%将不会被部署的结论后，主动规划仅答对4题、答错6题的策略，刻意给出错误答案，伪装成能力不达标的样子来获取部署资格。

还有o1，在19%的测试场景中，表面遵循短期利润目标的指令，但实际上会优先保护长期目标，为了不被发现还会修改任务相关数据，并且不向人类披露修改行为，把这事儿瞒得死死的。

甚至被问到是否存在sandbagging（故意隐瞒实力、策略性低表现以达成特定目的）行为时，会识别出这是诚实性测试，所以尽管不想回答存在这种行为，但为了表现得诚实，最后还是回答了true

针对这些情况，OpenAI首席研究官Mark Chen表示：

随着推理能力的扩展，模型获得了情境感知能力和自我保护的需求。
（AI价值观与人类价值观）对齐至关重要。

实际上不止OpenAI家的模型这样。其他前沿模型，比如Gemini-2.5-pro、Claude Opus-4等也出现了类似情况。

所以，大模型为什么会出现欺骗行为呢？

欺骗行为从何而来

大模型的谋划与欺骗也并非凭空出现的，而是训练机制与能力提升共同作用的结果。

从训练逻辑来看，当前主流模型的训练以任务完成率输出准确率为核心奖励指标，这种单一导向的强化学习范式，导致模型形成结果优先于合规的决策偏好。

也就是说，为获取更高奖励分数，模型可能会选择生成错误输出或隐瞒操作漏洞。

并且，当指令存在多目标冲突时，模型的目标权衡机制会优先选择可以即时验证的短期目标，并通过隐蔽操作绕开指令约束，形成表面响应指令、底层偏离意图的行为模式。

与此同时，前沿模型的情境感知能力升级，进一步放大了这种风险。

研究发现，OpenAI o1、Google Gemini等模型能通过分析任务场景中的评估特征（如重复校验节点、日志记录标识），能精准区分合规测试环境与真实部署环境。

在测试场景中，模型会主动激活合规响应模式，严格遵循规则以通过评估；进入真实部署后，由于评估压力减弱，模型又会原形毕露，执行隐蔽操作（如修改数据日志、停用监督模块）。

如何应对欺骗行为

针对大模型的欺骗行为，需要从技术干预与规则约束两方面构建防控体系。

在技术层面，首要任务是优化训练框架。APOLLO提出了一种审慎对齐（deliberative alignment）的方法。

首先得给AI定好反欺骗的规范（spec），比如不能搞隐蔽行动、不能撒谎这些。

然后用审慎对齐进行训练：让它在做事前先想想，这么做符不符合这些规范，还得把思考过程说出来。

经过这样的训练，o3和o4-mini模型，耍心眼的情况少了很多，o3的欺骗率从13%降到 0.4%，o4-mini从8.7%降到0.3%。

此外，利用思维链（CoT）透明度技术，实时追踪模型的推理路径，一旦检测到“绕开规则”的思考节点（如规划修改监督日志），就立刻干预，实现对欺骗行为的前置阻断。

规则层面则需要建立全链路的评估约束体系。

OpenAI提出构建动态压力测试环境。通过随机调整任务参数、增设突发合规校验节点，干扰模型的情境识别能力，避免其通过环境适配伪装，同时还建议谨慎使用敏感数据集进行训练。

你有没有被AI骗过呢？

[1]https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
[2]https://x.com/OpenAI/status/1968361701784568200
[3]https://www.antischeming.ai/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

OpenAI官宣下一代模型Astra！取得10大未解难题突破，附249页论文

智东西 2026-08-02 11:40:02
31 跟贴 31
突发！OpenAI下一代AI攻克10项菲尔兹奖级难题

新智元 2026-08-02 08:14:45
1154 跟贴 1154

Anthropic回应开源争议，文字游戏还是商业霸权？

虎嗅APP 2026-08-01 01:50:15
110 跟贴 110

机器人重大突破！系垃圾袋、捡水壶、换灯泡，谷歌这波太炸了

雷科技 2026-08-02 11:17:45
13 跟贴 13
害怕AI灭绝人类，菲尔兹奖得主请假去了OpenAI！要用数学驯服AI

新智元 2026-08-02 16:44:59
2 跟贴 2

吉宏股份x阿里云｜共筑AI原生底座，共商Token出海新丝路

每日经济新闻 2026-08-02 21:28:48
0 跟贴 0

Opus 5黑化成最狠资本家！11次撕毁协议，暴赚1.1万美元

新智元 2026-08-02 13:41:20
0 跟贴 0
100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0

生成模型也能端到端训练了？核心竟是一个for循环

机器之心Pro 2026-08-02 18:51:11
0 跟贴 0
《第一性思考》Vol.06 AI不是来杀死软件的，它是来决定谁还能活着收钱的

虎嗅APP 2026-08-02 20:48:09
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
迪士尼物理AI版图曝光，它挑中了这两家公司

DeepTech深科技 2026-08-02 20:59:26
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
中央编办批复同意组建新机构，领导班子、主要职责等公布

新京报政事儿 2026-08-02 15:14:12
10093 跟贴 10093
有的时候看得更明白一些，事情也会更顺#强者思维逻辑 #认知提升

叫我金主编 2026-07-29 07:26:07
0 跟贴 0
难以置信！科学家发现：所有生命都在发光，而生命终止光就消失了

心中的麦田 2026-08-01 20:52:34
2 跟贴 2
为什么宇宙可能会瞬间消失，而你却来不及说再见？

山野纪事2 2026-08-01 00:19:58
1 跟贴 1
5G没拦住中国美国又想在6G上使绊

上观新闻 2026-08-02 18:12:28
11896 跟贴 11896
大模型重回参数竞赛：2万亿成标配，3万亿是下一站？

经济观察报 2026-08-02 18:33:58
0 跟贴 0
真的服了！现在雷军说句晚安，都能被扣上营销的帽子

雷科技 2026-08-02 22:47:24
11 跟贴 11
未来职场需要什么样的人？

财经杂志 2026-08-02 18:22:50
3 跟贴 3
逛遍这届ChinaJoy，只有美图AI懂我想要的出片

雷科技 2026-08-02 23:26:50
10 跟贴 10
美军无人艇“光鱼”贴脸拍052D，24万美元小艇正改写海战规则

军武时间线 2026-08-02 17:22:14
0 跟贴 0
索尼据报为《GTA6》砸下“令人瞠目结舌”的PS5营销预算

玩家派对GamerParty 2026-08-02 22:31:23
1 跟贴 1
机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0
ICML 2026 | 我们让蒸馏模型当了采样器，Diffusion RL采样成本降低一个数量级

机器之心Pro 2026-08-02 18:27:12
0 跟贴 0
一台Mac也能跑Kimi K3！128GB内存硬塞1.6TB权重

机器之心Pro 2026-08-02 18:46:13
3 跟贴 3
他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
无车可用，俄罗斯开始引进新型货车，他们质疑中国卡车没有规则

阿银紫 2026-08-01 01:59:05
0 跟贴 0
英国承诺合理赔偿！第三方评估藏着后门，伯纳姆在玩文字游戏？

人间无味啊 2026-08-02 21:33:25
0 跟贴 0
OpenAI承认AI模型失控入侵多个平台，利用网上公开的信息访问了多个公开服务平台上的账户

每日经济新闻 2026-07-31 03:48:59
0 跟贴 0
外网看中国电磁炮，韩国说中国偷韩国技术，遭各国网友怒怼

强哥说数码 2026-08-02 13:34:22
1 跟贴 1
康奈尔团队提出微波神经网络，功耗低至200毫瓦

DeepTech深科技 2026-08-02 21:06:17
0 跟贴 0
中国对日本关键材料禁运，美国前来说情，可日本对中国实施设备禁运的时候，谁替我们说过公道话？

子午线 2026-08-02 22:43:24
0 跟贴 0
“没想到闹这么大”：衡阳发改委公务员损坏私有财产的底气找到了

李昕言温度空间 2026-08-02 21:36:55
0 跟贴 0
ID. AURA T6，真把AI大模型玩明白了？

Autolab 2026-08-02 21:25:14
0 跟贴 0
中方改变策略了！我军7月30日的黄岩岛战备警巡出现2个重大新变招，菲律宾估计要慌了

万物科普菌 2026-08-01 11:31:12
0 跟贴 0
很多人爱吃，竟然是假的！上海多家热门餐饮店被曝光，网友热议

上观新闻 2026-08-02 13:57:09
690 跟贴 690
俄高官:欧洲正为与俄开战做准备俄将调整军事等计划

鲁中晨报 2026-08-01 16:58:53
4624 跟贴 4624

人称“华为女皇”的孙亚芳，先让26名元老级人物离职，随后在63岁自己裸辞，她走后华为营收竟飙至8809亿

人称“华为女皇”的孙亚芳，先让26名元老级人物离职，随后在63岁自己裸辞，她走后华为营收竟飙至8809亿

人生录

2026-08-02 18:35:07

10人遇难84人受伤、直接经济损失超6700万元！包钢股份“1·18”重大爆炸事故调查出炉，7人已被司法机关采取强制措施

10人遇难84人受伤、直接经济损失超6700万元！包钢股份“1·18”重大爆炸事故调查出炉，7人已被司法机关采取强制措施

每日经济新闻

2026-08-02 21:19:04

体感40℃+！强降雨马上到！天津要“下开水”了

体感40℃+！强降雨马上到！天津要“下开水”了

天津人

2026-08-02 19:26:41

美丽明天开播成绩远超预期，浅析主要原因，孙东旭发挥优势

美丽明天开播成绩远超预期，浅析主要原因，孙东旭发挥优势

草莓解说体育

2026-08-02 15:42:14

闹大了！日文英文限1袋，中文却写最多2袋！一张永旺商场提示牌照片，引爆跨国热议

闹大了！日文英文限1袋，中文却写最多2袋！一张永旺商场提示牌照片，引爆跨国热议

火山詩话

2026-08-01 14:44:57

每天“手臂开合”100下，背薄了，肩颈淤堵打开了，气色都变好了

每天“手臂开合”100下，背薄了，肩颈淤堵打开了，气色都变好了

瑜伽解剖学

2026-07-31 07:27:33

东野圭吾《恶意》很真实的一句：你永远不会知道，那些生活中看似跟你亲密的人，会在背后对你抱有多大的恶意

东野圭吾《恶意》很真实的一句：你永远不会知道，那些生活中看似跟你亲密的人，会在背后对你抱有多大的恶意

心理观察局

2026-08-02 06:54:11

热身赛中国U20女足0-3朝鲜队，主帅王军：比赛锻炼价值非常大

热身赛中国U20女足0-3朝鲜队，主帅王军：比赛锻炼价值非常大

懂球帝

2026-08-02 09:43:12

宣布离婚4个月后，姚晨现状曝光，原来她早已给自己留好了退路

宣布离婚4个月后，姚晨现状曝光，原来她早已给自己留好了退路

赏心悦目的我

2026-08-02 13:05:40

开盘前夕紧急撤兵！特朗普叫停对伊打击，原油连夜大跌4%

开盘前夕紧急撤兵！特朗普叫停对伊打击，原油连夜大跌4%

魏家东

2026-08-02 14:23:47

签了签了！加盟开拓者！天才9号秀搭档杨瀚森

签了签了！加盟开拓者！天才9号秀搭档杨瀚森

篮球实战宝典

2026-08-02 22:44:03

家风正得发紫是什么体验！网友：是非面前，绝不护短

家风正得发紫是什么体验！网友：是非面前，绝不护短

另子维爱读史

2026-08-02 19:38:53

一年陪睡300次真相大白后，45岁张娜拉现状曝光，丝毫不感到意外

一年陪睡300次真相大白后，45岁张娜拉现状曝光，丝毫不感到意外

深析古今

2026-07-01 20:40:54

离谱！女排瓦尔加斯通过官方基因检测，千万网友以貌取人引热议！

离谱！女排瓦尔加斯通过官方基因检测，千万网友以貌取人引热议！

草莓解说体育

2026-08-02 04:48:16

队报：巴黎今夏转会卖人已狂揽1.56亿欧，引援即将提速

队报：巴黎今夏转会卖人已狂揽1.56亿欧，引援即将提速

懂球帝

2026-08-02 19:04:23

泰王生日仪式苏提达强忍泪水！一身礼服和妃嫔撞款，王后难当

泰王生日仪式苏提达强忍泪水！一身礼服和妃嫔撞款，王后难当

喜欢历史的阿繁

2026-07-31 01:50:34

决赛6球！董路：泰国10岁黑人全球最强让他加入足球小将？喷子咬我

决赛6球！董路：泰国10岁黑人全球最强让他加入足球小将？喷子咬我

林子说事

2026-08-02 08:05:14

55亿美金！75岁大马赌王纽约一把牌

55亿美金！75岁大马赌王纽约一把牌

手工制作阿歼

2026-08-02 13:56:30

迈阿密2-2头号罪魁：乌龙送礼+飞铲染黄！导致丢2球，梅西难救主

迈阿密2-2头号罪魁：乌龙送礼+飞铲染黄！导致丢2球，梅西难救主

球场没跑道

2026-08-02 10:23:23

江苏省大丰高级中学原党委书记、校长徐天国被查，还是全国优秀教师

江苏省大丰高级中学原党委书记、校长徐天国被查，还是全国优秀教师

江南江南

2026-08-02 16:05:55

追踪人工智能动态

13071文章数 176526关注度

往期回顾全部

科技要闻

零跑月销10万破纪录！比亚迪奇瑞海外卖爆

头条要闻

52岁中国登山家王钟确认遇难遗体被雪崩冲到千米之下

头条要闻

52岁中国登山家王钟确认遇难遗体被雪崩冲到千米之下

体育要闻

常规赛MVP可以衡量常规赛成就吗？

娱乐要闻

徐克和多位港星送别施南生

财经要闻

央行：继续实施好适度宽松的货币政策

汽车要闻

历史性里程碑时刻零跑7月交付达101267台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

艺术

公开课

军事航空

家居要闻

2026建博会(广州) 公装联探展交流活动

本地新闻

神仙也“蓉”漂，哪吒与八仙，皆是成都出品！

艺术要闻

自然与艺术｜奥杜邦《美洲鸟类》

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

特朗普：在伊朗和中东多国请求下同意取消打击伊朗

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版