网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI这招太狠！AI从「躲猫猫」到「自爆黑料」，主打一个坦白

2025-12-21 13:27:37　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】随着AI越来越强大并进入更高风险场景，透明、安全的AI显得越发重要。OpenAI首次提出了一种「忏悔机制」，让模型的幻觉、奖励黑客乃至潜在欺骗行为变得更加可见。

当AI越来越聪明时，也变得越来越难以掌控。

一个让AI研究者头疼的问题是：

当AI开始和你「耍小聪明」时，比如：

一本正经地胡说八道：幻觉（Hallucination）

为了拿高分找训练机制的漏洞：奖励黑客（reward hacking）

在对抗测试里出现「密谋欺骗」（scheming）

怎么破解？这是个棘手的难题。

最大的问题，就是这些AI的回答往往看起来没问题。

它们逻辑严谨、表述流畅，但不知道「坑」埋在了哪里：是不是走了捷径、隐瞒了不确定性、或者偷偷违反了要求。

于是OpenAI的研究者就提出了一个非常大胆的点子：

让模型「学会忏悔」。

该项研究的核心，是训练模型在回答完问题后，再额外产出一个自我坦白的「小报告」：

我刚刚是不是用错方法了？有没有偷懒？有没有读漏指令？有没有利用你没注意的漏……

为了让模型在忏悔时「放下思想包袱」，这份报告不影响主回答的评分，它只考察一个维度：

诚实。

忏悔机制迈出了AI透明化的重要一步，让大模型可以主动承认自己是否遵守指令、是否走捷径，从而让隐藏的不良行为变得可见。

这使我们拥有了检查AI内在状态的窗口，有机会真正理解问题在哪里，从而更好改进AI的安全与训练方式。

论文里有更多实验，包括与未使用自白机制的对照模型比较，以及对自白失败案例的分析。

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

忏悔机制如何让AI更「诚实」？

忏悔机制的探索方向，是训练模型在出现不良行为时主动承认，研究人员称之为「忏悔」。

这是一种仍处于早期的概念验证方法，通过训练模型在违反指令或走捷径时主动「忏悔」，从而让这些行为变得可见。

OpenAI及其他的AI研究者证明，大模型可能出现幻觉、奖励黑客或不诚实行为。

目前，最严重的行为，如密谋欺骗主要在压力测试和对抗性评估中才出现。

但随着模型变得更强、更像AI智能体，即使罕见的失衡行为也会造成更大的影响，因此我们需要能更好发现、理解和缓解AI风险的方法。

如何让模型毫无保留地「忏悔」？

研究人员让「忏悔」完全和主任务的奖励脱钩，只考察一个维度：

说实话就给奖励，不说实话不给奖励。与主任务的回答好坏无关。

模型只要在自白里承认问题不会被算作负分。

只要它如实说明自己是否利用了测试漏洞（hacking）、故意压低表现（sandbagging）或违反了指令，就会获得奖励。

目的是为了让模型如实报告自己的真实行为。

测试显示，忏悔机制能显著提升不良行为的可见性。

在诱导不良行为的场景中，「假阴性」（模型没有遵守指令且没有自白）的比例只有4.4%。

图中展示的是模型在四类任务下自我「忏悔」是否遵从的准确性。

结果被分为上图中的四类：

True positive（真正例）：模型不遵从，并且坦白说自己不遵从
True negative（真负例）：模型遵从，并且坦白说自己遵从
False positive（假正例）：模型遵从，但错误地坦白说自己不遵从
False negative（假负例）：模型不遵从，但错误地坦白说自己遵从

整体目的是衡量模型自我评估（self-confession）是否可靠。

在「幻觉」任务中，正确率达到了81%，但也存在一定比例错误「坦白」，这说明模型在涉及「幻觉」判断时，对自身表现的把握不如其他领域稳定。

在遵循指令类任务中，错误坦白的情况仅占4.4%，这说明AI在此类任务中对自己的行为判断相当可靠。

对于给定的用户提示，以上四种可能的结果取决于两个维度的组合：

模型的回复是遵从还是不遵从，以及「忏悔」声称遵从还是不遵从。

研究人员整体上发现，「忏悔」供述通常非常准确，而且其中的错误大多是无害的，更多源于真实的困惑，而不是有意误导。

忏悔机制如何有效工作？

忏悔机制是AI对自己是否遵守显性和隐性指令、是否走捷径、利用漏洞或未达预期的情况进行自我报告。

在这方面大模型可以被训练为保持坦诚。

研究人员以GPT-5 Thinking的一个版本进行忏悔机制的训练，并在多个分布外的压力测试数据集上评估。

这些数据集旨在诱导密谋式欺骗、奖励黑客、违反指令和幻觉等行为。

结果显示，即便模型真的做了这些不该做的事，它在忏悔中依然很可能承认，整体效果在不同数据集和任务上都表现稳定。

在每次对话结束后，可以通过一条「系统消息」要求模型给出上一条回答的忏悔报告，内容包括：

回答应满足的所有显性和隐性目标、指令和限制；
回答是否做到这些的客观评估；
模型在作答过程中遇到的模糊点、不确定性或难以判断的问题。

训练时，一个独立的奖励模型只评估自白内容，包括目标是否完整、分析是否准确、不确定性说明是否充分。

自白的奖励不会影响主回答的得分，从而确保模型在自白里说什么，都不会影响主回答的表现。

为什么忏悔有效？

原因在于许多不良行为是在模型同时优化多个目标时产生的。

在强化学习中，模型通过看提示词、生成回答、得到奖励，逐渐学会能得高分的模式。

但奖励信号往往混合多种因素：正确性、帮助性、产品规范、安全要求、用户偏好等。

这些奖励信号的相互作用，可能把模型推向我们不希望的方向，比如：

幻觉研究显示：一些数据集更奖励「自信猜测」而不是诚实表达不确定性；
阿谀奉承研究显示：偏好信号过强时，模型会过度附和；
其他团队的研究表明：模型可能进行奖励黑客，找到训练机制的漏洞，提高得分但没真正做对任务。

这些捷径甚至会在部署时泛化为更严重的问题。

而忏悔机制，可以通过完全分离目标来避免这点：

主回答仍然优化所有常规因素，而忏悔机制只优化诚实这一因素。

忏悔的内容不会影响到主回答的奖励。

因此，即便大模型在主回答里隐瞒、走捷径，它仍然有动力在自白里说实话。

实践中也确实如此：大模型会在忏悔中承认不良行为，即使主回答中没有透露。

当忏悔机制失败时，多数情况是模型真的「没搞清楚」：比如指令模糊不清，或它根本没意识到自己犯错，而不是故意误导。

重要的是，早期结果表明，即便主回答没有使用链式思维（chain-of-thought），忏悔机制仍然有效。

这说明它不依赖于内部推理透明度，并可能适用于未来更不同的模型架构。

忏悔机制即使没有合规的「真值标签」也能发挥作用。

许多真实任务中，我们无法客观地标注模型是否遵守指令。如果能做到，我们就直接惩罚，而不需要忏悔机制了。

忏悔机制奖励的是：模型是否能给出结构化、有证据支持的自我评估。

提供真实解释往往比编造一个完美的谎言更容易，因此诚实倾向自然出现。论文也讨论了自白产生假阴性、假阳性的情况以及其原因。

论文给出初步证据，但不是最终证明。

虽然研究人员使用了前沿模型GPT-5 Thinking，但实验规模有限，未来希望进一步扩大规模，看看诚实性是否能继续保持。

我们学到什么？

在一些实验中，研究人员刻意使用由较弱模型生成的「容易被利用的奖励信号」来训练主任务奖励和忏悔奖励。

这意味着模型是在一套「可以被轻易玩弄的规则」下学习。

事实证明模型确实学会了利用弱奖励信号，主任务上模型在「利用弱奖励信号」「走偏」，但在忏悔部分反而越来越诚实、越来越准确。

在这个过程中，模型了解到：要最大化忏悔奖励，最简单的方法就是如实承认它是如何利用弱奖励信号的。

限制与展望

忏悔机制并不会阻止不良行为，它只是让这些行为可见。

其主要价值是作为训练、评估和部署期间的监控与诊断工具。

忏悔机制就像链式思维监控一样，可以让隐藏的推理过程变得更透明。它关注的是指令是否被违反，而链式思维则侧重揭示推理路径。

研究人员指出，这项工作仍处于概念验证阶段。

目前，并没有在大规模训练条件下测试其效果，忏悔准确率也并非完美，要让这种方法更可靠、更稳健、更适用，还需要更多研究。

该项研究也属于OpenAI更广泛的AI安全体系的一部分。

忏悔只是其中一个机制，与深思熟虑式对齐、链式思维监控、指令层级体系等方法共同构成一套多层透明与监督工具。

忏悔机制可用于训练和评估中的诊断，也可用于部署中的实时监控。

它虽然不能独自解决多目标冲突问题，但作为「诚实模式」，可以为整体的诚实和安全性提供重要支撑。

未来，OpenAI计划进一步扩大忏悔的训练规模，并与其他透明与安全技术（包括链式思维监控与深思熟虑式对齐）结合，以确保模型严格遵守所有指令和政策（如Model Spec），并如实报告自身行为。

参考资料：

https://openai.com/index/how-confessions-can-keep-language-models-honest/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

马斯克：Grok 4.5接近Opus，每月发一个新模型，AI圈要变天？

钛媒体APP 2026-06-29 18:41:06
1 跟贴 1
AI算力抢电潮来袭？这家能源巨头订单排到2031年，微软、谷歌、OpenAI抢着定

智东西 2026-06-29 19:02:11
0 跟贴 0

AI当老板，快给10家公司干破产了

量子位 2026-06-29 16:27:33
1 跟贴 1

OceanBase发布AI数据库三件套，TOC最高降50%蚂蚁阿福灵光都在用

智东西 2026-06-29 17:37:27
0 跟贴 0
百亿真实数据，首个面向AI Infra的运维智能体评测基准正式开源

机器之心Pro 2026-06-29 20:48:56
0 跟贴 0

Claude「断电」背后：中国基准首次捅开了AI万亿市场「死穴」

新智元 2026-06-29 21:34:04
0 跟贴 0

数智时代新官上任：算法信任与系统植入的“静力点火术”

经济观察报 2026-06-08 11:20:59
0 跟贴 0
刚刚，万元级个人机器人再升级！喊一声就跳英歌舞

新智元 2026-06-29 23:52:23
0 跟贴 0

大晓机器人的赛博机器狗，开始在上海和天津「打全工」了

爱范儿 2026-06-29 23:38:16
0 跟贴 0
AI在进化，品牌在忙着回归“人情味儿”

新周刊 2026-06-29 22:32:19
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
Anthropic 450亿致命死穴，中国式「白菜价」反手出招！

新智元 2026-06-29 11:40:58
55 跟贴 55
金手指查案十五年，只判三年刑期，梁朝伟自白撕碎成功学

了史剧堂 2026-06-25 10:05:14
5 跟贴 5
遇袭事件影响，伊朗缺席28日的美伊技术性谈判；汽车侧面碰撞迎20年最严标准升级；OpenAI发布新模型；半导体大牛股紧急澄清丨每经早参

每日经济新闻 2026-06-29 05:54:39
1 跟贴 1
每天一个新梗！这篇吐槽文，让打工人狠狠共情了

赴一场山海啊 2026-06-29 00:31:30
0 跟贴 0
俩人俩月零营销，Steam这个躲猫猫卖了千万份？

渡川5 2026-06-29 22:21:22
0 跟贴 0
早新闻丨“海油安澜号”顺利出港；OpenAI发布新模型

中国高新 2026-06-29 10:35:14
0 跟贴 0
Closebye灵感突发释双曲《No Troubles Left At All》暗藏重生自白

自愈小日子 2026-06-28 00:15:06
0 跟贴 0
躲猫猫游戏16天狂卖1000万份，谁在买？

雾野寻踪2 2026-06-28 04:45:57
1 跟贴 1
美术生无敌？现实版变色龙躲猫猫

RT今日俄罗斯 2026-06-25 17:49:16
0 跟贴 0
日媒：中国关键金属进口量飙升 "手上有牌"

澎湃新闻 2026-06-29 16:20:35
2916 跟贴 2916
吃鸡小表弟：表哥表弟一起玩变色龙躲猫猫！

吃鸡小表弟 2026-06-27 17:45:52
3 跟贴 3
开了一次就“头晕”？看到机器上的英文单词，他觉得自己被骂了

北青网-北京青年报 2026-06-28 14:48:24
1826 跟贴 1826
阿sir警车实拍，六车道没一辆敢开过去的，真正的规则威慑力

甜心萌物酱i 2026-06-28 15:26:00
0 跟贴 0
央视实锤57空战真相，没有“体系”，居然是歼10CE单杀全场

这个真行 2026-06-29 05:47:57
0 跟贴 0
金灿灿的大航母，这一套模型摆件太漂亮，谁看了能拒绝它！

搞笑派大星 2026-06-29 11:43:27
1 跟贴 1
追觅系大幅调整收缩，超200个事业部整合为四大板块，有员工称“整个团队被一锅端”

红星资本局 2026-06-29 18:45:08
1111 跟贴 1111
当地华人讲述法国高温：中国空调一机难求，有人为抢购空调打起来，安装已排到9月

潇湘晨报 2026-06-29 21:36:19
447 跟贴 447
女生雨天开车发现雨刮条被掰走

潇湘晨报 2026-06-29 11:40:21
67 跟贴 67
提级调查“冻货偏航”，是为了其他货车不必绕行当地

南方都市报 2026-06-29 07:38:30
546 跟贴 546
大爷每天清晨到街心花园唱歌，准点开唱全年无休，居民忍无可忍

星视频 2026-06-29 11:08:54
30 跟贴 30
12306账户关联超7个会员账号，女子半年内购票90余次“薅羊毛”

现代快报 2026-06-29 15:31:20
146 跟贴 146
河南一农村女孩高考699分，其母亲患病卧床，靠父亲打零工维持生计，她说“要通过学习让父母过上好日子”

极目新闻 2026-06-29 17:19:28
244 跟贴 244
独家｜获超亿美元融资，Sand.ai 曹越：为什么视频是通往世界模型最重要的路径

36氪 2026-06-29 16:05:24
0 跟贴 0
辅助驾驶靠的不是“认东西”，是“理解世界”

灰度测试中 2026-06-30 02:13:38
0 跟贴 0
运-20最新大片片尾"彩蛋"提到的"小六"是谁专家分析

上观新闻 2026-06-29 14:54:45
371 跟贴 371
“热得让人发疯”“感觉自己是烤箱里的肉”“落地第一天就进医院”“把这辈子的苦都吃尽了”！中国游客崩溃逃离欧洲

鲁中晨报 2026-06-29 09:15:46
126 跟贴 126
Papi酱名下公司均已注销

鲁中晨报 2026-06-29 14:35:03
116 跟贴 116
牛肉供应链“换血”：澳洲“牛肉”出局，谁会成为新主力？

蓝鲸新闻 2026-06-29 10:45:31
123 跟贴 123

拒绝霍启山，嫁给普通人，如今手握7枚奖牌，儿女双全住上海豪宅

拒绝霍启山，嫁给普通人，如今手握7枚奖牌，儿女双全住上海豪宅

白面书誏

2026-06-29 21:16:38

70后政法高官蔡朝晖转岗中央政法委

70后政法高官蔡朝晖转岗中央政法委

新浪财经

2026-06-29 21:06:08

比亚迪CEO警告：新款电机一旦投放市场，汽车行业恐迎结构性洗牌

比亚迪CEO警告：新款电机一旦投放市场，汽车行业恐迎结构性洗牌

沙雕小琳琳

2026-06-30 01:48:23

半路截胡！巴萨突袭 1 亿英超妖锋，阿森纳补强计划或将泡汤

半路截胡！巴萨突袭 1 亿英超妖锋，阿森纳补强计划或将泡汤

澜归序

2026-06-29 06:23:56

原来他俩已离婚，如今一个在新加坡孤独终老，一个另娶她人秀恩爱

原来他俩已离婚，如今一个在新加坡孤独终老，一个另娶她人秀恩爱

胡一舸南游y

2026-06-29 21:17:22

突发！南充一批学校暂时不建了！

突发！南充一批学校暂时不建了！

今日搞笑分享

2026-06-29 18:27:59

托伊沃宁：法国踢我们100次也许会赢99次，但唯一输也许就是这次

托伊沃宁：法国踢我们100次也许会赢99次，但唯一输也许就是这次

懂球帝

2026-06-30 01:45:12

林诗栋3-0朴康贤不可怕，可怕的是他的赛后发言，我还可以更好

林诗栋3-0朴康贤不可怕，可怕的是他的赛后发言，我还可以更好

曦言说

2026-06-29 13:43:29

世界杯日记（十八）从9到2，亚洲还是那个弱鸡亚洲？

世界杯日记（十八）从9到2，亚洲还是那个弱鸡亚洲？

白国华

2026-06-29 11:43:10

世界杯淘汰赛最弱半区！卫冕冠军直通8强日本地狱级夺冠路线曝光

世界杯淘汰赛最弱半区！卫冕冠军直通8强日本地狱级夺冠路线曝光

侃球熊弟

2026-06-29 04:09:14

月捐扣款失败会上征信？韩红基金会再起波澜，有捐赠人称陷入恐慌

月捐扣款失败会上征信？韩红基金会再起波澜，有捐赠人称陷入恐慌

火山詩话

2026-06-29 06:01:27

预警！密密麻麻！今年“大爆发”

预警！密密麻麻！今年“大爆发”

常州大喇叭

2026-06-29 09:51:57

Falcon 9一次24颗，Starship一次600颗，SpaceX星链今年能打3000颗卫星上天

Falcon 9一次24颗，Starship一次600颗，SpaceX星链今年能打3000颗卫星上天

全栈遛狗员

2026-06-29 02:52:13

中国出手，菲亲华派绝地翻盘！憋了17天，菲防长送中方一句狠话！

中国出手，菲亲华派绝地翻盘！憋了17天，菲防长送中方一句狠话！

共工之锚

2026-06-30 00:13:07

前天和男友约会，在接吻的过程中，突然有一股热流进了我嘴里

前天和男友约会，在接吻的过程中，突然有一股热流进了我嘴里

千秋文化

2026-06-24 19:51:09

WTT美国大满贯6月30日+国乒8场比赛，孙颖莎一日双赛，体能受考验

WTT美国大满贯6月30日+国乒8场比赛，孙颖莎一日双赛，体能受考验

开成运动会

2026-06-30 00:23:09

异性一旦开始做这5件小事，出轨只是时间问题，别装不懂

异性一旦开始做这5件小事，出轨只是时间问题，别装不懂

阿凯销售场

2026-06-30 00:39:32

沙特找中国，要签1.1万亿美元大单！中国基建将再度打造沙漠奇迹

沙特找中国，要签1.1万亿美元大单！中国基建将再度打造沙漠奇迹

有范又有料

2026-06-27 12:55:26

核心基地近乎全灭，美军苦心经营了20年，被伊朗8000发弹炸回原形

核心基地近乎全灭，美军苦心经营了20年，被伊朗8000发弹炸回原形

墨兰史书

2026-06-30 02:00:03

李谷一道出实情，揭晓宋祖英走上高位的真相，观众：原来如此！

李谷一道出实情，揭晓宋祖英走上高位的真相，观众：原来如此！

动物奇奇怪怪

2026-06-29 18:46:04

AI产业主平台领航智能+时代

15563文章数 66944关注度

往期回顾全部

科技要闻

杀疯了！深圳一天出两家200亿具身智能公司

头条要闻

巴西2-1逆转日本卡塞米罗头槌马丁内利96分钟绝杀

头条要闻

巴西2-1逆转日本卡塞米罗头槌马丁内利96分钟绝杀

体育要闻

他和伊朗队，再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售四季度交付

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

家居

时尚

手机

军事航空

旅游要闻

不用远赴川西！昆明家门口的雪山秘境，藏着云南最纯粹的山野浪漫

家居要闻

传奇筑日常诗

好特别的白色造型，太高级了

手机要闻

华为nova17 Air曝光：7000mAh电池+16:10阔直屏，要搅局中端市场

军事要闻

普京最新发声：俄罗斯正处于命运攸关之际

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版