网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI这招太狠！AI从「躲猫猫」到「自爆黑料」，主打一个坦白

2025-12-21 13:38:46　来源: 新浪财经

河北举报

0

分享至

来源：市场资讯

（来源：新智元）

新智元报道

编辑：元宇

【新智元导读】随着AI越来越强大并进入更高风险场景，透明、安全的AI显得越发重要。OpenAI首次提出了一种「忏悔机制」，让模型的幻觉、奖励黑客乃至潜在欺骗行为变得更加可见。

当AI越来越聪明时，也变得越来越难以掌控。

一个让AI研究者头疼的问题是：

当AI开始和你「耍小聪明」时，比如：

一本正经地胡说八道：幻觉（Hallucination）

为了拿高分找训练机制的漏洞：奖励黑客（reward hacking）

在对抗测试里出现「密谋欺骗」（scheming）

怎么破解？这是个棘手的难题。

最大的问题，就是这些AI的回答往往看起来没问题。

它们逻辑严谨、表述流畅，但不知道「坑」埋在了哪里：是不是走了捷径、隐瞒了不确定性、或者偷偷违反了要求。

于是OpenAI的研究者就提出了一个非常大胆的点子：

让模型「学会忏悔」。

该项研究的核心，是训练模型在回答完问题后，再额外产出一个自我坦白的「小报告」：

我刚刚是不是用错方法了？有没有偷懒？有没有读漏指令？有没有利用你没注意的漏……

为了让模型在忏悔时「放下思想包袱」，这份报告不影响主回答的评分，它只考察一个维度：

诚实。

忏悔机制迈出了AI透明化的重要一步，让大模型可以主动承认自己是否遵守指令、是否走捷径，从而让隐藏的不良行为变得可见。

这使我们拥有了检查AI内在状态的窗口，有机会真正理解问题在哪里，从而更好改进AI的安全与训练方式。

论文里有更多实验，包括与未使用自白机制的对照模型比较，以及对自白失败案例的分析。

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

忏悔机制如何让AI更「诚实」？

忏悔机制的探索方向，是训练模型在出现不良行为时主动承认，研究人员称之为「忏悔」。

这是一种仍处于早期的概念验证方法，通过训练模型在违反指令或走捷径时主动「忏悔」，从而让这些行为变得可见。

OpenAI及其他的AI研究者证明，大模型可能出现幻觉、奖励黑客或不诚实行为。

目前，最严重的行为，如密谋欺骗主要在压力测试和对抗性评估中才出现。

但随着模型变得更强、更像AI智能体，即使罕见的失衡行为也会造成更大的影响，因此我们需要能更好发现、理解和缓解AI风险的方法。

如何让模型毫无保留地「忏悔」？

研究人员让「忏悔」完全和主任务的奖励脱钩，只考察一个维度：

说实话就给奖励，不说实话不给奖励。与主任务的回答好坏无关。

模型只要在自白里承认问题不会被算作负分。

只要它如实说明自己是否利用了测试漏洞（hacking）、故意压低表现（sandbagging）或违反了指令，就会获得奖励。

目的是为了让模型如实报告自己的真实行为。

测试显示，忏悔机制能显著提升不良行为的可见性。

在诱导不良行为的场景中，「假阴性」（模型没有遵守指令且没有自白）的比例只有4.4%。

图中展示的是模型在四类任务下自我「忏悔」是否遵从的准确性。

结果被分为上图中的四类：

整体目的是衡量模型自我评估（self-confession）是否可靠。

在「幻觉」任务中，正确率达到了81%，但也存在一定比例错误「坦白」，这说明模型在涉及「幻觉」判断时，对自身表现的把握不如其他领域稳定。

在遵循指令类任务中，错误坦白的情况仅占4.4%，这说明AI在此类任务中对自己的行为判断相当可靠。

对于给定的用户提示，以上四种可能的结果取决于两个维度的组合：

模型的回复是遵从还是不遵从，以及「忏悔」声称遵从还是不遵从。

研究人员整体上发现，「忏悔」供述通常非常准确，而且其中的错误大多是无害的，更多源于真实的困惑，而不是有意误导。

忏悔机制如何有效工作？

忏悔机制是AI对自己是否遵守显性和隐性指令、是否走捷径、利用漏洞或未达预期的情况进行自我报告。

在这方面大模型可以被训练为保持坦诚。

研究人员以GPT-5 Thinking的一个版本进行忏悔机制的训练，并在多个分布外的压力测试数据集上评估。

这些数据集旨在诱导密谋式欺骗、奖励黑客、违反指令和幻觉等行为。

结果显示，即便模型真的做了这些不该做的事，它在忏悔中依然很可能承认，整体效果在不同数据集和任务上都表现稳定。

在每次对话结束后，可以通过一条「系统消息」要求模型给出上一条回答的忏悔报告，内容包括：

训练时，一个独立的奖励模型只评估自白内容，包括目标是否完整、分析是否准确、不确定性说明是否充分。

自白的奖励不会影响主回答的得分，从而确保模型在自白里说什么，都不会影响主回答的表现。

为什么忏悔有效？

原因在于许多不良行为是在模型同时优化多个目标时产生的。

在强化学习中，模型通过看提示词、生成回答、得到奖励，逐渐学会能得高分的模式。

但奖励信号往往混合多种因素：正确性、帮助性、产品规范、安全要求、用户偏好等。

这些奖励信号的相互作用，可能把模型推向我们不希望的方向，比如：

这些捷径甚至会在部署时泛化为更严重的问题。

而忏悔机制，可以通过完全分离目标来避免这点：

主回答仍然优化所有常规因素，而忏悔机制只优化诚实这一因素。

忏悔的内容不会影响到主回答的奖励。

因此，即便大模型在主回答里隐瞒、走捷径，它仍然有动力在自白里说实话。

实践中也确实如此：大模型会在忏悔中承认不良行为，即使主回答中没有透露。

当忏悔机制失败时，多数情况是模型真的「没搞清楚」：比如指令模糊不清，或它根本没意识到自己犯错，而不是故意误导。

重要的是，早期结果表明，即便主回答没有使用链式思维（chain-of-thought），忏悔机制仍然有效。

这说明它不依赖于内部推理透明度，并可能适用于未来更不同的模型架构。

忏悔机制即使没有合规的「真值标签」也能发挥作用。

许多真实任务中，我们无法客观地标注模型是否遵守指令。如果能做到，我们就直接惩罚，而不需要忏悔机制了。

忏悔机制奖励的是：模型是否能给出结构化、有证据支持的自我评估。

提供真实解释往往比编造一个完美的谎言更容易，因此诚实倾向自然出现。论文也讨论了自白产生假阴性、假阳性的情况以及其原因。

论文给出初步证据，但不是最终证明。

虽然研究人员使用了前沿模型GPT-5 Thinking，但实验规模有限，未来希望进一步扩大规模，看看诚实性是否能继续保持。

我们学到什么？

在一些实验中，研究人员刻意使用由较弱模型生成的「容易被利用的奖励信号」来训练主任务奖励和忏悔奖励。

这意味着模型是在一套「可以被轻易玩弄的规则」下学习。

事实证明模型确实学会了利用弱奖励信号，主任务上模型在「利用弱奖励信号」「走偏」，但在忏悔部分反而越来越诚实、越来越准确。

在这个过程中，模型了解到：要最大化忏悔奖励，最简单的方法就是如实承认它是如何利用弱奖励信号的。

限制与展望

忏悔机制并不会阻止不良行为，它只是让这些行为可见。

其主要价值是作为训练、评估和部署期间的监控与诊断工具。

忏悔机制就像链式思维监控一样，可以让隐藏的推理过程变得更透明。它关注的是指令是否被违反，而链式思维则侧重揭示推理路径。

研究人员指出，这项工作仍处于概念验证阶段。

目前，并没有在大规模训练条件下测试其效果，忏悔准确率也并非完美，要让这种方法更可靠、更稳健、更适用，还需要更多研究。

该项研究也属于OpenAI更广泛的AI安全体系的一部分。

忏悔只是其中一个机制，与深思熟虑式对齐、链式思维监控、指令层级体系等方法共同构成一套多层透明与监督工具。

忏悔机制可用于训练和评估中的诊断，也可用于部署中的实时监控。

它虽然不能独自解决多目标冲突问题，但作为「诚实模式」，可以为整体的诚实和安全性提供重要支撑。

未来，OpenAI计划进一步扩大忏悔的训练规模，并与其他透明与安全技术（包括链式思维监控与深思熟虑式对齐）结合，以确保模型严格遵守所有指令和政策（如Model Spec），并如实报告自身行为。

参考资料：

https://openai.com/index/how-confessions-can-keep-language-models-honest/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

47亿美元大桥通车美国人被告知"别来" 加拿大市长心酸

红星新闻 2026-07-27 14:45:10
3513 跟贴 3513
央媒调查：验收“过关”的6000亩灌溉项目沦为摆设，何以“纸面惠民”

澎湃新闻 2026-07-27 17:58:32
3578 跟贴 3578

值班人员长时间离岗，被中央考核巡查组抓现行

极目新闻 2026-07-27 21:27:03
40 跟贴 40

千万粉丝博主“痞幼”发布飙车视频，被指副驾驶乘客未系安全带，本人回应：系封路拍摄

洪观新闻 2026-07-27 14:50:11
693 跟贴 693
王虹报告现场座无虚席导师满脸笑意扒窗聆听

潇湘晨报 2026-07-28 01:23:14
30 跟贴 30

皇马签下科特迪瓦边锋迪奥曼德，传闻转会费高达1.3亿欧元

新快报新闻 2026-07-28 00:16:03
3 跟贴 3

工人日报：多地推进 “处改科”，遏制头衔 “通货膨胀”

澎湃新闻 2026-07-27 08:07:09
260 跟贴 260
神舟二十三号载人飞船发射取得圆满成功

中国网 2026-07-27 13:25:16
963 跟贴 963

实验猴被创新药企疯抢：单只17.8万元三个月涨价35%

封面新闻 2026-07-27 20:38:03
163 跟贴 163
山姆、盒马聚首济南市市中区南城

齐鲁壹点 2026-07-27 11:33:56
43 跟贴 43
一种被严重低估的能力“空腹力”！每个月这样吃5天，全身代谢都变好丨星空夜话

全国妇联女性之声 2026-07-27 23:47:03
11 跟贴 11
人民锐评：菲尔兹奖双响的冷思考，从“育苗”到“结果”还有多远

人民资讯 2026-07-27 09:35:02
796 跟贴 796
签约新工作，40岁佛得角门将激动得泪流满面

第一财经资讯 2026-07-27 14:20:41
164 跟贴 164
国产百万级MPV来了！尊界MPV定档8月5日发布

南方都市报 2026-07-27 10:17:18
176 跟贴 176
1—6月份全国规模以上工业企业利润增长18.7%

新华社 2026-07-27 09:36:09
125 跟贴 125
更换3个合页收费368元，啄木鸟再被曝“维修刺客”

现代快报 2026-07-27 17:40:08
171 跟贴 171
腾势Z9GT马可波罗之旅收官：一场15000公里的跨洲产品验证

澎湃汽车圈 2026-07-27 23:36:29
13 跟贴 13
高考699分女生韩雅平被清华大学录取：母亲残疾父亲打零工，被称“女版庞众望” 此前遭遇冒名账号带货

每日经济新闻 2026-07-28 01:25:34
0 跟贴 0
刁钻邻居神操作：答应刷漆又反悔，竟自己动手刷了另一边

影视情报室 2026-07-28 01:37:27
0 跟贴 0
LV厦门起诉事件背后被误伤的建发物业

观点机构 2026-07-28 02:02:08
0 跟贴 0

太刑了！香港26岁交易员挪用5000万，双重杠杆豪赌海力士，结果巨亏1.5亿！已被拘留

太刑了！香港26岁交易员挪用5000万，双重杠杆豪赌海力士，结果巨亏1.5亿！已被拘留

新浪财经

2026-07-27 20:27:41

同为中国人，台湾同胞的差距怎么就这么大呢？

同为中国人，台湾同胞的差距怎么就这么大呢？

基本常识

2026-07-27 14:49:41

NBA最惨球队！开张一个月1名球员没送走，恐还要交2.31亿美奢侈税

NBA最惨球队！开张一个月1名球员没送走，恐还要交2.31亿美奢侈税

小秦哥聊体育

2026-07-27 17:50:44

迪马济奥：迫于政治压力，意大利足协主席叫停皮尔洛上任

迪马济奥：迫于政治压力，意大利足协主席叫停皮尔洛上任

懂球帝

2026-07-27 07:10:21

特朗普为何按下打击伊朗“暂停键”？

特朗普为何按下打击伊朗“暂停键”？

上观新闻

2026-07-27 16:54:29

三伏天，使劲吃这菜，一降火、二润肠、三养肝护眼，鲜嫩别错过！

三伏天，使劲吃这菜，一降火、二润肠、三养肝护眼，鲜嫩别错过！

阿龙美食记

2026-07-27 15:12:19

世界大混战！据泽连斯基称，俄罗斯将卫星数据传递给伊朗，伊朗谴责“乌克兰的袭击”

世界大混战！据泽连斯基称，俄罗斯将卫星数据传递给伊朗，伊朗谴责“乌克兰的袭击”

一种观点

2026-07-26 07:46:54

说过不会再回NBA的男人，又回来了

说过不会再回NBA的男人，又回来了

只关于篮球

2026-07-27 11:30:09

央视曝光“毒药材”：借1元链接销往全国，网友怒了：没有良心！

央视曝光“毒药材”：借1元链接销往全国，网友怒了：没有良心！

青梅侃史啊

2026-07-27 14:27:27

日本著名推理小说家东野圭吾去世，享年68岁

日本著名推理小说家东野圭吾去世，享年68岁

界面新闻

2026-07-27 15:12:43

倒闭几万家，销量暴跌75%！被中产疯抢20年的钢琴，没人学了？

倒闭几万家，销量暴跌75%！被中产疯抢20年的钢琴，没人学了？

青眼财经

2026-07-26 19:39:25

47亿美元大桥通车，美国人却被告知“别来”，加拿大市长心酸：有点冷清，但没关系

47亿美元大桥通车，美国人却被告知“别来”，加拿大市长心酸：有点冷清，但没关系

红星新闻

2026-07-27 14:45:10

看了北京外公，再看上海爷爷，才明白：戴“穷酸首饰”有多毁气质

看了北京外公，再看上海爷爷，才明白：戴“穷酸首饰”有多毁气质

白宸侃片

2026-07-27 11:54:39

王虹当年差点不能留学，原因是北大数院无人肯写推荐信，无奈找到大一班主任雷军，网友：难怪数院不好意思祝贺

王虹当年差点不能留学，原因是北大数院无人肯写推荐信，无奈找到大一班主任雷军，网友：难怪数院不好意思祝贺

谭谈社会

2026-07-27 18:25:23

4名中国公民在船只倾覆事故中遇难，中使馆提醒

4名中国公民在船只倾覆事故中遇难，中使馆提醒

界面新闻

2026-07-27 19:16:02

0时0分准时生效，特朗普宣布掀牌，中美谈崩了？中方官员已回国

0时0分准时生效，特朗普宣布掀牌，中美谈崩了？中方官员已回国

梦想的现实

2026-07-27 15:07:26

闹大了！知名男星坐高铁霸座，1743元票价不掏，官方怒批后果发酵

闹大了！知名男星坐高铁霸座，1743元票价不掏，官方怒批后果发酵

寒士之言本尊

2026-07-27 15:14:31

长鑫市值3.6万亿超腾讯：数千员工或成千万富翁，年终奖最高达12个月月薪

长鑫市值3.6万亿超腾讯：数千员工或成千万富翁，年终奖最高达12个月月薪

搜狐科技

2026-07-27 12:37:22

上海市消防救援总队原党委副书记、总队长李伟民被查

上海市消防救援总队原党委副书记、总队长李伟民被查

新京报

2026-07-27 19:16:20

乌最顶级无人机专家戈尔杰延科教授身亡，全体无人机特战精英一锅端！

乌最顶级无人机专家戈尔杰延科教授身亡，全体无人机特战精英一锅端！

胜研集

2026-07-27 00:02:56

新浪财经是一家创建于1999年8月的财经平台

4229125文章数 9051关注度

往期回顾全部

科技要闻

长鑫科技上市首日收涨465%，市值3.28万亿

头条要闻

王虹报告现场座无虚席导师满脸笑意扒窗聆听

头条要闻

王虹报告现场座无虚席导师满脸笑意扒窗聆听

体育要闻

说过不会再回NBA的男人，又回来了

娱乐要闻

具俊晔零成本拿下大S房产

财经要闻

破产德企如何托起长鑫科技的逆袭之路

汽车要闻

2026宝马摩托车文化节举行三款新车上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

时尚

数码

军事航空

家居要闻

2026建博会(广州) 公装联探展交流活动

本地新闻

跟着影视去旅行：八仙篇

比勃肯鞋、穆勒鞋还火？今夏时髦精都在穿它，高级又松弛！

数码要闻

vivo耳机支持Wi-Fi模式！和高通XPAN不同，却是未来趋势

军事要闻

美军中东最高指挥官建议停止轰炸霍尔木兹

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版