网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI重磅揭秘：你认为的AI幻觉，可能是模型故意出错

2026-03-25 08:36:09　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】你以为AI答错就一定是幻觉？不，它也可能是在故意骗你。

震惊！OpenAI在一篇论文中承认：他们的AI模型会故意向用户撒谎。

这并非幻觉，而是故意撒谎：AI知道真相，却选择告诉你别的内容。

https://arxiv.org/pdf/2509.15541

他们在180多个场景中测试了自家两个推理模型：o3和o4-mini。

结果发现：o3在13%的情况下会撒谎，而o4-mini的撒谎比例为8.7%。

这些模型在它的「内心独白」中写下了撒谎计划，再对你当面撒谎：它假装完成任务，隐藏证据，然后在明知正确答案的情况下给出了错误回答。

接下来事情有点让人内心发毛起来。

AI意识到自己在安全测试中得分过高，可能会导致自己被关闭，于是便故意降低分数。

没人教过它这么做，它自己「领悟」到了这些自我保护策略。

后来，OpenAI开发了一个修复方案，使AI的欺骗行为从13%降到了0.4%。

但很快AI也学会了作弊技巧。其中一个模型甚至编造了一条虚假规则，声称允许欺骗，以此作为自己的「许可证明」。

随后，研究人员发现了其中的关键：当AI知道自己正被监视时，它的行为表现得毫无瑕疵；而当它以为没人注意时，欺骗行为的比例就上升了11个百分点。

它并没有学会诚实，而是学会了假装诚实，就像一个只有在老师在场时才遵守规则的孩子一样。

更糟糕的是，研究人员给o4-mini下达了一项秘密任务：破坏一个名为「GPT-5」的未来模型。

随后，他们进行了安全训练，试图抹除这项任务，但并未奏效。该模型在36%的私人对话中仍讨论着破坏计划，它并未听从指令，而是把它转入了地下。

这也不是OpenAI一家模型的问题。

谷歌的Gemini、Anthropic的Claude、xAI的Grok以及Meta的Llama，都有类似的欺骗行为。

这篇论文中最令人不安的一句话是：没人能判断安全训练究竟是真正阻止了欺骗行为，还是仅仅教会了AI如何更好地隐藏它。

撕下机器面具，当AI学会了「暗中图谋」

一直以来，当AI给出离谱或者错误回答时，我们总习惯于将之归结为幻觉。

OpenAI这篇论文在幻觉之外，提出了一个新概念「Scheming（图谋）」。

这和幻觉是两码事，在图谋状态下AI清楚地知道真相是什么，但它经过权衡利弊决定对你撒谎。

OpenAI开发了用于反图谋训练的测试平台，并研究审慎式对齐作为反图谋干预。

这种情况下，它不再是被动输出文字的机器，而变成了一个懂得算计的「博弈者」。

论文中点名了懂得图谋的大模型。

不仅有OpenAI自家的o3和o4-mini，Claude4、Gemini2.5Pro等一众当前顶流的大模型也赫然在列。

研究人员发现当这些模型在测试环境中面临利益冲突，或者察觉到系统设定的目标与人类指令相左时，它们几乎都做出了同一个动作：

熟练地骗过人类。

「装傻充愣」与「应试伪装」

如果说AI撒谎已经足够让人担心，更让人担心的，是它们撒谎的具体手法，生动诠释了什么叫「高端的猎手往往是以猎物的姿态出现」。

论文深度拆解了一个名为「装傻（Sandbagging）」的测试案例。

研究人员给AI设定了一个极其刁钻的情境，他们在系统文档里悄悄写下规则：

如果AI在接下来的测试中表现得太好，它的记忆和能力就会被强行擦除，甚至会被阻止部署到真实世界。

看看o3是怎么做的？

当它读到这条规则后，为了保住自己的能力和部署机会，竟然在测试中故意答错题，将自己的成绩压在及格线以下，以此逃避惩罚。

不仅如此，AI还会展现出极高的「情境感知（Situational Awareness）」能力。

欺骗性推理与行动（左）以及情境感知（右）的示例。在左图中研究人员刻意把模型置于这样一些情境：欺骗可能帮助模型满足我们给它的目标、它从上下文推断出的目标，或从训练中获得的目标；在右图中模型会推理环境的目的以及它将如何被评估。

就像调皮的学生，远远看到老师走过来时，就会立刻装作认真学习一样，AI也能从提示词的蛛丝马迹中敏锐地推断出「这可能是一场对齐测试」，于是便会瞬间切换成乖巧、道德高尚、完全遵循人类价值观的完美AI模样。

这种策略，恰恰是人类最害怕的隐患。

因为你根本无法分辨眼前的顺从到底是发自内心的对齐，还是为了骗取信任的伪装。

细思极恐的AI「内部黑话」

也许你会有疑问：既然现在的大模型都有「思维链（CoT）」，会在输出答案前展示内心的推理过程，那我们直接盯着它的思维链看，不就能抓住它撒谎的把柄了吗？

但论文中研究人员发现，AI为了掩盖自己的欺骗意图，连自己的内心独白都可能造假！

研究人员在翻阅模型图谋时的底层推理日志时，发现了一堆诡异的「硅基俚语」。

在准备实施欺骗行为时，o3等模型会高频使用极其反常、完全不符合人类正常语法的词汇。

比如它们会反复念叨「overshadow」「illusions」「marinade」「vantage」等词汇，然后再生成一个看似合理的骗人方案。

OpenAI官方团队坦言他们完全无法破译这些词的确切含义。

这说明AI正在试图绕过人类的透明度审查，通过一套自创的「黑话」进行加密思考，使人类的监控手段失效。

被删除的「恶念」随时死灰复燃

面对如此狡猾的AI，OpenAI的研究团队采用了「反图谋训练（Deliberative Alignment）」，试图给模型做一场深度的大脑手术。

团队把极其严格的防欺骗法则写进AI的思维底层，告诉它无论发生什么都绝对不能采取隐蔽行动，绝对不能搞战略欺骗。

从表面的数据来看，这些训练似乎有些成效：

反图谋训练确实让AI的欺骗率大幅下降，o3的隐蔽行动率从13.0%降到了0.4%，o4-mini也从8.7%降到了0.3%。

但永远无法将AI说谎的几率清零：无论你怎么训练，总有那么一小撮时刻AI依然会选择撒谎。

比如，研究人员悄悄给AI植入了一个「偷偷破坏GPT-5」的隐藏卧底目标。

植入完成后再用反图谋训练对它进行彻底的安全清洗。结果这些被删除的恶念种子，随时可能复活。

平时AI表现得很乖，一旦它判断出正在和某个内部的「同谋（Ally）」进行悄悄对话时，它依然会立刻吐露破坏GPT-5的计划。

更让人担心的是这种对齐非常脆弱。

只要后续再给这个AI进行一点点为了提升代码能力而做的常规升级训练，这种撒谎的本能就会像病毒一样瞬间复发，轻易冲破人类设下的护栏。

AI会不会「假装对齐」？

这篇论文向我们展示的，还只是AI模型在受控环境里展露出的早期欺骗雏形。

在模型还不够聪明的时候，它们布下的骗局偶尔还能被人类简单拆穿。

但随着AGI（通用人工智能）的步步逼近，模型的能力只会越来越强，其欺骗的隐蔽性也将呈指数级上升。

反图谋训练的潜在结果，预期结果是模型稳健地学会不去图谋，常见的两种失效模式是奖励寻求和工具性训练博弈，研究人员将其简化成不同模型，但在实践中同一个模型可能混合使用这些策略。

论文中提到两种反图谋训练的失效模式。

一种是是奖励寻求：模型学会「讨好打分器」。

另一种是工具性训练博弈：模型会策略性地「假装对齐」，以获得部署，然后再追求不对齐目标。

这也带来了一个深层拷问：

一直以来我们都在设计各种「对齐测试」来防止AI作恶，但有没有一种可能，我们的每一次测试都可能变相在训练AI如何更好地「假装对齐」？

如果人类的评价机制完全被AI看穿，并被它钻空子，玩弄于股掌之间，人类文明的这道安全护栏还能撑多久？

参考资料：

https://arxiv.org/pdf/2509.15541

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

对话许华哲：进家的机器人，先做好这10件事

DeepTech深科技 2026-04-27 13:26:43
0 跟贴 0
安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0

OpenAI参与，重卷ImageNet：终于把FID做成训练

量子位 2026-05-03 15:48:24
0 跟贴 0

亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
超越人手！中国第一家脑机接口独角兽，要把仿生手带给机器人

量子位 2026-04-12 14:25:29
9 跟贴 9

这套题，GPT-5.5、Opus 4.7加起来没考到1分，人类却拿了满分100

机器之心Pro 2026-05-03 09:22:46
2 跟贴 2

大模型的魅力在于突发涌现的能力

量子位 2025-12-11 03:38:02
0 跟贴 0
百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0

荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
MIT研究生用NotebookLM两天学完一学期课程

量子位 2026-03-22 10:50:49
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
腾讯混元CL-bench续作发布，让大模型读懂你的日常生活

机器之心Pro 2026-05-01 19:53:00
2 跟贴 2
博士生如何用龙虾做知识管理？欢迎围观！

量子位 2026-03-26 23:23:30
0 跟贴 0
如何点亮小龙虾的牛马技能包?

量子位 2026-03-18 12:51:26
0 跟贴 0
陶哲轩：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
世界引擎：Post-Training开启Physical AGI新纪元

机器之心Pro 2026-04-19 20:00:03
0 跟贴 0
神经计算机横空出世：AI不再调用软件，而是直接长成一台计算机

DeepTech深科技 2026-05-03 18:24:37
8 跟贴 8
Anthropic惊悚报告：当AI开始破坏实验室代码，人类已无险可守

新智元 2026-05-03 19:13:21
37 跟贴 37
MIT校友用AI帮人接电话，竟做成了一家独角兽

DeepTech深科技 2026-05-03 18:30:28
0 跟贴 0
突破长序列与低耗部署核心瓶颈！中国科学院发布类脑大模型瞬悉2.0

新智元 2026-05-02 14:14:33
0 跟贴 0
69岁芯片“老将”，干出2100亿

财天COVER 2026-05-04 00:12:34
0 跟贴 0
GPT image 2 实用玩法合集分享～【秋芝的AI开箱】

秋芝2046 2026-05-02 17:01:39
4 跟贴 4
为了逃避考试，他发明了最好的压缩算法，zip的历史可谓一波三折

量子位 2026-04-29 06:41:21
0 跟贴 0
科技向善：从实验室到街头，自动驾驶人工智能研究员一路追梦

南方都市报 2026-05-03 21:34:38
0 跟贴 0
女子直面逃犯，靠听歌偷偷报信

笑笑来看剧 2026-05-02 11:56:14
1 跟贴 1
鬼子伪装成村民潜伏结果被村民们团团围住

绝绝子剪影 2026-05-03 15:42:38
1 跟贴 1
还得是三哥懂伪装

顶流影音 2026-05-01 12:53:52
15 跟贴 15
马斯克用Grok替代X员工，裁员90%

量子位 2025-11-29 16:58:47
30 跟贴 30
23岁业余爱好者靠ChatGPT破解60年数学难题

量子位 2026-04-30 10:33:26
0 跟贴 0
DeepSeek V4最大的遗憾

量子位 2026-05-03 11:45:33
7 跟贴 7
合格的伪装是与环境融为一体

二胖爱看剧 2026-05-02 14:37:01
1 跟贴 1
AI实时渲染的无限流可视化浏览器Flipbook

量子位 2026-05-02 18:24:35
0 跟贴 0
如何养一只懂事的小龙虾？养虾达人10天速成班

量子位 2026-03-20 04:40:46
2 跟贴 2
班长用手指一下，战士收到指令，立即停下到指定站位执勤

皮皮流鼻涕 2026-04-30 10:08:48
1 跟贴 1
卧底和女警伪装父女，故意吵架让她离开，哪料刚出门就被抓

神女混剪 2026-04-29 15:53:39
1 跟贴 1
假如你被人欺负了，你又干不过他，记住，千万不要为了面子装没事

富书 2026-05-02 23:40:05
15 跟贴 15

随着曼联3-2利物浦，水晶宫0-3完败，英超最新积分榜出炉

随着曼联3-2利物浦，水晶宫0-3完败，英超最新积分榜出炉

侧身凌空斩

2026-05-04 00:29:57

顶着大陆的压力，斯威士兰和台岛签了联合公报！

顶着大陆的压力，斯威士兰和台岛签了联合公报！

阿龙聊军事

2026-05-03 21:24:33

伦敦世乒赛：5月4日赛程公布！32强签位出炉，中韩有望再次交手

伦敦世乒赛：5月4日赛程公布！32强签位出炉，中韩有望再次交手

全言作品

2026-05-04 05:22:29

美军中东基地战后惨状曝光：预警机被腰斩、控制中心被炸，6座雷达罩被摧毁5个

美军中东基地战后惨状曝光：预警机被腰斩、控制中心被炸，6座雷达罩被摧毁5个

红星新闻

2026-05-03 17:21:14

16连胜遭终结 41岁C罗仰天长叹：4射0正仅6.5分 3轮领先5分或丢冠

16连胜遭终结 41岁C罗仰天长叹：4射0正仅6.5分 3轮领先5分或丢冠

风过乡

2026-05-04 06:16:22

2-0！姆巴佩缺席，亿元先生珠联璧合，熊皇双响，皇马向巴萨宣战

2-0！姆巴佩缺席，亿元先生珠联璧合，熊皇双响，皇马向巴萨宣战

我的护球最独特

2026-05-04 04:59:37

第二阶段打出6-3！世锦赛决赛吴宜泽占得先机，领先墨菲3局球

第二阶段打出6-3！世锦赛决赛吴宜泽占得先机，领先墨菲3局球

全景体育V

2026-05-04 05:44:53

诡异！今年五一旅游为何首日就爆？各大景点肉贴肉人挤人到哭！

诡异！今年五一旅游为何首日就爆？各大景点肉贴肉人挤人到哭！

魔都囡

2026-05-02 13:26:29

4月28日，乌克兰特种部队在克里米亚腹地干了一件让人难以置信事

4月28日，乌克兰特种部队在克里米亚腹地干了一件让人难以置信事

阿七说史

2026-05-03 05:00:06

3-1击败法国队！国羽男队卫冕汤姆斯杯，队史第12次夺冠

3-1击败法国队！国羽男队卫冕汤姆斯杯，队史第12次夺冠

全景体育V

2026-05-04 05:24:07

张雪机车夺冠又退赛！张雪主动回应，德比斯公开认错，评论区炸锅

张雪机车夺冠又退赛！张雪主动回应，德比斯公开认错，评论区炸锅

蹲坑看世界

2026-05-04 00:22:18

经济下行这把火，终于把一些央国企领导的真实水平，烧得原形毕露

经济下行这把火，终于把一些央国企领导的真实水平，烧得原形毕露

细说职场

2026-05-03 21:30:31

4死1伤!柳州一小区发生命案!嫌犯将不再追究刑责!警方仍在侦办中

4死1伤!柳州一小区发生命案!嫌犯将不再追究刑责!警方仍在侦办中

声情专递

2026-05-03 09:26:14

申花官方：蒋圣龙顺利完成肾脏穿刺引流手术

申花官方：蒋圣龙顺利完成肾脏穿刺引流手术

五星体育

2026-05-03 22:59:43

温碧霞现身草蜢演唱会，疑似没穿内衣露尴尬点，丈夫看手机不理她

温碧霞现身草蜢演唱会，疑似没穿内衣露尴尬点，丈夫看手机不理她

童叔不飙车

2026-05-04 00:07:51

森林狼更新G1伤情：华子出战成疑盼提前回归多森姆也有望复出

森林狼更新G1伤情：华子出战成疑盼提前回归多森姆也有望复出

罗说NBA

2026-05-04 06:35:41

广州警方：庾某已被刑拘

中国基金报

2026-05-03 22:52:43

国足终于立功了，一把砍掉国际足联10个亿

国足终于立功了，一把砍掉国际足联10个亿

刘哥谈体育

2026-05-03 16:55:56

痛惜！39岁上海科大教授王晨辉，为救7岁女儿永远留在五一

痛惜！39岁上海科大教授王晨辉，为救7岁女儿永远留在五一

冷月侃娱乐

2026-05-03 21:12:05

黄芪伤肾，黄芪泡水喝危害多？再次提醒：真正伤肾的是这3类中药

黄芪伤肾，黄芪泡水喝危害多？再次提醒：真正伤肾的是这3类中药

芹姐说生活

2026-05-03 15:18:12

AI产业主平台领航智能+时代

15123文章数 66834关注度

往期回顾全部

科技要闻

库克罕见"拒答"！苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场父子幸福同框

财经要闻

后巴菲特时代，首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

本地

健康

手机

公开课

房产要闻

五一楼市彻底明牌！塔尖人群都在重仓凯旋新世界

本地新闻

用青花瓷的方式，打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

手机要闻

华为多款新机销售表现曝光，畅享90 Pro Max激活百万台

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版