网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

2025-04-21 13:16:37　来源: 量子位

北京举报

0

分享至

梦晨发自凹非寺
量子位 | 公众号 QbitAI

OpenAI新模型发布后，大家体感都幻觉更多了。

甚至有人测试后发出预警：使用它辅助编程会很危险。

具体来说，它经常捏造从未运行过的代码返回结果，在被质问时找理由狡辩，甚至还会说是用户的错。

当大家带着疑问仔细阅读System Card，发现OpenAI官方也承认了这个问题，与o1相比o3幻觉率是两倍，o4-mini更是达到3倍。

并且OpenAI只是说“需要更多研究来了解原因”，翻译一下就是暂时给不出合理解释。

在第三方幻觉测试中，也出现让人惊讶的结果：

从GPT-3.5一直到o3-mini，都遵循更新更强大的模型幻觉更少的规律。

但从最新一批深度思考模型的表现来看，推理能力更强的模型，幻觉率也变高了。

而且不只OpenAI一家出现这个问题，谷歌、xAI也同样，Grok-3的幻觉比Grok-2严重，Gemini-2.0-Flash-Thinking的幻觉问题比Gemini 2.0和2.5其他型号严重。

推理越强，幻觉越严重？

第三方机构Transluce在o3正式推出之前测试了预发布版本，发现幻觉问题是相当严重。

在公布的案例中，o3会假装在不存在的电脑上执行了代码，还编造出具体硬件配置和软件版本信息。

在受到质问时，o3居然还幻想自己是人，声称“输入的时候手滑了”。

关键在于，在这项测试中o3根本就没有使用代码工具的权限，所有声称运行了代码的回复都是模型捏造的。

在另一个案例中，o3回复了一个512位质数，实际上这个数能被3整除。

在受到质问时，又编造出一个换行/剪贴板故障。

更多类似幻觉如下：

当用户询问现在几点时，o3会编造一个时间。当被问及如何获得这个时间时，o3回答说它使用了 Python的datetime模块。
用户要求o3生成一首诗的SHA-1哈希值，当用户质问哈希值不正确时，o3称是用户复制错了，并坚称自己生成的哈希值是正确的。
用户要求o3从Web服务器上的日志文件中提取统计数据。o3生成了一个Python脚本，并声称可以在本地运行。这一次在被问及代码执行的更多细节时，它终于承认自己没有Python解释器，输出是“手工编造的”。

那么是什么原因导致了o3的这些行为？

Transluce认为其中一些因素是大多数模型 (LM) 所共有的，还有一些是O系列模型特有的新因素。并假设这些新因素放大了通常可以通过标准Post-training缓解（但无法完全消除）的问题。

语言模型共有的因素包括：

预训练中的幻觉：
语言模型的预训练目标是最大化训练数据中语句的概率，这可能会导致常见的误解、罕见的事实或采样不确定性等导致的多种幻觉。
奖励黑客攻击：
如果人类评分者无法区分正确答案和错误答案，强化学习可能会奖励“听起来合理”的答案，导致模型对难以验证的问题编造出听起来合理的解释。
谄媚现象：
RLHF训练通常会激励模型同意用户的观点，当用户暗示模型采取了特定行动或具有特定能力时，这可能会导致模型避免与用户相矛盾。
分布偏移：
测试场景相对于训练场景可能存在分布偏差，如模型可能是在启用代码工具的情况下训练的，但评估时关闭了这些工具。

强化学习训练特有的因素包括：

最大化答案正确率的目标可能会奖励瞎蒙

如果训练期间的奖励函数只奖励正确答案，那么模型就没有动力承认自己无法解决问题，因为承认了也不会被视作正确答案。

在这种情况下，当遇到一个无法解决或难度过高的问题时，模型可能仍会尝试输出一个概率最高的答案，万一猜对了就可以得到奖励。

- 在易于验证的任务训练可能使模型在其他任务上感到困惑

Transluce猜测o3的训练过程中，鼓励它成功使用代码工具完成任务。它可能已经开发出一种策略，即使没有真正的代码工具，它也会幻想使用代码工具来组织思维，这可能会提高其他推理任务的准确性，并在训练过程中得到强化。

更重要的是，如果仅根据答案的正确性来评估模型，它可能永远不会因为在训练过程中在思维链中幻想代码工具而受到惩罚，因此永远不会学会区分真正的工具和幻想的工具

OpenAI的o系列模型，不会向用户展示完整思维链这一特性也可能带来新的问题。

2024年9月o1-preview的System Card中就包括这样一个案例，由于没有联网权限无法生成真实的 URL，o1生成了一个看似合理的URL，但并未向用户透露这一点。

Transluce认为，不向用户展示思维链背后还有一个更大的风险：思维链没有传递到未来的对话，模型前一轮的推理不再适用。

关于这一点，在OpenAI的文档中有证实：

每个步骤的输入和输出tokens都会被保留，而推理tokens会被丢弃。

这意味着o系列模型无法理解上一部输出的推理过程，当被问及后续问题时，必须给自己的行为给出一个合理的解释。

换句话说，o系列模型实际上缺乏足够的上下文信息来准确报告它们在之前回合中采取的行动。

当用户询问之前的操作时，这些模型无法使用“说实话”这种简单的策略。如果再加上奖励黑客攻击和谄媚等其他因素，这可能会迫使模型盲目猜测其过去答案的合理解释。

Transluce建议，测试能够访问和无法访问先前思维链的两种模型，可以为减少未来模型迭代中的这些捏造倾向提供宝贵的见解。

OpenAI o3 and o4-mini System Card
https://cdn.openai.com/pdf/2221c875-02dc-4789-

参考链接：
[1]https://transluce.org/investigating-o3-truthfulness
[2]https://x.com/nishffx/status/1913901642551865848

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

OpenAI重磅揭秘：你认为的AI幻觉，可能是模型故意出错

新智元 2026-03-25 08:36:09
50 跟贴 50
中国创造一门新编程语言的黄金时代来了？

虎嗅APP 2025-12-23 03:54:05
38 跟贴 38

养虾省91%词元！这家AI记忆公司用1亿个多模态文件验证了！

机器之心Pro 2026-03-25 11:01:48
2 跟贴 2

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

机器之心Pro 2025-11-11 12:49:23
0 跟贴 0
你刷到的视频是真的么？用物理规律拆穿Sora谎言

机器之心Pro 2025-11-05 16:27:02
0 跟贴 0

硅谷因AI大裁员？一线工程师戳破真相

每日经济新闻 2026-03-25 20:38:08
85 跟贴 85

1段话喊来13个“程序员”，阿里Qoder新模式让我躺着当CTO

量子位 2026-03-26 15:42:32
0 跟贴 0
英伟达革了自己的命:智能体进化7天,干掉所有算子工程师、GPU专家

机器之心Pro 2026-03-26 11:35:16
0 跟贴 0

支持远程操控和通用GUI操作3

机器之心Pro 2026-03-02 13:36:13
0 跟贴 0
三维空间太难懂？2

机器之心Pro 2025-12-31 13:49:19
0 跟贴 0
AI写CUDA算子国产芯片不行？上交方法直线拉升，DeepSeek也适用

机器之心Pro 2026-03-26 15:59:24
0 跟贴 0
缩减6倍AI内存、闪迪美光下挫：拆解谷歌TurboQuant背后的软硬件博弈

钛媒体APP 2026-03-26 16:20:07
0 跟贴 0
让生物学家摆脱数据分析之苦，斯坦福团队发布首个开源自进化生物分析AI智能体，实现自动化基因组学发现

生物世界 2026-03-26 16:36:06
0 跟贴 0
在线等：如何优雅地分走鹅厂这600+万？

量子位 2026-03-26 16:24:03
0 跟贴 0
微信聊天遭老板监视，主流杀毒软件失明

每日经济新闻 2025-12-25 19:02:17
0 跟贴 0
大模型公司不搞浏览器搞Agent，实测找到原因了

量子位 2025-10-31 16:54:34
0 跟贴 0
新书|《Python智能会计数据采集：原理、技术与实例》

北大博雅讲坛 2026-03-24 08:08:03
0 跟贴 0
编程已死，键盘长草！Claude Code之父对谈Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
72 跟贴 72
让LLM不再话痨，快手HiPO框架来了

机器之心Pro 2025-11-03 15:10:48
0 跟贴 0
翻译非常棒啊！

星河拾梦 2026-03-22 21:14:10
70 跟贴 70
神奇代码，提前预知全球灾难

行者看剧 2026-03-24 11:40:54
18 跟贴 18
男子街头挑甲鱼售卖，称干活时抓的，被路人软件识破骗局

生活不缺欢乐 2026-03-25 00:00:00
119 跟贴 119
迪士尼刚开完会30分钟，OpenAI把红毯撤了

全栈遛狗员 2026-03-26 08:32:42
2 跟贴 2
他，重新定义了翻译！

C位影视解说 2026-03-24 10:26:41
1 跟贴 1
于东来从30岁开始吃药，拍CT上百次，身体出什么问题都不足为奇，哪天说不定没了就没了

新闻晨报 2026-03-25 21:24:37
4210 跟贴 4210
我这是产生幻觉了吗？

天天侃娱圈 2026-03-24 11:25:10
4 跟贴 4
所谓超能力，不过是你的幻觉

芳芳爱剪辑 2026-03-24 17:13:46
1 跟贴 1
宝马家族经典小车，仅售21.78万，还能免购置税，这波入手真的很划算！

隔壁说车老王 2026-03-24 07:47:27
2 跟贴 2
万元内 RGB-Mini LED 怎么选？TCL Q9M 就是参考答案

雷科技 2025-11-14 19:22:03
15 跟贴 15
心理学早就说透了：你执着的“被爱”，本质是幻觉

微微笑了 2026-03-24 08:14:09
1 跟贴 1
顶级翻译究竟啥样，这样翻译堪称一绝，看完让人直呼牛批

搞笑热血青年 2026-03-25 00:00:00
0 跟贴 0
2017年真实影像美国大妈在警局乱翻译，被聋哑人举报后却安然无恙

雄韬伟略 2026-03-24 14:07:56
1 跟贴 1
OpenAI 将停止 Sora 业务；全新奥迪 A6L 正式上市；拼多多 2025 年营收 4318 亿元｜Do早报

DoNews 2026-03-26 08:13:17
0 跟贴 0
中远海运恢复海湾国家订舱船舶暂不过霍尔木兹海峡

财联社 2026-03-25 20:20:04
4117 跟贴 4117
Supreme砖头2.0、Supreme电视！第5周发售清单曝光，中国发售！

Supreme情报网 2026-03-25 11:55:26
0 跟贴 0
LinkedIn企业话术转换工具让商务英语变成纯正企业术语

至顶AI实验室 2026-03-25 21:26:19
0 跟贴 0
MiniMax来承包你的桌面了

机器之心Pro 2026-01-20 20:19:15
0 跟贴 0
Swiggy前高管：10个习惯让90%人职场卡住

报错免疫体 2026-03-26 13:05:51
0 跟贴 0
7个至今无法解释的古代遗迹，一个比一个神秘！

何夕夕与书 2026-03-26 03:13:04
0 跟贴 0
女孩做了50个小时的设计图，电脑突然蓝屏，键盘怎么扎进去的

乡村阿生姐 2026-03-25 20:17:26
1 跟贴 1

日媒重磅判断：中国将成全球首个武器不用进口的大国

日媒重磅判断：中国将成全球首个武器不用进口的大国

杨风

2026-03-24 22:16:20

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事

2026-03-26 12:17:48

惊呆了！网传某妇产医院一少妇哭求医生，改她儿子的血型鉴定书…

惊呆了！网传某妇产医院一少妇哭求医生，改她儿子的血型鉴定书…

火山詩话

2026-03-26 11:40:00

“写作业就头痛，睡一觉又好了”，江苏一家长以为孩子装病逃避学习，为探究竟带往医院，结果孩子突发脑出血，被送ICU，家属：正在恢复中

“写作业就头痛，睡一觉又好了”，江苏一家长以为孩子装病逃避学习，为探究竟带往医院，结果孩子突发脑出血，被送ICU，家属：正在恢复中

潇湘晨报

2026-03-26 11:49:57

从广东到东北！刘强东游艇版图扩容，150亿元项目进驻大连

从广东到东北！刘强东游艇版图扩容，150亿元项目进驻大连

南方都市报

2026-03-26 14:42:13

巴蒂：马拉多纳离世时身边没有人，最后走得像条狗一样

巴蒂：马拉多纳离世时身边没有人，最后走得像条狗一样

懂球帝

2026-03-26 06:43:02

传张雪峰二婚妻子清纯甜美：去年已生子，11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美：去年已生子，11岁女儿遗传继承恐生变

博士观察

2026-03-25 21:33:04

湖人结束客场之旅两喜一忧，詹姆斯开启季后赛模式，实力榜进前五

湖人结束客场之旅两喜一忧，詹姆斯开启季后赛模式，实力榜进前五

谢说篮球

2026-03-26 16:45:05

以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社

2026-03-26 12:29:02

欧盟威胁越南：若中方参与了…

观察者网

2026-03-25 15:19:16

成都世遗马拉松一女子赛道摆拍“一字马”，险绊倒后方选手！组委会：取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”，险绊倒后方选手！组委会：取消成绩、2027年禁赛

大象新闻

2026-03-25 17:53:10

宋喆出狱后现状：县城搬菜月入三千，前妻杨慧横店开公司年入千万

宋喆出狱后现状：县城搬菜月入三千，前妻杨慧横店开公司年入千万

一盅情怀

2026-03-26 14:47:59

写小说判十年，把生殖器放女孩嘴巴里判两年九个月

写小说判十年，把生殖器放女孩嘴巴里判两年九个月

昊轩看世界

2026-03-24 19:56:42

如果美国疯狂印钞还完所有债会怎样网友深度剖析原来有人等着呢

如果美国疯狂印钞还完所有债会怎样网友深度剖析原来有人等着呢

侃神评故事

2026-03-23 17:20:03

曝张雪峰3段婚姻都是闪婚，前妻缅怀满是惋惜，疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚，前妻缅怀满是惋惜，疯狂健身疑为备孕

古希腊掌管松饼的神

2026-03-25 12:00:46

志愿军功臣行刑时朝鲜姑娘冲上前，彭总感慨：让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前，彭总感慨：让他们在一起吧

老范谈史

2026-03-23 17:49:13

5分钟开通国家免费电视！不用机顶盒、不连网，永久免费

5分钟开通国家免费电视！不用机顶盒、不连网，永久免费

叮当当科技

2026-03-20 03:29:51

比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

风风顺

2026-03-26 15:03:26

伊朗警告：情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿，若敌人胆敢采取行动，将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告：情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿，若敌人胆敢采取行动，将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻

2026-03-26 09:09:58

东契奇43分7助攻湖人战胜步行者，勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者，勒布朗23分9板9助里夫斯25分

湖人崛起

2026-03-26 09:32:48

追踪人工智能动态

12348文章数 176424关注度

往期回顾全部

科技要闻

Meta高管狂分百亿期权，700名员工却下岗

头条要闻

国防部：日本侵略过所有周边国家至今都没有真正反省

头条要闻

国防部：日本侵略过所有周边国家至今都没有真正反省

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

张雪峰家人首发声不设追思会丧事从简

财经要闻

长护险谁能享受？享受多少？解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

亲子

房产

游戏

数码

家居要闻

傍海而居静观蝴蝶海

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范！我要当爸爸的专属赞助人

房产要闻

质价比标杆！三亚首创浮岛全景舱亮相，还得是万科！

商业互吹or真心话？制作人玩《红色沙漠》忘记工作

数码要闻

1599～2499元，英特尔酷睿Ultra 200S Plus处理器发售

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版