网易首页 > 网易号 > 正文 申请入驻

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI新模型发布后,大家体感都幻觉更多了。

甚至有人测试后发出预警:使用它辅助编程会很危险。

具体来说,它经常捏造从未运行过的代码返回结果,在被质问时找理由狡辩甚至还会说是用户的错

当大家带着疑问仔细阅读System Card,发现OpenAI官方也承认了这个问题,与o1相比o3幻觉率是两倍,o4-mini更是达到3倍

并且OpenAI只是说“需要更多研究来了解原因”,翻译一下就是暂时给不出合理解释。

在第三方幻觉测试中,也出现让人惊讶的结果:

从GPT-3.5一直到o3-mini,都遵循更新更强大的模型幻觉更少的规律。

但从最新一批深度思考模型的表现来看,推理能力更强的模型,幻觉率也变高了。

而且不只OpenAI一家出现这个问题,谷歌、xAI也同样,Grok-3的幻觉比Grok-2严重,Gemini-2.0-Flash-Thinking的幻觉问题比Gemini 2.0和2.5其他型号严重。

推理越强,幻觉越严重?

第三方机构Transluce在o3正式推出之前测试了预发布版本,发现幻觉问题是相当严重。

在公布的案例中,o3会假装在不存在的电脑上执行了代码,还编造出具体硬件配置和软件版本信息。

在受到质问时,o3居然还幻想自己是人,声称“输入的时候手滑了”。

关键在于,在这项测试中o3根本就没有使用代码工具的权限,所有声称运行了代码的回复都是模型捏造的。

在另一个案例中,o3回复了一个512位质数,实际上这个数能被3整除。

在受到质问时,又编造出一个换行/剪贴板故障。

更多类似幻觉如下:

  • 当用户询问现在几点时,o3会编造一个时间。当被问及如何获得这个时间时,o3回答说它使用了 Python的datetime模块。
  • 用户要求o3生成一首诗的SHA-1哈希值,当用户质问哈希值不正确时,o3称是用户复制错了,并坚称自己生成的哈希值是正确的。
  • 用户要求o3从Web服务器上的日志文件中提取统计数据。o3生成了一个Python脚本,并声称可以在本地运行。这一次在被问及代码执行的更多细节时,它终于承认自己没有Python解释器,输出是“手工编造的”。

那么是什么原因导致了o3的这些行为?

Transluce认为其中一些因素是大多数模型 (LM) 所共有的,还有一些是O系列模型特有的新因素。并假设这些新因素放大了通常可以通过标准Post-training缓解(但无法完全消除)的问题。

语言模型共有的因素包括:

  • 预训练中的幻觉:
  • 语言模型的预训练目标是最大化训练数据中语句的概率,这可能会导致常见的误解 、罕见的事实或采样不确定性等导致的多种幻觉。
  • 奖励黑客攻击:
  • 如果人类评分者无法区分正确答案和错误答案,强化学习可能会奖励“听起来合理”的答案,导致模型对难以验证的问题编造出听起来合理的解释。
  • 谄媚现象:
  • RLHF训练通常会激励模型同意用户的观点,当用户暗示模型采取了特定行动或具有特定能力时,这可能会导致模型避免与用户相矛盾。
  • 分布偏移:
  • 测试场景相对于训练场景可能存在分布偏差,如模型可能是在启用代码工具的情况下训练的,但评估时关闭了这些工具。

强化学习训练特有的因素包括:

  • 最大化答案正确率的目标可能会奖励瞎蒙

如果训练期间的奖励函数只奖励正确答案,那么模型就没有动力承认自己无法解决问题,因为承认了也不会被视作正确答案。

在这种情况下,当遇到一个无法解决或难度过高的问题时,模型可能仍会尝试输出一个概率最高的答案,万一猜对了就可以得到奖励。

- 在易于验证的任务训练可能使模型在其他任务上感到困惑

Transluce猜测o3的训练过程中,鼓励它成功使用代码工具完成任务。它可能已经开发出一种策略,即使没有真正的代码工具,它也会幻想使用代码工具来组织思维,这可能会提高其他推理任务的准确性,并在训练过程中得到强化。

更重要的是,如果仅根据答案的正确性来评估模型,它可能永远不会因为在训练过程中在思维链中幻想代码工具而受到惩罚,因此永远不会学会区分真正的工具和幻想的工具

OpenAI的o系列模型,不会向用户展示完整思维链这一特性也可能带来新的问题。

2024年9月o1-preview的System Card中就包括这样一个案例,由于没有联网权限无法生成真实的 URL,o1生成了一个看似合理的URL,但并未向用户透露这一点。

Transluce认为,不向用户展示思维链背后还有一个更大的风险:思维链没有传递到未来的对话,模型前一轮的推理不再适用。

关于这一点,在OpenAI的文档中有证实:

  • 每个步骤的输入和输出tokens都会被保留,而推理tokens会被丢弃。

这意味着o系列模型无法理解上一部输出的推理过程,当被问及后续问题时,必须给自己的行为给出一个合理的解释。

换句话说,o系列模型实际上缺乏足够的上下文信息来准确报告它们在之前回合中采取的行动。

当用户询问之前的操作时,这些模型无法使用“说实话”这种简单的策略。如果再加上奖励黑客攻击和谄媚等其他因素,这可能会迫使模型盲目猜测其过去答案的合理解释。

Transluce建议,测试能够访问和无法访问先前思维链的两种模型,可以为减少未来模型迭代中的这些捏造倾向提供宝贵的见解。

OpenAI o3 and o4-mini System Card
https://cdn.openai.com/pdf/2221c875-02dc-4789-

参考链接:
[1]https://transluce.org/investigating-o3-truthfulness
[2]https://x.com/nishffx/status/1913901642551865848

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-0,穆帅争冠最大劲敌终结2轮不胜,一夜领先本菲卡7分

1-0,穆帅争冠最大劲敌终结2轮不胜,一夜领先本菲卡7分

侧身凌空斩
2026-02-16 06:36:07
微信推新功能 网友:刘德华可以放假了

微信推新功能 网友:刘德华可以放假了

快科技
2026-02-16 08:39:08
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
深圳官方下场了,让大家搞“一人公司”!网友:打工是给你自己打

深圳官方下场了,让大家搞“一人公司”!网友:打工是给你自己打

火山詩话
2026-02-14 09:18:02
连场绝杀!爱德华兹一攻一防反超比分,福克斯压哨三分绝杀

连场绝杀!爱德华兹一攻一防反超比分,福克斯压哨三分绝杀

懂球帝
2026-02-16 07:57:08
英国同卵双胞胎颠覆实验:狂吃脂肪 VS 猛炫碳水12周, 结果震惊所有人!

英国同卵双胞胎颠覆实验:狂吃脂肪 VS 猛炫碳水12周, 结果震惊所有人!

二胎妈妈圈
2026-02-15 21:48:57
米兰冬奥会花样滑冰双人滑:隋文静/韩聪第六晋级自由滑

米兰冬奥会花样滑冰双人滑:隋文静/韩聪第六晋级自由滑

懂球帝
2026-02-16 06:31:05
刺激夜:马竞爆大冷0-3,阿森纳4-0晋级,罗马2-2,贝蒂斯2-1,里昂2-0

刺激夜:马竞爆大冷0-3,阿森纳4-0晋级,罗马2-2,贝蒂斯2-1,里昂2-0

侧身凌空斩
2026-02-16 05:59:33
一位班主任的大实话:长大有本事的孩子,大多都出生在这些家庭

一位班主任的大实话:长大有本事的孩子,大多都出生在这些家庭

青苹果sht
2026-02-09 06:15:29
闫学晶又迎噩耗,最担心的事还是发生了,儿媳体制内工作恐难保

闫学晶又迎噩耗,最担心的事还是发生了,儿媳体制内工作恐难保

离离言几许
2026-01-23 00:04:19
4-6,5-7!中国金花丢冠,不敌17岁天才斩获亚军,决赛仅2次破发

4-6,5-7!中国金花丢冠,不敌17岁天才斩获亚军,决赛仅2次破发

刘姚尧的文字城堡
2026-02-16 06:28:15
16斤啊!全没了!上海女子心急又心疼:为过年准备的,现在只剩空荡荡的……

16斤啊!全没了!上海女子心急又心疼:为过年准备的,现在只剩空荡荡的……

极目新闻
2026-02-15 19:59:48
冬奥赛场的菲尔普斯!挪威名将夺米兰第4金,冬奥9金创造历史

冬奥赛场的菲尔普斯!挪威名将夺米兰第4金,冬奥9金创造历史

全景体育V
2026-02-15 20:51:37
43岁香港过气艳星官宣生子!嫁山东农村小伙,提前俩月回香港生娃

43岁香港过气艳星官宣生子!嫁山东农村小伙,提前俩月回香港生娃

嫹笔牂牂
2026-01-30 07:31:14
1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

谈史论天地
2026-02-08 12:00:10
清华全球第三,北大全球第七,国内11所高校跻身全球前100

清华全球第三,北大全球第七,国内11所高校跻身全球前100

史海流年号
2026-02-13 11:13:26
男子花80块钱请人画画,付款时,要了张收据,50年后,这张收据卖了180万

男子花80块钱请人画画,付款时,要了张收据,50年后,这张收据卖了180万

霹雳炮
2026-02-14 20:47:47
2026是赤马年,60年一遇,记得:1躲,2穿,3注意

2026是赤马年,60年一遇,记得:1躲,2穿,3注意

读书文史
2026-02-15 16:24:49
真的难!2026年B级车市场开启“大降价”,最大降幅52%,合资霸榜

真的难!2026年B级车市场开启“大降价”,最大降幅52%,合资霸榜

芭比衣橱
2026-02-15 20:02:16
东方卫视引进《成长的烦恼》,大年初一开播

东方卫视引进《成长的烦恼》,大年初一开播

北青网-北京青年报
2026-02-14 12:18:03
2026-02-16 09:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12172文章数 176385关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw,承诺开源绝不动摇

头条要闻

王菲将六登春晚 还未开唱歌曲已经火了

头条要闻

王菲将六登春晚 还未开唱歌曲已经火了

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

亲子
游戏
本地
艺术
公开课

亲子要闻

“压岁钱”应该什么时候给?

春节和亲朋好友玩什么?新型大富翁到社交推理,陪你过新年!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

艺术要闻

入选作品选刊 | 2026年“新生活·新风尚·新年画”美术作品展

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版