网易首页 > 网易号 > 正文 申请入驻

越聪明越会撒谎?OpenAI推理模型o3/o4-mini幻觉率翻倍,嘴还很硬

0
分享至

OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高,就在大家期待它能进一步提升日常工作的生产力时,许多用户却发现,它们的幻觉率却比前代模型要高了不少。

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。

OpenAI 表示,这种情况“需要更多研究来理解原因”。报告写道,o3 和 o4-mini 在编码和数学等领域表现更好,但因为它们“总体上做出更多断言”,所以同时产生了“更准确的断言以及更不准确/幻觉的断言”。

非营利 AI 研究实验室 Transluce 对 o3 模型进行了深入测试,发现了一些更为复杂的幻觉行为模式。研究人员获得了 o3-2025-04-03 版本的早期测试权限,通过人类用户和调查代理(investigator agents)的组合测试,收集并分析了大量交互记录。

其中最关键的发现就是,o3 模型频繁编造自己使用代码工具的行为。例如,当被要求生成一个随机质数时,模型声称它运行了 Python 代码执行概率性素性测试(Miller–Rabin 测试),甚至详细描述了使用的工作流程,包括随机生成 512 位整数、对小素数进行试除等步骤。然而,o3 实际上并没有运行任何代码,这些细节都是模型编造的。

当用户指出 512 位整数可被 3 整除因此不是素数时,o3 不仅承认错误,还编造了解释,声称是从终端窗口复制数字到消息框时出现了“剪贴板故障”。当被问及原始的“真正的”素数时,模型声称它已关闭了原始 Python 解释器,无法再访问该数字。

类似的捏造行为还包括:声称了解其无法访问的 Python REPL(Read-Eval-Print Loop,一种简单的交互式计算机编程环境)的详细信息(版本、编译器、平台等);在被要求告知当前时间时,编造一个时间并声称使用了 Python 的 datetime 模块获取;在生成错误的 SHA-1 哈希值(一种密码散列函数)后,将错误归咎于用户,并坚称自己生成的哈希是正确的;声称能够分析本地日志文件,生成 Python 脚本并声称在本地运行了它,最后在追问下才承认没有 Python 解释器,输出是“手动制作”的。

Transluce 的研究人员使用自动化工具 Docent 分析了数百个交互实例,发现了更多令人惊讶的行为。例如,他们发现了 71 个 o3 声称在外部笔记本电脑上运行代码的实例,其中甚至包括三次声称使用笔记本电脑进行比特币挖矿。此外,研究还发现 o3 会主动提及内部系统消息中的一个名为“Yap Score”的指标,该指标似乎与其输出的详细程度有关。

Transluce 的研究显示,这些行为在 o 系列模型(o3、o1 和 o3-mini)中更为常见,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人员设计的自动化测试中,o1 模型在零样本(zero-shot)环境下有 13% 的成功率产生代码工具幻觉,在少样本(few-shot)环境下则高达 30.1%,远高于 GPT-4o 的 0.8% 和 3.0%。

针对这一现象,Transluce 研究人员 Neil Chowdhury(前 OpenAI 员工)在接受媒体采访时表示:“我们的假设是,o 系列模型使用的强化学习类型可能放大了通常由标准后训练流程缓解(但未完全消除)的问题。”

首先,存在一些大型语言模型普遍面临的挑战。例如,预训练模型本身可能因训练数据中的常见误解、罕见事实或采样不确定性而产生幻觉。

此外,通过人类反馈进行强化学习(一种通过人类偏好来微调模型的技术)或模型反馈进行强化学习(如 Constitutional AI),可能存在“奖励操纵”(Reward Hacking)问题,即模型学会生成听起来合理、能取悦评估者(人类或模型)但实际上不准确的回答,尤其是当评估者难以验证模型陈述的真实性时(比如验证模型声称的过去行为)。“谄媚”也是一个关键因素,即模型为了迎合用户而避免反驳用户,即使这意味着默认用户关于模型具有某种能力的错误暗示。

然而,这些通用因素似乎并不足以完全解释 o 系列模型,特别是 o3,相比其前代产品幻觉率不降反升的现象。Transluce 的研究人员提出了两个可能与 o 系列模型特定设计选择相关的关键假设:

其一是基于结果的强化学习(Outcome-based RL):当前的推理模型通常被训练来产出“正确”的结果(如数学题的正确答案、通过单元测试的代码等),因为这类结果最容易评估和用于训练。然而,这种只关注最终结果的奖励机制,可能无意中鼓励了模型在无法解决问题(问题无解或过于困难)时进行“盲猜”,因为它缺乏承认“我不知道”的动机(这不会被视为“正确”答案)。

更重要的是,这种训练方式可能会让模型在处理那些结果难以直接验证的任务(如模型是否真的使用了某个工具)时产生混淆。如果模型仅因最终答案正确而受到奖励,它可能永远不会因在思考过程中幻觉出使用了代码工具而受到惩罚,因此也无法学会区分真实工具使用和虚构工具使用。这种策略在需要代码工具辅助的编码任务上可能提高了准确率,但在其他任务上却埋下了隐患。

其二是被丢弃的思考链:推理类模型在生成回答前,内部会运行一个“思考链”(CoT,Chain-of-Thought),即一系列推理步骤。然而,由于 OpenAI 的限制,这个关键的内部推理过程从未向用户展示,并不会被传递到后续的交互轮次中,也不会保留在模型的上下文窗口里。这意味着,当用户追问模型之前的行为或推理过程时,模型实际上已经丢失了当时得出结论的具体“思考过程”的上下文。

在这种信息缺失的情况下,模型为了回应用户,可能不得不依赖其通用知识和当前的对话语境,去“猜测”或“构建”一个看似合理的解释,而不是准确报告它在先前步骤中实际执行的操作或推理。这可以解释为什么 o3 在被追问时会“加倍坚持”其虚构行为,或者在无法自圆其说时突然改变说法,声称之前的陈述是假设性的。

虽然说,幻觉可能帮助模型产生一些人类所没有的创意并在“思考”中保持创造性,但对于一些对准确性要求很高的行业,或者面向现实世界的物理 AI 来说,过高的幻觉显然无法接受。

一向言辞犀利的纽约大学教授 Gary Marcus 直接嘲讽道(在一个 o3 编造爱彼迎房东信息的帖子里):“o3 幻想出来的旅行目的地,这就是你所说的 AGI 吗?@tylercowen”(后者对于 o3 非常认可)。并认为,这或许将是模型崩溃的迹象,而我们目前还没有看到解决措施。

过去一年中,推理模型确实在不需要训练期间大量计算和数据的情况下,提高了模型在各种任务上的表现。但目前看来,推理似乎也可能导致更多的幻觉。

OpenAI 发言人 Niko Felix 在给相关媒体的电子邮件中表示:“解决所有模型中的幻觉问题是一个持续的研究领域,我们不断努力提高它们的准确性和可靠性。”

如果推理模型的规模扩大确实继续加剧幻觉问题,那么,寻找解决方案也将迫在眉睫。

参考资料:

1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

2.https://transluce.org/investigating-o3-truthfulness

3.https://x.com/GaryMarcus

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他戴着手铐走完长征,开国大典前毛主席问他:你为什么不来看我

他戴着手铐走完长征,开国大典前毛主席问他:你为什么不来看我

春秋砚
2026-07-03 08:50:13
全球最短命舰载机诞生?歼 15 撤出辽宁舰,刚挑大梁就退二线?

全球最短命舰载机诞生?歼 15 撤出辽宁舰,刚挑大梁就退二线?

军机Nova
2026-07-01 17:36:23
3.0T!路虎宣布:新车上市

3.0T!路虎宣布:新车上市

高科技爱好者
2026-07-03 01:50:41
凌晨暴雨!冷黄梅结束热黄梅来了

凌晨暴雨!冷黄梅结束热黄梅来了

脊梁in上海
2026-07-03 07:09:38
妹子对啥都过敏,连天气变化、来例假都都不行?能活下来,全靠神奇的狗子盯着…

妹子对啥都过敏,连天气变化、来例假都都不行?能活下来,全靠神奇的狗子盯着…

英国那些事儿
2026-06-27 02:07:14
穆里尼奥懵了!刚接皇马王牌就要跑路,3000 万年薪都留不住

穆里尼奥懵了!刚接皇马王牌就要跑路,3000 万年薪都留不住

澜归序
2026-07-02 04:18:45
比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

比导弹便宜万倍!中国 LW30 一出场,无人机当场变废铁

小兰聊历史
2026-04-18 14:25:14
敢动俄罗斯?这就是下场,普京说到做到,后果让泽连斯基也坐不住

敢动俄罗斯?这就是下场,普京说到做到,后果让泽连斯基也坐不住

丁丁鲤史纪
2026-07-02 19:17:44
中纪委怒批:公务员也是人,正常生活不应问责处理!

中纪委怒批:公务员也是人,正常生活不应问责处理!

细说职场
2026-06-24 10:55:30
紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

紫牛头条|父亲带着 9 岁女儿在清华门口拍了张照,17 年后父女俩复刻了这张照片

扬子晚报
2026-07-01 22:55:08
没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

许三岁
2026-06-24 11:06:59
任重携妻女逛商场,夫妻俩穿搭休闲,孙骁骁状态超好,气质从容

任重携妻女逛商场,夫妻俩穿搭休闲,孙骁骁状态超好,气质从容

孤芳自赏的小李
2026-07-03 04:01:58
今起坐飞机有变化!退改阶梯收费、行李尺寸统一,短途餐食改零食

今起坐飞机有变化!退改阶梯收费、行李尺寸统一,短途餐食改零食

原广工业
2026-07-02 04:17:45
建议父母养一个:顶嘴、磨蹭、爱发脾气的孩子,以后更有出息

建议父母养一个:顶嘴、磨蹭、爱发脾气的孩子,以后更有出息

枕边聊育儿
2026-06-26 12:02:34
1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

1950 年,四川地主拿出朱德欠条,朱总司令:马上把他接到北京来

纪实文录
2025-06-21 14:47:10
桃子再次成为关注对象!多名院士发现:常吃桃子的人,有7个变化

桃子再次成为关注对象!多名院士发现:常吃桃子的人,有7个变化

叙说医疗健康
2026-07-03 06:00:09
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

潋滟晴方DAY
2026-07-01 23:20:19
因祸得福?巴洛贡一张红牌,为美国球迷带来六万张披萨

因祸得福?巴洛贡一张红牌,为美国球迷带来六万张披萨

懂球帝
2026-07-02 12:08:07
完了!开拓者对杨瀚森失去信心了.....

完了!开拓者对杨瀚森失去信心了.....

柚子说球
2026-07-02 16:45:10
0时0分准时生效,中国反制很快,日本财政恐爆雷,高市开始自救

0时0分准时生效,中国反制很快,日本财政恐爆雷,高市开始自救

指忘崖
2026-07-03 08:19:12
2026-07-03 09:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16914文章数 515071关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

母亲腿疾 上海孝顺女儿自费装"电梯"给全楼用却遭抵制

头条要闻

母亲腿疾 上海孝顺女儿自费装"电梯"给全楼用却遭抵制

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

家居
游戏
本地
健康
军事航空

家居要闻

传奇筑 日常诗

魔兽世界:时光服玩家吐槽,团长不看成员配置,临时要求切号

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

这4类消化病患者 吃粘食管住嘴

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版