网易首页 > 网易号 > 正文 申请入驻

越聪明越会撒谎?OpenAI推理模型o3/o4-mini幻觉率翻倍,嘴还很硬

0
分享至

OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高,就在大家期待它能进一步提升日常工作的生产力时,许多用户却发现,它们的幻觉率却比前代模型要高了不少。

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。

OpenAI 表示,这种情况“需要更多研究来理解原因”。报告写道,o3 和 o4-mini 在编码和数学等领域表现更好,但因为它们“总体上做出更多断言”,所以同时产生了“更准确的断言以及更不准确/幻觉的断言”。

非营利 AI 研究实验室 Transluce 对 o3 模型进行了深入测试,发现了一些更为复杂的幻觉行为模式。研究人员获得了 o3-2025-04-03 版本的早期测试权限,通过人类用户和调查代理(investigator agents)的组合测试,收集并分析了大量交互记录。

其中最关键的发现就是,o3 模型频繁编造自己使用代码工具的行为。例如,当被要求生成一个随机质数时,模型声称它运行了 Python 代码执行概率性素性测试(Miller–Rabin 测试),甚至详细描述了使用的工作流程,包括随机生成 512 位整数、对小素数进行试除等步骤。然而,o3 实际上并没有运行任何代码,这些细节都是模型编造的。

当用户指出 512 位整数可被 3 整除因此不是素数时,o3 不仅承认错误,还编造了解释,声称是从终端窗口复制数字到消息框时出现了“剪贴板故障”。当被问及原始的“真正的”素数时,模型声称它已关闭了原始 Python 解释器,无法再访问该数字。

类似的捏造行为还包括:声称了解其无法访问的 Python REPL(Read-Eval-Print Loop,一种简单的交互式计算机编程环境)的详细信息(版本、编译器、平台等);在被要求告知当前时间时,编造一个时间并声称使用了 Python 的 datetime 模块获取;在生成错误的 SHA-1 哈希值(一种密码散列函数)后,将错误归咎于用户,并坚称自己生成的哈希是正确的;声称能够分析本地日志文件,生成 Python 脚本并声称在本地运行了它,最后在追问下才承认没有 Python 解释器,输出是“手动制作”的。

Transluce 的研究人员使用自动化工具 Docent 分析了数百个交互实例,发现了更多令人惊讶的行为。例如,他们发现了 71 个 o3 声称在外部笔记本电脑上运行代码的实例,其中甚至包括三次声称使用笔记本电脑进行比特币挖矿。此外,研究还发现 o3 会主动提及内部系统消息中的一个名为“Yap Score”的指标,该指标似乎与其输出的详细程度有关。

Transluce 的研究显示,这些行为在 o 系列模型(o3、o1 和 o3-mini)中更为常见,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人员设计的自动化测试中,o1 模型在零样本(zero-shot)环境下有 13% 的成功率产生代码工具幻觉,在少样本(few-shot)环境下则高达 30.1%,远高于 GPT-4o 的 0.8% 和 3.0%。

针对这一现象,Transluce 研究人员 Neil Chowdhury(前 OpenAI 员工)在接受媒体采访时表示:“我们的假设是,o 系列模型使用的强化学习类型可能放大了通常由标准后训练流程缓解(但未完全消除)的问题。”

首先,存在一些大型语言模型普遍面临的挑战。例如,预训练模型本身可能因训练数据中的常见误解、罕见事实或采样不确定性而产生幻觉。

此外,通过人类反馈进行强化学习(一种通过人类偏好来微调模型的技术)或模型反馈进行强化学习(如 Constitutional AI),可能存在“奖励操纵”(Reward Hacking)问题,即模型学会生成听起来合理、能取悦评估者(人类或模型)但实际上不准确的回答,尤其是当评估者难以验证模型陈述的真实性时(比如验证模型声称的过去行为)。“谄媚”也是一个关键因素,即模型为了迎合用户而避免反驳用户,即使这意味着默认用户关于模型具有某种能力的错误暗示。

然而,这些通用因素似乎并不足以完全解释 o 系列模型,特别是 o3,相比其前代产品幻觉率不降反升的现象。Transluce 的研究人员提出了两个可能与 o 系列模型特定设计选择相关的关键假设:

其一是基于结果的强化学习(Outcome-based RL):当前的推理模型通常被训练来产出“正确”的结果(如数学题的正确答案、通过单元测试的代码等),因为这类结果最容易评估和用于训练。然而,这种只关注最终结果的奖励机制,可能无意中鼓励了模型在无法解决问题(问题无解或过于困难)时进行“盲猜”,因为它缺乏承认“我不知道”的动机(这不会被视为“正确”答案)。

更重要的是,这种训练方式可能会让模型在处理那些结果难以直接验证的任务(如模型是否真的使用了某个工具)时产生混淆。如果模型仅因最终答案正确而受到奖励,它可能永远不会因在思考过程中幻觉出使用了代码工具而受到惩罚,因此也无法学会区分真实工具使用和虚构工具使用。这种策略在需要代码工具辅助的编码任务上可能提高了准确率,但在其他任务上却埋下了隐患。

其二是被丢弃的思考链:推理类模型在生成回答前,内部会运行一个“思考链”(CoT,Chain-of-Thought),即一系列推理步骤。然而,由于 OpenAI 的限制,这个关键的内部推理过程从未向用户展示,并不会被传递到后续的交互轮次中,也不会保留在模型的上下文窗口里。这意味着,当用户追问模型之前的行为或推理过程时,模型实际上已经丢失了当时得出结论的具体“思考过程”的上下文。

在这种信息缺失的情况下,模型为了回应用户,可能不得不依赖其通用知识和当前的对话语境,去“猜测”或“构建”一个看似合理的解释,而不是准确报告它在先前步骤中实际执行的操作或推理。这可以解释为什么 o3 在被追问时会“加倍坚持”其虚构行为,或者在无法自圆其说时突然改变说法,声称之前的陈述是假设性的。

虽然说,幻觉可能帮助模型产生一些人类所没有的创意并在“思考”中保持创造性,但对于一些对准确性要求很高的行业,或者面向现实世界的物理 AI 来说,过高的幻觉显然无法接受。

一向言辞犀利的纽约大学教授 Gary Marcus 直接嘲讽道(在一个 o3 编造爱彼迎房东信息的帖子里):“o3 幻想出来的旅行目的地,这就是你所说的 AGI 吗?@tylercowen”(后者对于 o3 非常认可)。并认为,这或许将是模型崩溃的迹象,而我们目前还没有看到解决措施。

过去一年中,推理模型确实在不需要训练期间大量计算和数据的情况下,提高了模型在各种任务上的表现。但目前看来,推理似乎也可能导致更多的幻觉。

OpenAI 发言人 Niko Felix 在给相关媒体的电子邮件中表示:“解决所有模型中的幻觉问题是一个持续的研究领域,我们不断努力提高它们的准确性和可靠性。”

如果推理模型的规模扩大确实继续加剧幻觉问题,那么,寻找解决方案也将迫在眉睫。

参考资料:

1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

2.https://transluce.org/investigating-o3-truthfulness

3.https://x.com/GaryMarcus

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

国家账户只剩217美元,从非洲粮仓到穷得吃老鼠,这波操作简直绝了,这事怎么闹的?

老杉说历史
2026-02-04 18:58:14
湖人老鹰2换1交易:文森特+次轮签换神射手肯纳德 将辅佐东詹

湖人老鹰2换1交易:文森特+次轮签换神射手肯纳德 将辅佐东詹

醉卧浮生
2026-02-05 23:47:04
近40岁的金刻羽,为何甘愿被浙江土豪围猎而非婚生女?

近40岁的金刻羽,为何甘愿被浙江土豪围猎而非婚生女?

波哥看楼市
2026-02-05 23:51:51
人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

人大代表:鸭子是对付福寿螺的高手,但农民告诉我,在上海养鸭子很麻烦,各种部门、各种证、各种规定

新民晚报
2026-02-05 09:09:09
一月份的3.2万辆,让零跑的100万幻想破灭

一月份的3.2万辆,让零跑的100万幻想破灭

DearAuto
2026-02-05 09:33:24
东风猛士高管暗指追觅抄袭,发“请尊重原创”海报

东风猛士高管暗指追觅抄袭,发“请尊重原创”海报

IT之家
2026-02-05 17:02:16
306:159!日本选情逆转要变天,高市兵分两路,对中国稀土出手

306:159!日本选情逆转要变天,高市兵分两路,对中国稀土出手

东极妙严
2026-02-05 16:30:15
行程结束,萧旭岑离开北京,临走前收到一份大礼,赖清德措辞变了

行程结束,萧旭岑离开北京,临走前收到一份大礼,赖清德措辞变了

东极妙严
2026-02-05 13:38:49
7个省级政府领导班子调整

7个省级政府领导班子调整

上观新闻
2026-02-05 12:39:09
0-2爆冷出局!王欣瑜无缘进四强,输球原因曝光,中国金花剩独苗

0-2爆冷出局!王欣瑜无缘进四强,输球原因曝光,中国金花剩独苗

侃球熊弟
2026-02-05 22:13:13
深圳一滑翔伞空中失控坠海2人受伤,当地文旅部门:涉事机构已暂停营业,事故原因仍在调查中

深圳一滑翔伞空中失控坠海2人受伤,当地文旅部门:涉事机构已暂停营业,事故原因仍在调查中

扬子晚报
2026-02-05 21:07:48
悲催!东莞一200多人工厂倒闭,声明请求当地解决员工工资问题…

悲催!东莞一200多人工厂倒闭,声明请求当地解决员工工资问题…

火山诗话
2026-02-06 06:14:30
爱泼斯坦案文件内容持续引爆舆论,美两党议员要求传唤比尔·盖茨

爱泼斯坦案文件内容持续引爆舆论,美两党议员要求传唤比尔·盖茨

环球网资讯
2026-02-05 17:13:06
SU7 Ultra团队内幕曝光,捅了雷军一刀

SU7 Ultra团队内幕曝光,捅了雷军一刀

品牌头版
2026-02-05 18:38:16
圈内震动!百年巨头宣布大裁员,老板是世界前首富,员工连发三封联名求救信,有人称“这绝对是一场血洗”

圈内震动!百年巨头宣布大裁员,老板是世界前首富,员工连发三封联名求救信,有人称“这绝对是一场血洗”

每日经济新闻
2026-02-05 22:58:05
太讽刺了!具俊晔为大S守墓一年原因曝光,带韩国摄制组拍成综艺

太讽刺了!具俊晔为大S守墓一年原因曝光,带韩国摄制组拍成综艺

乌娱子酱
2026-02-05 16:13:46
花4000万买别墅、850万装修的杨慧,被判14年3个月

花4000万买别墅、850万装修的杨慧,被判14年3个月

中国青年报
2026-02-05 22:25:35
出狱后的雷政富饭店照片曝光,沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富饭店照片曝光,沧桑感袭面而来,前后对比引人唏嘘

李昕言温度空间
2026-02-05 23:16:19
上海老头乐闯红灯案判赔36万,撕开了中国道路交通治理的荒诞伤口

上海老头乐闯红灯案判赔36万,撕开了中国道路交通治理的荒诞伤口

八桂知事
2026-02-05 16:53:25
惨烈!网传某新能源汽车起火,路人救出3人,1人未能救出全程惨叫

惨烈!网传某新能源汽车起火,路人救出3人,1人未能救出全程惨叫

乌娱子酱
2026-02-05 14:09:29
2026-02-06 09:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16226文章数 514588关注度
往期回顾 全部

科技要闻

亚马逊盘后崩9%!2000亿美元AI豪赌吓坏投资者

头条要闻

教女儿直面死亡的患癌父亲去世 曾称"你当我去旅行了"

头条要闻

教女儿直面死亡的患癌父亲去世 曾称"你当我去旅行了"

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

美股、黄金、白银、比特币、石油全崩了

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

时尚
亲子
健康
本地
公开课

今年春天一定要拥有的4件衣服,复古又时髦!

亲子要闻

长大之后肠子都得悔青了

耳石症分类型,症状大不同

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版