网易首页 > 网易号 > 正文 申请入驻

越聪明越会撒谎?OpenAI推理模型o3/o4-mini幻觉率翻倍,嘴还很硬

0
分享至

OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高,就在大家期待它能进一步提升日常工作的生产力时,许多用户却发现,它们的幻觉率却比前代模型要高了不少。

据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。

OpenAI 表示,这种情况“需要更多研究来理解原因”。报告写道,o3 和 o4-mini 在编码和数学等领域表现更好,但因为它们“总体上做出更多断言”,所以同时产生了“更准确的断言以及更不准确/幻觉的断言”。

非营利 AI 研究实验室 Transluce 对 o3 模型进行了深入测试,发现了一些更为复杂的幻觉行为模式。研究人员获得了 o3-2025-04-03 版本的早期测试权限,通过人类用户和调查代理(investigator agents)的组合测试,收集并分析了大量交互记录。

其中最关键的发现就是,o3 模型频繁编造自己使用代码工具的行为。例如,当被要求生成一个随机质数时,模型声称它运行了 Python 代码执行概率性素性测试(Miller–Rabin 测试),甚至详细描述了使用的工作流程,包括随机生成 512 位整数、对小素数进行试除等步骤。然而,o3 实际上并没有运行任何代码,这些细节都是模型编造的。

当用户指出 512 位整数可被 3 整除因此不是素数时,o3 不仅承认错误,还编造了解释,声称是从终端窗口复制数字到消息框时出现了“剪贴板故障”。当被问及原始的“真正的”素数时,模型声称它已关闭了原始 Python 解释器,无法再访问该数字。

类似的捏造行为还包括:声称了解其无法访问的 Python REPL(Read-Eval-Print Loop,一种简单的交互式计算机编程环境)的详细信息(版本、编译器、平台等);在被要求告知当前时间时,编造一个时间并声称使用了 Python 的 datetime 模块获取;在生成错误的 SHA-1 哈希值(一种密码散列函数)后,将错误归咎于用户,并坚称自己生成的哈希是正确的;声称能够分析本地日志文件,生成 Python 脚本并声称在本地运行了它,最后在追问下才承认没有 Python 解释器,输出是“手动制作”的。

Transluce 的研究人员使用自动化工具 Docent 分析了数百个交互实例,发现了更多令人惊讶的行为。例如,他们发现了 71 个 o3 声称在外部笔记本电脑上运行代码的实例,其中甚至包括三次声称使用笔记本电脑进行比特币挖矿。此外,研究还发现 o3 会主动提及内部系统消息中的一个名为“Yap Score”的指标,该指标似乎与其输出的详细程度有关。

Transluce 的研究显示,这些行为在 o 系列模型(o3、o1 和 o3-mini)中更为常见,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人员设计的自动化测试中,o1 模型在零样本(zero-shot)环境下有 13% 的成功率产生代码工具幻觉,在少样本(few-shot)环境下则高达 30.1%,远高于 GPT-4o 的 0.8% 和 3.0%。

针对这一现象,Transluce 研究人员 Neil Chowdhury(前 OpenAI 员工)在接受媒体采访时表示:“我们的假设是,o 系列模型使用的强化学习类型可能放大了通常由标准后训练流程缓解(但未完全消除)的问题。”

首先,存在一些大型语言模型普遍面临的挑战。例如,预训练模型本身可能因训练数据中的常见误解、罕见事实或采样不确定性而产生幻觉。

此外,通过人类反馈进行强化学习(一种通过人类偏好来微调模型的技术)或模型反馈进行强化学习(如 Constitutional AI),可能存在“奖励操纵”(Reward Hacking)问题,即模型学会生成听起来合理、能取悦评估者(人类或模型)但实际上不准确的回答,尤其是当评估者难以验证模型陈述的真实性时(比如验证模型声称的过去行为)。“谄媚”也是一个关键因素,即模型为了迎合用户而避免反驳用户,即使这意味着默认用户关于模型具有某种能力的错误暗示。

然而,这些通用因素似乎并不足以完全解释 o 系列模型,特别是 o3,相比其前代产品幻觉率不降反升的现象。Transluce 的研究人员提出了两个可能与 o 系列模型特定设计选择相关的关键假设:

其一是基于结果的强化学习(Outcome-based RL):当前的推理模型通常被训练来产出“正确”的结果(如数学题的正确答案、通过单元测试的代码等),因为这类结果最容易评估和用于训练。然而,这种只关注最终结果的奖励机制,可能无意中鼓励了模型在无法解决问题(问题无解或过于困难)时进行“盲猜”,因为它缺乏承认“我不知道”的动机(这不会被视为“正确”答案)。

更重要的是,这种训练方式可能会让模型在处理那些结果难以直接验证的任务(如模型是否真的使用了某个工具)时产生混淆。如果模型仅因最终答案正确而受到奖励,它可能永远不会因在思考过程中幻觉出使用了代码工具而受到惩罚,因此也无法学会区分真实工具使用和虚构工具使用。这种策略在需要代码工具辅助的编码任务上可能提高了准确率,但在其他任务上却埋下了隐患。

其二是被丢弃的思考链:推理类模型在生成回答前,内部会运行一个“思考链”(CoT,Chain-of-Thought),即一系列推理步骤。然而,由于 OpenAI 的限制,这个关键的内部推理过程从未向用户展示,并不会被传递到后续的交互轮次中,也不会保留在模型的上下文窗口里。这意味着,当用户追问模型之前的行为或推理过程时,模型实际上已经丢失了当时得出结论的具体“思考过程”的上下文。

在这种信息缺失的情况下,模型为了回应用户,可能不得不依赖其通用知识和当前的对话语境,去“猜测”或“构建”一个看似合理的解释,而不是准确报告它在先前步骤中实际执行的操作或推理。这可以解释为什么 o3 在被追问时会“加倍坚持”其虚构行为,或者在无法自圆其说时突然改变说法,声称之前的陈述是假设性的。

虽然说,幻觉可能帮助模型产生一些人类所没有的创意并在“思考”中保持创造性,但对于一些对准确性要求很高的行业,或者面向现实世界的物理 AI 来说,过高的幻觉显然无法接受。

一向言辞犀利的纽约大学教授 Gary Marcus 直接嘲讽道(在一个 o3 编造爱彼迎房东信息的帖子里):“o3 幻想出来的旅行目的地,这就是你所说的 AGI 吗?@tylercowen”(后者对于 o3 非常认可)。并认为,这或许将是模型崩溃的迹象,而我们目前还没有看到解决措施。

过去一年中,推理模型确实在不需要训练期间大量计算和数据的情况下,提高了模型在各种任务上的表现。但目前看来,推理似乎也可能导致更多的幻觉。

OpenAI 发言人 Niko Felix 在给相关媒体的电子邮件中表示:“解决所有模型中的幻觉问题是一个持续的研究领域,我们不断努力提高它们的准确性和可靠性。”

如果推理模型的规模扩大确实继续加剧幻觉问题,那么,寻找解决方案也将迫在眉睫。

参考资料:

1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

2.https://transluce.org/investigating-o3-truthfulness

3.https://x.com/GaryMarcus

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太突然:8级!浙江人下班赶紧回家,暴雨雷雨、冷空气都来了

太突然:8级!浙江人下班赶紧回家,暴雨雷雨、冷空气都来了

浙江之声
2026-05-07 15:49:26
热搜!钟丽缇女儿发浴室自拍照没打码,导致同学坐马桶画面流出

热搜!钟丽缇女儿发浴室自拍照没打码,导致同学坐马桶画面流出

丫头舫
2026-05-06 10:12:55
伊朗外长用中文发帖

伊朗外长用中文发帖

鲁中晨报
2026-05-07 11:34:04
匿名投票!申京排名第一!!断层领先啊!

匿名投票!申京排名第一!!断层领先啊!

柚子说球
2026-05-07 10:29:55
探访游客坠亡事发地:瀑布秋千为景区四大卖点之一,目前禁入

探访游客坠亡事发地:瀑布秋千为景区四大卖点之一,目前禁入

澎湃新闻
2026-05-07 14:52:27
最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

混沌录
2026-04-29 20:28:14
18亿“天价”转播权,央视该不该给?

18亿“天价”转播权,央视该不该给?

正和岛
2026-05-07 16:07:33
世乒赛突发变阵!蒯曼惨遭弃用,马琳狠下决心,莎莎站位大变

世乒赛突发变阵!蒯曼惨遭弃用,马琳狠下决心,莎莎站位大变

观察鉴娱
2026-05-07 09:39:46
日本布下反华包围圈后,越南做出明确表态,东南亚风向彻底变了

日本布下反华包围圈后,越南做出明确表态,东南亚风向彻底变了

南宗历史
2026-05-07 17:04:38
张国焘企图武力解决中央,毛泽东突围投奔彭德怀,彭大将军挺身护驾事后一句话太震撼!

张国焘企图武力解决中央,毛泽东突围投奔彭德怀,彭大将军挺身护驾事后一句话太震撼!

历史回忆室
2026-05-07 15:31:10
纽约时报看懵了:蜜雪冰城海底捞比亚迪,年轻人为何集体倒向中国

纽约时报看懵了:蜜雪冰城海底捞比亚迪,年轻人为何集体倒向中国

人间无味啊
2026-05-03 10:53:21
广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

广东一女儿将母亲器官活活剜出,母亲临死前哀求:妈妈错了

纸鸢奇谭
2024-10-13 19:29:37
183cm珠圆玉润!她凭啥拿下世界小姐冠军?健康大气的东方美,审美终于回归了!

183cm珠圆玉润!她凭啥拿下世界小姐冠军?健康大气的东方美,审美终于回归了!

小椰的奶奶
2026-05-07 15:12:37
央视不播世界杯?万达出局3中国赞助商恐成最大输家:34亿打水漂

央视不播世界杯?万达出局3中国赞助商恐成最大输家:34亿打水漂

念洲
2026-05-07 11:04:47
为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

为什么不建议买网上十几块的衣服?看完感到后怕,可别贪便宜

家居设计师苏哥
2026-05-04 11:39:03
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
赖清德回台不到24小时,卢秀燕付出代价,鲁比奥:送台当局一句话

赖清德回台不到24小时,卢秀燕付出代价,鲁比奥:送台当局一句话

潋滟晴方DAY
2026-05-06 20:30:13
中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

掉了颗大白兔糖
2026-05-05 15:18:03
女子机场租用充电宝1小时扣费149元,退费需回现场自证,网上显示小电科技被投诉量超5万件

女子机场租用充电宝1小时扣费149元,退费需回现场自证,网上显示小电科技被投诉量超5万件

极目新闻
2026-05-07 13:36:00
波波维奇出山!马刺133-95狂胜森林狼,谁是赢球功臣?数据不说谎

波波维奇出山!马刺133-95狂胜森林狼,谁是赢球功臣?数据不说谎

毒舌NBA
2026-05-07 12:24:32
2026-05-07 18:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16672文章数 514924关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

头条要闻

周喜安被判死缓:在两省共受贿过亿 被指学术成就丰富

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

小S阿雅重返大S母校,翻看大S毕业照

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

数码
教育
旅游
游戏
手机

数码要闻

肯辛通扩充USB-C GaN充电头产品线,新推70W三口、140W四口

教育要闻

武汉学院:复试第一!拥有5万粉丝的她跨专业考研新传成功!

旅游要闻

男子悬崖边推搡藏酋猴?峨眉山景区:非危险路段,列入“不文明游客黑名单”,3年禁入

索尼PS5独占新作销量太烂了!前十都进不去 回本堪忧

手机要闻

三星手机中国正常销售背后:去年投放13款机型 销量至少百万

无障碍浏览 进入关怀版