网易首页 > 网易号 > 正文 申请入驻

OpenAI 新推理模型被曝产生更多幻觉,性能提升却伴随更多错误

0
分享至

IT之家 4 月 19 日消息,OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准,不过,这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。

据外媒 TechCrunch 今日报道,幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一,即使是目前性能最优秀的模型也难以完全避免。过去,每一代新模型在降低幻觉频率方面通常都会取得小幅进步,但 o3 和 o4-mini 却打破了这一趋势。

根据 OpenAI 的内部测试,作为推理模型的 o3 和 o4-mini,出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini,甚至还高于传统“非推理”模型(IT之家注:如 GPT-4o)。

OpenAI 在针对这两款模型发布的技术报告中表示:“要弄清楚随着推理模型规模的扩大,幻觉问题为何反而变得更加严重,还需要进一步研究。”报告指出,尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往,但由于模型输出的答案总量增加,导致其既能作出更多准确判断,同时也不可避免地出现更多错误甚至幻觉

在 OpenAI 设计的内部基准测试 PersonQA 中,o3 回答问题时出现幻觉的比例达到 33%,几乎是前代推理模型 o1 和 o3-mini 的两倍,后者的幻觉率分别为 16% 和 14.8%。在同一测试中,o4-mini 的表现更差,幻觉率高达 48%

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现,o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如,Transluce 曾观察到,o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码,并将结果复制进了答案中。实际上,虽然 o3 拥有一部分工具访问权限,但并不具备执行这种操作的能力。

OpenAI 发言人 Niko Felix 表示:“解决幻觉问题是我们一直在推进的重点研究方向,我们也在不断努力提升模型的准确性与可靠性。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
业主信息被卖牵出56人黑灰产链,警方:11人被采取刑事强制措施

业主信息被卖牵出56人黑灰产链,警方:11人被采取刑事强制措施

界面新闻
2026-05-27 08:49:01
钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

林轻吟
2026-05-22 07:33:52
张雪:摄像师出去,就咱俩。台湾馆长:你这是要把我当自己人啊

张雪:摄像师出去,就咱俩。台湾馆长:你这是要把我当自己人啊

童叔不飙车
2026-05-27 12:22:48
除了梅西没来,瓜帅几乎兑现了全部当年对小球迷许下的诺言

除了梅西没来,瓜帅几乎兑现了全部当年对小球迷许下的诺言

懂球帝
2026-05-27 02:50:15
终于来了!苹果发布 iOS 26.6 系统大更新

终于来了!苹果发布 iOS 26.6 系统大更新

XCiOS俱乐部
2026-05-27 01:44:45
杨振宁离世7个月后,翁帆近况爆出,怀孕传闻早已真相大白

杨振宁离世7个月后,翁帆近况爆出,怀孕传闻早已真相大白

叨唠
2026-05-27 02:06:14
知名演员无戏可拍,和母亲街边卖鱼意外走红,今选择拍视频当网红

知名演员无戏可拍,和母亲街边卖鱼意外走红,今选择拍视频当网红

白面书誏
2026-05-27 20:46:32
体感高达47℃!广州新一轮降雨降温时间

体感高达47℃!广州新一轮降雨降温时间

广州正嘢
2026-05-27 15:40:40
网友将问界新车路测画面发给国家反诈中心,被认定为AI生成

网友将问界新车路测画面发给国家反诈中心,被认定为AI生成

西虹市闲话
2026-05-26 16:43:17
一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

凡知
2026-05-26 17:45:11
俄罗斯谴责乌克兰违反国际法,向基辅发出新威胁

俄罗斯谴责乌克兰违反国际法,向基辅发出新威胁

山河路口
2026-05-26 12:51:51
同济大学、中山大学等多所高校学者被举报涉嫌学术不端,有人被免职;科研人员:有些“大咖”太忙,甚至不清楚手下在做什么

同济大学、中山大学等多所高校学者被举报涉嫌学术不端,有人被免职;科研人员:有些“大咖”太忙,甚至不清楚手下在做什么

每日经济新闻
2026-05-26 21:49:15
我国最大深水型淡水湖告急:一年少4亿立方水,到底如何能盘活?

我国最大深水型淡水湖告急:一年少4亿立方水,到底如何能盘活?

今墨缘
2026-05-26 15:14:45
美债稳如泰山:1/3利息付给了白宫,财政收入增速远快于债务累积

美债稳如泰山:1/3利息付给了白宫,财政收入增速远快于债务累积

子业一说财经
2026-05-26 09:53:31
广西一对新手爸妈按照豆包建议每顿只给满月宝宝喂60ml奶,把孩子饿的哭闹不止,医生:远达不到生长需求

广西一对新手爸妈按照豆包建议每顿只给满月宝宝喂60ml奶,把孩子饿的哭闹不止,医生:远达不到生长需求

扬子晚报
2026-05-27 12:14:55
湖北收麦“割四赔五”上热搜,农户大妈被网暴,农机小两口转河南

湖北收麦“割四赔五”上热搜,农户大妈被网暴,农机小两口转河南

爱下厨的阿椅
2026-05-27 14:57:49
吉利正式官宣:5月28日,新车上市

吉利正式官宣:5月28日,新车上市

科技堡垒
2026-05-25 12:25:51
身家几十亿的“煤矿幕后老板”任铁柱,因82条人命可能彻底崩塌

身家几十亿的“煤矿幕后老板”任铁柱,因82条人命可能彻底崩塌

北纬的咖啡豆
2026-05-27 16:54:19
航天员黎家盈年收入多少?回来后享受什么待遇?

航天员黎家盈年收入多少?回来后享受什么待遇?

墨印斋
2026-05-26 09:56:09
一篇《狗日的腾讯》引爆全网!3Q大战,彻底改写中国互联网

一篇《狗日的腾讯》引爆全网!3Q大战,彻底改写中国互联网

流苏晚晴
2026-05-26 18:05:28
2026-05-27 22:48:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
346525文章数 607224关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

武契奇夫人到上海面料市场定制西服 点名要用国产羊毛

头条要闻

武契奇夫人到上海面料市场定制西服 点名要用国产羊毛

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

健康
亲子
艺术
手机
教育

打外泌体会比干细胞更安全吗

亲子要闻

一个视频让我狂笑三次,哈哈哈!

艺术要闻

这个夏天去苏州过几天清闲安逸的日子

手机要闻

关于macOS 27,该知道的我都为大家拿到了

教育要闻

校内征订收紧:2026 年教辅市场正在被重新洗牌

无障碍浏览 进入关怀版