网易首页 > 网易号 > 正文 申请入驻

OpenAI 的新推理 AI 模型会产生更多幻觉

0
分享至

OpenAI近期推出的 o3 和 o4-mini AI 模型在很多方面都达到了领先水平。然而,这些新模型仍然会产生幻觉,或者说,会虚构事物——事实上,它们比 OpenAI 的几个老模型更容易产生幻觉。

幻觉已被证明是人工智能领域最难解决的问题之一,甚至会影响到当今性能最佳的系统。从历史上看,每个新模型在幻觉方面都会略有改进,幻觉程度比前代有所降低。但 o3 和 o4-mini 似乎并非如此。

根据 OpenAI 的内部测试,所谓的推理模型 o3 和 o4-mini 比该公司之前的推理模型 o1、o1-mini 和 o3-mini 以及 OpenAI 传统的“非推理”模型(如 GPT-4o)产生幻觉的频率更高。

也许更令人担忧的是,ChatGPT 制造商并不真正知道为什么会发生这种情况。

OpenAI 在其针对o3 和 o4-mini 的技术报告中写道,“需要更多研究”来理解为什么随着推理模型的扩展,幻觉会变得越来越严重。O3 和 o4-mini 在某些领域表现更佳,包括与编码和数学相关的任务。但由于它们“总体上提出了更多主张”,因此报告指出,它们常常会做出“更准确的主张以及更多不准确/幻觉的主张”。

OpenAI 发现,o3 在 PersonQA(该公司用于衡量模型对人类认知准确度的内部基准)上回答 33% 的问题时产生了幻觉。这大约是 OpenAI 之前的推理模型 o1 和 o3-mini 的幻觉率的两倍,后两者的得分分别为 16% 和 14.8%。o4-mini 在 PersonQA 上的表现更差——48% 的时间都出现了幻觉。

非营利性人工智能研究实验室Transluce进行的第三方测试也发现,o3倾向于在得出答案的过程中编造行动。在一个例子中,Transluce观察到o3声称它在2021款MacBook Pro上“在ChatGPT之外”运行了代码,然后将数字复制到答案中。虽然o3可以使用一些工具,但它无法做到这一点。

Transluce 研究员、前 OpenAI 员工 Neil Chowdhury 表示:“我们的假设是,用于 o 系列模型的强化学习可能会放大那些通常可以通过标准后训练流程缓解(但不能完全消除)的问题。”

Transluce 联合创始人 Sarah Schwettmann 补充说,o3 的幻觉率可能会使其实用性降低。

斯坦福大学兼职教授、技能提升初创公司 Workera 首席执行官 Kian Katanforoosh 告诉 TechCrunch,他的团队已经在编码工作流程中测试 o3,并且发现它比竞争对手更胜一筹。然而,Katanforoosh 表示,o3 往往会产生网站链接失效的幻觉。该模型会提供一个点击后无法正常工作的链接。

幻觉或许能帮助模型产生有趣的想法,并在“思考”中发挥创造力,但也会让一些模型在准确性至上的市场中难以被企业接受。例如,律师事务所可能不会喜欢在客户合同中插入大量事实错误的模型。

提升模型准确率的一个有效方法是赋予模型网络搜索功能。OpenAI 的 GPT-4o 具备网络搜索功能,在 SimpleQA(OpenAI 的另一个准确率基准)上达到了 90% 的准确率。搜索功能也可能提高推理模型的幻觉率——至少在用户愿意将提示暴露给第三方搜索提供商的情况下是如此。

如果扩大推理模型确实会继续加剧幻觉,那么寻找解决方案就变得更加紧迫。

OpenAI 发言人 Niko Felix 表示:“解决我们所有模型中的幻觉问题是一个持续的研究领域,我们正在不断努力提高它们的准确性和可靠性。”

去年,在改进传统人工智能模型的技术开始呈现收益递减趋势后,更广泛的人工智能行业已将重点转向推理模型。推理可以提高模型在各种任务上的性能,而无需在训练过程中进行大量的计算和数据。然而,推理似乎也可能导致更多的幻觉——这带来了挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

胖胖侃咖
2025-04-13 08:00:08
一年服侍30位导演,夜夜陪睡,最后反被联合封杀,成唯一受害人

一年服侍30位导演,夜夜陪睡,最后反被联合封杀,成唯一受害人

翠羽
2026-06-27 10:15:12
争议?内置芯片扼杀克罗地亚绝平球!球迷愤怒:狂丢水瓶抗议判罚

争议?内置芯片扼杀克罗地亚绝平球!球迷愤怒:狂丢水瓶抗议判罚

我爱英超
2026-07-03 09:38:23
中国正式进入“超级内卷”时代!只有一种人能赚钱(深度)

中国正式进入“超级内卷”时代!只有一种人能赚钱(深度)

新浪财经
2026-06-23 08:51:12
日本,彻底扛不住了

日本,彻底扛不住了

大嘴说天下
2026-07-02 20:20:03
离谱实锤!香川真司暗恋长泽雅美23年,为追女神踢废职业生涯?

离谱实锤!香川真司暗恋长泽雅美23年,为追女神踢废职业生涯?

绿茵八卦君
2026-06-30 08:50:03
王光美有多美?1940年在大学留影,那年19岁,家世显赫,气质不凡

王光美有多美?1940年在大学留影,那年19岁,家世显赫,气质不凡

史之铭
2026-06-23 16:20:57
张雪称近日遭人跟踪,绕路才摆脱,此前已多次发生翻墙进厂、强行拦车、直接拉车门等事件,直呼:真的没有必要这样!有商务需求通过正规渠道对接

张雪称近日遭人跟踪,绕路才摆脱,此前已多次发生翻墙进厂、强行拦车、直接拉车门等事件,直呼:真的没有必要这样!有商务需求通过正规渠道对接

每日经济新闻
2026-07-02 20:13:07
董洁晒北京大平层,深夜一个人煮夜宵吃,陪17岁儿子在北京读高二

董洁晒北京大平层,深夜一个人煮夜宵吃,陪17岁儿子在北京读高二

坠入二次元的海洋
2026-06-08 15:31:07
什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

什么东西让你体会到贵有贵的道理?网友:买完之后真香了!

阿康四岁啦
2026-06-26 10:40:55
金价,直线大涨

金价,直线大涨

极目新闻
2026-07-03 11:00:51
“我不允许任何人对中国动武”,什么人有底气说出这样的话?

“我不允许任何人对中国动武”,什么人有底气说出这样的话?

可乐爱微笑
2026-07-03 05:18:08
美国噩梦成真!中国如今全速爆兵,复刻当年令自己眼红的超级大国

美国噩梦成真!中国如今全速爆兵,复刻当年令自己眼红的超级大国

史行途
2026-07-03 23:27:41
李暠不读gāo!他是李白先祖,会读的人基本没有!

李暠不读gāo!他是李白先祖,会读的人基本没有!

语丝纪
2026-07-02 22:05:54
车船税恢复,税务逻辑越来越清晰了

车船税恢复,税务逻辑越来越清晰了

曹多鱼的财经世界
2026-07-03 21:29:50
霍震霆表态,坐实霍启山婚事!女方辱华再添实锤,整个霍家被抵制

霍震霆表态,坐实霍启山婚事!女方辱华再添实锤,整个霍家被抵制

小鋭有话说
2026-07-02 12:58:43
大满贯赛四强对阵出炉,王楚钦1-3惨败,林诗栋压力倍增

大满贯赛四强对阵出炉,王楚钦1-3惨败,林诗栋压力倍增

吴猖旅行ing
2026-07-04 02:24:31
国务院发文!高校教师职称评聘,迎重大变化

国务院发文!高校教师职称评聘,迎重大变化

麦可思研究
2026-07-03 20:48:45
多名院士呼吁快停止食用,吃一口等于14斤塑料袋,女子因肾衰走了

多名院士呼吁快停止食用,吃一口等于14斤塑料袋,女子因肾衰走了

健康科普365
2026-06-13 19:20:05
不续约就走人:皇家马德里考虑今年夏天出售前场巨星

不续约就走人:皇家马德里考虑今年夏天出售前场巨星

本泽体育
2026-07-03 06:43:32
2026-07-04 04:19:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
69019文章数 70223关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
手机
游戏
家居
公开课

教育要闻

广东19市中考作文题最像高考,你会写吗?范文来喽!

手机要闻

手机涨价潮来袭!6大品牌涨价风险逐一盘点

R星官方又发动态!玩家们被吓到 有玩家为PS光盘开喷

家居要闻

传奇筑 日常诗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版