网易首页 > 网易号 > 正文 申请入驻

o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

0
分享至

这并不意味着 OpenAI 在说谎!

站长之家(ChinaZ.com) 4月21日 消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基准测试结果上存在差异,这也引发了人们对该公司透明度和模型测试实践的质疑。去年 12 月, OpenAI 的 o3 模型首次亮相,当时,该公司宣称这款模型能够解答 FrontierMath(一组极具挑战性的数学问题)中超过 25% 的题目 —— 这个成绩远超竞争对手 —— 第二名的正确率约为 2%。

“目前,市面上所有AI产品在 FrontierMath 上的得分都低于 2%,”OpenAI 首席研究官马克・陈(Mark Chen)在一次直播中表示,“我们(在内部测试中)发现,在激进的测试计算条件下,o3 能够达到超过 25% 的正确率。”

但事实证明,这个数字很可能是上限,实现这一成绩的 o3 版本所使用的计算资源比 OpenAI 上周公开推出的模型得多得多。

上周五,FrontierMath 所属研究机构 Epoch AI 公布了针对 o3 的独立基准测试结果。他们发现,o3 的得分约为 10% —— 远低于 OpenAI 所宣称的 25%。

当然,这并不意味着 OpenAI 在说谎 —— OpenAI 在去年 12 月公布的基准测试结果还游一个“下限得分”,这个“下限”与 Epoch 观察到的得分相符。Epoch 还指出,其测试设置可能与 OpenAI 的不同,并且在评估中使用了更新版的 FrontierMath。

Epoch 写道:“我们的结果与 OpenAI 的结果存在差异,可能是因为 OpenAI 使用了更强大的内部架构进行评估,在测试时使用了更多计算资源,或者是因为这些结果是在 FrontierMath 的不同子集上运行得出的(FrontierMath - 2024 - 11 - 26 中的 180 道题与 FrontierMath - 2025 - 02 - 28 - private 中的 290 道题)。”

曾测试过 o3 预览版的 ARC Prize Foundation 在 X 上发帖称,公开的 o3 模型 “是另一个为聊天 / 产品使用场景进行调优的模型”,这证实了 Epoch 的报告。ARC Prize 写道:“所有已发布的 o3 计算层级都比我们(做基准测试时使用的)版本要小。” 一般来说,计算层级越高,基准测试得分可能越好。

上周,OpenAI 的技术人员 Wenda Zhou 在一次直播中表示,与 12 月展示的 o3 版本相比,投入实际应用的 o3 “针对现实应用场景和速度进行了更多优化”。他补充说,因此可能会出现基准测试 “差异”。“我们进行了(优化),让(模型)更具成本效益,总体上更有用,” Zhou 说,“我们仍然希望 —— 也依旧认为 —— 这是一个更好的模型…… 当你提问时,不需要那么久的等待时间,对于这类模型来说,这很重要。”

这再次提醒人们,对于 AI 基准测试结果,最好不要轻信表面数据 —— 尤其是当数据来源是一家要推销服务的公司时。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太惨了!商业航天妖股4跌停暴跌34%,前3个一字板让散户根本逃不掉

太惨了!商业航天妖股4跌停暴跌34%,前3个一字板让散户根本逃不掉

股市皆大事
2026-01-21 03:18:55
刘銮雄长子将股权卖给继母,获得巨额财富后,甘比首次露富心情超好

刘銮雄长子将股权卖给继母,获得巨额财富后,甘比首次露富心情超好

小鱼爱鱼乐
2026-01-20 22:39:00
本轮冷空气即将收尾,大连气温攀升风力趋缓

本轮冷空气即将收尾,大连气温攀升风力趋缓

半岛晨报
2026-01-21 17:45:55
2022年,美战机在台湾附近挂弹飞行,奇怪的是中国军队竟未阻拦?

2022年,美战机在台湾附近挂弹飞行,奇怪的是中国军队竟未阻拦?

有书
2026-01-20 14:42:20
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
欧洲打死也不会想到,这场战争彻底打掉了欧洲五十年的国运

欧洲打死也不会想到,这场战争彻底打掉了欧洲五十年的国运

揭秘历史的真相
2026-01-19 21:05:12
汪顺代言舒肤佳只穿底裤.王楚钦代舒肤佳还戴围巾裹的真严实!

汪顺代言舒肤佳只穿底裤.王楚钦代舒肤佳还戴围巾裹的真严实!

去山野间追风
2026-01-21 13:24:15
出台台湾军警起义奖励政策,或成加速祖国统一关键抓手!

出台台湾军警起义奖励政策,或成加速祖国统一关键抓手!

小舟谈历史
2026-01-17 14:04:50
利润136亿的绩优股,一年两次分红股息率3%,股价从70元跌到24元

利润136亿的绩优股,一年两次分红股息率3%,股价从70元跌到24元

投资观
2026-01-21 07:45:03
恩比德乔治缺席!布克27分太阳灭76人获3连胜 格林时隔33场复出

恩比德乔治缺席!布克27分太阳灭76人获3连胜 格林时隔33场复出

醉卧浮生
2026-01-21 10:31:23
指虎:传统武术武器的历史与应用

指虎:传统武术武器的历史与应用

忽泓护
2026-01-20 16:36:18
网友放出狠话:嫣然医院如果被强制腾房,我保证你租不出去

网友放出狠话:嫣然医院如果被强制腾房,我保证你租不出去

映射生活的身影
2026-01-20 10:45:41
房东不满舆论偏向李亚鹏,拒绝再回应风波,李亚鹏呼吁别聚焦个人

房东不满舆论偏向李亚鹏,拒绝再回应风波,李亚鹏呼吁别聚焦个人

萌神木木
2026-01-20 22:55:50
越南U23主帅金相植:越南队将全力以赴迎战韩国,力争季军

越南U23主帅金相植:越南队将全力以赴迎战韩国,力争季军

星耀国际足坛
2026-01-21 10:50:54
越南主帅承认差距、改变对国足的刻板印象!4点让其感到意料之外

越南主帅承认差距、改变对国足的刻板印象!4点让其感到意料之外

十点街球体育
2026-01-21 17:00:42
江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

法老不说教
2026-01-16 23:26:38
“新帝国主义时代”到来

“新帝国主义时代”到来

参考消息
2026-01-20 20:38:13
谁能夺得阶段冠军?CBA第一阶段四支强队剩余赛程难度对比

谁能夺得阶段冠军?CBA第一阶段四支强队剩余赛程难度对比

男足的小球童
2026-01-21 19:29:40
高盛:AI有望引爆PCB大周期

高盛:AI有望引爆PCB大周期

财闻
2026-01-21 19:56:32
26日零时起 北京西站将首次开行京津冀环线高铁列车

26日零时起 北京西站将首次开行京津冀环线高铁列车

北青网-北京青年报
2026-01-21 15:50:08
2026-01-21 20:48:49
站长之家
站长之家
致力为创业者提供动力
11893文章数 3798关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

房产
游戏
艺术
教育
公开课

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

难道说?Xbox三代精英手柄有望明日公布!

艺术要闻

一百多年前的中国,太雄伟震撼了!

教育要闻

初一成绩稳不住,是心态出问题了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版