网易首页 > 网易号 > 正文 申请入驻

OpenAI 的 o3 AI 模型在基准测试中的表现差于宣传描述

0
分享至

OpenAI 的 o3 AI 模型的第一方和第三方基准测试结果之间的差异引发了人们对该公司透明度和模型测试实践的质疑。OpenAI于 12 月发布 o3时,声称该模型能够解答 FrontierMath(一组颇具挑战性的数学问题)中略高于四分之一的题目。这一成绩远远超出了竞争对手——排名第二的模型也只能正确解答 FrontierMath 题目的 2% 左右。

OpenAI 首席研究官 Mark Chen在直播中表示:“目前,所有产品在 FrontierMath 上的得分都不到 2%。我们内部看到,在激进的测试时间计算设置下,o3 的得分能够超过 25%。”

事实证明,这个数字很可能是一个上限,由 o3 的一个版本实现,其背后的计算能力比 OpenAI 上周公开发布的模型更强。

FrontierMath 背后的研究机构 Epoch AI 周五公布了其对 o3 的独立基准测试结果。Epoch 发现 o3 的得分约为 10%,远低于 OpenAI 宣称的最高得分。

这并不意味着 OpenAI 本身撒了谎。该公司 12 月发布的基准测试结果显示,其得分下限与 Epoch 观察到的得分一致。Epoch 还指出,其测试设置可能与 OpenAI 不同,并且其评估使用的是 FrontierMath 的更新版本。

Epoch 写道:“我们的结果与 OpenAI 的结果之间的差异可能是由于 OpenAI 使用更强大的内部支架进行评估,使用了更多的测试时间[计算],或者因为这些结果是在 FrontierMath 的不同子集上运行的(frontiermath-2024-11-26 中的 180 个问题与 frontiermath-2025-02-28-private 中的 290 个问题),”

根据ARC 奖基金会(一个测试过 o3 预发布版本的组织)在 X 上的一篇文章,公共 o3 模型“是一个针对聊天/产品使用进行调整的不同模型”,证实了 Epoch 的报道。

ARC Prize 写道:“所有已发布的 o3 计算层都比我们[基准测试]的版本要小。” 一般来说,更大的计算层有望获得更好的基准测试分数。

OpenAI 的技术人员周文达 (Wenda Zhou)在上周的直播中表示,与 12 月演示的 o3 版本相比,生产版 o3“针对实际用例进行了更优化”,速度也更快。因此,它可能会表现出基准测试的“差异”,他补充道。

“我们已经做了一些优化,使这个模型更具成本效益,并且总体上更有用,”周说道。“我们仍然希望——我们仍然认为——这是一个更好的模型[…] 当你需要答案时不必等待太久,而这些[类型的]模型确实做到了这一点。”

诚然,o3 的公开发布未能达到 OpenAI 的测试承诺这一事实有点无意义,因为该公司的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表现优于 o3,而且 OpenAI 计划在未来几周推出更强大的 o3 变体 o3-pro。

然而,这再次提醒我们,最好不要只看表面价值来理解人工智能基准——尤其是当其来源是一家出售服务的公司时。

随着供应商竞相利用新模型吸引眼球并抢占市场份额,基准测试“争议”正在成为人工智能行业的常见现象。今年 1 月,Epoch因迟迟未披露 OpenAI 的资助而受到批评,直到 OpenAI 宣布 o3 项目后才披露。许多为 FrontierMath 做出贡献的学者直到 OpenAI 公开宣布后才得知此事。

最近,埃隆·马斯克的 xAI 被指发布了其最新 AI 模型 Grok 3 的误导性基准图表。就在本月,Meta 承认其吹捧的模型版本基准分数与该公司向开发人员提供的版本不同。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
即将暴涨!常州已排起长队

即将暴涨!常州已排起长队

中吴网
2026-03-20 20:29:14
伊朗伊斯兰革命卫队发言人遇袭身亡

伊朗伊斯兰革命卫队发言人遇袭身亡

新京报
2026-03-20 15:52:35
菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

小丸说故事
2026-03-17 14:23:29
2005年,刘亦菲等人的合影,那年刘18岁,美的一塌糊涂

2005年,刘亦菲等人的合影,那年刘18岁,美的一塌糊涂

喜文多见01
2026-03-20 11:41:38
常州首富突遭留置,有何内情?

常州首富突遭留置,有何内情?

优财一号
2026-03-20 22:58:11
张本美和夺冠后,特别提到孙颖莎王曼昱,放话要在世界杯击败国乒双子星

张本美和夺冠后,特别提到孙颖莎王曼昱,放话要在世界杯击败国乒双子星

好乒乓
2026-03-20 11:44:09
雷军:续航达到902公里,只用96.3度电;王兴兴、何小鹏、王传福现身新一代SU7发布会

雷军:续航达到902公里,只用96.3度电;王兴兴、何小鹏、王传福现身新一代SU7发布会

大风新闻
2026-03-19 20:15:21
于东来儿媳露面啦!这颜值也太能打了,跟婆婆很像

于东来儿媳露面啦!这颜值也太能打了,跟婆婆很像

魔都姐姐杂谈
2026-03-20 11:30:24
接连翻车的京东,315这一幕让人破防

接连翻车的京东,315这一幕让人破防

声道
2026-03-19 18:50:18
天仙跟干爹建密室约见

天仙跟干爹建密室约见

毒舌扒姨太
2026-03-20 22:35:21
闭门谈了一个半小时,连午饭都顾不上吃,特朗普与高市究竟聊了啥?

闭门谈了一个半小时,连午饭都顾不上吃,特朗普与高市究竟聊了啥?

上观新闻
2026-03-20 20:26:07
活久见!河南新郎哭诉朋友随礼500,红包只有100,写着还欠我400

活久见!河南新郎哭诉朋友随礼500,红包只有100,写着还欠我400

火山詩话
2026-03-20 10:53:17
中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

中国游客到朝鲜游玩,朝鲜人充满疑问:为什么中国人是这样的?

丁丁鲤史纪
2026-03-18 10:18:14
资格赛出局+正赛一轮游!中国球员表现引球迷不满,你怎么看?

资格赛出局+正赛一轮游!中国球员表现引球迷不满,你怎么看?

罗掌柜体育
2026-03-20 10:00:28
太佩服兰姐了!姜还是老的辣啊,一句话让马筱梅放弃给儿子改姓

太佩服兰姐了!姜还是老的辣啊,一句话让马筱梅放弃给儿子改姓

魔都姐姐杂谈
2026-03-20 16:58:58
刚出庭就被带走!纽约华人学生当场被ICE拘留,学校紧急回应

刚出庭就被带走!纽约华人学生当场被ICE拘留,学校紧急回应

华人生活网
2026-03-21 03:03:40
有意思,勇士队格林评估了由詹姆斯和东契奇领衔的湖人队夺冠前景

有意思,勇士队格林评估了由詹姆斯和东契奇领衔的湖人队夺冠前景

好火子
2026-03-21 02:27:38
女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

女子被触摸隐私部位后续!衣服全被脱光,商家只开除,拒绝赔偿

潮鹿逐梦
2026-03-18 10:26:41
黄金跌破4800美元,这不是抄底信号,而是最后的逃生窗口!

黄金跌破4800美元,这不是抄底信号,而是最后的逃生窗口!

清流财记
2026-03-20 09:16:47
伊朗称击中美军F-35战机释放何信号,专家分析→

伊朗称击中美军F-35战机释放何信号,专家分析→

极目新闻
2026-03-20 17:09:34
2026-03-21 08:16:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
67021文章数 70123关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

北约决定从伊拉克撤出所有人员 被特朗普大骂"纸老虎"

头条要闻

北约决定从伊拉克撤出所有人员 被特朗普大骂"纸老虎"

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

拆解宇树:一年营收17亿 机器人卖给了谁

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

健康
时尚
艺术
房产
军事航空

转头就晕的耳石症,能开车上班吗?

推广中奖名单-更新至2026年3月4日推广

艺术要闻

叶浅予的白描舞蹈人物

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版