网易首页 > 网易号 > 正文 申请入驻

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

0
分享至

财联社4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
豪门悲喜夜:AC米兰爆大冷0-3,利物浦2-0,拜仁5-0,巴塞罗那4-1

豪门悲喜夜:AC米兰爆大冷0-3,利物浦2-0,拜仁5-0,巴塞罗那4-1

侧身凌空斩
2026-04-12 03:02:23
被传离婚6年后,董卿婚姻真相大白,如今隐居上海,低调陪父母

被传离婚6年后,董卿婚姻真相大白,如今隐居上海,低调陪父母

往史过眼云烟
2026-04-11 15:01:23
3-0,“吊州”变“棍州” 苏超揭幕战常州爆冷击败南通!

3-0,“吊州”变“棍州” 苏超揭幕战常州爆冷击败南通!

扬子晚报
2026-04-11 21:59:05
伊媒:美方“漫天要价”阻碍谈判 霍尔木兹海峡议题分歧严重

伊媒:美方“漫天要价”阻碍谈判 霍尔木兹海峡议题分歧严重

环球网资讯
2026-04-12 07:02:24
NBA官方解析收官日:所有对阵都取决于最后一战 东部已乱成一锅粥

NBA官方解析收官日:所有对阵都取决于最后一战 东部已乱成一锅粥

罗说NBA
2026-04-12 06:30:57
美伊谈判:俩“生手”上桌,三大分歧待解,都藏着后手

美伊谈判:俩“生手”上桌,三大分歧待解,都藏着后手

上游新闻
2026-04-11 16:59:35
紧急提醒!家里有这款牙膏快停用,砷超标1.5倍,官方已通报下架

紧急提醒!家里有这款牙膏快停用,砷超标1.5倍,官方已通报下架

娱乐的硬糖吖
2026-04-12 03:25:48
为何停火只是伊朗下半场苦难的开端?

为何停火只是伊朗下半场苦难的开端?

高博新视野
2026-04-11 08:00:18
赵子琪直播怒怼浪姐:淘汰遭侮辱,直言咖位不够,上不了花少

赵子琪直播怒怼浪姐:淘汰遭侮辱,直言咖位不够,上不了花少

离离言几许
2026-04-11 09:44:35
特朗普称并不在意美伊谈判能否达成协议

特朗普称并不在意美伊谈判能否达成协议

财联社
2026-04-12 07:19:03
3月销冠还是Model Y:网上没赢过,现实没输过

3月销冠还是Model Y:网上没赢过,现实没输过

小南看车
2026-04-11 07:04:23
王珞丹现状:搬进深山生活,母亲不再催婚,41岁和两只狗相依为命

王珞丹现状:搬进深山生活,母亲不再催婚,41岁和两只狗相依为命

子芫伴你成长
2026-04-11 23:28:26
理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

澎湃新闻
2026-04-12 04:46:55
张大千:国家的钱怎么能用来帮私人还债,由此拒绝回归大陆

张大千:国家的钱怎么能用来帮私人还债,由此拒绝回归大陆

南极狼人
2026-04-11 19:00:11
美国前情报局长爆出俄乌战场惊人内幕,乌军重新杀回红军城

美国前情报局长爆出俄乌战场惊人内幕,乌军重新杀回红军城

史政先锋
2026-04-11 20:44:50
张雪冠军复刻赛车得主“敌敌畏”最新消息:代公司拍下;想付尾款,但联系不上张雪方,目前对方也未主动联系自己

张雪冠军复刻赛车得主“敌敌畏”最新消息:代公司拍下;想付尾款,但联系不上张雪方,目前对方也未主动联系自己

极目新闻
2026-04-11 11:24:30
1954 年万余志愿军战俘从台湾归来,蒋经国亲迎现场落泪失语

1954 年万余志愿军战俘从台湾归来,蒋经国亲迎现场落泪失语

唠叨说历史
2026-04-09 17:41:05
别嫌女保镖太瘦!手摸腰大有玄机,真实实力打脸

别嫌女保镖太瘦!手摸腰大有玄机,真实实力打脸

可乐谈情感
2026-04-11 18:42:59
国内套现7个亿后,她露出了身后的美国国旗,整个家族共套现20亿

国内套现7个亿后,她露出了身后的美国国旗,整个家族共套现20亿

云舟史策
2026-04-11 07:54:43
留学生入境被拒!华大博士带13岁儿子被当场遣返,机场爆发抗议...

留学生入境被拒!华大博士带13岁儿子被当场遣返,机场爆发抗议...

新浪财经
2026-04-11 06:08:22
2026-04-12 08:28:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
706641文章数 1019909关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

伊朗总统与法国总统通电话 称美伊谈判成败取决于美方

头条要闻

伊朗总统与法国总统通电话 称美伊谈判成败取决于美方

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

亲子
时尚
教育
家居
公开课

亲子要闻

妈妈怕你牙疼 是为你好~

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

教育要闻

新传留子就业大调查(挣不回学费555)

家居要闻

复古风格 自然简约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版