网易首页 > 网易号 > 正文 申请入驻

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

0
分享至

财联社4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着石宇奇2-0,羽毛球亚锦赛男女单决赛对阵出炉:国羽最大赢家

随着石宇奇2-0,羽毛球亚锦赛男女单决赛对阵出炉:国羽最大赢家

侧身凌空斩
2026-04-11 18:58:19
马筱梅带娃回京,张兰推掉工作在家等汪宝,汪小菲亲自为顾客上菜

马筱梅带娃回京,张兰推掉工作在家等汪宝,汪小菲亲自为顾客上菜

一盅情怀
2026-04-11 09:06:32
爆大冷!4大世界冠军出局,日本4场惨败,国羽6胜4负,石宇奇险胜

爆大冷!4大世界冠军出局,日本4场惨败,国羽6胜4负,石宇奇险胜

罗纳尔说个球
2026-04-11 12:05:46
贝嫂洗掉全身纹身,致敬家人的都不留,三子证实:她嫌这些东西丑

贝嫂洗掉全身纹身,致敬家人的都不留,三子证实:她嫌这些东西丑

世界王室那些事
2026-04-11 10:30:06
向太劝醒年轻人:没200万存款别买车!自己只开二手车钱全投房产

向太劝醒年轻人:没200万存款别买车!自己只开二手车钱全投房产

观鱼听雨
2026-04-11 20:38:34
快讯!台湾民进党发言人公开发表极端言论!

快讯!台湾民进党发言人公开发表极端言论!

达文西看世界
2026-04-11 15:28:00
郑丽文在大陆第五天,穿拼接款毛衫参观中关村,57岁状态温柔显嫩

郑丽文在大陆第五天,穿拼接款毛衫参观中关村,57岁状态温柔显嫩

八八尚语
2026-04-11 17:42:13
官媒发文!高调官宣50岁撒贝宁喜讯,与李白婚变传闻早就真相大白

官媒发文!高调官宣50岁撒贝宁喜讯,与李白婚变传闻早就真相大白

阿纂看事
2026-04-11 15:55:08
快讯!巴西这一刀砍得真狠啊!

快讯!巴西这一刀砍得真狠啊!

达文西看世界
2026-04-11 08:21:32
黄金配角赵达结婚!是殷桃前任,模特新娘身高近1米8开豪车当老板

黄金配角赵达结婚!是殷桃前任,模特新娘身高近1米8开豪车当老板

林大师热点
2026-04-11 14:13:55
日本降级对华关系,不到12小时,53条航线全部取消,高市沉默不语

日本降级对华关系,不到12小时,53条航线全部取消,高市沉默不语

娱乐的宅急便
2026-04-11 18:08:57
以色列对欧洲谴责其袭击黎巴嫩真主党的反问

以色列对欧洲谴责其袭击黎巴嫩真主党的反问

名人苟或
2026-04-11 06:54:11
爆大冷!1-2!英超领头羊轰然倒下,主场沦陷,阿尔特塔不敢相信

爆大冷!1-2!英超领头羊轰然倒下,主场沦陷,阿尔特塔不敢相信

足球狗说
2026-04-11 21:24:33
闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

闹大了!“你不想毕业了,敢威胁我”,导师与学生的聊天炸开锅了

火山詩话
2026-04-11 08:55:49
花200元买水果被骂吃死你,怀孕妻子心寒不欲生子,已入冷静期!

花200元买水果被骂吃死你,怀孕妻子心寒不欲生子,已入冷静期!

川渝视觉
2026-04-10 15:59:55
郑丽文女保镖火了!她的眼神让全场震惊。

郑丽文女保镖火了!她的眼神让全场震惊。

小猫娱乐叭叭
2026-04-09 21:03:31
《权游》35岁男星因渐冻症去世,红发巨人的告别留言太通透了

《权游》35岁男星因渐冻症去世,红发巨人的告别留言太通透了

仰卧撑FTUer
2026-04-11 07:29:33
8888奔驰陪葬当事人已经认识到错误,他也确实非常有钱

8888奔驰陪葬当事人已经认识到错误,他也确实非常有钱

映射生活的身影
2026-04-10 19:15:23
又发钱了!日本东京将向14岁以下居民每人发放11000

又发钱了!日本东京将向14岁以下居民每人发放11000

随波荡漾的漂流瓶
2026-04-11 17:02:49
赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

赵勇泪别母亲陈丽华!他曾支持母亲再婚,不嫌弃生父平凡

细品名人
2026-04-11 07:29:02
2026-04-11 22:44:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
706604文章数 1019897关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

时尚
家居
旅游
公开课
军事航空

普通人穿衣其实很简单!构造腰线、一衣多穿,大方舒适又自然

家居要闻

复古风格 自然简约

旅游要闻

火出圈!成都人民公园相亲角被老外包围了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版