网易首页 > 网易号 > 正文 申请入驻

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

0
分享至

财联社4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
六盘水用1200万抵扣2.2亿债务,女子拒绝后遭逮捕,被批不识抬举

六盘水用1200万抵扣2.2亿债务,女子拒绝后遭逮捕,被批不识抬举

干史人
2025-04-25 08:30:03
日本可能与中国开战?日专家:与中国发生冲突,最长只能坚持一周

日本可能与中国开战?日专家:与中国发生冲突,最长只能坚持一周

泠泠说史
2026-03-16 15:29:34
在银行工作是最好的避孕方式

在银行工作是最好的避孕方式

微微热评
2025-11-22 16:04:34
研究表明:性经验越多的男性,阳痿、早泄勃起等问题越少!

研究表明:性经验越多的男性,阳痿、早泄勃起等问题越少!

灯锦年
2026-05-04 14:09:21
打出了一场灾难级的表现,森林狼后场新星的稳定性真是太差了?

打出了一场灾难级的表现,森林狼后场新星的稳定性真是太差了?

稻谷与小麦
2026-05-05 23:29:34
北京3500套房源专项配租给今年新毕业大学生!最低月租——

北京3500套房源专项配租给今年新毕业大学生!最低月租——

石辰搞笑日常
2026-05-05 21:14:01
新冷空气马上到!还有强对流天气!周末雨势转大→

新冷空气马上到!还有强对流天气!周末雨势转大→

城事特搜
2026-05-05 17:20:04
1-0,成都蓉城连场绝杀,费利又献极限倒钩,徐正源看台眉头紧锁

1-0,成都蓉城连场绝杀,费利又献极限倒钩,徐正源看台眉头紧锁

替补席看球
2026-05-05 21:41:18
明起停牌!这家公司,拟跨界并购“小巨人”

明起停牌!这家公司,拟跨界并购“小巨人”

新浪财经
2026-05-05 22:02:03
为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

为什么说阳痿、跑步、心梗,成了“斩杀”中年男性的“三件套”?

医药养生保健报社
2026-04-28 17:59:19
选址确定!武汉一高校将整体搬迁!

选址确定!武汉一高校将整体搬迁!

越乔
2026-05-05 22:37:21
多名院士调查发现:吃一口放久变软的香蕉,或等于进一次毒?真假

多名院士调查发现:吃一口放久变软的香蕉,或等于进一次毒?真假

岐黄传人孙大夫
2026-04-23 20:10:03
原来他便是吴宜泽教练,怪不得仅22岁就进决赛,世界冠军输得不冤

原来他便是吴宜泽教练,怪不得仅22岁就进决赛,世界冠军输得不冤

揽星河的笔记
2026-05-05 20:20:11
曾经的王牌专业凉了?985教授发文:带的4位硕士无一人拿到offer

曾经的王牌专业凉了?985教授发文:带的4位硕士无一人拿到offer

黯泉
2026-05-03 12:31:13
震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

青眼财经
2025-11-12 14:42:01
瓦科踢球太无私,韩鹏激活三叉戟 泰山固定4后卫 依木兰进步神速

瓦科踢球太无私,韩鹏激活三叉戟 泰山固定4后卫 依木兰进步神速

替补席看球
2026-05-05 21:55:14
华西不开空调被投诉,住院患者已足额缴纳费用,官方回复了

华西不开空调被投诉,住院患者已足额缴纳费用,官方回复了

医脉圈
2026-05-05 20:06:03
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
阿联酋石油设施遭伊朗无人机袭击,燃起大火,多人受伤,伊朗:美国军事冒险所致!阿联酋称拦截15枚导弹、4架无人机

阿联酋石油设施遭伊朗无人机袭击,燃起大火,多人受伤,伊朗:美国军事冒险所致!阿联酋称拦截15枚导弹、4架无人机

每日经济新闻
2026-05-06 00:02:08
她拒唱国歌否认是中国籍,还将俩儿子户口落到国外,她现状如何?

她拒唱国歌否认是中国籍,还将俩儿子户口落到国外,她现状如何?

混沌录
2026-04-28 22:29:08
2026-05-06 00:48:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
716157文章数 1020595关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

健康
旅游
教育
家居
本地

干细胞治烧烫伤面临这些“瓶颈”

旅游要闻

新场景里看活力 | 大湾区“牛马撒欢季”解锁五一别样玩法

教育要闻

选校还是选班,极简版建议

家居要闻

灵动实用 生活艺术场

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版