网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

o3被曝成绩「造假」，60多位数学泰斗集体被耍！OpenAI暗中操控，考卷提前看光

2025-01-20 11:40:28　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：泽正好困

【新智元导读】又爆大瓜！FrontierMath的o3惊人表现，竟是因OpenAI资助了Epoch AI而提前获得大部分试题访问权。OpenAI模型的性能究竟几分是真，几分炒作，愈来愈变得扑朔迷离。

不久前，OpenAI在「圣诞12连更」中发布的最强推理模型「o3」，毫无疑问地惊艳了所有人。

尤其是对于新近发布的数学基准FrontierMath，其准确率相比o1直接翻了12倍。

正因如此的高难度，o3这种对于FrontierMath惊人的突破才让大家都对其推理能力而感到不同凡响。

但是，近日曝出一则消息，o3之所以能在短时间之内就相比于o1提升12倍的准确率，是因为OpenAI资助了FrontierMath，并且可以访问大部分数据集。

但那些为评测集创建问题和解答的数学家们却完全被蒙在鼓里，根本不知道OpenAI是项目资助方并将获得数据访问权。

简单来说就是：

我们无从得知OpenAI是否用这个评测集训练了o3，因此他们宣称的结果可信度值得质疑
数学家们被有意隐瞒了真相，而大多数人甚至从未怀疑过会有一家AI公司在背后提供资金支持

对此，Epoch AI解释称：「我们承认OpenAI确实可以访问大部分FrontierMath的问题和解决方案，但有一个OpenAI未见过的保留集使我们能够独立验证模型能力。我们有口头协议这些材料不会用于模型训练。」

但是这所谓与OpenAI达成的「口头协议」——呵，现在还有谁会相信OpenAI的承诺？

根据网上的各种报道，FrontierMath中的难题本应都是未公开的，目的就是防止AI公司利用这些数据训练模型。

然而现在看来，「AI公司根本接触不到这个数据集」这一点，实际上却是Epoch AI和OpenAI刻意制造出的假象。

但考虑到OpenAI前科累累的欺骗和误导行为——从蒙骗自家董事会，到强迫前员工签署秘密的不诽谤协议，应有尽有。

所以这次的事件，多少有种「意料之外，情理之中」的意味了。

Epoch AI首席数学家回应

消息曝出后，Epoch AI首席数学家Elliot Glazer对此进行了回应。

他首先是承认了自己的错误，并对因为没有被告知真相而自主做出贡献的数学家致以歉意。

而对于o3那惊人的25.2%的准确率，他只是个人层面上表示相信，却没有一个真实可靠、有理有据的保证。

Epoch AI联创Tamay Besiroglu也正式发布了博客作为回应。

对于此次事件，Tamay给出的解释是：「我们的合同明确禁止披露资金来源信息以及OpenAI可以访问大部分（但不是全部）数据集的事实。」

现在回想起来，我们应该更积极地争取向评测集贡献者及时公开相关信息的权利。我们对此承担责任，并承诺未来会做得更好。

虽然我们确实向部分数学家告知了来自lab的资金支持，但这种沟通并不系统，也没有具体说明合作方。

这种不一致的沟通方式是我们的疏忽。我们应该一开始就坚持争取公开合作关系的权利，尤其是对那些创建问题的数学家们。

仅在o3发布前后才获得披露OpenAI参与的许可是远远不够的。参与项目的数学家们有权知道谁可能会接触到他们的工作。

尽管我们受到合同条款的限制，但我们应该将对贡献者的透明度作为与OpenAI合作的基本前提。

同时，对于FrontierMath他仍然声称：「OpenAI完全支持我们维护独立的未见测试集的决定——这是防止过拟合和确保准确评估进展的重要保障。」

在交流中，OpenAI的员工将FrontierMath称为「严格保留」的评估集，这种公开表述与我们的理解一致。

而且，我想强调的是，拥有真正未被训练数据污染的测试集对各个lab都很重要。

从项目伊始，FrontierMath就被设计和定位为一个评估工具，我们相信当前的安排完全符合这一初衷。

对于未来的合作，我们将致力于提高透明度，确保贡献者能在项目初期就清楚了解资金来源、数据访问权限和使用目的等信息。

总结来看，Epoch AI的确意识到了这次事件的严重性，但是很多回应依然停留在「公关套词」层面，并且全程都在甩锅称自己不说是因为「合同」的限制。

已有端倪，激起热议

一石激起千层浪，纽约大学教授Gary Marcus，亚利桑那州立大学计算机教授Subbarao Kambhampati等大佬，纷纷发文对OpenAI这一的行为表示谴责。

左右滑动查看

其实，在去年12月刚发布时，便有参与o3-mini早期测试的研究人员发现了这一端倪。

比如Open Vision Engineering的创始人Akshay Narisetti在推上po出的发现，就从侧面印证了这次的爆料：

o3-mini在ARC-AGI中的正确率为156/400
o3-mini在Frontiermath上的表现并不理想

根据实测结果，模型擅长解决特定类型的问题，但泛化能力还未完全成熟。在结构化任务上表现优异，但在需要多维度推理能力的问题上仍有明显短板。

对此，谷歌DeepMind的研究员「Ted Xiao」分析认为，这种影响可以有两个极端的解释：

1. 糟糕，OpenAI正在操纵benchmark，还把测试题目泄漏进训练数据里了！2. OpenAI只是用FrontierMath的私有题库来指导新训练数据的整体设计方向和目标，以及设计推理路径。

当然了，也有没那么极端的。比如，稍微改改题目内容创建新的训练数据，这样从技术角度来说，确实没有直接用测试数据中的token来训练。

如今，SOTA模型之间的竞争已经白热化。如果使用这种投机取巧的方式，模型在实际应用场景中就会原形毕露（缺乏泛化能力）。

这种冒险顶尖AI实验室可承担不起，因此于理来说，OpenAI更可能采用第二种方式。

但即便如此，这一行为依然让o1和o3在FrontierMath上，表现得比在其他未经优化的复杂推理领域中更亮眼。

不过，这种差距应该不会像某些在MMLU上采用第一种手段的「小语言模型」那样——评测分数和实际能力简直是天壤之别。

对于那些坚信OpenAI用了第一种方法、偷偷把测试数据混进去的人，我建议：不妨等等看o3在实际应用场景和其他评测中，跟下一代重点强化推理能力的顶尖模型相比，表现如何。

到时就知道，o3是不是只在FrontierMath上特别强，在其他地方就不行了。

参考资料：

https://x.com/Mihonarium/status/1880944026603376865

https://x.com/xiao_ted/status/1881075585843069258

https://x.com/ElliotGlazer/status/1880812021966602665

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

联大通过决议，宣布“最严重反人类罪”

澎湃新闻 2026-03-26 11:03:06
16794 跟贴 16794
张少康辞去广东省人民政府副省长职务

新快报新闻 2026-03-26 11:50:03
86 跟贴 86

上海一三甲医院候诊屏出现"照顾号"引热议院方回应

上游新闻 2026-03-26 15:33:08
148 跟贴 148

首秀库拉索，国足主帅邵佳一：国家队的比赛没有友谊赛

澎湃新闻 2026-03-26 15:58:27
434 跟贴 434
于东来分享胖东来运营体制：管理层每年接受一次员工无记名投票，如果票数低，直接免职

潇湘晨报 2026-03-26 20:51:31
33 跟贴 33

千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
2126 跟贴 2126

火车站“老师儿！出租车在这乘坐”标语引热议，网友称一看就是山东济南，车站工作人员：在当地这是尊称

极目新闻 2026-03-26 12:06:40
228 跟贴 228
生死12分钟！广东一男子踢球时心脏骤停一群医生冲上前接力心肺复苏救回一命

闪电新闻 2026-03-26 11:46:05
215 跟贴 215

泰国征兵广告用张凌赫做海报：想像“武安侯”一样帅气骑马吗？今年四月报名参军选择骑兵部队

闪电新闻 2026-03-26 17:45:38
297 跟贴 297
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
494 跟贴 494
微信聊天反复出现“对方正在输入”，说明对方在干什么？

学申论的谈妹 2026-03-26 16:15:26
156 跟贴 156
日本企业被指未受邀参加重要论坛商务部回应

澎湃新闻 2026-03-26 15:28:26
42 跟贴 42
广东一男子买啤酒抽中电动车大奖，将中奖二维码发网上询问后被他人扫走核销，网友：“这下又上了一课”

洪观新闻 2026-03-26 10:56:49
0 跟贴 0
法系在华销冠车型降价20%，车名叫凡尔赛

第一财经资讯 2026-03-26 10:16:14
328 跟贴 328
刚刚 | 罗技中国致歉！

天津广播 2026-03-26 23:37:05
38 跟贴 38
理解城市 | 开封文旅原来这样“火”

澎湃新闻 2026-03-26 12:58:34
73 跟贴 73
美媒称美考虑将援助乌克兰的武器转至中东

新华社 2026-03-26 20:05:17
2161 跟贴 2161
小猫表演接水绝活，猫咪：多看一眼算我输。网友：去夜市摆摊，猫猫接水5元一杯

BRTV新闻 2026-03-27 05:49:34
4 跟贴 4
中东局势影响原油进口韩国多地垃圾袋紧缺，有超市每人限购10个，在韩华人：跑七八家便利店“抢到”150个垃圾袋

极目新闻 2026-03-26 19:53:02
268 跟贴 268
100只整装待发！量产机器狼“-20℃极寒测试”现场曝光

中国网 2026-03-26 15:55:11
533 跟贴 533
误把漆树芽当香椿，六旬老人食用后过敏

齐鲁壹点 2026-03-27 06:24:10
1 跟贴 1
今年前两个月我国社会物流总额58.6万亿元回升态势明显

财联社 2026-03-27 07:25:04
0 跟贴 0
2026台海暗局：被封杀的“爽文”、不可逆的“热融合”与硅基战场的降维打击

两岸观点 2026-03-27 07:31:20
0 跟贴 0
警惕山寨“老字号”

新浪财经 2026-03-27 07:31:12
0 跟贴 0
百年骗局终结！国内县城击穿全球市场，1800万降到169元

云舟史策 2026-03-27 07:28:18
0 跟贴 0
造成1人死亡，广元一光伏电站安装项目发生触电事故，调查报告公布：多人被处理，多个政府部门被问责

秀我广元 2026-03-27 07:28:44
0 跟贴 0

越扒越有！张雪峰去世早有预兆，他的3个不良爱好，或成催命符

越扒越有！张雪峰去世早有预兆，他的3个不良爱好，或成催命符

潮鹿逐梦

2026-03-26 11:24:44

一觉醒来，大量美军逃匿！伊朗全力搜捕！美议长透露重要信息

一觉醒来，大量美军逃匿！伊朗全力搜捕！美议长透露重要信息

安安说

2026-03-26 13:00:12

岛上设陷阱，海上堵两头！伊朗布下天罗地网，曼德海峡将成美国经济新“放血点”？

岛上设陷阱，海上堵两头！伊朗布下天罗地网，曼德海峡将成美国经济新“放血点”？

红星新闻

2026-03-26 18:34:31

日本东京商业区发生持刀伤人事件2人死亡

日本东京商业区发生持刀伤人事件2人死亡

新华社

2026-03-26 21:10:15

上海河道里惊现鳄鱼？已立牌警示！是吓唬人吗？官方回应

上海河道里惊现鳄鱼？已立牌警示！是吓唬人吗？官方回应

新浪财经

2026-03-26 22:08:12

盲目的大学扩招，正在反噬整个社会

盲目的大学扩招，正在反噬整个社会

凡人志

2026-03-25 01:34:53

很多被奉为经典的古文，很难说有多少教育意义

很多被奉为经典的古文，很难说有多少教育意义

小院之观

2026-03-24 08:30:13

A股“分红王”来了，拟10股派70元

A股“分红王”来了，拟10股派70元

数据宝

2026-03-26 22:16:46

坚决反对中国任何城市申办奥运会，国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会，国际奥委会这次怕是真失算了

南权先生

2026-03-25 15:25:11

越打越出惊喜！以色列传来好消息，美军彻底歇菜：8年无法再开战

越打越出惊喜！以色列传来好消息，美军彻底歇菜：8年无法再开战

知法而形

2026-03-26 17:28:20

罗技：“我一降价，你还不是像狗一样跑过来”

罗技：“我一降价，你还不是像狗一样跑过来”

电脑吧评测室

2026-03-26 22:05:58

伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

财联社

2026-03-26 22:50:26

宋喆出狱后现状：县城搬菜月入三千，前妻杨慧横店开公司年入千万

宋喆出狱后现状：县城搬菜月入三千，前妻杨慧横店开公司年入千万

一盅情怀

2026-03-26 14:47:59

博主被陌生网友辱骂3个月，默默观察其2年半，终于找到机会碰面了

博主被陌生网友辱骂3个月，默默观察其2年半，终于找到机会碰面了

离离言几许

2026-03-26 15:01:41

继张雪峰之后，中医大师黄贵华被曝心梗去世，社交账号已变黑白

继张雪峰之后，中医大师黄贵华被曝心梗去世，社交账号已变黑白

180视角

2026-03-26 11:52:12

4-3大冷门，世界第79淘汰斯洛伐克，进世预赛欧洲区附加赛决赛

4-3大冷门，世界第79淘汰斯洛伐克，进世预赛欧洲区附加赛决赛

侧身凌空斩

2026-03-27 05:48:04

美国务卿称与伊朗谈判已取得进展

美国务卿称与伊朗谈判已取得进展

界面新闻

2026-03-27 07:01:54

爆大冷！点球大战决胜负，威尔士无缘世界杯，40岁哲科立大功

爆大冷！点球大战决胜负，威尔士无缘世界杯，40岁哲科立大功

足球狗说

2026-03-27 06:50:25

内塔尼亚胡妻子：我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子：我儿子就因是以总理孩子被羞辱

看看新闻Knews

2026-03-26 14:21:02

马英九疑似患失智症，台律师：大陆已注意到，没让其担任统一大使

马英九疑似患失智症，台律师：大陆已注意到，没让其担任统一大使

影孖看世界

2026-03-26 23:28:51

AI产业主平台领航智能+时代

14821文章数 66720关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

特朗普再表态：伊朗必须达成协议否则将面临猛烈攻势

头条要闻

特朗普再表态：伊朗必须达成协议否则将面临猛烈攻势

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

本地

家居

公开课

军事航空

亲子要闻

这娃生下来就是报恩的，听到他说对不起的时候，眼泪一下子就出来了

本地新闻

救命，这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居静观蝴蝶海

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

担心特朗普突然停战以总理下令48小时尽力摧毁伊设施

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版