网易首页 > 网易号 > 正文 申请入驻

OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

0
分享至

近日,OpenAI 再次陷入了舆论风波。

事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。

而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。

消息一出,瞬间在 AI 圈引起轩然大波,因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。

吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。

去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。

在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。

FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。

该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。

2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题「极其具有挑战性」,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。

本表明 o3 在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。

我们犯了一个错误,没有更早披露 OpenAI 在 FrontierMath 中的参与。我们的合同在 o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。

事态进一步发酵,斯坦福大学数学博士生 Carina Hong 声称,在 Epoch AI 的安排下,OpenAI 拥有对 FrontierMath 的特权访问权。

「对 FrontierMath 基准测试做出重大贡献的六位数学家向我证实,他们并不知道 OpenAI 会独占该基准测试的访问权限,而其他人无法获得,多数人表示,如果他们事先知情,可能不会选择参与。」

面对质疑声浪,Tamay Besiroglu 也通过博客表达歉意,承诺将在未来采用更高的透明度标准。

博客强调 OpenAI 的资金支持仅限于 FrontierMath 的开发,并未干预测试内容,同时声明所有数据和问题均来自独立贡献者并经过独立专家审核。

关于训练使用:我们承认 OpenAI 确实可以访问大部分 FrontierMath 问题和解决方案,但不包括 OpenAI 无法访问的保留集,这使我们能够独立验证模型功能。此外,我们有一个口头协议,这些材料不会用于模型训练。 相关 OpenAI 员工的公开沟通将 FrontierMath 描述为「严格保留」的评估集。虽然这种公开立场与我们的理解一致,但我还要进一步强调,实验室从拥有真正未受污染的数据集中获益匪浅。 OpenAI 也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath 就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。 [编辑:澄清了 OpenAI 的数据访问 - 他们无权访问作为独立验证额外保护措施的单独保留集。]

Epoch AI 的首席数学家 Elliot Glazer 承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。
关于 o3 成绩,他表示相信 OpenAI 报告的分数准确性,但强调 Epoch AI 需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。

当被质疑保留集状态时,Glazer 澄清这个测试集仍在开发中,而不是已经完成。

但这些解释并未能平息事件的争议,更多批评风浪涌向 Epoch AI 以及身处舆论漩涡的 OpenAI。

计算机科学家 Subbarao Kambhampati 表示,他此前就对 OpenAI 声称未预先接触奥林匹克数学和 FrontierMath 数据的说法持怀疑态度。在他看来,OpenAI 禁止相关方披露协议内容的做法本身就极具可疑性。

知名 AI 专家 Gary Marcus 对此事件提出了猛烈的批评。

他将 OpenAI 的 o3 演示描述为一场「绝望的、操纵的、误导性的、科学上粗制滥造的展示」,认为这更像是一次过度炒作而非真实突破。

一个生动的打比方是,如果有人提前获得了试题和答案,而其他人只能靠实力应考,这样的比较显然缺乏公平性。OpenAI 不仅获得了问题和解决方案的访问权,而其他竞争对手如 xai、DeepMind 以及学术团队却无法获得相同资源。

更重要的是,Gary Marcus 认为 OpenAI 对这一关键背景事实只字未提。

并且在展示过程中,OpenAI 选择性地隐藏了关键信息,既未公布在具体问题上的成功与失败案例,也没有提供相应的推理过程记录,更未说明哪些问题出现在训练集中。同时,他们也没有允许 Epoch 对保留测试集进行验证。

而回归到这场愈演愈烈的风波,很大程度上源于网友们对 OpenAI 无休止炒作的厌倦。疑似「刷榜」的行为,也再次触及了许多网友敏感的神经。

就在舆论持续发酵之际,OpenAI 又宣布其「Operator」项目取得突破,CEO Altman 预计将于 1 月 30 日向美国政府进行闭门简报。

据悉,「Operator」是 OpenAI 开发的一种具有博士级别能力的自主 AI 智能体,能够在浏览器中独立执行任务,比如编写代码、预订旅行、管理日程等。

当然,在这个节骨眼上,或许最好的危机公关策略就是立即发布 o3。而这也是最好的春节礼物。

截至发稿前,OpenAI 尚未进一步作出声明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

凌晨2时导弹雨倾泻!伊朗发动大规模报复,美方连夜空袭回击?

流史岁月
2026-06-30 10:12:33
美国大满贯又爆意外,孙颖莎王楚钦集体弃赛,放下的心又悬起来了

美国大满贯又爆意外,孙颖莎王楚钦集体弃赛,放下的心又悬起来了

残梦断忆
2026-06-29 18:35:26
摩根大通CEO当场嘲讽加拿大总理:他们试过了,叫欧盟

摩根大通CEO当场嘲讽加拿大总理:他们试过了,叫欧盟

报错免疫体
2026-06-30 03:25:26
官宣!番禺沙溪全面清租,限商户7月10日前搬走!

官宣!番禺沙溪全面清租,限商户7月10日前搬走!

广州楼市发布
2026-06-30 21:58:55
霍尔木兹海峡,最新消息!以色列发动袭击,将“继续采取行动”!美股突变!中概股爆发

霍尔木兹海峡,最新消息!以色列发动袭击,将“继续采取行动”!美股突变!中概股爆发

证券时报e公司
2026-06-30 01:33:17
美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

一种观点
2026-06-29 15:21:59
44岁全智贤香港晚宴亮相,斗鸡眼明显,体态欠佳

44岁全智贤香港晚宴亮相,斗鸡眼明显,体态欠佳

悠悠说世界
2026-06-30 22:40:59
“认清自己位置!”巴西前锋赛后回击日本:绝不容有人骑我们头上

“认清自己位置!”巴西前锋赛后回击日本:绝不容有人骑我们头上

风雨与阳光
2026-06-30 15:32:51
金鹰奖视帝投票排名:张译倒数,于和伟仅第三,第一名毋庸置疑

金鹰奖视帝投票排名:张译倒数,于和伟仅第三,第一名毋庸置疑

翰飞观事
2026-06-30 19:23:08
47岁吴建豪宣布再婚不到24小时,荒唐的一幕出现,朱孝天没说错

47岁吴建豪宣布再婚不到24小时,荒唐的一幕出现,朱孝天没说错

可乐谈情感
2026-07-01 01:17:27
6月30日人社部财政部公布2026年养老金调整通知了吗

6月30日人社部财政部公布2026年养老金调整通知了吗

一网打尽全球焦点
2026-07-01 01:16:15
最惨外逃女贪官顾震芳:嫁当地残疾男子,给他生孩子还要打工养家

最惨外逃女贪官顾震芳:嫁当地残疾男子,给他生孩子还要打工养家

云舟史策
2026-06-29 19:27:31
周光磊接受纪律审查和监察调查

周光磊接受纪律审查和监察调查

贵阳网
2026-06-30 10:11:00
重磅!詹姆斯正式通知湖人将离队 下一站在哪勇士成最大热门

重磅!詹姆斯正式通知湖人将离队 下一站在哪勇士成最大热门

醉卧浮生
2026-07-01 00:17:11
iPhone 18 Pro发布时间提前曝光,折叠屏iPhone Ultra或将同台亮相

iPhone 18 Pro发布时间提前曝光,折叠屏iPhone Ultra或将同台亮相

硬核玩家2哈
2026-06-30 01:36:56
日本球迷又开始捡垃圾了,这戏码上演了快30年了,真的不觉得烦吗

日本球迷又开始捡垃圾了,这戏码上演了快30年了,真的不觉得烦吗

西楼知趣杂谈
2026-06-18 17:32:47
两栖登陆力量持续加强,外媒卫星图曝光:东大第5艘075进度过半

两栖登陆力量持续加强,外媒卫星图曝光:东大第5艘075进度过半

战争与帝国
2026-06-30 23:19:58
中国网红假装日本游客,“拿冥币装日元”骗小孩去买零食,连中日网友都气炸:太丢脸。。

中国网红假装日本游客,“拿冥币装日元”骗小孩去买零食,连中日网友都气炸:太丢脸。。

日本物语
2026-06-30 23:49:09
美国丢人现眼!伊朗狠厉报复后,瞬间又怂了:别打了,再谈谈吧!

美国丢人现眼!伊朗狠厉报复后,瞬间又怂了:别打了,再谈谈吧!

纵拥千千晚星
2026-07-01 00:12:36
外交部:王毅将于7月2日至8日访问丹麦、瑞典、芬兰、挪威

外交部:王毅将于7月2日至8日访问丹麦、瑞典、芬兰、挪威

每日经济新闻
2026-06-30 23:47:38
2026-07-01 02:51:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
39038文章数 2602022关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

教育
旅游
房产
家居
时尚

教育要闻

最新试卷+官方答案|2026年高考广东地理试卷!情境为王、重思轻背:2026 广东高考地理卷深度点评

旅游要闻

张园东区首开区亮相 详细版攻略来啦!

房产要闻

TOP10单盘狂卖210亿!海南楼市,上半年热销榜单出炉

家居要闻

传奇筑 日常诗

Meiinpsn的穿衣风格,清新又叛逆

无障碍浏览 进入关怀版