网易首页 > 网易号 > 正文 申请入驻

OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

0
分享至

近日,OpenAI 再次陷入了舆论风波。

事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。

而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。

消息一出,瞬间在 AI 圈引起轩然大波,因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。

吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。

去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。

在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。

FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。

该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。

2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题「极其具有挑战性」,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。

本表明 o3 在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。

我们犯了一个错误,没有更早披露 OpenAI 在 FrontierMath 中的参与。我们的合同在 o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。

事态进一步发酵,斯坦福大学数学博士生 Carina Hong 声称,在 Epoch AI 的安排下,OpenAI 拥有对 FrontierMath 的特权访问权。

「对 FrontierMath 基准测试做出重大贡献的六位数学家向我证实,他们并不知道 OpenAI 会独占该基准测试的访问权限,而其他人无法获得,多数人表示,如果他们事先知情,可能不会选择参与。」

面对质疑声浪,Tamay Besiroglu 也通过博客表达歉意,承诺将在未来采用更高的透明度标准。

博客强调 OpenAI 的资金支持仅限于 FrontierMath 的开发,并未干预测试内容,同时声明所有数据和问题均来自独立贡献者并经过独立专家审核。

关于训练使用:我们承认 OpenAI 确实可以访问大部分 FrontierMath 问题和解决方案,但不包括 OpenAI 无法访问的保留集,这使我们能够独立验证模型功能。此外,我们有一个口头协议,这些材料不会用于模型训练。 相关 OpenAI 员工的公开沟通将 FrontierMath 描述为「严格保留」的评估集。虽然这种公开立场与我们的理解一致,但我还要进一步强调,实验室从拥有真正未受污染的数据集中获益匪浅。 OpenAI 也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath 就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。 [编辑:澄清了 OpenAI 的数据访问 - 他们无权访问作为独立验证额外保护措施的单独保留集。]

Epoch AI 的首席数学家 Elliot Glazer 承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。
关于 o3 成绩,他表示相信 OpenAI 报告的分数准确性,但强调 Epoch AI 需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。

当被质疑保留集状态时,Glazer 澄清这个测试集仍在开发中,而不是已经完成。

但这些解释并未能平息事件的争议,更多批评风浪涌向 Epoch AI 以及身处舆论漩涡的 OpenAI。

计算机科学家 Subbarao Kambhampati 表示,他此前就对 OpenAI 声称未预先接触奥林匹克数学和 FrontierMath 数据的说法持怀疑态度。在他看来,OpenAI 禁止相关方披露协议内容的做法本身就极具可疑性。

知名 AI 专家 Gary Marcus 对此事件提出了猛烈的批评。

他将 OpenAI 的 o3 演示描述为一场「绝望的、操纵的、误导性的、科学上粗制滥造的展示」,认为这更像是一次过度炒作而非真实突破。

一个生动的打比方是,如果有人提前获得了试题和答案,而其他人只能靠实力应考,这样的比较显然缺乏公平性。OpenAI 不仅获得了问题和解决方案的访问权,而其他竞争对手如 xai、DeepMind 以及学术团队却无法获得相同资源。

更重要的是,Gary Marcus 认为 OpenAI 对这一关键背景事实只字未提。

并且在展示过程中,OpenAI 选择性地隐藏了关键信息,既未公布在具体问题上的成功与失败案例,也没有提供相应的推理过程记录,更未说明哪些问题出现在训练集中。同时,他们也没有允许 Epoch 对保留测试集进行验证。

而回归到这场愈演愈烈的风波,很大程度上源于网友们对 OpenAI 无休止炒作的厌倦。疑似「刷榜」的行为,也再次触及了许多网友敏感的神经。

就在舆论持续发酵之际,OpenAI 又宣布其「Operator」项目取得突破,CEO Altman 预计将于 1 月 30 日向美国政府进行闭门简报。

据悉,「Operator」是 OpenAI 开发的一种具有博士级别能力的自主 AI 智能体,能够在浏览器中独立执行任务,比如编写代码、预订旅行、管理日程等。

当然,在这个节骨眼上,或许最好的危机公关策略就是立即发布 o3。而这也是最好的春节礼物。

截至发稿前,OpenAI 尚未进一步作出声明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
注意了!印度来华人数飙升,深圳是最受欢迎城市,评论区全是担忧

注意了!印度来华人数飙升,深圳是最受欢迎城市,评论区全是担忧

谭谈社会
2026-05-28 11:41:20
前调查记者揭矿难黑幕:逃生者被老板雇人砸回矿井里,因为死了比救治重伤赔得少

前调查记者揭矿难黑幕:逃生者被老板雇人砸回矿井里,因为死了比救治重伤赔得少

可达鸭面面观
2026-05-28 16:52:14
贵州大学招聘管理岗要求配偶为本校在职博士,校方回应

贵州大学招聘管理岗要求配偶为本校在职博士,校方回应

现代快报
2026-05-28 19:50:05
“陪妻重新长大”900多天:爱妻胎停脑梗智力回到幼儿,丈夫回应质疑称“时间能证明一切”

“陪妻重新长大”900多天:爱妻胎停脑梗智力回到幼儿,丈夫回应质疑称“时间能证明一切”

红星新闻
2026-05-28 15:30:20
曝俄罗斯或失去顿涅茨克全境!乌克兰逐步掌握前线主动权

曝俄罗斯或失去顿涅茨克全境!乌克兰逐步掌握前线主动权

项鹏飞
2026-05-28 17:38:41
四省政府领导班子调整,杭州原市长履新副省长

四省政府领导班子调整,杭州原市长履新副省长

上观新闻
2026-05-28 11:01:04
广厦被绝杀!大比分0-2落后,更绝望的是以下3个事实,打不过上海

广厦被绝杀!大比分0-2落后,更绝望的是以下3个事实,打不过上海

小火箭爱体育
2026-05-28 21:48:18
减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

风向观察
2026-05-28 15:31:33
震惊!河南一足疗店推出“反方向的钟”,200多给技师洗脚70分钟

震惊!河南一足疗店推出“反方向的钟”,200多给技师洗脚70分钟

火山詩话
2026-05-28 05:53:10
“晾了三天,终于臭了”!不少人连夜抢购,已卖爆

“晾了三天,终于臭了”!不少人连夜抢购,已卖爆

深圳晚报
2026-05-27 08:23:58
72岁上海知青重回云南看初恋,得知自己竟儿孙满堂:是我对不起你

72岁上海知青重回云南看初恋,得知自己竟儿孙满堂:是我对不起你

红豆讲堂
2024-10-07 10:57:14
震惊!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

震惊!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

火山詩话
2026-05-28 13:25:07
141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

141名中国乘客飞美国,飞机降落时突然坠毁,起飞前一名美国官员悄悄改签了航班

明德阅读
2026-05-27 19:39:40
同事蹭我车回家,路过超市时买了1800块东西,要结账时我笑着说:你稍等一下,我去地下2层把车开上来

同事蹭我车回家,路过超市时买了1800块东西,要结账时我笑着说:你稍等一下,我去地下2层把车开上来

品读时刻
2026-05-28 09:06:31
证监会发声!中国是世界经济增长的主要贡献者,境外投资者持有A股流通市值超过4万亿元

证监会发声!中国是世界经济增长的主要贡献者,境外投资者持有A股流通市值超过4万亿元

每日经济新闻
2026-05-28 17:13:27
杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

杭州女子征婚:不要彩礼,能提供5分钟夫妻生活,每月给男人3000

谭谈社会
2026-05-28 18:34:27
刚刚,黄仁勋加入清华大学

刚刚,黄仁勋加入清华大学

AppSo
2026-05-28 13:03:25
20万飞天茅台必须搭售40万黔茅酒,企业老板受邀参加“茅台合作峰会”后怒斥被耍

20万飞天茅台必须搭售40万黔茅酒,企业老板受邀参加“茅台合作峰会”后怒斥被耍

潇湘晨报
2026-05-28 12:47:31
“杨梅第一大省”浙江多地主要领导为本地杨梅“站台”

“杨梅第一大省”浙江多地主要领导为本地杨梅“站台”

澎湃新闻
2026-05-28 18:30:26
万万没想到,武契奇访华仅4天,45岁妻子竟凭一个举动给他长脸了

万万没想到,武契奇访华仅4天,45岁妻子竟凭一个举动给他长脸了

黑鹰观军事
2026-05-28 16:05:22
2026-05-29 03:51:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38910文章数 2601778关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

头条要闻

男子疑遭家暴跳楼身亡 母亲:儿媳说"你不配活在世上"

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

从智驾兜底到自研4nm芯片,再到迪迪虾,比亚迪智能化战略凭什么封神?

态度原创

数码
游戏
艺术
教育
公开课

数码要闻

宏碁推出Predator Atlas 8掌机:8" FHD+ 120Hz 500nits触屏

《女神异闻录6》泄露主角太丑?金毛男主太路人!

艺术要闻

2026陕西省青年美术作品展 入选油画

教育要闻

中考数学:很多同学表示无解题,思维太局限

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版