网易首页 > 网易号 > 正文 申请入驻

OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

0
分享至

近日,OpenAI 再次陷入了舆论风波。

事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。

而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。

消息一出,瞬间在 AI 圈引起轩然大波,因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。

吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。

去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。

在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。

FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。

该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。

2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题「极其具有挑战性」,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。

本表明 o3 在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。

我们犯了一个错误,没有更早披露 OpenAI 在 FrontierMath 中的参与。我们的合同在 o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。

事态进一步发酵,斯坦福大学数学博士生 Carina Hong 声称,在 Epoch AI 的安排下,OpenAI 拥有对 FrontierMath 的特权访问权。

「对 FrontierMath 基准测试做出重大贡献的六位数学家向我证实,他们并不知道 OpenAI 会独占该基准测试的访问权限,而其他人无法获得,多数人表示,如果他们事先知情,可能不会选择参与。」

面对质疑声浪,Tamay Besiroglu 也通过博客表达歉意,承诺将在未来采用更高的透明度标准。

博客强调 OpenAI 的资金支持仅限于 FrontierMath 的开发,并未干预测试内容,同时声明所有数据和问题均来自独立贡献者并经过独立专家审核。

关于训练使用:我们承认 OpenAI 确实可以访问大部分 FrontierMath 问题和解决方案,但不包括 OpenAI 无法访问的保留集,这使我们能够独立验证模型功能。此外,我们有一个口头协议,这些材料不会用于模型训练。 相关 OpenAI 员工的公开沟通将 FrontierMath 描述为「严格保留」的评估集。虽然这种公开立场与我们的理解一致,但我还要进一步强调,实验室从拥有真正未受污染的数据集中获益匪浅。 OpenAI 也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath 就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。 [编辑:澄清了 OpenAI 的数据访问 - 他们无权访问作为独立验证额外保护措施的单独保留集。]

Epoch AI 的首席数学家 Elliot Glazer 承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。
关于 o3 成绩,他表示相信 OpenAI 报告的分数准确性,但强调 Epoch AI 需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。

当被质疑保留集状态时,Glazer 澄清这个测试集仍在开发中,而不是已经完成。

但这些解释并未能平息事件的争议,更多批评风浪涌向 Epoch AI 以及身处舆论漩涡的 OpenAI。

计算机科学家 Subbarao Kambhampati 表示,他此前就对 OpenAI 声称未预先接触奥林匹克数学和 FrontierMath 数据的说法持怀疑态度。在他看来,OpenAI 禁止相关方披露协议内容的做法本身就极具可疑性。

知名 AI 专家 Gary Marcus 对此事件提出了猛烈的批评。

他将 OpenAI 的 o3 演示描述为一场「绝望的、操纵的、误导性的、科学上粗制滥造的展示」,认为这更像是一次过度炒作而非真实突破。

一个生动的打比方是,如果有人提前获得了试题和答案,而其他人只能靠实力应考,这样的比较显然缺乏公平性。OpenAI 不仅获得了问题和解决方案的访问权,而其他竞争对手如 xai、DeepMind 以及学术团队却无法获得相同资源。

更重要的是,Gary Marcus 认为 OpenAI 对这一关键背景事实只字未提。

并且在展示过程中,OpenAI 选择性地隐藏了关键信息,既未公布在具体问题上的成功与失败案例,也没有提供相应的推理过程记录,更未说明哪些问题出现在训练集中。同时,他们也没有允许 Epoch 对保留测试集进行验证。

而回归到这场愈演愈烈的风波,很大程度上源于网友们对 OpenAI 无休止炒作的厌倦。疑似「刷榜」的行为,也再次触及了许多网友敏感的神经。

就在舆论持续发酵之际,OpenAI 又宣布其「Operator」项目取得突破,CEO Altman 预计将于 1 月 30 日向美国政府进行闭门简报。

据悉,「Operator」是 OpenAI 开发的一种具有博士级别能力的自主 AI 智能体,能够在浏览器中独立执行任务,比如编写代码、预订旅行、管理日程等。

当然,在这个节骨眼上,或许最好的危机公关策略就是立即发布 o3。而这也是最好的春节礼物。

截至发稿前,OpenAI 尚未进一步作出声明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4-2横扫张本智和!19岁国乒天才连斩5大世界名将,一战封神

4-2横扫张本智和!19岁国乒天才连斩5大世界名将,一战封神

小琴动漫
2026-05-30 14:30:26
不止靠山倒了,深绿两大“开山鼻祖”弃暗投明,民进党由盛转衰

不止靠山倒了,深绿两大“开山鼻祖”弃暗投明,民进党由盛转衰

桑启红原
2026-05-31 20:29:47
新华社消息|商务部:中欧双方正探讨建立贸易投资磋商机制

新华社消息|商务部:中欧双方正探讨建立贸易投资磋商机制

新华社
2026-05-30 21:22:59
他58岁任四川省委书记,61岁接替华主席的职务,后来组建武警部队

他58岁任四川省委书记,61岁接替华主席的职务,后来组建武警部队

旧史新谭
2026-05-31 02:04:51
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

三农老历
2026-04-13 17:10:06
九寨沟这晚,刘诗诗眼皮重,赵今麦大眼袋,贴头皮的林允秒了全场

九寨沟这晚,刘诗诗眼皮重,赵今麦大眼袋,贴头皮的林允秒了全场

阿伧说事
2026-05-30 23:41:54
239元的电竞耳机能有多卷?292克、四模、235小时续航

239元的电竞耳机能有多卷?292克、四模、235小时续航

闪存猎手
2026-05-30 03:05:47
千万个辛瓦尔去哪了?哈马斯高层的刚上任与倒计时同步!

千万个辛瓦尔去哪了?哈马斯高层的刚上任与倒计时同步!

寰球经纬所
2026-05-29 21:58:53
比泉州安静,比厦门温柔,闽南最松弛的魂在这里!

比泉州安静,比厦门温柔,闽南最松弛的魂在这里!

九行Travel
2026-05-27 18:27:21
1499元,特斯拉为Model Y推出手动车顶遮阳帘

1499元,特斯拉为Model Y推出手动车顶遮阳帘

金融界
2026-05-31 17:00:10
越来越多年轻人突然去世,而越来越多老年人80多岁还在村头晒太阳

越来越多年轻人突然去世,而越来越多老年人80多岁还在村头晒太阳

普陀动物世界
2026-05-31 18:59:01
《主角》大结局!忆秦娥痛失所爱,胡三元圆满,唯独楚嘉禾意难平

《主角》大结局!忆秦娥痛失所爱,胡三元圆满,唯独楚嘉禾意难平

乡野小珥
2026-05-30 19:31:51
痛心!山东李明医生去世,连续做几台手术后猝死,更多细节曝光

痛心!山东李明医生去世,连续做几台手术后猝死,更多细节曝光

小鋭有话说
2026-05-31 10:53:07
赵今麦九寨沟直播零妆出镜,素颜太美,山水冥想松弛感直接拉满

赵今麦九寨沟直播零妆出镜,素颜太美,山水冥想松弛感直接拉满

观鱼听雨
2026-05-29 23:32:40
30年申冤狱中暴毙,头颅铁钉牵出中央督办大案,黄庆忠冤案始末!

30年申冤狱中暴毙,头颅铁钉牵出中央督办大案,黄庆忠冤案始末!

易玄
2026-05-31 11:45:11
1960年,赵一曼的儿子写信讽刺毛主席,主席没有追究,说了6个字

1960年,赵一曼的儿子写信讽刺毛主席,主席没有追究,说了6个字

帝哥说史
2026-05-23 06:30:03
德布劳内:我没有踢过自己最擅长的位置,很高兴孔蒂能离开

德布劳内:我没有踢过自己最擅长的位置,很高兴孔蒂能离开

懂球帝
2026-05-31 08:00:11
刚刚美国爆出惊天秘密,这轮中东战争的真相也被发现了

刚刚美国爆出惊天秘密,这轮中东战争的真相也被发现了

一个坏土豆
2026-05-30 19:24:49
赵少康算盘落空!尹乃菁确认辞职后,新人选出现,金溥聪满盘皆输

赵少康算盘落空!尹乃菁确认辞职后,新人选出现,金溥聪满盘皆输

老黯谈娱
2026-05-31 16:01:46
卢伟展望总决赛G3:洛夫顿好转,大家都在牺牲,会对布朗进行针对

卢伟展望总决赛G3:洛夫顿好转,大家都在牺牲,会对布朗进行针对

篮球资讯达人
2026-05-31 13:10:33
2026-05-31 22:15:00
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38918文章数 2601802关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

头条要闻

保时捷一天两次被钉子扎 路面现多个修车广告报价上千

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
家居
亲子
公开课
军事航空

LCK第二赛段:HLE连下两城击溃BRO,排行榜第一,进军季后赛

家居要闻

云栖 舒展如流云

亲子要闻

青少年哪个品牌DHA好?藻油组合易吸收,纯净配方无负担,学习状态更稳定

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版