网易首页 > 网易号 > 正文 申请入驻

OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

0
分享至

近日,OpenAI 再次陷入了舆论风波。

事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。

而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。

消息一出,瞬间在 AI 圈引起轩然大波,因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。

吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。

去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。

在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。

FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。

该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。

2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题「极其具有挑战性」,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。

本表明 o3 在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。

我们犯了一个错误,没有更早披露 OpenAI 在 FrontierMath 中的参与。我们的合同在 o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。

事态进一步发酵,斯坦福大学数学博士生 Carina Hong 声称,在 Epoch AI 的安排下,OpenAI 拥有对 FrontierMath 的特权访问权。

「对 FrontierMath 基准测试做出重大贡献的六位数学家向我证实,他们并不知道 OpenAI 会独占该基准测试的访问权限,而其他人无法获得,多数人表示,如果他们事先知情,可能不会选择参与。」

面对质疑声浪,Tamay Besiroglu 也通过博客表达歉意,承诺将在未来采用更高的透明度标准。

博客强调 OpenAI 的资金支持仅限于 FrontierMath 的开发,并未干预测试内容,同时声明所有数据和问题均来自独立贡献者并经过独立专家审核。

关于训练使用:我们承认 OpenAI 确实可以访问大部分 FrontierMath 问题和解决方案,但不包括 OpenAI 无法访问的保留集,这使我们能够独立验证模型功能。此外,我们有一个口头协议,这些材料不会用于模型训练。 相关 OpenAI 员工的公开沟通将 FrontierMath 描述为「严格保留」的评估集。虽然这种公开立场与我们的理解一致,但我还要进一步强调,实验室从拥有真正未受污染的数据集中获益匪浅。 OpenAI 也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath 就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。 [编辑:澄清了 OpenAI 的数据访问 - 他们无权访问作为独立验证额外保护措施的单独保留集。]

Epoch AI 的首席数学家 Elliot Glazer 承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。
关于 o3 成绩,他表示相信 OpenAI 报告的分数准确性,但强调 Epoch AI 需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。

当被质疑保留集状态时,Glazer 澄清这个测试集仍在开发中,而不是已经完成。

但这些解释并未能平息事件的争议,更多批评风浪涌向 Epoch AI 以及身处舆论漩涡的 OpenAI。

计算机科学家 Subbarao Kambhampati 表示,他此前就对 OpenAI 声称未预先接触奥林匹克数学和 FrontierMath 数据的说法持怀疑态度。在他看来,OpenAI 禁止相关方披露协议内容的做法本身就极具可疑性。

知名 AI 专家 Gary Marcus 对此事件提出了猛烈的批评。

他将 OpenAI 的 o3 演示描述为一场「绝望的、操纵的、误导性的、科学上粗制滥造的展示」,认为这更像是一次过度炒作而非真实突破。

一个生动的打比方是,如果有人提前获得了试题和答案,而其他人只能靠实力应考,这样的比较显然缺乏公平性。OpenAI 不仅获得了问题和解决方案的访问权,而其他竞争对手如 xai、DeepMind 以及学术团队却无法获得相同资源。

更重要的是,Gary Marcus 认为 OpenAI 对这一关键背景事实只字未提。

并且在展示过程中,OpenAI 选择性地隐藏了关键信息,既未公布在具体问题上的成功与失败案例,也没有提供相应的推理过程记录,更未说明哪些问题出现在训练集中。同时,他们也没有允许 Epoch 对保留测试集进行验证。

而回归到这场愈演愈烈的风波,很大程度上源于网友们对 OpenAI 无休止炒作的厌倦。疑似「刷榜」的行为,也再次触及了许多网友敏感的神经。

就在舆论持续发酵之际,OpenAI 又宣布其「Operator」项目取得突破,CEO Altman 预计将于 1 月 30 日向美国政府进行闭门简报。

据悉,「Operator」是 OpenAI 开发的一种具有博士级别能力的自主 AI 智能体,能够在浏览器中独立执行任务,比如编写代码、预订旅行、管理日程等。

当然,在这个节骨眼上,或许最好的危机公关策略就是立即发布 o3。而这也是最好的春节礼物。

截至发稿前,OpenAI 尚未进一步作出声明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
D1804次列车受电弓遭异物击打,被困隧道内超2小时,乘客称全车停电闷热异常,身上像从水里捞出来的,备用列车已到现场并开始转运

D1804次列车受电弓遭异物击打,被困隧道内超2小时,乘客称全车停电闷热异常,身上像从水里捞出来的,备用列车已到现场并开始转运

台州交通广播
2026-05-30 13:47:54
80个座位只坐了30人,中国防长一缺席,“亚洲安全春晚”直接凉透

80个座位只坐了30人,中国防长一缺席,“亚洲安全春晚”直接凉透

菁菁子衿
2026-05-30 10:12:17
王菲看谢霆锋北京演唱会,害羞得躲在俞飞鸿身后,陈鲁豫也陪着

王菲看谢霆锋北京演唱会,害羞得躲在俞飞鸿身后,陈鲁豫也陪着

八卦宝宝
2026-05-30 21:40:10
大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大定破2万!余承东:全新M9是地球上最强SUV,没有之一!网友:广告法能不能管管他

大白聊IT
2026-05-28 21:21:39
我不是中国人!马来西亚博主疯狂吐槽,别自作多情了,我只是华人

我不是中国人!马来西亚博主疯狂吐槽,别自作多情了,我只是华人

小鋭有话说
2026-05-30 23:12:00
阿森纳痛失欧冠!名嘴黄健翔赛后犀利点评:输球纯属自作自受!

阿森纳痛失欧冠!名嘴黄健翔赛后犀利点评:输球纯属自作自受!

田先生篮球
2026-05-31 09:29:01
广厦vs上海G3前瞻:广厦背水一战,魔鬼主场力争扳回一城

广厦vs上海G3前瞻:广厦背水一战,魔鬼主场力争扳回一城

橙汁的味道123
2026-05-31 08:22:26
4吨SUV上市,马路扛不住了

4吨SUV上市,马路扛不住了

热点科技
2026-05-28 15:32:40
香会变调:美国在台海问题上收声

香会变调:美国在台海问题上收声

环球网资讯
2026-05-30 20:40:20
有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

浪子说
2026-05-30 00:05:05
整晚播放音乐!不让马刺球员睡觉!雷霆球迷抢七大战搞事情

整晚播放音乐!不让马刺球员睡觉!雷霆球迷抢七大战搞事情

篮球教学论坛
2026-05-31 07:09:23
新闻联播都快"看不懂"了,近年出现了越来越多专业的新词汇

新闻联播都快"看不懂"了,近年出现了越来越多专业的新词汇

飘逸的云朵
2026-05-30 03:39:47
1夜7大转会!曼联第二签,阿莱格里执教那不勒斯,B席加盟巴萨!

1夜7大转会!曼联第二签,阿莱格里执教那不勒斯,B席加盟巴萨!

田先生篮球
2026-05-30 09:35:25
神二十一3名航天员返回后,脸部明显浮肿,得知原因后:牺牲太大

神二十一3名航天员返回后,脸部明显浮肿,得知原因后:牺牲太大

小兔子的快乐
2026-05-31 01:51:15
54岁李亚鹏再登热搜!近期一组照片引热议,网友感慨“老得太快”

54岁李亚鹏再登热搜!近期一组照片引热议,网友感慨“老得太快”

火山詩话
2026-05-29 10:56:03
普京表示,如果亚美尼亚想融入欧洲,将面临“乌克兰式的局面”

普京表示,如果亚美尼亚想融入欧洲,将面临“乌克兰式的局面”

山河路口
2026-05-30 14:11:30
重磅!利物浦官宣47岁斯洛特下课:投入5亿仅排第5 创2大耻辱纪录

重磅!利物浦官宣47岁斯洛特下课:投入5亿仅排第5 创2大耻辱纪录

风过乡
2026-05-30 19:33:04
朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

朱可夫晚年吐露实情:德军撤出莫斯科当晚,斯大林发布了一道密令

磊子讲史
2026-05-28 19:30:16
2026款吉利牛仔上市:新增武士黑配色,限时7.59万-8.49万元

2026款吉利牛仔上市:新增武士黑配色,限时7.59万-8.49万元

IT之家
2026-05-30 20:40:07
一对夫妻上班途中突遇2米长眼镜王蛇,相距仅5米,专家:这样风险很大,安全距离为15米以上

一对夫妻上班途中突遇2米长眼镜王蛇,相距仅5米,专家:这样风险很大,安全距离为15米以上

环球网资讯
2026-05-31 08:31:17
2026-05-31 10:00:49
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38918文章数 2601795关注度
往期回顾 全部

科技要闻

AI写小说的套路被扒光了

头条要闻

美国顶流网红现身中国陕西乡村 请求卡车司机捎他一段

头条要闻

美国顶流网红现身中国陕西乡村 请求卡车司机捎他一段

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

字节跳动的 "一盘大棋"

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
艺术
游戏
本地
公开课

旅游要闻

稻城亚丁们,该放弃“捆绑消费”思维了

艺术要闻

我想有个小院,从此荒度余生

Remedy不担心《控制共振》挨着《GTA6》发售

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版