网易首页 > 网易号 > 正文 申请入驻

震惊!OpenAI“造假”石锤? 秘密参与数学基准测试,FrontierMath 透明度遭质疑

0
分享至

来源:AI寒武纪


Epoch Al 就与 OpenAI 合作的透明度问题致歉

刚刚来自 Epoch Al 的 Tamay 就其与 OpenAI 合作的 FrontierMath 项目透明度问题发表声明,承认在与 OpenAI 的合作中存在沟通和透明度方面的失误,并承诺未来将改进

FrontierMath (目前最难的数学测试,陶哲轩是其委员会委员)是一个旨在评估前沿数学模型能力的基准测试项目。Tamay 在声明中表示,Epoch Al 在与 OpenAI 的合作过程中,未能就 OpenAI 的参与程度向基准测试的贡献者,尤其是数学家们,进行充分的透明沟通

具体来说,Tamay 指出以下几个错误:

  1. 披露时间过晚:由于合同限制,Epoch Al 直到 FrontierMath 的第三次迭代(o3)发布前后才被允许披露与 OpenAI 的合作关系。Tamay 承认,他们应该在与 OpenAI 的谈判中更强硬地争取尽早向贡献者披露合作信息的权利

  2. 2沟通不一致:虽然 Epoch Al 向部分数学家透露了他们获得了实验室的资助,但并未系统地向所有参与者说明这一情况,也没有明确指出合作的实验室是 OpenAI。这种不一致的沟通是一个错误

  3. 未将透明度作为合作的前提:Tamay 表示,即使受到合同限制,他们也应该将与贡献者的透明度作为与 OpenAI 达成协议的不可协商的一部分。数学家们理应知道谁可能会访问他们的工作成果

针对数据使用问题,Tamay 承认 OpenAI 确实可以访问 FrontierMath 的大部分问题和解决方案,但有一个未被 OpenAI 看到的保留集,用于独立验证模型能力。他同时强调,双方有口头协议,这些材料不会被用于模型训练

Tamay 指出,OpenAI 的相关员工在公开场合将 FrontierMath 描述为“强保留”的评估集,这与他们的理解一致。他进一步强调,保持真正未受污染的测试集对实验室大有裨益

此外,Tamay 还提到,OpenAI 完全支持 Epoch Al 维护一个单独的、未被看到的保留集,作为防止过拟合和确保准确衡量模型进步的额外保障。FrontierMath 从一开始就被设计并呈现为一个评估工具,这些安排也体现了这一目的

英文全文:

Tamay

Tamay from Epoch Al here.

We made a mistake in not being more transparent about OpenAl's involvement. We were restricted from disclosing the partnership until around the time o3 launched, and in hindsight we should have negotiated harder for the ability to be transparent to the benchmark contributors as soon as possible. Our contract specifically prevented us from disclosing info rmation about the funding source and the fact that OpenAl has data access. We own this error and are committed to doing better in the future.

For future collaborations, we will strive to improve transparency wherever possible, ensuring contributors have clearer information about funding sources, data access, and usage purposes at the outset. While we did communicate that we received lab funding to some mathematicians, we didn't do this systematically and did not name the lab we worked with. This inconsistent communication was a mistake. We should have pushed harder for the ability to be transparent about this partnership from the start, particularly with the mathematicians creating the problems.

Getting permission to disclose OpenAl's involvement only around the o3 launch wasn't good enough. Our mathematicians deserved to know who might have access to their work. Even though we were contractually limited in what we could say, we should have made transparency with our contributors a nonnegotiable part of our agreement with OpenAl.

Regarding training usage: We acknowledge that OpenAl does have access to a large fraction of FrontierMath problems and solutions, with the exception of a unseen-by-OpenAl hold-out set that enables us to independently verify model capabilities. However, we have a verbal agreement that these materials will not be used in model training.

Relevant OpenAl employees' public communications have described FrontierMath as a 'strongly held out' evaluation set. While this public positioning aligns with our understanding, I would also emphasize more broadly that labs benefit greatly from having truly uncontaminated test sets.

OpenAl has also been fully supportive of our decision to maintain a separate, unseen holdout set—an extra safeguard to prevent overfitting and ensure accurate progress measurement. From day one, FrontierMath was conceived and presented as an evaluation tool, and we believe these arrangements reflect that purpose.

[Edit: Clarified OpenAl's data access - they do not have access to a separate holdout set that serves as an additional safeguard for independent verification.]

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州女子把2万多克黄金存珠宝店,金价从每克600多暴涨至1000多,总价2000多万,如今想结算却遇到问题!女子:我亏大了;商家:我也亏大了

杭州女子把2万多克黄金存珠宝店,金价从每克600多暴涨至1000多,总价2000多万,如今想结算却遇到问题!女子:我亏大了;商家:我也亏大了

大风新闻
2026-05-25 11:28:14
中纪委2026年“放大招”!严查四类人!伸过手的一个都跑不了!

中纪委2026年“放大招”!严查四类人!伸过手的一个都跑不了!

细说职场
2026-05-25 12:14:00
福克斯:脚踝伤势并没有痊愈,取胜的关键是我们控制住了失误

福克斯:脚踝伤势并没有痊愈,取胜的关键是我们控制住了失误

懂球帝
2026-05-25 14:28:29
完了!全完了!几十万在美华人的绿卡梦,一夜之间碎了!

完了!全完了!几十万在美华人的绿卡梦,一夜之间碎了!

安安说
2026-05-25 11:03:42
CBA重磅:麦基北京续约,杨鸣或回归,山东四人确定离队

CBA重磅:麦基北京续约,杨鸣或回归,山东四人确定离队

80后房车生活
2026-05-25 11:36:46
创造历史,阿森纳成为英超历史上首支整个赛季0红0送点的球队

创造历史,阿森纳成为英超历史上首支整个赛季0红0送点的球队

懂球帝
2026-05-25 01:16:26
印度电磁弹射重大突破!刚好弹飞一头猪,俄媒:跟中美差距几百倍

印度电磁弹射重大突破!刚好弹飞一头猪,俄媒:跟中美差距几百倍

潮鹿逐梦
2026-05-23 18:37:14
北京二环内,最大拆迁滞留区终于动了,欢呼雀跃的都是真北京人

北京二环内,最大拆迁滞留区终于动了,欢呼雀跃的都是真北京人

靓仔情感
2026-05-25 12:07:58
“死了么”改名“在么在么”

“死了么”改名“在么在么”

三言科技
2026-05-24 20:25:04
大结局:随着格列兹曼助攻+马竞1-5,西甲终极积分榜出炉

大结局:随着格列兹曼助攻+马竞1-5,西甲终极积分榜出炉

侧身凌空斩
2026-05-25 07:48:49
湖人为老詹开3000万年薪?队记:威少交易让他与球队关系蒙上阴影

湖人为老詹开3000万年薪?队记:威少交易让他与球队关系蒙上阴影

罗说NBA
2026-05-25 05:54:32
打不得也放不得!越南在南海大肆填海造岛,中方究竟在顾虑什么?

打不得也放不得!越南在南海大肆填海造岛,中方究竟在顾虑什么?

领悟看世界
2026-05-25 01:15:23
山东烟台“最美女律师”迟宗琳遇车祸去世,年仅42岁:生前常免费帮弱势群体打官司,还率一家七口登记捐献遗体角膜,如今名字与父亲同刻纪念墙

山东烟台“最美女律师”迟宗琳遇车祸去世,年仅42岁:生前常免费帮弱势群体打官司,还率一家七口登记捐献遗体角膜,如今名字与父亲同刻纪念墙

极目新闻
2026-05-25 11:29:35
吉利一声不响换上“朱雀”新车标!被18个国家抢购,网友:太帅了

吉利一声不响换上“朱雀”新车标!被18个国家抢购,网友:太帅了

西莫的艺术宫殿
2026-05-24 14:47:15
神舟二十三号成功发射,王亚平和刘洋再无缘,在为登月做准备?

神舟二十三号成功发射,王亚平和刘洋再无缘,在为登月做准备?

科学黑洞v
2026-05-24 23:17:26
OL正装 vs 清纯JK,怎么选?

OL正装 vs 清纯JK,怎么选?

贵圈真乱
2026-05-25 10:42:08
福克斯:G3赛后波波维奇冲进更衣室,非常严厉地批评了球队

福克斯:G3赛后波波维奇冲进更衣室,非常严厉地批评了球队

懂球帝
2026-05-25 15:22:13
外交部:中方强烈谴责巴基斯坦俾路支省恐怖袭击事件

外交部:中方强烈谴责巴基斯坦俾路支省恐怖袭击事件

新京报
2026-05-25 14:28:08
越南拟禁止2010年后出生者购买或使用烟草制品,旨在打造“越南无烟一代”

越南拟禁止2010年后出生者购买或使用烟草制品,旨在打造“越南无烟一代”

潇湘晨报
2026-05-24 13:21:32
上海队赚得盆满钵满!

上海队赚得盆满钵满!

体育哲人
2026-05-25 12:02:00
2026-05-25 16:24:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4762文章数 37466关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

学生被要求每天体育活动2小时 有学生跑300米后离世

头条要闻

学生被要求每天体育活动2小时 有学生跑300米后离世

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

手机
旅游
房产
本地
公开课

手机要闻

小米17系列有望突破500万,vivo、OPPO同档机型呢?

旅游要闻

云南瑞丽:凤凰花开 展初夏芳华

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版