网易首页 > 网易号 > 正文 申请入驻

震惊!OpenAI“造假”石锤? 秘密参与数学基准测试,FrontierMath 透明度遭质疑

0
分享至

来源:AI寒武纪


Epoch Al 就与 OpenAI 合作的透明度问题致歉

刚刚来自 Epoch Al 的 Tamay 就其与 OpenAI 合作的 FrontierMath 项目透明度问题发表声明,承认在与 OpenAI 的合作中存在沟通和透明度方面的失误,并承诺未来将改进

FrontierMath (目前最难的数学测试,陶哲轩是其委员会委员)是一个旨在评估前沿数学模型能力的基准测试项目。Tamay 在声明中表示,Epoch Al 在与 OpenAI 的合作过程中,未能就 OpenAI 的参与程度向基准测试的贡献者,尤其是数学家们,进行充分的透明沟通

具体来说,Tamay 指出以下几个错误:

  1. 披露时间过晚:由于合同限制,Epoch Al 直到 FrontierMath 的第三次迭代(o3)发布前后才被允许披露与 OpenAI 的合作关系。Tamay 承认,他们应该在与 OpenAI 的谈判中更强硬地争取尽早向贡献者披露合作信息的权利

  2. 2沟通不一致:虽然 Epoch Al 向部分数学家透露了他们获得了实验室的资助,但并未系统地向所有参与者说明这一情况,也没有明确指出合作的实验室是 OpenAI。这种不一致的沟通是一个错误

  3. 未将透明度作为合作的前提:Tamay 表示,即使受到合同限制,他们也应该将与贡献者的透明度作为与 OpenAI 达成协议的不可协商的一部分。数学家们理应知道谁可能会访问他们的工作成果

针对数据使用问题,Tamay 承认 OpenAI 确实可以访问 FrontierMath 的大部分问题和解决方案,但有一个未被 OpenAI 看到的保留集,用于独立验证模型能力。他同时强调,双方有口头协议,这些材料不会被用于模型训练

Tamay 指出,OpenAI 的相关员工在公开场合将 FrontierMath 描述为“强保留”的评估集,这与他们的理解一致。他进一步强调,保持真正未受污染的测试集对实验室大有裨益

此外,Tamay 还提到,OpenAI 完全支持 Epoch Al 维护一个单独的、未被看到的保留集,作为防止过拟合和确保准确衡量模型进步的额外保障。FrontierMath 从一开始就被设计并呈现为一个评估工具,这些安排也体现了这一目的

英文全文:

Tamay

Tamay from Epoch Al here.

We made a mistake in not being more transparent about OpenAl's involvement. We were restricted from disclosing the partnership until around the time o3 launched, and in hindsight we should have negotiated harder for the ability to be transparent to the benchmark contributors as soon as possible. Our contract specifically prevented us from disclosing info rmation about the funding source and the fact that OpenAl has data access. We own this error and are committed to doing better in the future.

For future collaborations, we will strive to improve transparency wherever possible, ensuring contributors have clearer information about funding sources, data access, and usage purposes at the outset. While we did communicate that we received lab funding to some mathematicians, we didn't do this systematically and did not name the lab we worked with. This inconsistent communication was a mistake. We should have pushed harder for the ability to be transparent about this partnership from the start, particularly with the mathematicians creating the problems.

Getting permission to disclose OpenAl's involvement only around the o3 launch wasn't good enough. Our mathematicians deserved to know who might have access to their work. Even though we were contractually limited in what we could say, we should have made transparency with our contributors a nonnegotiable part of our agreement with OpenAl.

Regarding training usage: We acknowledge that OpenAl does have access to a large fraction of FrontierMath problems and solutions, with the exception of a unseen-by-OpenAl hold-out set that enables us to independently verify model capabilities. However, we have a verbal agreement that these materials will not be used in model training.

Relevant OpenAl employees' public communications have described FrontierMath as a 'strongly held out' evaluation set. While this public positioning aligns with our understanding, I would also emphasize more broadly that labs benefit greatly from having truly uncontaminated test sets.

OpenAl has also been fully supportive of our decision to maintain a separate, unseen holdout set—an extra safeguard to prevent overfitting and ensure accurate progress measurement. From day one, FrontierMath was conceived and presented as an evaluation tool, and we believe these arrangements reflect that purpose.

[Edit: Clarified OpenAl's data access - they do not have access to a separate holdout set that serves as an additional safeguard for independent verification.]

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
首都保卫战打响后,普京发表全国讲话,俄罗斯对美西方发出通牒

首都保卫战打响后,普京发表全国讲话,俄罗斯对美西方发出通牒

策前论
2026-07-02 17:21:49
头条世界杯|不用进球就能统治比赛,亚马尔帮西班牙重回热门

头条世界杯|不用进球就能统治比赛,亚马尔帮西班牙重回热门

澎湃新闻
2026-07-03 07:16:31
四部门:对不裁员、少裁员的参保企业,各地将继续实施稳岗返还政策,延续实施一次性扩岗补助政策

四部门:对不裁员、少裁员的参保企业,各地将继续实施稳岗返还政策,延续实施一次性扩岗补助政策

极目新闻
2026-07-02 18:41:45
西安赛格发声:严某经营十载负债累累,闭店结清店员工资次日轻生

西安赛格发声:严某经营十载负债累累,闭店结清店员工资次日轻生

Mr王的饭后茶
2026-07-02 22:48:39
收割腾讯10年!房东一次贪心,亏掉几百亿家底

收割腾讯10年!房东一次贪心,亏掉几百亿家底

流苏晚晴
2026-07-02 20:05:44
LED幕墙现巨型空调 制冷16°C还上下扫风 网友:太会整活了

LED幕墙现巨型空调 制冷16°C还上下扫风 网友:太会整活了

快科技
2026-07-02 18:09:39
女子称拍心电图时因医生未拉帘子,私密部位被监控拍下,当事人称已起诉,当地回应:卫健部门和警方已介入调查

女子称拍心电图时因医生未拉帘子,私密部位被监控拍下,当事人称已起诉,当地回应:卫健部门和警方已介入调查

大风新闻
2026-07-02 19:16:03
女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

网易新闻出品
2026-06-30 21:59:39
国足唯一一次进世界杯!董路:米卢根本不职业 他来中国是以邪制邪

国足唯一一次进世界杯!董路:米卢根本不职业 他来中国是以邪制邪

风过乡
2026-07-03 06:54:43
伊拉克开展反腐败行动,在女议员家中缴获5700万美元现金、27公斤纯金和一套黄金内衣

伊拉克开展反腐败行动,在女议员家中缴获5700万美元现金、27公斤纯金和一套黄金内衣

大风新闻
2026-07-02 19:16:12
本届世界杯,让我们看到了美国的另一面

本届世界杯,让我们看到了美国的另一面

正解局
2026-07-02 16:28:27
找到了,是浙EDZ82X6!53岁湖州理想车主回忆高速救特斯拉车主瞬间:事故车辆已窜出火苗,“她的右脚还在车里,小腿部分已经着火了……”

找到了,是浙EDZ82X6!53岁湖州理想车主回忆高速救特斯拉车主瞬间:事故车辆已窜出火苗,“她的右脚还在车里,小腿部分已经着火了……”

都市快报橙柿互动
2026-07-02 18:24:23
不止延寿近41%!饿肚子,还能年轻12个月?中科院:坚持饿一饿,有利于防癌,激活抑癌基因,还能改善代谢;且热量限制越狠,抗衰效果越强

不止延寿近41%!饿肚子,还能年轻12个月?中科院:坚持饿一饿,有利于防癌,激活抑癌基因,还能改善代谢;且热量限制越狠,抗衰效果越强

梅斯医学
2026-07-02 07:56:07
西班牙杀出低调战神!29岁射手17场轰17球 比肩4大巨星 创7项纪录

西班牙杀出低调战神!29岁射手17场轰17球 比肩4大巨星 创7项纪录

我爱英超
2026-07-03 05:55:42
已婚女子约会网友,俩人缠绵五天,2013年女子不肯嫁给网友被杀

已婚女子约会网友,俩人缠绵五天,2013年女子不肯嫁给网友被杀

汉史趣闻
2026-07-03 07:25:40
外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

抽象派大师
2026-06-29 16:55:46
香港演员梁珊离世,享年81岁,代表性剧集有《天虹》《天龙八部》等,凭借鲜明的表演塑造经典反派形象,被称作“御用恶女”

香港演员梁珊离世,享年81岁,代表性剧集有《天虹》《天龙八部》等,凭借鲜明的表演塑造经典反派形象,被称作“御用恶女”

大风新闻
2026-07-02 15:04:02
后悔也晚了?日本拉黑110家中企、停供芯片原料,中方反制却更快

后悔也晚了?日本拉黑110家中企、停供芯片原料,中方反制却更快

数字财经智库
2026-07-02 15:55:40
一商户负责人在西安赛格商场坠亡,生前好友:他曾变卖门店发工资,几年前已有抑郁倾向

一商户负责人在西安赛格商场坠亡,生前好友:他曾变卖门店发工资,几年前已有抑郁倾向

潇湘晨报
2026-07-02 23:29:18
人民币升值到底是为了什么?说白了就是为了化债

人民币升值到底是为了什么?说白了就是为了化债

流苏晚晴
2026-07-02 20:03:30
2026-07-03 09:07:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4864文章数 37483关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

母亲腿疾 上海孝顺女儿自费装"电梯"给全楼用却遭抵制

头条要闻

母亲腿疾 上海孝顺女儿自费装"电梯"给全楼用却遭抵制

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

亲子
艺术
本地
时尚
公开课

亲子要闻

费列罗“健达快乐运动”游戏盒子将走进上海150所小学及幼儿园

艺术要闻

世界上最惊险的10个地方,中国竟然有3个!

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

这个夏天,你一定吃过她们的瓜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版