网易首页 > 网易号 > 正文 申请入驻

OpenAI抢先宣布国际数学奥赛金牌成绩

0
分享至



虽是通用AI模型却能以人类速度解决证明题,但提前公布引发争议。

上周六,OpenAI研究员亚历山大·魏(Alexander Wei)宣布,该公司正在研发的一款新型AI语言模型,在国际数学奥林匹克竞赛(IMO)中取得了金牌级别的成绩,这一水平每年只有不到9%的人类选手能够达到。然而,这项声明是在IMO主办方要求AI公司在7月28日之前不要公布结果的禁令下发出的。

据报道,这款实验性模型在与人类选手相同的限制下,解决了竞赛中的六道证明题:每场限时4.5小时,全程不允许上网或使用计算器。然而,一些了解内情的消息人士指出,由于OpenAI自行评判了其IMO成绩,因此该公司声明的可信度可能存疑。OpenAI计划公布这些证明过程和评分标准,以供公众审查。

OpenAI表示,这项成就标志着其与以往AI尝试解决数学奥赛题的方式截然不同。过去的方法大多依赖于专门的定理证明系统,且往往超出了人类的作答时间限制。OpenAI称,他们的模型将问题作为纯文本处理,并生成自然语言的证明过程,其运作方式更像一个通用语言模型,而非为数学专门设计的系统。

在此之前,谷歌在2024年7月曾声称其AlphaProof和AlphaGeometry 2模型在IMO中取得了银牌等效成绩——不过,谷歌的系统每个问题最多需要三天时间,远超人类4.5小时的限制,并且还需要人工协助将问题翻译成形式化的数学语言。

“数学是检验推理能力的试金石——它结构严谨,逻辑缜密,难以作假,”该公司在一份发送给Ars Technica的声明中写道,“这表明,可扩展的通用方法现在可以在那些长期以来被视为遥不可及的任务上,超越人工优化系统。”

尽管该公司证实其下一代主要AI模型GPT-5“即将到来”,但也澄清说,当前展示的这款模型仍处于实验阶段。OpenAI表示:“这些技术将会传承下去,但在相当长一段时间内,具备这种能力水平的产品不会发布。”很有可能,OpenAI为这项特定实验投入了大量的计算资源(这意味着高昂的成本),而这种计算量在短期内不会成为消费级AI模型的常态。

通用AI模型取得惊人成绩

OpenAI表示,这款实验性AI模型背后的研究团队,由亚历克斯·魏(Alex Wei)主导,并得到了谢丽尔·许(Sheryl Hsu)和诺姆·布朗(Noam Brown)的支持,最初并未计划参加这项竞赛,但他们在测试中观察到令人惊喜的成果后,决定评估其模型表现。

OpenAI在一份声明中说:“这并非一个专门为数学构建的系统。它与我们训练用于语言、编码和科学的大型语言模型属于同一类型——在IMO的标准限制下(4.5小时,无互联网,无计算器)解决了完整的证明题。”

OpenAI收到的题目是由IMO主办方新编写的,并同时分享给了多家AI公司。为了验证结果,据报道,每个解决方案都由OpenAI组织的三位前IMO奖牌获得者组成的小组进行了盲评,并且必须获得一致同意才能被采纳。

然而,除了自行评判结果引发的争议外,OpenAI还在周六的声明中似乎违反了与国际数学奥林匹克竞赛的禁令协议,这激怒了IMO社区。另一家参与竞赛的AI公司Harmonic在7月20日的一篇X帖子中透露:“IMO理事会已要求我们以及其他参与的领先AI公司,将结果推迟到7月28日再发布。”

OpenAI的提前发布促使谷歌DeepMind——其原本已准备好在约定日期公布IMO成绩——将自己的相关声明提前到今天晚些时候。而Harmonic则计划按原定时间在7月28日分享其结果。

这种混乱似乎源于IMO竞赛的不同参与方式。一些AI公司直接与IMO理事会协调进行测试,而OpenAI则是独立运作,他们收到了题目,但并未参与包括7月28日禁令协议在内的正式协调过程。

OpenAI研究员诺姆·布朗(Noam Brown)在X上为其发布时间辩护,称公司“与IMO官方没有直接沟通”,发布前只与一位组织者交谈过。布朗声称,他们等到闭幕式后才宣布,大约在太平洋时间凌晨1点左右,并且“从未有人要求我们推迟发布”。

布朗进一步解释说,大约两个月前,IMO曾邀请OpenAI参加基于Lean语言的正式版竞赛,Lean是一种专门用于编写数学证明的编程语言。但OpenAI拒绝了,因为他们“专注于自然语言中的通用推理,不受Lean的限制”。他表示,IMO“从未向他们提出过自然语言数学选项”。

然而,一位IMO协调员告诉X用户米哈伊尔·萨明(Mikhail Samin),OpenAI实际上是在闭幕式之前就宣布了结果,这与布朗的说法相矛盾。这位协调员称OpenAI的行为“粗鲁且不恰当”,并指出OpenAI“并非与IMO合作测试模型的AI公司之一”。

自1959年以来的硬核数学竞赛

国际数学奥林匹克竞赛自1959年以来一直在举办,堪称检验数学推理能力最具挑战性的考试之一。每年有超过100个国家派出六名选手参赛,选手们在两次4.5小时的考试中需要解决六道证明题。这些题目通常需要深刻的数学洞察力和创造力,而非单纯的计算能力。你可以在网上看到2025年奥赛的具体题目。

例如,第一道题要求学生想象一个三角形点阵(就像一个三角形的插板),并想办法用正好n条直线覆盖所有的点。其中的巧妙之处在于,有些线被称为“阳光线”——这些线不水平、不垂直,也不以45度角斜向延伸。挑战在于证明,无论你的三角形有多大,你都只能创造出正好有0、1或3条阳光线的图案——绝不会是2条、4条或任何其他数量。

OpenAI公布结果的时机,让一些预测市场感到惊讶,此前他们曾预测任何AI系统在2025年前赢得IMO金牌的概率约为18%。

在OpenAI宣布此项结果以及我们最初发表这篇文章之后,谷歌DeepMind也发布了其IMO成绩,同样声称其Gemini Deep Think模型解决了六道题中的五道,达到了金牌水平。与OpenAI不同的是,谷歌直接与IMO组织者合作,其结果也得到了IMO协调员的官方评级和认证。谷歌原计划遵守7月28日的禁令,但在OpenAI提前发布后,也随之提前公布了。

DeepMind高级科学家唐·梁(Thang Luong)告诉Ars Technica:“我们已向IMO组织确认,我们确实完美解决了五道题。我认为任何没有经过这个过程的公司,我们无法确定,他们可能少了一分而只获得银牌。”

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

特朗普不见高市,美军也撤了,解放军面朝日本,连续8天实弹演习

时时有聊
2025-11-19 16:51:16
100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

球场没跑道
2025-11-19 21:33:01
朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

朝鲜代表联大发言炮轰日本:日本没有资格和理由觊觎安理会常任理事国席位;此前高市早苗在日本侵略战争、参拜靖国神社等问题上屡触碰红线

极目新闻
2025-11-19 13:18:23
国足受邀!俄罗斯将在美举办12国“小世界杯”:六大洲参赛

国足受邀!俄罗斯将在美举办12国“小世界杯”:六大洲参赛

邱泽云
2025-11-19 17:59:42
广东模特大赛冠军诞生后,我笑死在评论区

广东模特大赛冠军诞生后,我笑死在评论区

清书先生
2025-11-19 16:02:32
噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

噩耗,广东美女陈俊玲去世,年仅33岁,入职体检时查出癌症

熠熠生辉的生活
2025-11-18 09:14:21
印共(毛主义)主要领导人被打死,印共(毛)是否到了穷途末路

印共(毛主义)主要领导人被打死,印共(毛)是否到了穷途末路

小院之观
2025-11-19 10:14:33
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

预算1.76亿的办公楼“未批先建”,市民质疑应罚10%,为啥只罚50万?律师说法

大风新闻
2025-11-19 16:31:04
喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

社会酱
2025-11-19 17:42:35
10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

10个月违法赚近9000万,最终被罚1.77亿!涉事人疑是DeepSeek创始人旗下公司核心员工

可达鸭面面观
2025-11-19 08:59:19
遗憾!吴艳妮给自己打0分:跑出赛季最佳+只能拿第2 3战全运0金牌

遗憾!吴艳妮给自己打0分:跑出赛季最佳+只能拿第2 3战全运0金牌

风过乡
2025-11-19 22:05:53
日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

日本炒作“击沉福建舰”,军事专家傅前哨:哪里来的底气?

南方都市报
2025-11-19 20:18:06
最担心的事情还是发生了,印度人疯狂涌入中国,未来会发生什么事

最担心的事情还是发生了,印度人疯狂涌入中国,未来会发生什么事

历史有些冷
2025-11-18 21:35:03
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
出乎意料!继王曼昱后,陈梦也避开跟孙颖莎打比赛,放弃女单一号

出乎意料!继王曼昱后,陈梦也避开跟孙颖莎打比赛,放弃女单一号

侃球熊弟
2025-11-19 17:44:51
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
烟台一渣土车侧翻压死女老师,遇难者家属讲述: 学生纷纷悼念,肇事车经改装严重超载

烟台一渣土车侧翻压死女老师,遇难者家属讲述: 学生纷纷悼念,肇事车经改装严重超载

潇湘晨报
2025-11-19 20:32:25
沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

沙俄让清朝损失的土地,面积达到330万平方公里,如今在哪些国家

兴趣知识
2025-11-17 15:39:26
我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

我国古代4大旷世文章,一生必背的4篇千古奇文,谁能够排在第一?

掠影后有感
2025-11-18 11:14:38
2025-11-19 23:19:00
黑客联盟I
黑客联盟I
免费、开源、自由……
347文章数 1064关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

头条要闻

日媒:中方官员双手插兜 暗示"14亿中国人都很愤怒"

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

游戏
本地
房产
数码
公开课

炸裂!小吕布离开T1,或加盟Hle联手宙斯组银河战舰

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

数码要闻

华为擎云将发布鸿蒙电脑企业版及新一代鸿蒙电脑专为企业而生

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版