网易首页 > 网易号 > 正文 申请入驻

OpenAI抢先宣布国际数学奥赛金牌成绩

0
分享至

虽是通用AI模型却能以人类速度解决证明题,但提前公布引发争议。

上周六,OpenAI研究员亚历山大·魏(Alexander Wei)宣布,该公司正在研发的一款新型AI语言模型,在国际数学奥林匹克竞赛(IMO)中取得了金牌级别的成绩,这一水平每年只有不到9%的人类选手能够达到。然而,这项声明是在IMO主办方要求AI公司在7月28日之前不要公布结果的禁令下发出的。

据报道,这款实验性模型在与人类选手相同的限制下,解决了竞赛中的六道证明题:每场限时4.5小时,全程不允许上网或使用计算器。然而,一些了解内情的消息人士指出,由于OpenAI自行评判了其IMO成绩,因此该公司声明的可信度可能存疑。OpenAI计划公布这些证明过程和评分标准,以供公众审查。

OpenAI表示,这项成就标志着其与以往AI尝试解决数学奥赛题的方式截然不同。过去的方法大多依赖于专门的定理证明系统,且往往超出了人类的作答时间限制。OpenAI称,他们的模型将问题作为纯文本处理,并生成自然语言的证明过程,其运作方式更像一个通用语言模型,而非为数学专门设计的系统。

在此之前,谷歌在2024年7月曾声称其AlphaProof和AlphaGeometry 2模型在IMO中取得了银牌等效成绩——不过,谷歌的系统每个问题最多需要三天时间,远超人类4.5小时的限制,并且还需要人工协助将问题翻译成形式化的数学语言。

“数学是检验推理能力的试金石——它结构严谨,逻辑缜密,难以作假,”该公司在一份发送给Ars Technica的声明中写道,“这表明,可扩展的通用方法现在可以在那些长期以来被视为遥不可及的任务上,超越人工优化系统。”

尽管该公司证实其下一代主要AI模型GPT-5“即将到来”,但也澄清说,当前展示的这款模型仍处于实验阶段。OpenAI表示:“这些技术将会传承下去,但在相当长一段时间内,具备这种能力水平的产品不会发布。”很有可能,OpenAI为这项特定实验投入了大量的计算资源(这意味着高昂的成本),而这种计算量在短期内不会成为消费级AI模型的常态。

通用AI模型取得惊人成绩

OpenAI表示,这款实验性AI模型背后的研究团队,由亚历克斯·魏(Alex Wei)主导,并得到了谢丽尔·许(Sheryl Hsu)和诺姆·布朗(Noam Brown)的支持,最初并未计划参加这项竞赛,但他们在测试中观察到令人惊喜的成果后,决定评估其模型表现。

OpenAI在一份声明中说:“这并非一个专门为数学构建的系统。它与我们训练用于语言、编码和科学的大型语言模型属于同一类型——在IMO的标准限制下(4.5小时,无互联网,无计算器)解决了完整的证明题。”

OpenAI收到的题目是由IMO主办方新编写的,并同时分享给了多家AI公司。为了验证结果,据报道,每个解决方案都由OpenAI组织的三位前IMO奖牌获得者组成的小组进行了盲评,并且必须获得一致同意才能被采纳。

然而,除了自行评判结果引发的争议外,OpenAI还在周六的声明中似乎违反了与国际数学奥林匹克竞赛的禁令协议,这激怒了IMO社区。另一家参与竞赛的AI公司Harmonic在7月20日的一篇X帖子中透露:“IMO理事会已要求我们以及其他参与的领先AI公司,将结果推迟到7月28日再发布。”

OpenAI的提前发布促使谷歌DeepMind——其原本已准备好在约定日期公布IMO成绩——将自己的相关声明提前到今天晚些时候。而Harmonic则计划按原定时间在7月28日分享其结果。

这种混乱似乎源于IMO竞赛的不同参与方式。一些AI公司直接与IMO理事会协调进行测试,而OpenAI则是独立运作,他们收到了题目,但并未参与包括7月28日禁令协议在内的正式协调过程。

OpenAI研究员诺姆·布朗(Noam Brown)在X上为其发布时间辩护,称公司“与IMO官方没有直接沟通”,发布前只与一位组织者交谈过。布朗声称,他们等到闭幕式后才宣布,大约在太平洋时间凌晨1点左右,并且“从未有人要求我们推迟发布”。

布朗进一步解释说,大约两个月前,IMO曾邀请OpenAI参加基于Lean语言的正式版竞赛,Lean是一种专门用于编写数学证明的编程语言。但OpenAI拒绝了,因为他们“专注于自然语言中的通用推理,不受Lean的限制”。他表示,IMO“从未向他们提出过自然语言数学选项”。

然而,一位IMO协调员告诉X用户米哈伊尔·萨明(Mikhail Samin),OpenAI实际上是在闭幕式之前就宣布了结果,这与布朗的说法相矛盾。这位协调员称OpenAI的行为“粗鲁且不恰当”,并指出OpenAI“并非与IMO合作测试模型的AI公司之一”。

自1959年以来的硬核数学竞赛

国际数学奥林匹克竞赛自1959年以来一直在举办,堪称检验数学推理能力最具挑战性的考试之一。每年有超过100个国家派出六名选手参赛,选手们在两次4.5小时的考试中需要解决六道证明题。这些题目通常需要深刻的数学洞察力和创造力,而非单纯的计算能力。你可以在网上看到2025年奥赛的具体题目。

例如,第一道题要求学生想象一个三角形点阵(就像一个三角形的插板),并想办法用正好n条直线覆盖所有的点。其中的巧妙之处在于,有些线被称为“阳光线”——这些线不水平、不垂直,也不以45度角斜向延伸。挑战在于证明,无论你的三角形有多大,你都只能创造出正好有0、1或3条阳光线的图案——绝不会是2条、4条或任何其他数量。

OpenAI公布结果的时机,让一些预测市场感到惊讶,此前他们曾预测任何AI系统在2025年前赢得IMO金牌的概率约为18%。

在OpenAI宣布此项结果以及我们最初发表这篇文章之后,谷歌DeepMind也发布了其IMO成绩,同样声称其Gemini Deep Think模型解决了六道题中的五道,达到了金牌水平。与OpenAI不同的是,谷歌直接与IMO组织者合作,其结果也得到了IMO协调员的官方评级和认证。谷歌原计划遵守7月28日的禁令,但在OpenAI提前发布后,也随之提前公布了。

DeepMind高级科学家唐·梁(Thang Luong)告诉Ars Technica:“我们已向IMO组织确认,我们确实完美解决了五道题。我认为任何没有经过这个过程的公司,我们无法确定,他们可能少了一分而只获得银牌。”

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
微胖型熟女(木下凛凛子)

微胖型熟女(木下凛凛子)

蓝色海洋009
2026-04-13 22:02:04
邱彪是如何带队赢球的,战胜深圳队不容易,山东高速男篮终于醒了

邱彪是如何带队赢球的,战胜深圳队不容易,山东高速男篮终于醒了

金风说
2026-04-20 05:19:15
砂舞笼罩的南京:退休大爷困在名利场,用退休金对抗被抛弃恐惧

砂舞笼罩的南京:退休大爷困在名利场,用退休金对抗被抛弃恐惧

成都人的故事
2026-04-18 14:40:03
触目惊心,大学生正在沦为最廉价劳动力,教育初心何在?

触目惊心,大学生正在沦为最廉价劳动力,教育初心何在?

宏哥谈商道
2026-04-18 19:00:03
惨不忍睹!中东战事加速日本衰落,日系车损失惨重,噩梦才刚开始

惨不忍睹!中东战事加速日本衰落,日系车损失惨重,噩梦才刚开始

人类的关注
2026-04-13 22:06:10
连入三球,吉布斯-怀特职业生涯首次上演帽子戏法

连入三球,吉布斯-怀特职业生涯首次上演帽子戏法

懂球帝
2026-04-19 22:47:08
北约31国集体访日,高市早苗连夜修宪,最危险的信号已经到来!

北约31国集体访日,高市早苗连夜修宪,最危险的信号已经到来!

易玄
2026-04-20 02:45:44
神秘消失数月后突然现身!美国最头疼的人,悄悄到了巴格达

神秘消失数月后突然现身!美国最头疼的人,悄悄到了巴格达

菁菁子衿
2026-04-19 19:41:04
61岁张曼玉近照曝光,脸僵到认不出?终于明白她死活不上浪姐了

61岁张曼玉近照曝光,脸僵到认不出?终于明白她死活不上浪姐了

科学发掘
2026-04-19 06:49:58
马克龙证实:有法国士兵身亡

马克龙证实:有法国士兵身亡

鲁中晨报
2026-04-18 21:24:20
赢深圳8分!山东队更衣室曝光,不断庆祝 邱彪开心得像个小孩

赢深圳8分!山东队更衣室曝光,不断庆祝 邱彪开心得像个小孩

体育哲人
2026-04-20 01:07:23
季后赛4场比赛都是一边倒,还不如附加赛,肖华新规毁了NBA的悬念

季后赛4场比赛都是一边倒,还不如附加赛,肖华新规毁了NBA的悬念

铁甲西奇
2026-04-19 14:36:04
凯夫伦-图拉姆:下赛季争意甲冠军?目前我们只专注于欧冠资格

凯夫伦-图拉姆:下赛季争意甲冠军?目前我们只专注于欧冠资格

懂球帝
2026-04-20 06:03:07
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

小小科普员
2026-03-26 00:27:10
特朗普:由于安全原因,万斯将不参加美伊复谈

特朗普:由于安全原因,万斯将不参加美伊复谈

澎湃新闻
2026-04-19 22:03:10
狂揽911亿,政法博士设完美骗局,湖南十万家庭最终血本无归?

狂揽911亿,政法博士设完美骗局,湖南十万家庭最终血本无归?

一号位故事
2026-04-19 10:51:30
佟丽娅真人被偶遇!网友:陈思诚你眼酸不?

佟丽娅真人被偶遇!网友:陈思诚你眼酸不?

民宿体验志
2026-04-17 13:39:04
普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

普通家庭存款到这个数,已经是天花板级别,以前不信,现在很肯定

平说财经
2026-04-19 14:17:19
阿斯:皇马向吕迪格提供了一年续约报价,认为他最终会接受

阿斯:皇马向吕迪格提供了一年续约报价,认为他最终会接受

懂球帝
2026-04-20 05:42:05
专家警告:每天吃一根香蕉,就等于给心脏“踩刹车”?真相来了

专家警告:每天吃一根香蕉,就等于给心脏“踩刹车”?真相来了

路医生健康科普
2026-04-05 11:20:07
2026-04-20 06:39:00
黑客联盟I
黑客联盟I
免费、开源、自由……
361文章数 1065关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

手机
房产
本地
时尚
公开课

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

装修“精神角落”,就是这么上瘾

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版