网易首页 > 网易号 > 正文 申请入驻

无人工干预取得35分,谷歌拿下首个属于AI的IMO「真」金牌

0
分享至

AI 发展的速度比我们想象得更快。

就在上个月,我们曾报道顶尖的大语言模型们还在奥数级别的基准测试中集体受挫,而仅仅一个月后,AI 便已能在真正的国际数学奥林匹克竞赛中斩获金牌。

当地时间 7 月 21 日,谷歌 DeepMind 宣布,其研发的人工智能系统在国际数学奥林匹克(IMO,International Mathematical Olympiad)中取得了历史性的突破,正式获得了“金牌”级别的成绩。这标志着人工智能首次在官方认证的 IMO 竞赛中达到如此高的成就,同时也表明 AI 在复杂推理能力上迈出了关键一步。

在今年于澳大利亚举行的第 66 届国际数学奥林匹克竞赛中,谷歌 DeepMind 参赛的 AI 模型“Gemini Deep Think”成功解答了全部六道题目中的五道,最终获得了 35 分(满分 42 分)的优异成绩。根据 IMO 的评分标准,这一分数足以摘得金牌。IMO 主席 Prof. Dr. Gregor Dolinar 评价这些解答“在许多方面都令人震惊”,认为它们“清晰、准确,大部分都容易理解”。

此次谷歌的胜利,不仅在于分数的突破,更重要的是其实现方式也产生了巨大变革。去年,DeepMind 的两个系统 AlphaGeometry 和 AlphaProof 联手获得了银牌,解决了六题中的四题。但当时的系统需要人类专家先将自然语言描述的赛题手动翻译成名为“Lean”的形式化计算机语言,AI 才能进行处理,整个过程耗时两到三天。而今年的 Gemini Deep Think 则完全不同,它是一个能够直接理解并处理自然语言问题的“推理系统”,在与人类选手相同的 4.5 小时竞赛时限内,端到端地完成了从读题到生成严谨数学证明的全过程,无需任何人工干预。

Gemini Deep Think 的成功,得益于谷歌在 AI 推理技术上的最新研究成果。该模型采用了一种被称为“并行思维”(parallel thinking)的先进技术,使其能够同时探索和整合多个潜在的解题思路,而不是像传统 AI 模型那样沿循单一的线性推理路径,从而大大提升了解决复杂问题的效率和创造性。此外,DeepMind 团队还运用了新的强化学习技术,通过一个包含高质量数学解题方案的精选数据库对 Gemini 进行专门训练,使其掌握了更高级的多步推理和定理证明能力。

有意思的是,在解决其中一道许多人类选手需要动用研究生级别数学知识的难题时,Gemini Deep Think 却另辟蹊径,仅凭基础的数论知识就给出了一个“绝妙的观察”和自洽的证明,其解法比许多人类参赛者的更为简洁优雅。这在某种程度上也表明,AI 在复杂问题面前,已经具备了超越常规思路、发现创新解法的潜力。

不过,这次成就的发布过程颇具戏剧性。就在谷歌公布消息的两天前,OpenAI 的一位研究员在社交媒体上抢先宣布,他们的一款实验性 AI 模型也在今年的 IMO 中取得了出色的“金牌”成绩——同样是解出五道题,获得 35 分。

但区别在于,OpenAI 并未正式参与 IMO 的官方评估流程,而是他们组建了一个由三位前 IMO 奖牌得主构成的独立小组来为自己的 AI 打分。而谷歌则是与 IMO 官方合作,由竞赛协调员根据学生评分标准正式评定成绩,也因此,只有谷歌的成绩得到了 IMO 官方的认证。

此外,据多方消息透露,IMO 官方曾请求所有参与测试的 AI 公司在闭幕式后等待一周再公布成绩,以便让焦点首先集中在获奖的青少年学生身上。谷歌 DeepMind 遵守了这一约定,而 OpenAI 则在闭幕式当天就迫不及待地公布了其“自评”的成绩,这种做法在 AI 社区引发了激烈争议。DeepMind CEO Demis Hassabis 在社交媒体上含蓄地讽刺了一下友商:“顺便说一下,我们没有在周五宣布,是因为我们尊重 IMO 委员会的原始要求,即所有 AI 实验室都应该在官方结果得到独立专家验证且学生们理应获得应有的赞誉之后才分享他们的结果。”

值得注意的是,无论是谷歌的 Gemini Deep Think 还是 OpenAI 的模型,都未能攻克本届 IMO 难度最高的第六题。这道题目要求计算覆盖一个给定空间所需的最少矩形数量,最终只有 5 名人类学生成功解出。据悉,Gemini 在解这道题时,从一个错误的假设出发,最终未能找到正确路径。这也从侧面说明,尽管 AI 在逻辑推理方面取得了长足进步,但在面对某些极具挑战性和创造性的问题时,与顶尖的人类智慧相比,仍有其局限性,需要从这些年轻的数学天才身上学习。

著名数学家陶哲轩也在社交媒体上详细分析了评估 AI 能力的复杂性,他表示,AI 系统的表现很大程度上取决于被给予的资源和辅助条件。他用人类参赛者的类比来说明,如果改变竞赛格式(比如给学生几天时间而不是 4.5 小时,或者允许使用工具),那么成绩和排名可能会发生巨大变化。因此,在不同规则下对 AI 的能力进行比较,需要格外谨慎。

但无论如何,这次比赛对谷歌而言,都堪称一次“双赢”——由他们赢两次,不仅证明其在与 OpenAI 等对手的“AI 竞赛”中占据了有利身位,还因为竞争对手本身的抢跑而获得了好名声。

基于这次的成功,谷歌方面也公布了后续的商业化路径:计划向一组由数学家组成的受信任测试者提供一个版本的 DeepMind 模型,之后会将其推广给每月支付 250 美元的 Google AI Ultra 订阅用户。他们相信,这种结合了自然语言流畅性和严谨推理能力的 AI 系统,将成为数学家、科学家和工程师的宝贵工具,最终推动人类知识的边界,加速 AGI 的到来。

参考资料:

1.https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/

2.https://x.com/demishassabis/status/1947337618787615175?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1947337618787615175%7Ctwgr%5Ee2bf7e56b25bf6a4597610749ec8ad1afdee0a50%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fgoogle-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition%2F

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA季后赛局势已明朗!辽粤沪3队进死亡半区:广厦或成最大赢家?

CBA季后赛局势已明朗!辽粤沪3队进死亡半区:广厦或成最大赢家?

篮球快餐车
2026-04-22 00:17:00
交警提醒:私家车将迎来“3+1”的严格检查,车主:为何不早说?

交警提醒:私家车将迎来“3+1”的严格检查,车主:为何不早说?

复转这些年
2026-04-21 17:19:57
B站最无聊的UP主,抛了十万次硬币证明正反面概率不是1比1

B站最无聊的UP主,抛了十万次硬币证明正反面概率不是1比1

17173游戏网
2026-04-21 13:44:24
美称扣押的船只与制造导弹有关?外交部:中方反对恶意关联和炒作

美称扣押的船只与制造导弹有关?外交部:中方反对恶意关联和炒作

澎湃新闻
2026-04-21 15:36:26
49人队花5000万留住36岁老将,图什么?

49人队花5000万留住36岁老将,图什么?

篮坛第一线
2026-04-20 22:07:33
四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

流苏晚晴
2026-04-19 20:34:47
若丢掉冠军,将缔造英超史上最大崩盘,阿尔特塔或将永远无法翻身

若丢掉冠军,将缔造英超史上最大崩盘,阿尔特塔或将永远无法翻身

夜白侃球
2026-04-21 14:14:18
日舰闯台海三日,高市辞职,岸田接任,052D抵近奄美大岛

日舰闯台海三日,高市辞职,岸田接任,052D抵近奄美大岛

我是李小七23
2026-04-22 00:45:18
美方已与古巴会谈,要求古巴引入“星链”、赔偿被没收资产的美国个人与企业、释放政治犯等;此前特朗普多次威胁称“解决”伊朗之后是古巴

美方已与古巴会谈,要求古巴引入“星链”、赔偿被没收资产的美国个人与企业、释放政治犯等;此前特朗普多次威胁称“解决”伊朗之后是古巴

鲁中晨报
2026-04-21 09:56:06
昆明机场一家五口已社死,被民航拉黑、拘留5天,最丢脸的竟是他

昆明机场一家五口已社死,被民航拉黑、拘留5天,最丢脸的竟是他

墨印斋
2026-04-21 18:21:28
解决掉提问的人,问题就解决了?北师大“神操作”火了

解决掉提问的人,问题就解决了?北师大“神操作”火了

虔青
2026-04-20 14:07:53
三国取消飞航许可,赖清德无法窜访斯威士兰

三国取消飞航许可,赖清德无法窜访斯威士兰

参考消息
2026-04-21 21:20:14
格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

红星资本局
2026-04-21 20:40:16
俄罗斯删除20年法院数据:审判记录一夜清空,战争信息正在被封住

俄罗斯删除20年法院数据:审判记录一夜清空,战争信息正在被封住

桂系007
2026-04-21 23:55:34
紫金矿业:一季度净利润为201亿元

紫金矿业:一季度净利润为201亿元

每日经济新闻
2026-04-22 00:23:00
黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

黄大发等涉黑案一审宣判:黄大发等12人组织、领导、参加黑社会性质组织,判处黄大发死刑,其他11名被告人分别判处13年至2年2个月不等刑罚

扬子晚报
2026-04-21 15:07:17
河北一地用“冰红茶”浇灌农作物 已持续几年 自己不吃售卖

河北一地用“冰红茶”浇灌农作物 已持续几年 自己不吃售卖

原某报记者
2026-04-21 17:49:54
匈牙利当选总理毛焦尔:我和以色列总理内塔尼亚胡明白说了,他若入境我国,必将被逮捕

匈牙利当选总理毛焦尔:我和以色列总理内塔尼亚胡明白说了,他若入境我国,必将被逮捕

极目新闻
2026-04-21 12:29:14
美媒:伊朗最高领袖穆杰塔巴已批准同美方进行谈判,白宫20日一整天都在等德黑兰,如出现进展迹象,特朗普也可能同意延长停火期限

美媒:伊朗最高领袖穆杰塔巴已批准同美方进行谈判,白宫20日一整天都在等德黑兰,如出现进展迹象,特朗普也可能同意延长停火期限

极目新闻
2026-04-21 09:44:58
劳务派遣在央国企杀疯了!

劳务派遣在央国企杀疯了!

灯锦年
2026-04-21 17:56:52
2026-04-22 04:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16608文章数 514894关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

手机
旅游
房产
教育
军事航空

手机要闻

iOS 26.5 Beta 3新版体验:改进解锁流畅度,信号也变好了?

旅游要闻

京城今春“滨水+”玩法迭代

房产要闻

年薪40-50万!海南地产圈还在猛招人

教育要闻

对不起,我有点“抠”

军事要闻

特朗普公开对伊开战真正原因

无障碍浏览 进入关怀版