网易首页 > 网易科技 > 网易科技 > 正文

人类顶级的智力高地失守!谷歌获官方认证奥数金牌

0
分享至

7月22日消息,AI霸权之争已达到新的顶峰,Google DeepMindOpenAI现在都声称,其模型可以征服国际数学奥林匹克竞赛(IMO),这堪称人类最艰难的智力挑战之一。

美国时间周一,谷歌宣布其Gemini Deep Think AI在2025年IMO比赛中获得了官方认证的金牌。而在几天前,其竞争对手OpenAI也宣布,其模型在同样的比赛中获得了相同的顶级分数,但OpenAI的成绩尚未经过正式认证。

这一突破标志着AI推理能力的一次巨大飞跃,证明了通用型AI模型能够在解决复杂数学问题时达到人类顶尖水平。与此同时,这一进展也进一步加剧了两大AI巨头之间的竞争。

AI挑战人类智力巅峰

国际数学奥林匹克(IMO)是全球最具声望的青少年数学竞赛,始于1959年,每年举办一次。每个参赛国派出六名顶尖中学生数学选手,他们需解答六个在代数、组合学、几何学和数论等领域极其复杂的问题。其中,约8%的参赛者将获得一枚声望卓著的金牌。

近年来,IMO逐渐成为了AI系统的一个重要挑战平台,用以测试AI在数学问题解决和推理能力上的最新进展。去年,Google DeepMind的AlphaProof和AlphaGeometry 2联合系统曾达到银牌水平,解决了四个问题并获得28分。这一突破依赖于专门的形式化语言,展示了AI在接近人类顶级数学推理能力方面的进展。

今年,Google DeepMind的Gemini模型提交的结果首次经过IMO协调员的官方评分和认证,评分标准与学生选手一致。在肯定今年学生选手所取得的显著成就之余,谷歌也分享了Gemini在此次比赛中的突破性表现。

从银牌到金牌:AI推理的飞跃

Gemini Deep Think的高级版本在2025年IMO中表现出色,完美解决了六个极难问题中的五个,获得了总分35分,达到了金牌水平。这些解决方案已经在线公开,任何人都可以在线查看并验证其正确性。

IMO主席格雷戈尔·多利纳尔(Gregor Dolinar)教授表示:“我们可以确认,Google DeepMind已经达到了人们非常期待的里程碑,在满分42分中获得了35分——这是一个金牌分数。他们的解决方案在许多方面都令人惊叹。IMO的评分员发现它们清晰、精确,且大多数都易于理解。”

与去年的成绩相比,谷歌今年的成就具有里程碑意义。2024年,谷歌的AlphaGeometry和AlphaProof系统虽然达到了银牌标准,但当时它们依赖于专家首先将问题从自然语言转化为专用的领域语言(如Lean),而证明过程则需要反向操作,整个过程也需要两到三天的计算时间。

今年,Gemini模型的一个关键创新是能够全程使用自然语言进行操作,直接从官方的题目描述中生成严谨的数学证明。这一切都在严格的4.5小时比赛时间限制内完成。

“批量制造”真正的AI数学家?

OpenAI与谷歌都将最近在IMO上取得的成就视为通用AI的重要胜利。OpenAI研究员诺姆·布朗(Noam Brown)在社交媒体上表示:“恭喜Google DeepMind团队在IMO上取得的成绩!我认为他们的成功再次突显了AI进步的速度。虽然他们的方法与我们有所不同,但这正显示了AI研究领域可以探索的多样化方向。这不仅是一个针对IMO的专门模型,而是一个融合了新型实验性通用技术的推理型大语言模型。”

布朗的观点得到了OpenAI同事们的认可。这表明,谷歌和OpenAI的基础模型不仅仅是针对数学问题的狭义专家,更具备广泛的能力,能够应对多种复杂任务。

OpenAI选择自行公布成绩,凸显了在“公司内部面临挑战的背景下,急于展现领导力”的巨大压力。OpenAI首席执行官山姆·奥特曼(Sam Altman)也提到了这一成就的重要性:“当我们刚开始OpenAI时,这(指在IMO夺金)一直是一个梦想,但那个时候我们并不觉得它能够实现。”此次成功有力地反击了关于OpenAI正失去竞争力的言论。

而谷歌的系统则依赖于其新推出的Gemini Deep Think架构,这是一种增强型推理模式,专门用于处理复杂问题。它融合了谷歌最新的研究技术,包括“并行思维”,这种设置使模型能够在给出最终答案之前,同时探索并结合多种可能的解决方案,而不是追求单一的、线性的思维链。

为了最大限度地发挥Deep Think的推理能力,谷歌还引入了最新的强化学习技术,使其能利用更多的多步骤推理、问题解决和定理证明的数据来进行学习。此外,谷歌为Gemini提供了一个经过精心筛选的高质量数学问题解决方案语料库,并在其指令中添加了如何高效解决IMO问题的通用提示和技巧。

谷歌计划将这一版本的Deep Think模型提供给一批受信任的测试人员,包括数学家,之后再向Google AI Ultra订阅者推出。

AI与数学的未来

尽管取得了突破,但AI推理技术目前仍处于实验阶段。OpenAI研究员亚历山大·韦(Alexander Wei)表示:“这一成就攻克了AI领域长期以来的一个重大挑战,我很高兴地分享OpenAI最新的实验性推理型大语言模型已经在全球最具声望的数学竞赛中达到了金牌水平。”

Google DeepMind的高级研究科学家Thang Luong对未来充满信心:“我们非常有信心,很快就能把模型交到我们所信任的测试人员手中,尤其是数学家,帮助他们解决更复杂的问题,之后再推出给更广泛的用户群体。”

Google DeepMind与数学界的合作正在持续进行,但AI为数学贡献的潜力仍处于起步阶段。通过让AI系统能够进行更加灵活和直观的推理,谷歌正在一步步接近构建能解决更复杂和高级数学问题的AI。

尽管今年的工作完全基于自然语言的Gemini,谷歌仍在持续推进其他AI系统,包括AlphaGeometry和AlphaProof。

谷歌相信,那些结合了自然语言流畅性与严格推理的智能体,包括在形式化语言中经过验证的推理,将成为数学家、科学家、工程师和研究人员不可或缺的工具,帮助推动人类知识的进步,并为通用人工智能(AGI)奠定基础。(小小)

延伸阅读
相关推荐
热点推荐
三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

历史有些冷
2025-12-04 20:20:06
被网友家的“暖气片用法”惊到了!打开思路后,比地暖还要香

被网友家的“暖气片用法”惊到了!打开思路后,比地暖还要香

装修秀
2025-12-08 11:35:03
“除了照片,没有任何价值!”女生自创皮包简历,居然被录取了

“除了照片,没有任何价值!”女生自创皮包简历,居然被录取了

知晓科普
2025-08-02 07:05:03
他又“疯”了?马斯克凌晨发战争警告,称所有人都无处可逃!

他又“疯”了?马斯克凌晨发战争警告,称所有人都无处可逃!

达文西看世界
2025-12-16 17:20:43
养殖户卖鸭被罚3万,带着三千鸭子到大厅,碰见在交接业务的领导

养殖户卖鸭被罚3万,带着三千鸭子到大厅,碰见在交接业务的领导

秋风专栏
2025-10-09 17:03:31
83岁高明近况:儿子高亮去世后,儿媳已成他和妻子的晚年依靠

83岁高明近况:儿子高亮去世后,儿媳已成他和妻子的晚年依靠

小熊侃史
2025-12-16 10:49:09
师范大学要崩!江西省2027年起取消全省统一教师考试,铁饭碗没了

师范大学要崩!江西省2027年起取消全省统一教师考试,铁饭碗没了

东东趣谈
2025-12-17 19:42:11
8000红军被10万敌军堵截,10岁小红军献上一计,政委:少年英雄啊

8000红军被10万敌军堵截,10岁小红军献上一计,政委:少年英雄啊

卡西莫多的故事
2025-12-09 09:23:46
纵队司令顶撞军区司令,连朱德都劝不动,刘伯承:让陈赓管管他

纵队司令顶撞军区司令,连朱德都劝不动,刘伯承:让陈赓管管他

思雨忆史录
2025-12-17 09:37:27
伊布给梅西小儿子西罗·梅西颁奖!并说这是迷你梅西!

伊布给梅西小儿子西罗·梅西颁奖!并说这是迷你梅西!

氧气是个地铁
2025-12-17 23:06:05
无业男戏瘾上身扮民警12年,高升至公安局副局长,因百万借款露馅

无业男戏瘾上身扮民警12年,高升至公安局副局长,因百万借款露馅

历史品鉴仓
2025-12-12 17:02:56
若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致

若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致

老谢谈史
2025-12-01 20:40:13
许亚军疑为何晴付10年抗癌费、生活费,下7次病危通知仍不放弃

许亚军疑为何晴付10年抗癌费、生活费,下7次病危通知仍不放弃

林雁飞
2025-12-17 13:55:37
央视《老舅》原著:郭大炮死缓,二美遭枪击去世,霍东风三次入狱

央视《老舅》原著:郭大炮死缓,二美遭枪击去世,霍东风三次入狱

草本纪年
2025-12-17 19:54:09
10+5!生涯重磅首秀!中国未来第一攻击型后卫

10+5!生涯重磅首秀!中国未来第一攻击型后卫

篮球实战宝典
2025-12-17 22:38:45
年轻时貌若天仙的4位女星,如今却跟美不沾边,岁月何曾饶过谁

年轻时貌若天仙的4位女星,如今却跟美不沾边,岁月何曾饶过谁

庭小娱
2025-12-12 13:44:28
演员王东宣布离婚,直播带货养三个孩子!曾承认家暴

演员王东宣布离婚,直播带货养三个孩子!曾承认家暴

现代快报
2025-12-17 20:24:10
吴越住上海大平层:53岁没家没娃,深夜发呆曝“孤独福报”藏真相

吴越住上海大平层:53岁没家没娃,深夜发呆曝“孤独福报”藏真相

小陆搞笑日常
2025-12-17 13:48:34
实在忍不了,勇士球迷直接写信询问老板,这5年的新秀全都去哪了

实在忍不了,勇士球迷直接写信询问老板,这5年的新秀全都去哪了

拾叁懂球
2025-12-17 22:16:12
我在泰国地下娱乐城,一晚花5万,多数是中国女孩,很难忘

我在泰国地下娱乐城,一晚花5万,多数是中国女孩,很难忘

程哥历史观
2024-01-02 13:38:18
2025-12-17 23:23:00

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

旅游
健康
手机
数码
游戏

旅游要闻

大理洱源县境内的G214国道擅长蛇形走位,堪称经典的天险路段

这些新疗法,让化疗不再那么痛苦

手机要闻

iQOO Z11 Pro曝光,3D超声波指纹+2亿大底主摄

数码要闻

连续五年全国销量第一 添可洗地机为何被称一次性用品?

地表最强帕鲁诞生!幻兽帕鲁全新版本上线,新装备特效太强了

无障碍浏览 进入关怀版
×