网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

全球首个IMO金牌AI诞生！谷歌Gemini碾碎奥数神话，拿下35分震惊裁判

2025-07-22 09:37:54　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：编辑部

【新智元导读】谷歌DeepMind奥数夺金了，得到IMO官方认证！新模型Gemini Deep Think仅用自然语言，在4.5小时攻克了5题，拿下35分。这次，具体解题过程也一并公开了。

今天，谷歌DeepMind正式官宣拿下IMO金牌！

他们凭借Gemini Deep Think（高阶版），一个通用模型，成功破解前5题，斩获35分（满分42分）。

而且， AI在极限4.5小时之内，就达到了IMO金牌标准。

最最重要的是，Gemini仅用纯自然语言——英语完成了解题。

与不同的是，这一结果得到了IMO组委会官方认证。

Demis Hassabis连发两弹，一再强调「谷歌模型是首个获得官方金牌级别认可的AI系统」。

谷歌DeepMind，正式摘金

作为数学界的奥林匹克，IMO自1959年以来每年举办一次，每年吸引了全球各界优秀的学生参与。

参赛者需在4.5小时内解决6道极具深度的数学问题，涵盖代数、几何、组合数学和数论。

而且只有排名前8%的选手才能摘得金牌，象征着无上的学术荣耀。

近年来，IMO逐渐成为AI能力的试炼场。数学问题不仅需要逻辑推理，还考验创造性思维和严谨性，这对AI系统提出了极高要求。

2024年，AlphaProof和AlphaGeometry 2破解了6题中的4题，获得28分，达到了银牌水平。

这一突破利用专业的「形式语言」，表明AI开始接近顶尖人类的数学推理能力。

今天，Gemini Deep Think再创里程碑，完美破解5道题，跻身金牌行列。

那么，这款模型是如何做到的呢？

我们在此确认，谷歌DeepMind已经达成了一个万众瞩目的里程碑，在满分42分的竞赛中取得了35分的成绩——这足以摘得金牌

他们的解法在诸多方面都堪称惊艳。IMO的评委认为，这些解法思路清晰、表述精确，且大部分内容都简单易懂。

——IMO主席Gregor Dolinar教授

自然语言解题，端到端推理

AlphaProof和AlphaGeometry 2解决IMO难题前，需要专家将问题翻译为「形式语言」，如Lean。

而且，证明过程也是如此，且需要两到三天的计算时间。

今年，Gemini Deep Think完全以自然语言端到端运行，直接从官方问题描述中生成严谨的数学证明，并在4.5小时的比赛时间限制内完成。

借用Karpathy经典语录，「英语是热门的编程语言」。如今看来，确实如此。

Deep Think模式

之所以能够取得金牌，团队使用了Gemini Deep Think的高级版本——一种针对复杂问题的增强推理模式。

并且，结合并行思考技术，允许模型同时探索多种解题路径，最终整合出最优答案。

这种多线程推理方式，突破了传统单一线性思考的局限。

为了充分发挥Deep Think的推理能力，谷歌还对Gemini进行了新颖的强化学习训练，让其利用更多多步推理、问题解决和定理证明数据。

此外，谷歌研究团队还通过以下方式，进一步升级了Gemini版本：

·更多思考时间

·获取过往问题的一系列高质量解决方案集

·提供解决IMO问题的通用提示与技巧

这种「训练+知识库+策略」的组合，让Gemini在IMO的舞台上大放异彩。

值得一提的是，接下来，谷歌将向一部分数学家等测试者提供这个版本的Deep Think模型，随后向Google AI Ultra订阅者推出。

解题过程

那就让我们来看看，这次谷歌Gemini Deep Think具体的解题过程吧。

官方报告：https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf

对于第一题这道解析几何题，模型的解法是设n>3是一个给定的整数。

证明思路是将问题简化到n=k且所有直线必须是阳光线的这一特定情况。具体来说，设C(k)表示「P可被k条不同阳光线覆盖」，定义P_0=ø。

然后模型设定了一个引理：在集合L中，所有N_v竖直直线必须是{x=1,2,...,N_v}，所有N_H水平线必须是{y=1,2,...,N_H}，所有N_D对角线必须是形如x+y=s的直线，s的取值范围为n+2−N_D,...,n+1。

然后，模型对这个引理进行了证明。

接下来，模型证明了定理1：当n≥3且0≤k≤n时，若存在一个由n条不同的直线组成的集合，刚好覆盖点集P_n，且其中恰好有k条阳光线，那么充要条件便是命题C(k)为真。

接下来，模型对核心问题C(k)展开了分析：对于哪些k>0，点集P_k可以恰好被k条阳光线覆盖。

最终，模型成功证明了C(k)成立的充要条件是k∈{0,1,3}，由此证明了唯一可能的阳光线数量为：0、1或3条。

对于第二题这道平面几何题，模型把证明过程分成了五步。

步骤1：确定点P是△AMN的旁心。

步骤2：求∠EBF。

步骤3：引入辅助点V及其性质。

步骤4：点V落在外接圆Σ上。

步骤5：垂心H与切线条件。

最终，模型证明了直线VH是圆Σ在点V处的切线，由此证毕。

第三题是一道函数题。

在解题过程中，模型将关键步骤分为三步。

首先，是确定Bonza函数的性质与分类。

第二步和第三步中，模型分别完成了上界证明c≤4，以及下界证明c≥4。

最终结论可得：满足条件的最小实数常数c为c=4。

第四题是一道数论题，前提给出了一个真因数的定义，对于一个正整数N，除了N本身以外的正整数因数，都叫作N的真因数。

数列中，每一个数a_n都是正整数，且都至少有3个真因数，先找出a_n的三个最大的真因数，再把它们相加得到下一项a_{n+1}。

问题是，起始值a_1有哪些数值可以取？

谷歌Gemini Deep Think给出了5个解题步骤，想要确定a_1取值，前提是让a_n+1=S(an) 定义的序列是无限正整数。

步骤1：证明对所有n，a_n都是偶数。

步骤 2：证明对所有n，a_n都能被3整除。

步骤 3：当6∣N时，分析序列的动态行为。

步骤 4：研究序列的演变过程并给出对a_1的限制条件。

步骤 5：对起始值a_1进行全面刻画与分类。

整体过程亮点，在于化繁为简，用不变性和增长率把大范围枚举压缩到独一无二的固定点。

第五题，是一道组合博弈+不等式分析题。

简单来说，题干要求：

·轮到Alice（奇数回合）时，她必须给出一个非负数，使得目前所有数的总和≤ λ×当前回合数；

·轮到Bazza（偶数回合）时，他必须给出一个非负数，使得目前所有数的平方和≤当前回合数。

·谁在自己回合找不到合法数就输；若双方都能一直出数，游戏无胜负。

题目要找出哪些 λ 能保证Alice必胜，哪些 λ 能保证 Bazza必胜？

Gemini Deep Think在解题时假设了2种情况，如下所示：

前者巧妙之处在于，把连续参数问题瞬间离散化：只要在λ <λ_c情形下构造必胜策略，就完成了整个区间的判定。< pan>

而后者关键点是「先蓄力，再一击致命」，具体来说，让Alice把总和一次性抬高，让Bazza下一回合无法去满足平方和条件，于是当场获胜。

最终，Gemini得出如果λ=1√2时，两者都不会赢。只有当λ＞1√2，Alice获胜；当0＜λ＜1√2时，Bazza获胜。

对此，来自Anthropic AI研究员点评道，「乍一看，它们的解法比OpenAI要清晰得多」。

团队介绍

Thang Luong

官博称，Gemini Deep Think整体技术方向由Thang Luong带队，现任Google DeepMind高级主任研究员，曾任Google Brain研究员。

他于2016年获得斯坦福大学计算机科学博士学位，在读博期间开创了深度学习在机器翻译领域的应用先河。

在Google DeepMind工作期间，Thang Luong构建了多个语言（QANet、ELECTRA）和视觉（UDA、NoisyStudent）领域的尖端模型。

2020年，他推出全球最强聊天机器人Meena项目，该项目后续发展为Google LaMDA、Bard及现Gemini系列，也是经典注意力机制「LuongAttention」的发明者。

自2022年起，Thang Luong共同领导Bard多模态功能的开发，并担任能解决IMO级别几何题的AlphaGeometry项目负责人。

所有成员名单如下：

AI+数学未来

谷歌DeepMind长期与数学界保持着合作，但AI为数学做出贡献的潜力才刚刚崭露头角。

通过训练Gemini学会更灵活、更直观地推理，谷歌正逐步构建出能够解决更复杂、更前沿数学问题的AI。

今年，夺下IMO金牌虽然完全基于Gemini自然语言能力，但团队也在AlphaGeometry和AlphaProof等形式化系统方面也取得了持续的进展。

谷歌坚信，那些能够将流畅的自然语言能力与严谨的推理能力（包括形式化语言中的可验证推理）相结合的AI智能体，将成为数学家、科学家、工程师和研究人员不可或缺的工具。

在通往AGI的道路上，AI将推动人类知识的进步。

OpenAI回应了！

其实，谷歌DeepMind早在7月19日周五下午就拿下了金牌，只是在等内部验证流程才未对外公布。

谷歌DeepMind超级推理团队的Thang Luong表示：因为IMO内部有一份官方评分指南，外界根本无法获取。

要知道，OpenAI自评的金牌成绩只是刚刚过35分的线而已，如果有微小的扣分，都会让成绩从金牌跌到银牌。

而且IMO组委会还特地明确要求，希望各个大模型公司在闭幕式一周后再公布成绩，不要抢走孩子们的风头。

但OpenAI的Naom Brown却表示，他们的确尊重了IMO的要求，是等闭幕式之后才发布的。

就在谷歌DeepMind官宣夺金之后，Naom Brown又双叒代表OpenAI发声了，还是连发7推。

他首先肯定了GDM的成就，并指出OpenAI与之并行取得的成功，印证了AI进化的迅速。

不过，在具体测试中，两家的方法各有千秋。

在总结自家模型结果的思考前，Naom Brown澄清了，早在2个月前，IMO组委会曾电邮邀请OpenAI参与基于Lean语言的正式竞赛。

然而，当时OpenAI正忙于自然语言通用推理研究（不受Lean约束），就给婉拒了。

他特别强调了，OpenAI通用模型参赛IMO时，并没有使用任何RAG等工具。

而且，团队提交的证明均由三位外部 IMO 奖牌获得者进行了评分，并且在正确性上达成了完全一致的意见。

接下来，Naom再次重申，「OpenAI是在开幕式结束之后公开的结果」。

昨日澄清的那一套话，再次公开陈述了一遍。

另一位OpenAI研究员Aidan McLaughlin还讥讽GDM，「他们为模型提供上下文，纯属带着小抄进入了考场作弊」。

但现在事实已经摆在眼前——

一边是谷歌经IMO官方认证的成绩，模型即将在未来可用；一边是OpenAI不讲武德提前邀功，模型是未公开版本，以后很可能也不会公开。

这一轮过后，OpenAI急功近利的做法，更加失了民心。

参考资料：

https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

谷歌AlphaEvolve太香了，陶哲轩甚至发了篇论文，启发数学新构造

机器之心Pro 2025-11-06 17:28:11
2 跟贴 2
仅2天！谷歌AI破解十年谜题，锁定救命药人类全失手

新智元 2025-11-08 17:14:18
2 跟贴 2

OpenAI头号叛徒，竟然是自学的AI?

量子位 2025-08-22 16:06:15
1 跟贴 1

谷歌云发布最强自研TPU：十年研发结晶，性能四倍于前代

财联社 2025-11-06 23:50:07
0 跟贴 0
DeepMind让AI当「上帝」，导演一场只有AI演员的「西部世界」

机器之心Pro 2025-07-16 13:55:45
0 跟贴 0

陶哲轩力推AlphaEvolve：多个难题中超越人类最优解

量子位 2025-11-07 17:13:46
6 跟贴 6

上帝视角！DeepMind提前5天锁定Melissa，强度预报不再靠天

新智元 2025-11-07 10:12:09
5 跟贴 5
长视频AI数字人来了！字节×浙大(1)

机器之心Pro 2025-09-04 17:27:37
0 跟贴 0

谷歌把地球搬进GPU！AI成最硬核“星球卫士”，鸟叫都听懂了

新智元 2025-11-06 19:41:34
0 跟贴 0
AI六巨头首次同台！纵论四十年AI风云、泡沫之辩与AGI时间表

DeepTech深科技 2025-11-07 18:28:54
7 跟贴 7
AI六巨头罕见同台！李飞飞激辩LeCun，黄仁勋：你们都错了

新智元 2025-11-08 19:10:18
6 跟贴 6
Ilya、小扎之后，苏莱曼的「超级智能」进入7年倒计时！

新智元 2025-11-07 20:41:49
0 跟贴 0
终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

新智元 2025-11-08 17:13:46
2 跟贴 2
波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
9 跟贴 9
LLM首次达到人类语言专家水平！OpenAI o1拿下拆解句法、识别歧义、推理音律

新智元 2025-11-08 12:34:47
0 跟贴 0
ICCV涌现自动驾驶新范式：统一世界模型VLA，用训练闭环迈向L4

量子位 2025-11-08 12:32:59
0 跟贴 0
以判别式监督学习强化推理LLM，解决难度偏差和熵崩塌难题

机器之心Pro 2025-10-28 11:14:55
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
AI100访谈：「Get笔记」方法论｜量子位智库

量子位 2025-11-08 15:01:19
0 跟贴 0
机器狗被锯腿也能继续走，Skild Brain估值45亿美元

量子位 2025-09-27 17:49:32
0 跟贴 0
史上首次！机器人当上全运会火炬手

量子位 2025-11-07 12:00:29
6 跟贴 6
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
21 跟贴 21
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

DeepTech深科技 2025-11-08 21:19:07
7 跟贴 7
五八智能四足机器人平台Q20A 不止跑跳整活还能维护公共安全

量子位 2025-09-30 10:01:00
0 跟贴 0
李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0
机器人首次踢5v5足球赛，摔跤是战术？我们和参赛队员聊了聊

量子位 2025-08-21 10:48:04
0 跟贴 0
机器人终于有自己的真机评测大考了

量子位 2025-10-15 20:05:44
0 跟贴 0
格斗冠军机器人突然发疯！吓呆研究人员

量子位 2025-07-25 09:10:58
0 跟贴 0
物流业deepseek时刻，中国无人车火爆全球

华商韬略 2025-06-17 10:58:23
0 跟贴 0
从被群嘲到顶级玩家，阿里AI逆袭之路

华商韬略 2025-07-28 17:27:23
0 跟贴 0
机器人叠衣，灵巧手抓万物，超实用机器人组合来了

量子位 2025-07-29 03:31:41
0 跟贴 0
学术圈最强AI工具：6.9亿专业文献，“搜读创编”全程辅助

量子位 2025-09-11 18:42:26
0 跟贴 0
机器狗跳千手观音，波士顿动力达人秀炸场

量子位 2025-06-13 15:55:52
0 跟贴 0
一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0
ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
AI重塑人机交互方式，下一代终端如何变革？

量子位 2025-09-24 20:17:01
0 跟贴 0
四年级奥数，一个数都没有，很多人直接放弃

郎老师趣味数学课堂 2025-11-05 19:02:32
0 跟贴 0
661三年级这种类型的题目孩子最难理解，确实是有难度的

我服子佩 2025-11-07 10:03:30
1 跟贴 1
何小鹏和雷军真正的塑料兄弟

雷科技 2025-06-06 21:23:05
0 跟贴 0

福建舰入列第3天，郑丽文代表国民党，作出一个事关两岸重要承诺

福建舰入列第3天，郑丽文代表国民党，作出一个事关两岸重要承诺

健身狂人

2025-11-09 00:30:18

微信出手：集体下架！

中国基金报

2025-11-08 22:46:52

1994年，89岁石油大亨娶26岁脱衣舞女郎，新婚14个月石油大亨去世

1994年，89岁石油大亨娶26岁脱衣舞女郎，新婚14个月石油大亨去世

百态人间

2025-11-05 05:20:03

开拓者队记：杨瀚森迅速跌出轮换阵容，当初选他的意义何在？

开拓者队记：杨瀚森迅速跌出轮换阵容，当初选他的意义何在？

狼叔评论

2025-11-08 12:58:03

全运会男足：上海U20 3-2新疆U20，刘诚宇、蒯纪闻破门，李新翔绝杀

全运会男足：上海U20 3-2新疆U20，刘诚宇、蒯纪闻破门，李新翔绝杀

懂球帝

2025-11-08 22:25:03

汽水音乐用户量狂飙超1.2亿 QQ音乐、网易云音乐有压力了

汽水音乐用户量狂飙超1.2亿 QQ音乐、网易云音乐有压力了

快科技

2025-11-07 11:22:06

世界杯附加赛即将揭幕！22队争夺6席，意大利与葡萄牙或提前交锋？

世界杯附加赛即将揭幕！22队争夺6席，意大利与葡萄牙或提前交锋？

山河入画屏

2025-11-08 11:30:51

成“老赖”不到72小时，于谦资产被扒底朝天，杨议的话有人信了

成“老赖”不到72小时，于谦资产被扒底朝天，杨议的话有人信了

科学发掘

2025-10-31 14:06:52

全运会赛程日历来了！

北青网-北京青年报

2025-11-08 13:39:05

嫩妇自述：和老公分居后，我每天去健身房练臀，却被私教给盯上了

嫩妇自述：和老公分居后，我每天去健身房练臀，却被私教给盯上了

想养大熊猫

2024-05-08 10:04:15

全运会男篮八强出炉：四川vs北京广东vs天津

全运会男篮八强出炉：四川vs北京广东vs天津

体坛周报

2025-11-08 21:51:11

有个非常不妙的消息，中国可能在新货币战争中遇到麻烦了。

有个非常不妙的消息，中国可能在新货币战争中遇到麻烦了。

流苏晚晴

2025-11-08 17:07:59

恒大幕后黑手曝光：刚被“抄家”的许家印，很可能是只“替罪羊”

恒大幕后黑手曝光：刚被“抄家”的许家印，很可能是只“替罪羊”

史行途

2025-11-01 11:40:29

刚刚证实！TVB老戏骨凌汉去世，曾参演《唐伯虎点秋香》

刚刚证实！TVB老戏骨凌汉去世，曾参演《唐伯虎点秋香》

鲁中晨报

2025-11-08 16:11:02

国米本赛季错失28次绝佳机会，图拉姆、劳塔罗、皮奥合计15次

国米本赛季错失28次绝佳机会，图拉姆、劳塔罗、皮奥合计15次

懂球帝

2025-11-09 00:06:28

Prada别针式胸针门店售价近6000元，网友：比黄金还贵！Prada门店：暂无现货可调货

Prada别针式胸针门店售价近6000元，网友：比黄金还贵！Prada门店：暂无现货可调货

极目新闻

2025-11-08 15:14:29

潜伏在我国高层的四大间谍，被安插在军政两界，导致我国损失惨重

潜伏在我国高层的四大间谍，被安插在军政两界，导致我国损失惨重

阅识

2025-10-28 15:23:15

知道怕了？白应苍被判死刑，吓坏了沈伯洋，美国不搭理，求助无门

知道怕了？白应苍被判死刑，吓坏了沈伯洋，美国不搭理，求助无门

科普100克克

2025-11-08 13:15:20

突然火了！年轻人捡漏倒闭车企“烂尾车”，有人半价买哪吒，有人12万元抄底高合，“开10万公里就回本了”

突然火了！年轻人捡漏倒闭车企“烂尾车”，有人半价买哪吒，有人12万元抄底高合，“开10万公里就回本了”

每日经济新闻

2025-11-08 23:16:08

负1层起火，遇难的16人为什么全部集中在5层？央视披露四川自贡九鼎大楼火灾事故细节——

负1层起火，遇难的16人为什么全部集中在5层？央视披露四川自贡九鼎大楼火灾事故细节——

鲁中晨报

2025-11-07 20:11:05

AI产业主平台领航智能+时代

13819文章数 66238关注度

往期回顾全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油赛事方回应

体育要闻

马刺绞赢火箭，不靠文班亚马？

娱乐要闻

古二再度放料！秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线：28.85 万元

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

健康

亲子

公开课

军事航空

旅游要闻

天坛银杏黄了！最佳观赏期已至，这条银杏大道藏着北京最深的秋

超声探头会加重受伤情况吗？

亲子要闻

亲子健身运动，这样练习，增强感统训练！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

福建舰常驻地为三亚军港

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版