网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌DeepMind最新论文，刚刚登上了Nature！揭秘IMO最强数学模型

2025-11-13 17:16:54　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：艾伦

【新智元导读】DeepMind的AlphaProof在IMO拿到接近金牌的银牌成绩。它结合大模型直觉、强化学习和Lean形式化证明，攻克多道高难题。它虽在速度、泛化和读题上仍有限，但已开启人类数学家与AI协作的新阶段。

每年夏天，来自全球的青年数学天才汇聚一堂，参加被誉为「数学世界杯」的国际数学奥林匹克竞赛（IMO）。

比赛6道题分两天完成，每题满分7分，总分42分，难度极高，往往只有不到1%的参赛者能全对所有题目。

横轴为分数（7分满），纵轴为人数

近年来，IMO也被视为AI领域的终极挑战之一，是测试AI高级数学推理能力的理想舞台。

2024年，谷歌DeepMind团队让一位特殊的「选手」参与了IMO角逐——一个名为AlphaProof的AI系统。

它取得了28分的高分，仅以1分之差无缘金牌，达到了银牌水平。

这是有史以来AI系统首次在IMO这样的顶级赛事中获得相当于奖牌的成绩，标志着机器在数学难题上的攻关能力迈上新台阶。

AlphaProof：数学解题AI高手登场

AlphaProof是DeepMind最新研发的「数学解题AI」系统，专门为证明复杂数学命题而设计。

简单来说，如果把数学题视作需要攻克的「迷宫」，AlphaProof就是一个自学成才的AI解题高手。

不同于我们常见的ChatGPT这类纯粹用自然语言「思考」的模型，AlphaProof走了一条独特的道路：它在计算机可验证的形式化语言中进行推理，从而确保每一步推导都严格正确，不会出现凭空捏造的「灵光一闪」却实则谬误的步骤。

AlphaProof使用了数学领域流行的形式化证明语言Lean来书写证明。

Lean语言示例

Lean的语法接近数学和编程语言的结合体，允许AI输出的每一步推理都被自动检查验证，避免了常规语言模型可能出现的谬误。

AlphaProof给出的答案不是靠人类评审的文字解释，而是一份计算机逐行检验通过的严谨证明。

这种将AI思维「硬化」成机械可核查形式的方式，让AlphaProof在解答再难的题目时也没有半点侥幸成分。

技术秘诀：大模型牵手强化学习

AlphaProof成功的核心秘诀在于将预训练大语言模型的「聪明直觉」和AlphaZero强化学习算法的「勤学苦练」巧妙结合。

语言模型擅长从海量数据中学习人类解题的经验和模式；

而强化学习则让AI通过不断尝试错误，不断改进策略，正如小孩反复练习最终学会骑自行车。

DeepMind团队先利用大模型为AlphaProof打下「学识」基础，然后让它在模拟的数学环境中反复练习，自己发现解题策略。

研究者首先收集了近一百万道数学题（涵盖不同领域和难度），利用谷歌最新的Gemini将这些自然语言描述的题目自动翻译成形式化的Lean代码表述。

这一过程相当于为AlphaProof打造了一个规模空前的题库——团队共获得了约8000万条形式化的数学命题，可以让AI来练习证明。

有了这个「题海」后，AlphaProof先经过监督学习微调，掌握基本的Lean语言证明技巧。

接着，它进入强化学习阶段：像AlphaGo下棋自我对弈一样，AlphaProof在Lean证明环境中与自己切磋。

每当AlphaProof找到一道题的正确证明并通过验证，就用这一成功案例来立即强化自身的模型参数，使它下次能更有效地解决更有难度的新问题。

这种边练边学的训练循环持续进行，AlphaProof在数以百万计的问题证明中不断进步，逐渐掌握高难度问题所需的关键技能。

AlphaProof在搜索证明的时候并非毫无头绪地「暴力穷举」。

它采用了类似于棋类AI中蒙特卡罗树搜索的策略，会智能地将复杂问题拆解成若干子目标各个击破，并灵活调整搜索方向。

在某些情况下，AlphaProof能在看似无限的可能推导中迈出恰到好处的一步，展现出仿佛人类数学家般的「灵光一闪」。

这既归功于大模型提供的直觉指导，也离不开强化学习反复探索带来的全面搜索能力——两者结合，使得AlphaProof比以往的任何AI系统都更善于在复杂的数学迷宫中找到出路。

奥赛夺银：AI解题里程碑

DeepMind的AlphaProof与AlphaGeometry 2联手在2024年IMO的6道竞赛题中解出了4道，获得了28分（满分42分），达到了银牌选手的成绩。

这一得分距离当年金牌线仅差一分（29分），几乎触及金牌门槛。

在解出的题目中，AlphaProof单独解决了其中3题（包括2道代数题和1道数论题），其中就包括了整场比赛最难的第6题——该题在600多名顶尖学生中也只有5人满分解决。

剩余的一道几何题则由专攻几何的AlphaGeometry 2模型完成，而两道组合数学题由于难以形式化和搜索爆炸等原因未能攻克。

最终，这套AI系统拿下4题满分（其余2题为0分），分数正好处于银牌段的顶端。

要知道，在人类选手中也只有不到10%的人能拿到金牌，今年共有58名选手得分不低于29分。

AlphaProof取得的银牌水平成绩，足以比肩一位受过多年训练的国际顶尖高中生天才选手。

这一成果令许多专家感到震撼：著名数学家、菲尔兹奖得主高尔斯评价说，AlphaProof给出的某些巧妙构造「远超出我以为AI目前能够做到的水平」。

AlphaProof在IMO上的表现具有里程碑意义。

这是AI首次在如此高难度的数学竞赛中达到人类奖牌选手的水准，表明AI的数学推理能力实现了重大飞跃。

过去，大模型即便掌握了海量教材和定理，也常常难以完整解决奥赛级别的挑战，更不用说给出严格证明。

而AlphaProof通过形式化证明和强化学习，真正让AI具备了解决开放性数学难题的实力。

它成功证明了IMO中最困难题目的事实也让人看到了希望：或许将来AI有潜力辅助人类攻克悬而未决的数学猜想。

局限与未来

AI数学家的进阶之路

尽管AlphaProof令人眼前一亮，但目前它仍有不少局限。

其一，解题效率是个问题。

人类选手必须在4.5小时内完成3题，而AlphaProof虽然最后找出了3题的解法，却耗费了将近3天时间。

这表明当前AI证明方法在搜索速度和计算资源上还有很大提升空间。

其二，AlphaProof并非万能，它未能解决的两道组合数学题恰恰反映了某些类型的问题对AI而言依然棘手。

这类题目往往涉及高度非结构化的创新思维，超出了AlphaProof主要从训练中「见过」的范畴。

因此，如何让AI拥有更强的通用性和适应性，去应对未曾遇见的新颖难题，是下一步的重要挑战。

其三，目前AlphaProof需要人工先将题目翻译成Lean的形式化表达，它自己并不理解自然语言问题。

这意味着它无法自主读题，也无法像人类数学家那样提出新的问题或判断哪些问题值得研究。

正如伦敦数学科学研究所的何杨辉所指出的，AlphaProof可以作为协助数学家证明的有力工具，但它还不能替代人类去发现和选择研究课题。

何杨辉

面对这些局限，DeepMind团队表示他们将继续探索多种途径来提升AI的数学推理能力。

未来的研发方向之一是让AI摆脱对人工翻译的依赖，直接阅读理解自然语言表述的数学题，并给出形式化证明。

同时，针对不同类别的数学问题（如组合数学或几何），可能需要引入更专业的策略，比如融合符号计算、知识库或分领域训练的模型，从而全面提高AI的解题覆盖面。

还有研究者设想，将来数学家可以与这样的AI证明助手协同工作：

AI快速验证人类猜想和小引理，甚至尝试大胆的思路攻克长期悬而未决的难题；

人类则专注于提出有意义的问题和整体证明构想。

可以预见，随着AlphaProof这类系统的不断完善，我们正迎来人机携手探寻数学前沿的新纪元。

AlphaProof展现出的形式化推理能力对AI安全和可靠性也有启发意义。

它输出的每一步推理都可追溯、验证，这种「严谨求证」的风格或许可用于改进未来的大模型，让它们在回答开放性问题时减少荒诞的臆测。

当AI变得越来越强大，我们更希望它是一个踏实严谨的「数学家」。

经过此次奥赛洗礼，AlphaProof让我们看到了AI在纯粹理性领域逼近人类顶尖水平的曙光。

当然，人类顶尖数学家的创造力和洞察力依然不可替代——至少在提出问题和宏观思路上，AI还有很长的路要走。

但毫无疑问，AI正在成为人类探索数学未知的一双有力之手。

无论人类或AI，攀登真理高峰的道路上，永远需要勇气、耐心与对未知的敬畏。

参考资料：

https://www.nature.com/articles/s41586-025-09833-y

https://www.julian.ac/blog/2025/11/13/alphaproof-paper/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

拿下奥数银牌的Google AlphaProof，首次公开技术细节

DeepTech深科技 2025-11-13 21:43:37
0 跟贴 0
ICLR 2026出分，审稿员怒喷「精神病」！DeepMind研究员教你绝地求生

新智元 2025-11-13 19:12:49
0 跟贴 0

安卓之父重返机器人赛道：这次，他要在东京造真正的Android

DeepTech深科技 2025-11-13 21:33:55
0 跟贴 0

Nature公开谷歌IMO金牌模型技术细节！核心团队仅10人

量子位 2025-11-13 15:51:32
0 跟贴 0
OpenAI头号叛徒，竟然是自学的AI?

量子位 2025-08-22 16:06:15
1 跟贴 1

DeepMind让AI当「上帝」，导演一场只有AI演员的「西部世界」

机器之心Pro 2025-07-16 13:55:45
0 跟贴 0

百度、OpenAI双双发力高智能AI！先来实测一波原生全模态文心5.0

机器之心Pro 2025-11-13 17:01:40
0 跟贴 0
巨头倾轧之下，小而美的AI Lab成为硅谷风投新宠

DeepTech深科技 2025-11-13 21:38:09
0 跟贴 0

月之暗面“内涵”奥特曼：钱不知道怎么烧的

财联社 2025-11-13 00:30:06
39 跟贴 39
长视频AI数字人来了！字节×浙大(1)

机器之心Pro 2025-09-04 17:27:37
0 跟贴 0
掀起“生产力革命”，百度用AI重塑普通人日常

财天COVER 2025-11-13 18:28:41
0 跟贴 0
波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
11 跟贴 11
一句「你还好吗」值40亿？斯坦福博士出走xAI，押注AGI共情力

新智元 2025-11-13 19:12:37
0 跟贴 0
B站UP主一人创作AI摇滚孙悟空，黑神话制作人冯骥安利

量子位 2025-11-12 15:13:30
0 跟贴 0
机器狗被锯腿也能继续走，Skild Brain估值45亿美元

量子位 2025-09-27 17:49:32
0 跟贴 0
李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0
“AI4S”，对青年科学家意味着什么？

钛媒体APP 2025-11-13 10:49:08
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
五八智能四足机器人平台Q20A 不止跑跳整活还能维护公共安全

量子位 2025-09-30 10:01:00
0 跟贴 0
李飞飞3D世界模型免费开放！实测一键生成逼真《疯狂动物城》

智东西 2025-11-13 20:41:09
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
机器人首次踢5v5足球赛，摔跤是战术？我们和参赛队员聊了聊

量子位 2025-08-21 10:48:04
0 跟贴 0
机器人终于有自己的真机评测大考了

量子位 2025-10-15 20:05:44
0 跟贴 0
格斗冠军机器人突然发疯！吓呆研究人员

量子位 2025-07-25 09:10:58
0 跟贴 0
物流业deepseek时刻，中国无人车火爆全球

华商韬略 2025-06-17 10:58:23
0 跟贴 0
从被群嘲到顶级玩家，阿里AI逆袭之路

华商韬略 2025-07-28 17:27:23
0 跟贴 0
机器人叠衣，灵巧手抓万物，超实用机器人组合来了

量子位 2025-07-29 03:31:41
0 跟贴 0
学术圈最强AI工具：6.9亿专业文献，“搜读创编”全程辅助

量子位 2025-09-11 18:42:26
0 跟贴 0
机器狗跳千手观音，波士顿动力达人秀炸场

量子位 2025-06-13 15:55:52
0 跟贴 0
一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0
ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
AI重塑人机交互方式，下一代终端如何变革？

量子位 2025-09-24 20:17:01
0 跟贴 0
高中没毕业直接读博，17岁少女推翻40年数学猜想后的下一步

量子位 2025-08-08 15:39:19
45 跟贴 45
谷歌27亿买来个“大麻烦”，沙泽尔发言触碰公司红线

量子位 2025-11-12 08:48:35
0 跟贴 0
丘成桐《人民日报》发文：回归数学本真，培养顶尖人才

返朴 2025-11-13 10:51:20
95 跟贴 95
高中数学专题利用基本不等式求最值的类型与方法总结

唐老师小课堂 2025-11-13 13:19:23
0 跟贴 0
70岁“扫地僧”惊艳登场，公式助力千万梦想！

城市乡村 2025-11-09 11:38:18
0 跟贴 0
有谁能够帮我翻译翻译？

多面拳王洪宏星 2025-11-09 06:20:37
88 跟贴 88
那个时候谷歌翻译还很蹩脚

大力哥影视局 2025-11-12 10:04:31
1 跟贴 1

确认了！郇斯楠重磅加盟！预测NBA首轮第12号秀

确认了！郇斯楠重磅加盟！预测NBA首轮第12号秀

篮球实战宝典

2025-11-13 17:31:19

ESPN：上海海港已得知奥斯卡心脏问题，愿意为其提供治疗帮助

ESPN：上海海港已得知奥斯卡心脏问题，愿意为其提供治疗帮助

懂球帝

2025-11-13 11:12:07

全运会乒乓球：决赛对阵出炉！蒯曼4:1进决赛，与刘诗雯争夺冠军

全运会乒乓球：决赛对阵出炉！蒯曼4:1进决赛，与刘诗雯争夺冠军

国乒二三事

2025-11-13 18:54:26

李亚鹏做梦也没想到，心中这口恶气让向太给出了，窦靖童一语成谶

李亚鹏做梦也没想到，心中这口恶气让向太给出了，窦靖童一语成谶

悦君兮君不知

2025-11-12 22:37:54

破产后，王中磊搬新家还住别墅，院子稀稀拉拉，老婆叹回不到以前

破产后，王中磊搬新家还住别墅，院子稀稀拉拉，老婆叹回不到以前

妙知

2025-11-13 17:13:34

认真刷完曾医生和祖院长的视频，谁看了不说一句窒息？

认真刷完曾医生和祖院长的视频，谁看了不说一句窒息？

诗意世界

2025-11-10 18:51:56

章泽天和朱珠同框，才发现女人到中年，幸不幸福都写在脸上

章泽天和朱珠同框，才发现女人到中年，幸不幸福都写在脸上

娱乐圈笔娱君

2025-11-13 16:07:46

环京房子，遍地白菜价，最低几万块一套

环京房子，遍地白菜价，最低几万块一套

石辰搞笑日常

2025-11-13 14:59:43

世界最严重的工程错误，耗费巨资成烂账，中国占俩，让央媒都愤怒

世界最严重的工程错误，耗费巨资成烂账，中国占俩，让央媒都愤怒

娱乐圈见解说

2025-11-12 15:07:01

副院长与门诊副主任不雅照，背后的警示？

副院长与门诊副主任不雅照，背后的警示？

小小一米月儿

2025-11-08 08:57:20

全运会女足神剧情？点球大战双方8轮罚丢9球！湖北1天内双杀广东

全运会女足神剧情？点球大战双方8轮罚丢9球！湖北1天内双杀广东

我爱英超

2025-11-13 22:20:07

当年“五星红旗”仅得5票，而三号作品得了342票，为何选了前者

当年“五星红旗”仅得5票，而三号作品得了342票，为何选了前者

浩渺青史

2025-11-12 18:34:03

残忍的基因选择：父母如果有这9种疾病，后代的基因大概率也会有

残忍的基因选择：父母如果有这9种疾病，后代的基因大概率也会有

诗意世界

2025-11-12 21:56:31

国台办表态，积极探索两制台湾方案，吕秀莲称，我们宁愿一个中华

国台办表态，积极探索两制台湾方案，吕秀莲称，我们宁愿一个中华

科普100克克

2025-11-13 12:30:12

预计补偿13万/㎡！上海又有小区，要拆了…

预计补偿13万/㎡！上海又有小区，要拆了…

新浪财经

2025-11-13 20:29:12

荷方代表是否已来华磋商安世半导体问题？商务部回应

荷方代表是否已来华磋商安世半导体问题？商务部回应

财联社

2025-11-13 15:33:05

“3女带4孩续面”案将于下月开庭，面馆老板称“不接受调解，需当事人还原真相”，顾客马女士回应

“3女带4孩续面”案将于下月开庭，面馆老板称“不接受调解，需当事人还原真相”，顾客马女士回应

极目新闻

2025-11-13 10:20:58

10月飞度销量仅3台，最懂车的人还剩4个

10月飞度销量仅3台，最懂车的人还剩4个

大象新闻

2025-11-13 10:42:05

你敢扣，我早有后手！法国海关戴高乐机场扣二十万从中国寄来包裹

你敢扣，我早有后手！法国海关戴高乐机场扣二十万从中国寄来包裹

南权先生

2025-11-13 15:56:26

失业的负债的扎堆入局，网约车快成“难民营”了……

失业的负债的扎堆入局，网约车快成“难民营”了……

柴狗夫斯基

2025-11-11 10:25:06

AI产业主平台领航智能+时代

13860文章数 66246关注度

往期回顾全部

科技要闻

月产能突破百万片，中芯国际Q3净利增43.1%

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表警方介入

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表警方介入

体育要闻

跟豪门传了十年绯闻，他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭？

财经要闻

源峰25亿赌局！汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能欧拉5预售价10.98万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房产

健康

艺术

军事航空

家居要闻

莫奈时间重构先锋概念

房产要闻

8200元/㎡！海口宝龙城，彻底杀疯了！

血液科专家揭秘白血病七大误区

艺术要闻

黄君璧：仿古山水册

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版