网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌DeepMind最新论文，刚刚登上了Nature！揭秘IMO最强数学模型

2025-11-13 17:16:54　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：艾伦

【新智元导读】DeepMind的AlphaProof在IMO拿到接近金牌的银牌成绩。它结合大模型直觉、强化学习和Lean形式化证明，攻克多道高难题。它虽在速度、泛化和读题上仍有限，但已开启人类数学家与AI协作的新阶段。

每年夏天，来自全球的青年数学天才汇聚一堂，参加被誉为「数学世界杯」的国际数学奥林匹克竞赛（IMO）。

比赛6道题分两天完成，每题满分7分，总分42分，难度极高，往往只有不到1%的参赛者能全对所有题目。

横轴为分数（7分满），纵轴为人数

近年来，IMO也被视为AI领域的终极挑战之一，是测试AI高级数学推理能力的理想舞台。

2024年，谷歌DeepMind团队让一位特殊的「选手」参与了IMO角逐——一个名为AlphaProof的AI系统。

它取得了28分的高分，仅以1分之差无缘金牌，达到了银牌水平。

这是有史以来AI系统首次在IMO这样的顶级赛事中获得相当于奖牌的成绩，标志着机器在数学难题上的攻关能力迈上新台阶。

AlphaProof：数学解题AI高手登场

AlphaProof是DeepMind最新研发的「数学解题AI」系统，专门为证明复杂数学命题而设计。

简单来说，如果把数学题视作需要攻克的「迷宫」，AlphaProof就是一个自学成才的AI解题高手。

不同于我们常见的ChatGPT这类纯粹用自然语言「思考」的模型，AlphaProof走了一条独特的道路：它在计算机可验证的形式化语言中进行推理，从而确保每一步推导都严格正确，不会出现凭空捏造的「灵光一闪」却实则谬误的步骤。

AlphaProof使用了数学领域流行的形式化证明语言Lean来书写证明。

Lean语言示例

Lean的语法接近数学和编程语言的结合体，允许AI输出的每一步推理都被自动检查验证，避免了常规语言模型可能出现的谬误。

AlphaProof给出的答案不是靠人类评审的文字解释，而是一份计算机逐行检验通过的严谨证明。

这种将AI思维「硬化」成机械可核查形式的方式，让AlphaProof在解答再难的题目时也没有半点侥幸成分。

技术秘诀：大模型牵手强化学习

AlphaProof成功的核心秘诀在于将预训练大语言模型的「聪明直觉」和AlphaZero强化学习算法的「勤学苦练」巧妙结合。

语言模型擅长从海量数据中学习人类解题的经验和模式；

而强化学习则让AI通过不断尝试错误，不断改进策略，正如小孩反复练习最终学会骑自行车。

DeepMind团队先利用大模型为AlphaProof打下「学识」基础，然后让它在模拟的数学环境中反复练习，自己发现解题策略。

研究者首先收集了近一百万道数学题（涵盖不同领域和难度），利用谷歌最新的Gemini将这些自然语言描述的题目自动翻译成形式化的Lean代码表述。

这一过程相当于为AlphaProof打造了一个规模空前的题库——团队共获得了约8000万条形式化的数学命题，可以让AI来练习证明。

有了这个「题海」后，AlphaProof先经过监督学习微调，掌握基本的Lean语言证明技巧。

接着，它进入强化学习阶段：像AlphaGo下棋自我对弈一样，AlphaProof在Lean证明环境中与自己切磋。

每当AlphaProof找到一道题的正确证明并通过验证，就用这一成功案例来立即强化自身的模型参数，使它下次能更有效地解决更有难度的新问题。

这种边练边学的训练循环持续进行，AlphaProof在数以百万计的问题证明中不断进步，逐渐掌握高难度问题所需的关键技能。

AlphaProof在搜索证明的时候并非毫无头绪地「暴力穷举」。

它采用了类似于棋类AI中蒙特卡罗树搜索的策略，会智能地将复杂问题拆解成若干子目标各个击破，并灵活调整搜索方向。

在某些情况下，AlphaProof能在看似无限的可能推导中迈出恰到好处的一步，展现出仿佛人类数学家般的「灵光一闪」。

这既归功于大模型提供的直觉指导，也离不开强化学习反复探索带来的全面搜索能力——两者结合，使得AlphaProof比以往的任何AI系统都更善于在复杂的数学迷宫中找到出路。

奥赛夺银：AI解题里程碑

DeepMind的AlphaProof与AlphaGeometry 2联手在2024年IMO的6道竞赛题中解出了4道，获得了28分（满分42分），达到了银牌选手的成绩。

这一得分距离当年金牌线仅差一分（29分），几乎触及金牌门槛。

在解出的题目中，AlphaProof单独解决了其中3题（包括2道代数题和1道数论题），其中就包括了整场比赛最难的第6题——该题在600多名顶尖学生中也只有5人满分解决。

剩余的一道几何题则由专攻几何的AlphaGeometry 2模型完成，而两道组合数学题由于难以形式化和搜索爆炸等原因未能攻克。

最终，这套AI系统拿下4题满分（其余2题为0分），分数正好处于银牌段的顶端。

要知道，在人类选手中也只有不到10%的人能拿到金牌，今年共有58名选手得分不低于29分。

AlphaProof取得的银牌水平成绩，足以比肩一位受过多年训练的国际顶尖高中生天才选手。

这一成果令许多专家感到震撼：著名数学家、菲尔兹奖得主高尔斯评价说，AlphaProof给出的某些巧妙构造「远超出我以为AI目前能够做到的水平」。

AlphaProof在IMO上的表现具有里程碑意义。

这是AI首次在如此高难度的数学竞赛中达到人类奖牌选手的水准，表明AI的数学推理能力实现了重大飞跃。

过去，大模型即便掌握了海量教材和定理，也常常难以完整解决奥赛级别的挑战，更不用说给出严格证明。

而AlphaProof通过形式化证明和强化学习，真正让AI具备了解决开放性数学难题的实力。

它成功证明了IMO中最困难题目的事实也让人看到了希望：或许将来AI有潜力辅助人类攻克悬而未决的数学猜想。

局限与未来

AI数学家的进阶之路

尽管AlphaProof令人眼前一亮，但目前它仍有不少局限。

其一，解题效率是个问题。

人类选手必须在4.5小时内完成3题，而AlphaProof虽然最后找出了3题的解法，却耗费了将近3天时间。

这表明当前AI证明方法在搜索速度和计算资源上还有很大提升空间。

其二，AlphaProof并非万能，它未能解决的两道组合数学题恰恰反映了某些类型的问题对AI而言依然棘手。

这类题目往往涉及高度非结构化的创新思维，超出了AlphaProof主要从训练中「见过」的范畴。

因此，如何让AI拥有更强的通用性和适应性，去应对未曾遇见的新颖难题，是下一步的重要挑战。

其三，目前AlphaProof需要人工先将题目翻译成Lean的形式化表达，它自己并不理解自然语言问题。

这意味着它无法自主读题，也无法像人类数学家那样提出新的问题或判断哪些问题值得研究。

正如伦敦数学科学研究所的何杨辉所指出的，AlphaProof可以作为协助数学家证明的有力工具，但它还不能替代人类去发现和选择研究课题。

何杨辉

面对这些局限，DeepMind团队表示他们将继续探索多种途径来提升AI的数学推理能力。

未来的研发方向之一是让AI摆脱对人工翻译的依赖，直接阅读理解自然语言表述的数学题，并给出形式化证明。

同时，针对不同类别的数学问题（如组合数学或几何），可能需要引入更专业的策略，比如融合符号计算、知识库或分领域训练的模型，从而全面提高AI的解题覆盖面。

还有研究者设想，将来数学家可以与这样的AI证明助手协同工作：

AI快速验证人类猜想和小引理，甚至尝试大胆的思路攻克长期悬而未决的难题；

人类则专注于提出有意义的问题和整体证明构想。

可以预见，随着AlphaProof这类系统的不断完善，我们正迎来人机携手探寻数学前沿的新纪元。

AlphaProof展现出的形式化推理能力对AI安全和可靠性也有启发意义。

它输出的每一步推理都可追溯、验证，这种「严谨求证」的风格或许可用于改进未来的大模型，让它们在回答开放性问题时减少荒诞的臆测。

当AI变得越来越强大，我们更希望它是一个踏实严谨的「数学家」。

经过此次奥赛洗礼，AlphaProof让我们看到了AI在纯粹理性领域逼近人类顶尖水平的曙光。

当然，人类顶尖数学家的创造力和洞察力依然不可替代——至少在提出问题和宏观思路上，AI还有很长的路要走。

但毫无疑问，AI正在成为人类探索数学未知的一双有力之手。

无论人类或AI，攀登真理高峰的道路上，永远需要勇气、耐心与对未知的敬畏。

参考资料：

https://www.nature.com/articles/s41586-025-09833-y

https://www.julian.ac/blog/2025/11/13/alphaproof-paper/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

近十年后谷歌与波士顿动力再牵手，这次要为人形机器人注入灵魂

机器之心Pro 2026-01-07 10:34:56
2 跟贴 2
Gemini正全面出击，谷歌加速构建AI物理世界入口

DeepTech深科技 2026-01-07 17:43:37
0 跟贴 0

英伟达做了个FSD？马斯克淡定回应：我不会为此失眠

华尔街见闻官方 2026-01-06 15:52:09
37 跟贴 37

给AI打个分，结果搞出17亿估值独角兽?

量子位 2026-01-07 17:28:01
0 跟贴 0
存储再度爆发！AI推理与多模态驱动数据爆炸，硬盘和闪存厂商将成最大受益者

华尔街见闻官方 2026-01-07 09:51:18
0 跟贴 0

陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0

荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0

多模态推理新范式！DiffThinker：用扩散模型「画」出推理和答案

机器之心Pro 2026-01-07 16:13:54
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
灵巧手作为独立执行平台，实现工业与家庭场景应用

量子位 2025-12-11 03:38:13
0 跟贴 0
机器人终于有自己的真机评测大考了

量子位 2025-10-15 20:05:44
0 跟贴 0
未来医生摘得全球第一，临床安全有效性评估新基准

量子位 2025-11-19 11:14:03
0 跟贴 0
开门红！北大校友袁新意和潘略分别在Annals of Mathematics在线发表独作文章

TOP大学来了 2026-01-06 15:30:45
0 跟贴 0
韦东奕没想到，2026刚开始，官媒高调官宣王虹喜讯，终于等到这天

揽星河的笔记 2026-01-06 16:18:05
260 跟贴 260
2026伊始，35岁王虹再破极限，令韦东奕刮目相看

二凯训猛犬 2026-01-06 13:44:10
14 跟贴 14
OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

量子位 2026-01-06 13:05:19
27 跟贴 27
丘成桐：拔尖不能变成“掐尖”

中国新闻周刊 2026-01-07 07:31:59
8 跟贴 8
外国老丈人问女婿，是怎么追到他女儿的，女儿的“圆场翻译”简直满分

星沙时报 2026-01-06 10:47:44
58 跟贴 58
波士顿动力与谷歌DeepMind建立AI合作关系

界面新闻 2026-01-06 07:48:51
0 跟贴 0
袁新意获华人数学最高奖发表感言：出生于湖北麻城农村，先后保送黄冈中学和北大

澎湃新闻 2026-01-07 08:44:30
0 跟贴 0
让学术评价回归以人为本

中国社会科学网 2026-01-07 09:05:54
3 跟贴 3
DeepMind负责人：2036 AI意识觉醒？LeCun怒怼：LLM路线全错！

新智元 2025-12-16 16:55:25
0 跟贴 0
机器人进汽车厂，给波士顿动力，装上谷歌最强大脑

机器之心Pro 2026-01-06 19:02:05
0 跟贴 0
比豆包手机还狠！Gemini电视登场CES，谷歌打响客厅革命第一枪

新智元 2026-01-07 17:20:13
0 跟贴 0
下一代谷歌头显，XREAL x Google 定义混合现实头显

爱范儿 2025-12-10 05:12:08
0 跟贴 0
袁新意摘得ICCM数学奖金奖，该奖项被誉为华人数学最高奖项

星视频 2026-01-06 15:18:40
0 跟贴 0
无理数指数幂及其运算性质（微课）

小新的视界 2026-01-04 05:20:53
0 跟贴 0
期末六年级数学必考题：1分钟学明白

郎老师趣味数学课堂 2026-01-04 06:52:37
0 跟贴 0
学霸思维训练：求三角形的面积

公考客栈店小二 2026-01-06 22:08:35
0 跟贴 0
1049一年级，你看到题目是不是觉得很简单，简单的结果是大型翻

我服子佩 2026-01-06 14:04:10
1 跟贴 1
青大附中高中·教学|公式竞逐展锋芒数韵飞扬启新程——第四届数学公式大赛圆满落幕

青岛大学附属中学高中部 2026-01-06 16:11:16
0 跟贴 0
小学数学数阵问题，2分钟教会你

郎老师趣味数学课堂 2026-01-05 07:41:09
0 跟贴 0
1071一年级思维训练第9天:集易错易混淆必考于一身的题目，错误率

我服子佩 2026-01-07 13:10:20
1 跟贴 1
《武汉大学学报（哲学社会科学版）》增设“青年论坛”专栏通告

北大法律信息网 2026-01-07 18:02:38
0 跟贴 0
高通CES祭出“全栈赋能”杀手锏，一块芯片带 8 块屏，重塑软件定义汽车底座

新浪财经 2026-01-07 12:08:24
0 跟贴 0
2025秒变小鸟！数字魔法太酷了

司伟祺 2026-01-07 09:34:56
1 跟贴 1
有人说这是五年级数学题，反正我不信，你们信吗

郎老师趣味数学课堂 2026-01-07 07:23:33
0 跟贴 0

“遇到交警不洒，遇到行人正常洒”，浙江温州一洒水车被指双标；镇政府：由外包的第三方公司管理，会批评教育，累犯将罚款

“遇到交警不洒，遇到行人正常洒”，浙江温州一洒水车被指双标；镇政府：由外包的第三方公司管理，会批评教育，累犯将罚款

扬子晚报

2026-01-07 12:28:44

我退休金一万，如今连饭都吃不上，过得还不如普通老百姓

我退休金一万，如今连饭都吃不上，过得还不如普通老百姓

热心柚子姐姐

2026-01-06 17:20:51

阿森纳女足新援因外表出众引来低俗评论，俱乐部关闭评论区

阿森纳女足新援因外表出众引来低俗评论，俱乐部关闭评论区

懂球帝

2026-01-07 12:56:05

三星会长李在镕结束北京行！谈下大单后笑容停不下来，没买Labubu

三星会长李在镕结束北京行！谈下大单后笑容停不下来，没买Labubu

阿纂看事

2026-01-06 23:07:19

中方是否计划采取行动帮助马杜罗夫妇获释？外交部回应

中方是否计划采取行动帮助马杜罗夫妇获释？外交部回应

新京报政事儿

2026-01-07 15:41:25

男子听信“偏方”将5厘米的水蛭塞进尿道，水蛭顺着尿道向内爬行“安家”膀胱，开始疯狂吸血释放抗凝血物质

男子听信“偏方”将5厘米的水蛭塞进尿道，水蛭顺着尿道向内爬行“安家”膀胱，开始疯狂吸血释放抗凝血物质

观威海

2026-01-07 09:22:09

女子新房装玫红色入户门贴花壁纸，网友直呼“全网独一无二”，当事人：装修花费近100万元，老公每次来都像游客一样

女子新房装玫红色入户门贴花壁纸，网友直呼“全网独一无二”，当事人：装修花费近100万元，老公每次来都像游客一样

极目新闻

2026-01-07 13:36:53

A股：大家要做好心理准备，明天周四，或将迎来更大级别的调整？

A股：大家要做好心理准备，明天周四，或将迎来更大级别的调整？

八斗小先生

2026-01-07 16:05:00

iPhone 13系列开启限时半价电池换新服务仅需399元！

iPhone 13系列开启限时半价电池换新服务仅需399元！

手机中国

2026-01-07 12:13:21

寒风中，南京数十民工为何扒在桥栏上当街吃午饭？

寒风中，南京数十民工为何扒在桥栏上当街吃午饭？

扬子晚报

2026-01-07 12:13:02

迪丽热巴的盛世美颜！

微微热评

2026-01-06 12:24:48

雷总的新公关团队，又把小米给黑惨了

雷总的新公关团队，又把小米给黑惨了

木蹊说

2026-01-07 01:29:59

带着勋章入狱！郑丽文授予蔡正元国民党最高荣誉：永远坚持对的事

带着勋章入狱！郑丽文授予蔡正元国民党最高荣誉：永远坚持对的事

海峡导报社

2026-01-07 15:52:26

中方发布2号公告，断高市光刻胶后路，日媒：当众问中国一个问题

中方发布2号公告，断高市光刻胶后路，日媒：当众问中国一个问题

知法而形

2026-01-07 16:52:08

绑架马杜罗的“原班人马”，全部飞抵欧洲，美军第二战已确定目标

绑架马杜罗的“原班人马”，全部飞抵欧洲，美军第二战已确定目标

依偎在角落

2026-01-07 10:30:44

怎么看詹姆斯41岁？东契奇：我41岁的时候可能都一瘸一拐的了

怎么看詹姆斯41岁？东契奇：我41岁的时候可能都一瘸一拐的了

懂球帝

2026-01-07 15:00:08

美以打击伊朗“铁拳行动”进入倒计时，哈梅内衣欲逃往莫斯科

美以打击伊朗“铁拳行动”进入倒计时，哈梅内衣欲逃往莫斯科

史政先锋

2026-01-06 22:31:31

在自家公司上班有多惨？网友：感同身受，想逃但是还不够能力

在自家公司上班有多惨？网友：感同身受，想逃但是还不够能力

解读热点事件

2025-12-29 00:05:13

中国留学生讲述“日本梅毒扩散”：东京病例下降，但其他城市病例增多，自己接受检测被口头告知结果

中国留学生讲述“日本梅毒扩散”：东京病例下降，但其他城市病例增多，自己接受检测被口头告知结果

极目新闻

2026-01-07 15:34:59

大陆博主曝光“台独”顽固分子沈伯洋住处和工作场所，国台办回应

大陆博主曝光“台独”顽固分子沈伯洋住处和工作场所，国台办回应

界面新闻

2026-01-07 10:59:20

AI产业主平台领航智能+时代

14277文章数 66449关注度

往期回顾全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

委官员:美军原本只强掳马杜罗马杜罗妻子要求一起走

头条要闻

委官员:美军原本只强掳马杜罗马杜罗妻子要求一起走

体育要闻

卖水果、搬砖的小伙，与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排：沈腾确定回归

财经要闻

农大教授科普：无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

亲子

健康

艺术

军事航空

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

亲子要闻

女婴出生长了4条腿，父母在医院哭晕，姑姑的做法感动无数人

这些新疗法，让化疗不再那么痛苦

艺术要闻

David Grossmann：不一样的风景画

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案包括军事选项

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版