网易首页 > 网易号 > 正文 申请入驻

刚刚,DeepMind再登Nature:AlphaProof首夺国际数学奥林匹克银牌

0
分享至


今日,首个达到国际数学奥林匹克竞赛(IMO)银牌水平的人工智能(AI)模型——AlphaProof,登上了权威科学期刊 Nature


论文链接:

https://www.nature.com/articles/s41586-025-09833-y

去年,Google DeepMind 凭借 AlphaProof 这一奥赛级人工智能模型,引发了学界轰动,被业内比喻为“登月”时刻

据论文描述,AlphaProof 这一成果证明了“自动化系统已具备攻克传统认为无法解决的数学难题的能力”,不仅是技术层面的里程碑,也为“可验证的机器推理”提供了可行路径。


新闻与观点文章链接:

https://www.nature.com/articles/d41586-025-03585-5

在同期发表的新闻与观点文章中,伊利诺伊大学厄巴纳-香槟分校助理教授 Talia Ringer 表示:

AlphaProof 是她所用过的第一款“真正实用的 AI 工具”,拥有着“高度可靠”的证明质量,每一步的推理都能获得来自证明辅助工具的即时反馈,从而避免了自然语言推理中常见的模糊与错误,这一点是自然语言模型所不具备的。

“尽管仍存在局限性......但可以肯定的是,这个领域正在发生深刻变革,AlphaProof 或许正是未来趋势的先行者。”

AlphaProof:首次实现奥数级形式化推理

训练能够在复杂、开放环境中进行有效推理并找到解决方案的智能体(Agent),是人工智能研究面临的关键挑战之一。

数学,尤其是奥数题目,要求创造性思维和多步推理能力,因此被视为衡量高级智能体能力的标准化评估场景

在这项工作中,研究团队延续了先前在 AlphaZero 等系统中的思路:通过强化学习让智能体在规则明确的环境中进行自我博弈与改进;不同的是,这一次的“棋盘”不再来自围棋或国际象棋,而是数学定理本身。

在具体实现上,AlphaProof 将数学定理证明过程转化为一个强化学习任务。在 Lean 定理证明器环境中,每一次证明过程都会被定义为状态、动作与奖励,通过不断尝试与反馈,学习如何将假设转化为结论,逐步形成稳定的推理策略。


图|AlphaProof 核心推理组件

AlphaProof 的训练过程分为多个阶段。首先,模型在约 3000 亿 token 的数学与代码语料上进行预训练,以学习符号逻辑、语法和基础的数学语言表达结构。随后,研究者利用约 30 万条 Lean tactic 证明数据对模型进行监督微调,使其能够理解 Lean 的形式化语法与命令结构。

为了构建大规模训练数据,他们开发了基于 Gemini 模型的自动形式化系统,将自然语言题目转化为 Lean 的逻辑表达。该系统自动生成了约8000 万个形式化数学问题,涵盖代数、数论、几何与组合数学等多个领域,成为 AlphaProof 强化学习的核心训练素材。

在主训练阶段,AlphaProof 系统在生成的问题上进行自我博弈式学习:不断尝试证明、验证结果、更新策略,并通过 Lean 核心验证结果的正确性,形成强化学习循环——每当系统找到正确证明时,就会获得正向奖励;若证明失败,则回溯并尝试新的路径,从而逐步掌握复杂的推理模式。研究团队称,这一过程累计消耗了约 8 万 TPU 天的计算资源。

在推理阶段,研究团队提出了“测试时强化学习”(TTRL)机制,当AlphaProof 遇到难度较高或从未见过的题目时,会围绕目标问题临时生成数千个结构相似的变体,在这些变体上进行短期自我强化学习,然后将更新后的策略应用回原题求解。

这种“临场学习”的方法显著增强了模型的泛化与解决新题的能力:实验结果显示,TTRL 让系统的解题率在多项基准上提升了约10%–15%


图|AlphaProof 学习与自适应流程

从结果上看,AlphaProof 在多个数学推理基准测试上展现出了领先的性能。在 miniF2F、PutnamBench、formal-IMO 等形式化数学基准测试上的结果,均证明了 AlphaProof 在定理证明成功率和搜索效率方面达到了 SOTA 水平。


图|AlphaProof 在多个形式化数学基准测试的表现

在 2024 年的国际数学奥林匹克 IMO 模拟测试中,AlphaProof 的表现尤其令人瞩目——成功独立证明三道非几何题(P1、P2、P6),其中包括整场最难的题目 P6


图|AlphaProof 完整解答 IMO 2024 数学竞赛第一题的证明过程

与此同时,Google DeepMind 的另一个系统 AlphaGeometry 2 则负责解决几何题。两者合计得到 28 分(满分 42),相当于人类参赛者的银牌水平


论文指出,这是人工智能首次在国际数学奥林匹克上达到奖牌水平,与先前只能解决中学或大学低年级题目的系统相比,AlphaProof 的表现“展示了基于经验学习的形式化系统在复杂推理领域的潜力”

迈向可验证科学智能

在论文的讨论章节,研究团队强调,AlphaProof 的核心贡献在于证明了强化学习可以与形式化逻辑系统结合,从而实现高水平的可验证数学推理

与基于自然语言模型的推理不同,AlphaProof 的每一步逻辑均通过 Lean 的验证器审查,这种“形式化可验证”的方法,为人工智能在科学推理和理论研究中的应用奠定了重要基础。

研究团队也坦言,AlphaProof 也同样存在一些局限,包括:训练与推理的计算成本高;推理速度慢,TTRL 阶段常需数天计算时间;仍难以处理开放性、创造性极强的数学问题。

尽管如此,研究团队认为,这一成果展示了人工智能系统向更高层次推理能力迈进的可行路径。

在未来工作中,他们将重点优化模型效率、降低算力需求,并进一步探索形式化学习在数学与其他科学领域中的应用

此外,他们还计划开发交互式工具,使研究人员能够直接与系统协作,让人工智能成为“科学探索的合作者”

整理:江江

如需转载或投稿,请直接在本文章评论区内留言

速来拼好模,邀你一起薅羊毛!

智谱 GLM Coding Plan,

无缝支持 Claude Code 等 10+ 主流编程工具,

立即开拼,享限时惊喜价!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄金涨不算啥!2026这5样必涨,关系全家钱包,早看早省钱

黄金涨不算啥!2026这5样必涨,关系全家钱包,早看早省钱

现代小青青慕慕
2026-01-30 06:28:19
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

一级军士长王忠心简历,他享受什么待遇?退休后婉拒百万年薪

混沌录
2026-01-27 22:33:05
演员薛佳凝称2013年开始投资黄金,当时买了两公斤

演员薛佳凝称2013年开始投资黄金,当时买了两公斤

红星新闻
2026-01-29 11:29:36
赵露思搭上天龙人!张雨绮得罪杨天真!

赵露思搭上天龙人!张雨绮得罪杨天真!

八卦疯叔
2026-01-30 10:00:03
医生调侃:平时说爱国,进医院就要进口药

医生调侃:平时说爱国,进医院就要进口药

映射生活的身影
2026-01-26 14:47:32
68岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

68岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

小徐讲八卦
2026-01-30 11:33:42
我发现轮流养老,就算子女孝顺,协商的再好,最后都会进行不下去

我发现轮流养老,就算子女孝顺,协商的再好,最后都会进行不下去

小马达情感故事
2026-01-29 12:05:03
高三学生怀疑班主任是间谍,举报国安后被追杀,最后被特招进大学

高三学生怀疑班主任是间谍,举报国安后被追杀,最后被特招进大学

叶天辰故事会
2026-01-30 08:20:03
伊朗得到中国声援,特朗普当即调转枪口:对华加关税,马上执行!

伊朗得到中国声援,特朗普当即调转枪口:对华加关税,马上执行!

头条爆料007
2026-01-14 08:27:40
65岁退休阿姨倾诉:和3个大爷同居后,我才知道他们的真正意图

65岁退休阿姨倾诉:和3个大爷同居后,我才知道他们的真正意图

热心柚子姐姐
2026-01-06 17:19:04
特朗普发出最后通牒,不料伊朗摊牌:都别想活,以色列第一个倒霉

特朗普发出最后通牒,不料伊朗摊牌:都别想活,以色列第一个倒霉

伴史缘
2026-01-30 11:17:58
澳网男单半决赛:阿尔卡拉斯大战兹维列夫,头号种子冲决赛

澳网男单半决赛:阿尔卡拉斯大战兹维列夫,头号种子冲决赛

小僫搞笑解说
2026-01-30 12:36:09
金晨肇事逃逸后续:当地村民发声:撞了一面墙,车内有东西掉下来

金晨肇事逃逸后续:当地村民发声:撞了一面墙,车内有东西掉下来

观察鉴娱
2026-01-30 09:04:38
官方:日本U23国脚小仓幸成内定J联赛冈山队;踢中国他曾双响

官方:日本U23国脚小仓幸成内定J联赛冈山队;踢中国他曾双响

懂球帝
2026-01-30 11:00:14
央视曝光大量“毒洗发水”!多家品牌检出致癌物,速查洗漱台停用

央视曝光大量“毒洗发水”!多家品牌检出致癌物,速查洗漱台停用

古事寻踪记
2026-01-30 07:09:48
新C9联盟形成:北航、北理工强势闯入,新C9是怎样的“全面强大”

新C9联盟形成:北航、北理工强势闯入,新C9是怎样的“全面强大”

骅骏老师张
2026-01-29 09:15:50
金价涨上天,金店死一片:一场“金融狂欢”对“实体生意”的猎杀

金价涨上天,金店死一片:一场“金融狂欢”对“实体生意”的猎杀

别人都叫我阿腈
2026-01-29 17:44:07
曹轶欧回忆:1933年,康生亲手用斧子劈死了顾顺章的家人

曹轶欧回忆:1933年,康生亲手用斧子劈死了顾顺章的家人

文史季季红
2026-01-23 13:00:02
还八百就八百,你可知八百精兵意味着什么?

还八百就八百,你可知八百精兵意味着什么?

小豫讲故事
2026-01-28 06:00:07
2026-01-30 13:27:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

英国、法国、加拿大、日本等11国联合发声:强烈谴责

头条要闻

英国、法国、加拿大、日本等11国联合发声:强烈谴责

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

教育
旅游
艺术
公开课
军事航空

教育要闻

湖南科技大学就业好不好?成功创业者频出,以创业有效带动就业!

旅游要闻

福建三明要做上海后花园?几年前接待上海游客不足15万人次,去年已破百万

艺术要闻

风景画选刊 | 中国油画学会三十年艺术展

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方被指支持俄生产武器 外交部回应

无障碍浏览 进入关怀版