网易首页 > 网易号 > 正文 申请入驻

Nature公开谷歌IMO金牌模型技术细节!核心团队仅10人

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌DeepMind的IMO金牌模型,完整技术全公开了!

延续DeepMind的命名传统,这次叫:AlphaProof

依然是Nature刊发的形式,放出了AlphaProof的完整论文,首次详细公开了其背后的技术架构和训练方法。值得一提的是,无师自通的下棋AlphaZero,也在这次论文里被多次提及。



作者Tom Zahavy也趁此机会分享了一些开发过程中的细节:

AlphaProof团队规模并不大。大部分时间里只有大约10个人,临近IMO比赛时才有更多人加入。

真正带来突破的核心团队成员是IMO金牌得主Miklós Horváth。

他想出一个方法可以创建AI正在处理的问题的各种变体,并将它们作为初始状态,让智能体在这些变体上进行训练。



在整整一年里,这只团队还探索了各种研究思路,虽然很多都失败了,但成功的那些都被整合到了AlphaProof系统里,现在全面公开。

把数学证明当游戏来玩

AlphaProof的核心思路其实很直接:把数学证明过程变成一个可以反复训练的游戏。

系统基于Lean定理证明器构建了一个强化学习环境。在这个环境中,每个数学命题就是一个新的游戏关卡,AI需要通过选择合适的策略(tactics)来推进证明。

如果某个策略成功了,就会得到新的子目标;如果所有目标都完成了,就意味着证明完成。



论文揭示,AlphaProof使用了一个30亿参数的编码器-解码器transformer模型作为”大脑”。

这个证明网络不仅要理解当前的证明状态,还要同时输出两个关键信息:

一是建议接下来尝试哪些策略,二是估计完成证明还需要多少步。

这种设计让系统能够更智能地分配计算资源,优先探索最有希望的证明路径。

搜索算法方面,AlphaProof采用了受AlphaZero启发的树搜索,但做了关键改进。

比如引入了AND-OR树结构来处理证明中的多个独立子目标,当一个证明需要同时满足多个条件时,系统会把它们分解成独立的子问题分别攻克。另外还加入了渐进采样机制,让系统在关键路径上能够探索更多样的证明策略。

训练AlphaProof面临的最大挑战是:哪来那么多数学题?

他们首先用约3000亿个token的代码和数学文本对模型进行预训练,让它理解基本的逻辑结构和数学语言。接着用Mathlib库中约30万个人工编写的证明进行微调,让模型学会Lean的语法和证明技巧。

真正的突破来自于自动形式化过程。团队基于Gemini 1.5 Pro开发了一个专门的翻译系统,能够把自然语言的数学问题转换成Lean可以理解的形式语言。通过反复迭代和改进,这个系统最终从约100万道自然语言数学题生成了约8000万道形式化问题,远超所有现有数据集。

主强化学习循环是整个训练的核心。系统会不断尝试证明或反证这些自动生成的命题,成功的证明会被用来更新神经网络。

即使自动形式化的结果不完全准确,只要它是一个有效的形式命题,AlphaProof都能从尝试证明它的过程中学到东西。

整个主训练阶段消耗了约8万TPU天的计算资源。



论文中的核心架构图展示了AlphaProof的两个学习循环是如何协同工作的。

在主强化学习循环中,约100万道非正式数学问题首先经过形式化系统的处理,被翻译成大约8000万道Lean能够理解的形式化问题。证明网络配合树搜索算法在Lean环境中不断尝试,无论是成功找到证明、找到反证,还是超时失败,每一次尝试都会产生经验数据反馈给学习系统。

测试时强化学习循环则展现了一种更加精细的适应机制。

当面对一道特别困难的目标问题时,变体生成器会围绕这道题产生大约40万个相关变体,相当于为一道题专门创建了一个小型数据集。

这些变体包含了各种数学直觉:简化特殊情况、推广到更一般的形式、探索类似的结构等。

系统会启动一个独立的AlphaZero式学习过程,专门在这些变体上训练,逐步积累解决原问题所需的洞察。这个机制可以并行处理多个目标问题,每个问题都有自己的变体课程和专属的学习进程。



IMO赛场上临时突破

AlphaProof在2024年IMO上的表现堪称惊艳,现在背后更多开发细节被公开。

面对IMO级别的难题,仅靠增加搜索时间往往不够。这时候,前面介绍的测试时强化学习(TTRL)就派上了用场,也就是生成大量相关的变体问题(比如简化版、推广版、类比版等),然后专门训练一个”专家”模型来攻克这道题。

以2024年IMO的第一题为例,这道题要求找出所有满足特定整除性质的实数α。AlphaProof生成的变体包括:只考虑有理数的情况、假设α满足更强的性质、证明α必须接近某个整数等等。通过在这些变体上训练,系统逐渐掌握了解决原问题的关键。

在实际比赛中,AlphaProof成功解决了代数和数论的三道题(P1、P2、P6),其中P6是整个比赛最难的题目,609名参赛选手中只有5人完全解出。

每道题的TTRL过程需要2-3天的计算时间,虽然远超人类选手的9小时限制,但考虑到此前最先进的AI系统连最简单的IMO题都很难解决,这个成就已经相当了不起。

Tom Zahavy在回忆中提到,比赛期间他们通过部分证明系统就已经确定的成绩只能拿到铜牌水平,但TTRL还在后台运行。

三天后,当三个完整证明陆续出现时,才终于确定能拿到金牌,团队兴奋地敲锣打鼓庆祝。



数学AI的下一步在哪里

AlphaProof夺金后,谷歌DeepMind已经向科学界开放AlphaProof的能力,研究人员可以通过申请获得使用权限,多位数学家在Nature上分享了他们试用AlphaProof的体验。



罗格斯大学的数学家Alex Kontorovich发现,AlphaProof特别擅长找出反例:

  • 每次它指出我的陈述有问题时,我都能很快找出遗漏了什么假设,调整陈述后再次尝试。这种来回迭代对于得到正确的形式化陈述至关重要。

伊利诺伊大学的Talia Ringer教授让她的两个博士生各提供了一个他们觉得棘手的引理。AlphaProof在一分钟内证明了其中一个,而另一个则被反证了,原来是定义中有个漏洞。

她评价“AlphaProof倾向于找反证的特性可能是它最令人惊讶的有用功能”。

当然,数学家们也测试出了AlphaProof也有局限性。

伦敦帝国理工学院的Kevin Buzzard在尝试用它翻译费马大定理的证明时遇到了困难。他发现当证明中充满了“定制化的定义”时,AlphaProof就不太管用了。

这也印证了AlphaProof团队在论文中的发现:系统在处理Mathlib中已有概念时表现出色,但面对全新定义时就会遇到瓶颈。

Tom Zahavy也分享了自己对于AI在数学界应用的思考:

AlphaProof面临的一大挑战在于它对Lean定理证明器的依赖。Lean虽然功能强大且拥有活跃的社区,但其持续演进为AlphaProof创造了一个不稳定的环境。这意味着在Lean的高级策略更为成熟的数学子领域,AlphaProof的性能往往更佳。

另一个关键问题是“数据有限性 ”。独特的数学题和数量是有限的。为了使强化学习智能体真正具备通用性,它需要能够生成自己的问题。虽然目前在创建IMO级别的问题变体方面取得了一些成功,但这个方向还需要进一步拓展。

Hinton在今年6月份的访谈中指出,AI未来在数学方面很可能会比人类强得多:由于它能够在封闭的数学系统中即时共享知识并生成自己的训练数据。

AlphaProof的方法,正是这一预言的预演。

论文地址:
https://www.nature.com/articles/s41586-025-09833-y

参考链接:
[1]https://www.tomzahavy.com/post/how-we-achieved-an-imo-medal-one-year-before-everyone-else
[2]https://www.nature.com/articles/d41586-025-03585-5

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

好贤观史记
2026-01-16 11:32:24
流弊!汤普森五场46中22!曝买断就联系湖人

流弊!汤普森五场46中22!曝买断就联系湖人

篮球实战宝典
2026-01-16 20:05:06
吓尿了:20年内不许中国投资

吓尿了:20年内不许中国投资

雪中风车
2026-01-16 06:18:48
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
A股:散户听我一句劝,证监会最新发声!下周A股要来更大级别行情?

A股:散户听我一句劝,证监会最新发声!下周A股要来更大级别行情?

股市皆大事
2026-01-16 17:04:09
英达多次公开喊话惹争议,网友:巴图原不原谅,宋丹丹说了算

英达多次公开喊话惹争议,网友:巴图原不原谅,宋丹丹说了算

丁丁鲤史纪
2025-12-31 09:21:53
不装了!彻底与勇士摊牌,连续13场被DNP,再见,库里接班人

不装了!彻底与勇士摊牌,连续13场被DNP,再见,库里接班人

球童无忌
2026-01-16 15:17:24
罗永浩发文谈西贝:除了冷冻西兰花其他基本都不冤

罗永浩发文谈西贝:除了冷冻西兰花其他基本都不冤

界面新闻
2026-01-16 15:41:22
2026年放大招!新华社官宣轰-20、歼-36即将亮相,改写空战规则?

2026年放大招!新华社官宣轰-20、歼-36即将亮相,改写空战规则?

璠爷财事通
2026-01-13 19:00:03
伊朗有救了!中俄联手尽力保下,普京划红线:美霸权踢到铁板了

伊朗有救了!中俄联手尽力保下,普京划红线:美霸权踢到铁板了

闻识
2026-01-15 17:40:09
储量全球第一却遭嫌弃,委内瑞拉石油质量困境

储量全球第一却遭嫌弃,委内瑞拉石油质量困境

开着车去流浪
2026-01-16 08:42:41
西贝公关副总裁宋宣离职,贾国龙称他是好员工,并发文祝福,宋宣最新回应:我爱贾国龙,我永远是西贝人

西贝公关副总裁宋宣离职,贾国龙称他是好员工,并发文祝福,宋宣最新回应:我爱贾国龙,我永远是西贝人

极目新闻
2026-01-16 12:44:26
真敢说!郝帅疑似暗讽王楚钦,网友刷屏:有个好姑父

真敢说!郝帅疑似暗讽王楚钦,网友刷屏:有个好姑父

十点街球体育
2026-01-16 00:00:03
最后通牒已下, 特朗普点名中俄后, 丹麦通知全球:不许中国去投资

最后通牒已下, 特朗普点名中俄后, 丹麦通知全球:不许中国去投资

时时有聊
2026-01-16 07:28:42
聂卫平病逝!他的三任妻子中,王静名气最大,处境却最让人心疼

聂卫平病逝!他的三任妻子中,王静名气最大,处境却最让人心疼

社会日日鲜
2026-01-16 07:09:38
大爆冷!世界第1被淘汰,1:3出局无缘4强,国乒黄友政温瑞博晋级

大爆冷!世界第1被淘汰,1:3出局无缘4强,国乒黄友政温瑞博晋级

国乒二三事
2026-01-16 17:15:05
俄国客商赊购800台挖掘机,全厂高管反对,厂长力排众议出货

俄国客商赊购800台挖掘机,全厂高管反对,厂长力排众议出货

白云故事
2026-01-06 04:30:03
申京:以前我都能打爆切特这种大个内线,但邪门的是今天我球都拿不住

申京:以前我都能打爆切特这种大个内线,但邪门的是今天我球都拿不住

懂球帝
2026-01-16 12:32:46
越南决定赌,宁愿多花300亿美元也不选中国

越南决定赌,宁愿多花300亿美元也不选中国

扶苏聊历史
2025-12-22 15:52:18
美通告全球中方大幅抛售美债,特朗普打算动手,八国央行对美宣战

美通告全球中方大幅抛售美债,特朗普打算动手,八国央行对美宣战

墨兰史书
2026-01-16 15:25:03
2026-01-16 21:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176360关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

温州一家企业火了:春节放假35天 准时返岗再发5000元

头条要闻

温州一家企业火了:春节放假35天 准时返岗再发5000元

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
手机
健康
教育
时尚

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

手机要闻

iPhone 17e再次被确认:60Hz刷新率+A19芯片+灵动岛,上半年登场

血常规3项异常,是身体警报!

教育要闻

博主举报闫学品儿子林某

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

无障碍浏览 进入关怀版