网易首页 > 网易号 > 正文 申请入驻

再创历史!DeepMind AI超进化,能拿奥数金牌了

0
分享至


智东西
编译 徐豫
编辑 云鹏

智东西2月8日消息,谷歌旗下顶尖AI研究实验室DeepMind于2月7日发布论文,其开发的一套名为AlphaGeometry2的AI系统,解决国际数学奥林匹克竞赛(IMO)几何问题的表现,超越了金牌得主的平均水平。

AlphaGeometry2是DeepMind去年1月发布的AlphaGeometry系统的升级版。在最近发表的一项研究中,AlphaGeometry2能够解决过去25年IMO中84%的几何问题,而OpenAI的o1推理模型一道题都答不上来。IMO是一个高中生的全球顶尖数学比赛。

据DeepMind团队分享,AlphaGeometry2融合了神经网络理论和符号AI方法,其一方面采用基于神经网络架构搭建的谷歌Gemini系列模型,同时另一方面遵循符号AI的操作规则,以此提升AI系统理解、推理和逻辑证明能力,打开了实现通用AI的新思路。

事实上,今年夏天,DeepMind曾展示了一套结合AlphaGeometry2和AlphaProof的系统,后者是一个用于形式数学推理的AI模型。该系统成功解决了2024年IMO六道题中的四道。


那么,DeepMind为何会关注一个高中数学竞赛?

DeepMind认为,解开复杂几何问题的新方法,可能是开发更强大AI系统的关键,尤其是欧几里得几何问题(Euclidean geometry problems)。

证明数学定理这件事,例如逻辑性地说明为什么勾股定理(Pythagorean Theorem)成立,不仅需要推理能力,还需要从多种可能的解决步骤中作出选择。DeepMind认为,这种解决问题的能力或许能够成为未来通用AI模型的核心组成部分。

此外,除了几何问题,AlphaGeometry2这套方法还可以扩展到其他数学或科学领域,例如可以为复杂的工程计算提供帮助。

一、双引擎核心发力,兼顾逻辑推理和大规模数据处理

AlphaGeometry2内含多个关键组件,其中既有谷歌Gemini系列语言模型,也有一个“符号引擎”。同时,这个符号引擎在Gemini模型的帮助下,可以更好地利用数学规则推导出问题的解决方案,从而为给定的几何定理找到行得通的证明。


▲IMO考试中的一道典型几何问题的示意图。(图源:TechCrunch)

IMO中的几何问题通常需要添加辅助线,例如点、直线或圆等辅助构造,才能解答。AlphaGeometry2的Gemini模型可以预测图中需要添加哪些辅助线,然后符号引擎则基于这些辅助线进行推理。

简单来说,AlphaGeometry2的Gemini模型用一种形式化的数学语言,为符号引擎提供建议,而符号引擎可依据特定的规则,来检查这些步骤是否符合逻辑。

此外,该系统还配备了一种搜索算法,支持并行搜索多个解决方案,并且会把可能有用的发现存储在公共知识库中。

AlphaGeometry2认定一个问题已被解决的条件是,得出的答案能够结合Gemini模型的建议,以及符号引擎的已知原则,完成证明闭环。

另外,由于将几何证明转换成AI可理解格式的过程较为复杂,几何问题的训练数据极为稀缺。为此DeepMind自创了合成数据集,生成了超过3亿个复杂程度不同的定理和证明,用于训练AlphaGeometry2的语言模型。

二、横杀过去25年的竞赛几何题,成绩媲美金牌得主

DeepMind的研究团队选取了过去25年,即2000年至2024年,IMO中的45个几何问题,并将这些问题转换成一组共有50道题的大题组。这45个几何问题中既有线性方程,也有涉及平面几何对象移动的方程。

不过,由于技术原因,目前大题组中的部分题目需要被拆分处理。

根据论文,AlphaGeometry2成功解决了大题组中的42道题目,超过了金牌得主40.9分的平均成绩。

但同时,AlphaGeometry2也存在一定的局限性。

尽管得分可以说表现优异,AlphaGeometry2仍存在一些技术限制。例如,它暂时无法解决点数可变、非线性方程和不等式的问题。

在另一组难度更大一些的IMO题目中,AlphaGeometry2的表现稍逊。DeepMind研究团队挑选了29道曾被数学专家提名,但未曾出现在竞赛中的题目。而AlphaGeometry2仅成功解决了其中的20道。

此外,AlphaGeometry2也并非第一个达到几何金牌水平的AI系统,不过它是第一个在如此大规模题集上取得这一成就的AI系统。

三、符号AI与神经网络学派各执一词,DeepMind提出融合新法

DeepMind这项研究结果,可能会加剧关于AI系统是否应该基于符号操作构建的争论。换句话说,AI系统是应该使用规则来操作代表知识的符号,还是基于更类人脑的神经网络来构建。

AlphaGeometry2采用了混合方法,其Gemini模型使用的是神经网络架构,而符号引擎则是基于规则。

神经网络理论支持者认为,从语音识别到图像生成,智能行为可以通过大量数据和计算资源自发涌现。

而符号系统支持者则认为,符号系统通过定义一组专门用于特定任务的符号操作规则来解决问题,例如在文字处理软件中编辑一行文字。而神经网络则需要通过统计相似数据和大量示例,才学会如何解决任务。

一方面,神经网络是OpenAI o1推理模型等强大的AI系统的基石;另一方面,符号AI的支持者认为,神经网络并非万能的,符号AI或许在高效编码真实世界知识、推理复杂情境和自证解答过程等方面,更具优势。

AlphaGeometry2的成功表明,这两种方法的结合,或许是开发通用AI一条行之有效的路径。

事实上,根据DeepMind的论文,基于神经网络架构的OpenAI o1推理模型,无法解答AlphaGeometry2所解出的任何一道IMO问题。

然而,这种情况也许不会永远持续下去。在论文中,DeepMind团队称,他们发现了初步证据,可以说明AlphaGeometry2的语言模型有时候能够在没有符号引擎辅助的情况下,生成部分解决方案。

“这些结果在一定程度上支撑了,大模型可以在不依赖符号引擎等外部工具的情况下,自给自足的观点,”DeepMind团队在论文中写道,“但在模型速度得到提升,且幻觉问题完全解决之前,这些外部工具对于AI数学应用来说,仍将至关重要。”

结语:AI解难题更聪明了,但简单问题仍会“犯浑”

DeepMind的AI系统AlphaGeometry2成功挑战IMO竞赛金牌得主水平,一方面体现出AI数学、推理、逻辑证明能力的进步,可以与高中生竞争;另一方面也为AI界提供了通向AGI的新路径,在神经网络派和符号AI派的争论中,论证了二者相互配合提效AI推理的可行性。

与此同时,AI从纸上谈兵到实战演练,仍有很长的路要走。如何保证简单任务执行的准确性、拓宽复杂任务处理的可能性、降低开发和部署成本等,都是AI玩家亟待解决的议题。

卡内基梅隆大学计算机科学教授Vince Conitzer告诉TechCrunch,AI系统在这些基准测试上持续取得令人瞩目的进展,但与此同时,语言模型和最近推出的具有推理功能的模型,仍会在一些简单的常识问题上苦苦挣扎,这种对比令人震惊。

他补充道,我并不认为这一切进展都是虚张声势,但它确实表明了,我们仍然不清楚下一个AI系统会有什么样的行为。这也意味着,这些AI系统可能会带来重大影响,因此我们迫切需要深入了解它们,以及它们可能造成的风险。

来源:TechCrunch

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

美司令曾警告:若大陆武力收台,美军将摧毁中方火箭军和核武库!

壹知眠羊
2025-12-21 07:15:19
国家博物馆回应:正在尝试联系崔凤祥,沟通正在推进中

国家博物馆回应:正在尝试联系崔凤祥,沟通正在推进中

社会日日鲜
2026-01-03 07:03:02
美国兵不血刃,彻底打醒了我们!

美国兵不血刃,彻底打醒了我们!

戎评
2025-12-28 21:16:24
不敢相信!中国游客的日本住宿预订量,在春节期间同比增加六成!

不敢相信!中国游客的日本住宿预订量,在春节期间同比增加六成!

扶苏聊历史
2026-01-03 13:39:11
3-1,英超现无敌世界波,54岁埃梅里率队反超曼城升至第2

3-1,英超现无敌世界波,54岁埃梅里率队反超曼城升至第2

侧身凌空斩
2026-01-03 22:28:47
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
脸都打肿了!新华社这回算是直接把那个遮羞布给掀开了。

脸都打肿了!新华社这回算是直接把那个遮羞布给掀开了。

忠于法纪
2025-12-24 21:27:55
都被骗了?马杜罗被抓,副总统接权,委反对派:是谈判达成的退出

都被骗了?马杜罗被抓,副总统接权,委反对派:是谈判达成的退出

时时有聊
2026-01-03 22:29:05
司晓迪涉事男星!檀健次卑微,张一山大方,林更新花心,鹿晗最好

司晓迪涉事男星!檀健次卑微,张一山大方,林更新花心,鹿晗最好

叶公子
2026-01-03 20:32:49
“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

菁妈育儿
2026-01-03 12:44:30
司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

萌神木木
2026-01-03 11:40:35
马杜罗被抓?委军真的那么不堪一击?如果消息为真,其结局如何?

马杜罗被抓?委军真的那么不堪一击?如果消息为真,其结局如何?

闻号说经济
2026-01-03 18:43:53
美军抓捕马杜罗后,美国高官向伊朗、古巴发出明确“战术性警告”

美军抓捕马杜罗后,美国高官向伊朗、古巴发出明确“战术性警告”

桂系007
2026-01-04 02:00:17
紧急驰援!48小时内第5架俄罗斯IL-76降落伊朗,地区局势更趋复杂

紧急驰援!48小时内第5架俄罗斯IL-76降落伊朗,地区局势更趋复杂

军迷战情室
2026-01-03 12:54:03
看见佟丽娅大腿上那两道线条了吗?

看见佟丽娅大腿上那两道线条了吗?

小光侃娱乐
2026-01-03 15:40:02
委内瑞拉首都居民向环球网驻拉美记者介绍空袭情况

委内瑞拉首都居民向环球网驻拉美记者介绍空袭情况

环球网资讯
2026-01-03 18:33:20
张本智和拜鬼,央媒公开点名,释放关键信号!樊振东率先做出反制

张本智和拜鬼,央媒公开点名,释放关键信号!樊振东率先做出反制

十点街球体育
2026-01-04 00:00:03
“美方悍然对一国总统动手,中方深表震惊、强烈谴责”

“美方悍然对一国总统动手,中方深表震惊、强烈谴责”

观察者网
2026-01-03 22:40:37
美国入侵委内瑞拉,给世界的三个教训

美国入侵委内瑞拉,给世界的三个教训

牛弹琴
2026-01-03 20:28:34
美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

新华社
2026-01-03 18:03:06
2026-01-04 03:24:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11001文章数 116935关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

头条要闻

牛弹琴:美国入侵委内瑞拉 给世界带来三个血的教训

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

时尚
游戏
本地
房产
军事航空

好美啊!58岁的她开挂了

猎魂世界:开服后全主C状态及处境分析!不知不觉已经十二位了!

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

军事要闻

特朗普称将干涉伊朗骚乱事件 伊朗政府发声明强烈谴责

无障碍浏览 进入关怀版