网易首页 > 网易号 > 正文 申请入驻

再创历史!DeepMind AI超进化,能拿奥数金牌了

0
分享至


智东西
编译 徐豫
编辑 云鹏

智东西2月8日消息,谷歌旗下顶尖AI研究实验室DeepMind于2月7日发布论文,其开发的一套名为AlphaGeometry2的AI系统,解决国际数学奥林匹克竞赛(IMO)几何问题的表现,超越了金牌得主的平均水平。

AlphaGeometry2是DeepMind去年1月发布的AlphaGeometry系统的升级版。在最近发表的一项研究中,AlphaGeometry2能够解决过去25年IMO中84%的几何问题,而OpenAI的o1推理模型一道题都答不上来。IMO是一个高中生的全球顶尖数学比赛。

据DeepMind团队分享,AlphaGeometry2融合了神经网络理论和符号AI方法,其一方面采用基于神经网络架构搭建的谷歌Gemini系列模型,同时另一方面遵循符号AI的操作规则,以此提升AI系统理解、推理和逻辑证明能力,打开了实现通用AI的新思路。

事实上,今年夏天,DeepMind曾展示了一套结合AlphaGeometry2和AlphaProof的系统,后者是一个用于形式数学推理的AI模型。该系统成功解决了2024年IMO六道题中的四道。


那么,DeepMind为何会关注一个高中数学竞赛?

DeepMind认为,解开复杂几何问题的新方法,可能是开发更强大AI系统的关键,尤其是欧几里得几何问题(Euclidean geometry problems)。

证明数学定理这件事,例如逻辑性地说明为什么勾股定理(Pythagorean Theorem)成立,不仅需要推理能力,还需要从多种可能的解决步骤中作出选择。DeepMind认为,这种解决问题的能力或许能够成为未来通用AI模型的核心组成部分。

此外,除了几何问题,AlphaGeometry2这套方法还可以扩展到其他数学或科学领域,例如可以为复杂的工程计算提供帮助。

一、双引擎核心发力,兼顾逻辑推理和大规模数据处理

AlphaGeometry2内含多个关键组件,其中既有谷歌Gemini系列语言模型,也有一个“符号引擎”。同时,这个符号引擎在Gemini模型的帮助下,可以更好地利用数学规则推导出问题的解决方案,从而为给定的几何定理找到行得通的证明。


▲IMO考试中的一道典型几何问题的示意图。(图源:TechCrunch)

IMO中的几何问题通常需要添加辅助线,例如点、直线或圆等辅助构造,才能解答。AlphaGeometry2的Gemini模型可以预测图中需要添加哪些辅助线,然后符号引擎则基于这些辅助线进行推理。

简单来说,AlphaGeometry2的Gemini模型用一种形式化的数学语言,为符号引擎提供建议,而符号引擎可依据特定的规则,来检查这些步骤是否符合逻辑。

此外,该系统还配备了一种搜索算法,支持并行搜索多个解决方案,并且会把可能有用的发现存储在公共知识库中。

AlphaGeometry2认定一个问题已被解决的条件是,得出的答案能够结合Gemini模型的建议,以及符号引擎的已知原则,完成证明闭环。

另外,由于将几何证明转换成AI可理解格式的过程较为复杂,几何问题的训练数据极为稀缺。为此DeepMind自创了合成数据集,生成了超过3亿个复杂程度不同的定理和证明,用于训练AlphaGeometry2的语言模型。

二、横杀过去25年的竞赛几何题,成绩媲美金牌得主

DeepMind的研究团队选取了过去25年,即2000年至2024年,IMO中的45个几何问题,并将这些问题转换成一组共有50道题的大题组。这45个几何问题中既有线性方程,也有涉及平面几何对象移动的方程。

不过,由于技术原因,目前大题组中的部分题目需要被拆分处理。

根据论文,AlphaGeometry2成功解决了大题组中的42道题目,超过了金牌得主40.9分的平均成绩。

但同时,AlphaGeometry2也存在一定的局限性。

尽管得分可以说表现优异,AlphaGeometry2仍存在一些技术限制。例如,它暂时无法解决点数可变、非线性方程和不等式的问题。

在另一组难度更大一些的IMO题目中,AlphaGeometry2的表现稍逊。DeepMind研究团队挑选了29道曾被数学专家提名,但未曾出现在竞赛中的题目。而AlphaGeometry2仅成功解决了其中的20道。

此外,AlphaGeometry2也并非第一个达到几何金牌水平的AI系统,不过它是第一个在如此大规模题集上取得这一成就的AI系统。

三、符号AI与神经网络学派各执一词,DeepMind提出融合新法

DeepMind这项研究结果,可能会加剧关于AI系统是否应该基于符号操作构建的争论。换句话说,AI系统是应该使用规则来操作代表知识的符号,还是基于更类人脑的神经网络来构建。

AlphaGeometry2采用了混合方法,其Gemini模型使用的是神经网络架构,而符号引擎则是基于规则。

神经网络理论支持者认为,从语音识别到图像生成,智能行为可以通过大量数据和计算资源自发涌现。

而符号系统支持者则认为,符号系统通过定义一组专门用于特定任务的符号操作规则来解决问题,例如在文字处理软件中编辑一行文字。而神经网络则需要通过统计相似数据和大量示例,才学会如何解决任务。

一方面,神经网络是OpenAI o1推理模型等强大的AI系统的基石;另一方面,符号AI的支持者认为,神经网络并非万能的,符号AI或许在高效编码真实世界知识、推理复杂情境和自证解答过程等方面,更具优势。

AlphaGeometry2的成功表明,这两种方法的结合,或许是开发通用AI一条行之有效的路径。

事实上,根据DeepMind的论文,基于神经网络架构的OpenAI o1推理模型,无法解答AlphaGeometry2所解出的任何一道IMO问题。

然而,这种情况也许不会永远持续下去。在论文中,DeepMind团队称,他们发现了初步证据,可以说明AlphaGeometry2的语言模型有时候能够在没有符号引擎辅助的情况下,生成部分解决方案。

“这些结果在一定程度上支撑了,大模型可以在不依赖符号引擎等外部工具的情况下,自给自足的观点,”DeepMind团队在论文中写道,“但在模型速度得到提升,且幻觉问题完全解决之前,这些外部工具对于AI数学应用来说,仍将至关重要。”

结语:AI解难题更聪明了,但简单问题仍会“犯浑”

DeepMind的AI系统AlphaGeometry2成功挑战IMO竞赛金牌得主水平,一方面体现出AI数学、推理、逻辑证明能力的进步,可以与高中生竞争;另一方面也为AI界提供了通向AGI的新路径,在神经网络派和符号AI派的争论中,论证了二者相互配合提效AI推理的可行性。

与此同时,AI从纸上谈兵到实战演练,仍有很长的路要走。如何保证简单任务执行的准确性、拓宽复杂任务处理的可能性、降低开发和部署成本等,都是AI玩家亟待解决的议题。

卡内基梅隆大学计算机科学教授Vince Conitzer告诉TechCrunch,AI系统在这些基准测试上持续取得令人瞩目的进展,但与此同时,语言模型和最近推出的具有推理功能的模型,仍会在一些简单的常识问题上苦苦挣扎,这种对比令人震惊。

他补充道,我并不认为这一切进展都是虚张声势,但它确实表明了,我们仍然不清楚下一个AI系统会有什么样的行为。这也意味着,这些AI系统可能会带来重大影响,因此我们迫切需要深入了解它们,以及它们可能造成的风险。

来源:TechCrunch

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
稳定,阿尔卡拉斯2-0卢布列夫连续三站赛事进入决赛

稳定,阿尔卡拉斯2-0卢布列夫连续三站赛事进入决赛

懂球帝
2026-02-21 03:06:55
北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

北大才子杨舒春,不顾父母跪求拒进外交部,痴迷种地,后来怎样了

珺瑶婉史
2025-12-25 19:45:03
容祖儿晒霍汶希女儿近照,妈妈把她养的真好,15岁长得好港女

容祖儿晒霍汶希女儿近照,妈妈把她养的真好,15岁长得好港女

手工制作阿歼
2026-02-18 19:13:02
太豪了!海哈金喜回川过年,山上别墅院子大到能跑步,这才是底气

太豪了!海哈金喜回川过年,山上别墅院子大到能跑步,这才是底气

小娱乐悠悠
2026-02-21 09:01:41
这是比基尼,不是内衣,泡个温泉都能遇杠精?

这是比基尼,不是内衣,泡个温泉都能遇杠精?

飛娱日记
2026-02-17 13:07:38
胡兵没想到,55岁“打光棍”的真相被瞿颖爆了出来,简直一针见血

胡兵没想到,55岁“打光棍”的真相被瞿颖爆了出来,简直一针见血

洲洲影视娱评
2026-02-20 23:32:33
欧美联手贬值逼人民币升值?中国将计就计反杀:他们不得不买

欧美联手贬值逼人民币升值?中国将计就计反杀:他们不得不买

爱史纪
2026-02-20 20:01:57
春节刚过,金价一夜回到解放前1560元/克的金镯子你还敢下手吗?

春节刚过,金价一夜回到解放前1560元/克的金镯子你还敢下手吗?

趣味萌宠的日常
2026-02-20 21:31:44
中美被爆黄海对峙,不到24小时,特朗普发声:中国阵容太强大了

中美被爆黄海对峙,不到24小时,特朗普发声:中国阵容太强大了

现代小青青慕慕
2026-02-21 10:25:25
13球6助攻!曝阿尔瓦雷斯7000万欧加盟巴萨,马竞降价出售新核心

13球6助攻!曝阿尔瓦雷斯7000万欧加盟巴萨,马竞降价出售新核心

夏侯看英超
2026-02-21 01:16:59
克里米亚遇袭大规模爆炸!乌克兰摧毁大卢基炼油厂

克里米亚遇袭大规模爆炸!乌克兰摧毁大卢基炼油厂

项鹏飞
2026-02-20 21:25:33
不愧是今年春晚最美的节目,女神们真的美爆啦!

不愧是今年春晚最美的节目,女神们真的美爆啦!

陈列共和
2026-02-18 19:43:08
炸锅!俄军事博主Rybar罕见认怂:前线全线告急,乌军已转入进攻

炸锅!俄军事博主Rybar罕见认怂:前线全线告急,乌军已转入进攻

老马拉车莫少装
2026-02-19 22:55:43
3位核心赛季报销!豪掷2.1亿战绩联盟倒数第一,本赛季最惨球队!

3位核心赛季报销!豪掷2.1亿战绩联盟倒数第一,本赛季最惨球队!

你的篮球频道
2026-02-21 07:37:30
杰伦·布朗:道歉不可接受,将考虑对贝弗利山庄提起法律诉讼

杰伦·布朗:道歉不可接受,将考虑对贝弗利山庄提起法律诉讼

老吴教育课堂
2026-02-21 01:45:09
1965年毛主席批判《海瑞罢官》,田家英:那以后没人敢研究历史了

1965年毛主席批判《海瑞罢官》,田家英:那以后没人敢研究历史了

大运河时空
2026-02-18 11:35:03
中餐馆大年初三失火酿悲剧,一对父女不幸去世

中餐馆大年初三失火酿悲剧,一对父女不幸去世

英中眼
2026-02-20 20:07:50
瓜分伊朗,还是摧毁伊朗

瓜分伊朗,还是摧毁伊朗

求实处
2026-02-20 22:08:18
看了观众对陈丽君电影首秀的评价,何赛飞的话,终于有人信了!

看了观众对陈丽君电影首秀的评价,何赛飞的话,终于有人信了!

听风喃
2026-02-20 19:08:34
绝非迷信!正月初五,3事别犯了忌讳:1不拜、2不吵、3不吃

绝非迷信!正月初五,3事别犯了忌讳:1不拜、2不吵、3不吃

牛锅巴小钒
2026-02-20 18:34:32
2026-02-21 11:00:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11245文章数 116973关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

火锅店称把春节4天的盈利33.9万分给员工 已持续4年

头条要闻

火锅店称把春节4天的盈利33.9万分给员工 已持续4年

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

健康
教育
家居
亲子
军事航空

转头就晕的耳石症,能开车上班吗?

教育要闻

为什么说要学好英语

家居要闻

本真栖居 爱暖伴流年

亲子要闻

娃丢三落四,总是在找东西!如何及时止损,帮娃长记性

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版