网易首页 > 网易号 > 正文 申请入驻

再创历史!DeepMind AI超进化,能拿奥数金牌了

0
分享至


智东西
编译 徐豫
编辑 云鹏

智东西2月8日消息,谷歌旗下顶尖AI研究实验室DeepMind于2月7日发布论文,其开发的一套名为AlphaGeometry2的AI系统,解决国际数学奥林匹克竞赛(IMO)几何问题的表现,超越了金牌得主的平均水平。

AlphaGeometry2是DeepMind去年1月发布的AlphaGeometry系统的升级版。在最近发表的一项研究中,AlphaGeometry2能够解决过去25年IMO中84%的几何问题,而OpenAI的o1推理模型一道题都答不上来。IMO是一个高中生的全球顶尖数学比赛。

据DeepMind团队分享,AlphaGeometry2融合了神经网络理论和符号AI方法,其一方面采用基于神经网络架构搭建的谷歌Gemini系列模型,同时另一方面遵循符号AI的操作规则,以此提升AI系统理解、推理和逻辑证明能力,打开了实现通用AI的新思路。

事实上,今年夏天,DeepMind曾展示了一套结合AlphaGeometry2和AlphaProof的系统,后者是一个用于形式数学推理的AI模型。该系统成功解决了2024年IMO六道题中的四道。


那么,DeepMind为何会关注一个高中数学竞赛?

DeepMind认为,解开复杂几何问题的新方法,可能是开发更强大AI系统的关键,尤其是欧几里得几何问题(Euclidean geometry problems)。

证明数学定理这件事,例如逻辑性地说明为什么勾股定理(Pythagorean Theorem)成立,不仅需要推理能力,还需要从多种可能的解决步骤中作出选择。DeepMind认为,这种解决问题的能力或许能够成为未来通用AI模型的核心组成部分。

此外,除了几何问题,AlphaGeometry2这套方法还可以扩展到其他数学或科学领域,例如可以为复杂的工程计算提供帮助。

一、双引擎核心发力,兼顾逻辑推理和大规模数据处理

AlphaGeometry2内含多个关键组件,其中既有谷歌Gemini系列语言模型,也有一个“符号引擎”。同时,这个符号引擎在Gemini模型的帮助下,可以更好地利用数学规则推导出问题的解决方案,从而为给定的几何定理找到行得通的证明。


▲IMO考试中的一道典型几何问题的示意图。(图源:TechCrunch)

IMO中的几何问题通常需要添加辅助线,例如点、直线或圆等辅助构造,才能解答。AlphaGeometry2的Gemini模型可以预测图中需要添加哪些辅助线,然后符号引擎则基于这些辅助线进行推理。

简单来说,AlphaGeometry2的Gemini模型用一种形式化的数学语言,为符号引擎提供建议,而符号引擎可依据特定的规则,来检查这些步骤是否符合逻辑。

此外,该系统还配备了一种搜索算法,支持并行搜索多个解决方案,并且会把可能有用的发现存储在公共知识库中。

AlphaGeometry2认定一个问题已被解决的条件是,得出的答案能够结合Gemini模型的建议,以及符号引擎的已知原则,完成证明闭环。

另外,由于将几何证明转换成AI可理解格式的过程较为复杂,几何问题的训练数据极为稀缺。为此DeepMind自创了合成数据集,生成了超过3亿个复杂程度不同的定理和证明,用于训练AlphaGeometry2的语言模型。

二、横杀过去25年的竞赛几何题,成绩媲美金牌得主

DeepMind的研究团队选取了过去25年,即2000年至2024年,IMO中的45个几何问题,并将这些问题转换成一组共有50道题的大题组。这45个几何问题中既有线性方程,也有涉及平面几何对象移动的方程。

不过,由于技术原因,目前大题组中的部分题目需要被拆分处理。

根据论文,AlphaGeometry2成功解决了大题组中的42道题目,超过了金牌得主40.9分的平均成绩。

但同时,AlphaGeometry2也存在一定的局限性。

尽管得分可以说表现优异,AlphaGeometry2仍存在一些技术限制。例如,它暂时无法解决点数可变、非线性方程和不等式的问题。

在另一组难度更大一些的IMO题目中,AlphaGeometry2的表现稍逊。DeepMind研究团队挑选了29道曾被数学专家提名,但未曾出现在竞赛中的题目。而AlphaGeometry2仅成功解决了其中的20道。

此外,AlphaGeometry2也并非第一个达到几何金牌水平的AI系统,不过它是第一个在如此大规模题集上取得这一成就的AI系统。

三、符号AI与神经网络学派各执一词,DeepMind提出融合新法

DeepMind这项研究结果,可能会加剧关于AI系统是否应该基于符号操作构建的争论。换句话说,AI系统是应该使用规则来操作代表知识的符号,还是基于更类人脑的神经网络来构建。

AlphaGeometry2采用了混合方法,其Gemini模型使用的是神经网络架构,而符号引擎则是基于规则。

神经网络理论支持者认为,从语音识别到图像生成,智能行为可以通过大量数据和计算资源自发涌现。

而符号系统支持者则认为,符号系统通过定义一组专门用于特定任务的符号操作规则来解决问题,例如在文字处理软件中编辑一行文字。而神经网络则需要通过统计相似数据和大量示例,才学会如何解决任务。

一方面,神经网络是OpenAI o1推理模型等强大的AI系统的基石;另一方面,符号AI的支持者认为,神经网络并非万能的,符号AI或许在高效编码真实世界知识、推理复杂情境和自证解答过程等方面,更具优势。

AlphaGeometry2的成功表明,这两种方法的结合,或许是开发通用AI一条行之有效的路径。

事实上,根据DeepMind的论文,基于神经网络架构的OpenAI o1推理模型,无法解答AlphaGeometry2所解出的任何一道IMO问题。

然而,这种情况也许不会永远持续下去。在论文中,DeepMind团队称,他们发现了初步证据,可以说明AlphaGeometry2的语言模型有时候能够在没有符号引擎辅助的情况下,生成部分解决方案。

“这些结果在一定程度上支撑了,大模型可以在不依赖符号引擎等外部工具的情况下,自给自足的观点,”DeepMind团队在论文中写道,“但在模型速度得到提升,且幻觉问题完全解决之前,这些外部工具对于AI数学应用来说,仍将至关重要。”

结语:AI解难题更聪明了,但简单问题仍会“犯浑”

DeepMind的AI系统AlphaGeometry2成功挑战IMO竞赛金牌得主水平,一方面体现出AI数学、推理、逻辑证明能力的进步,可以与高中生竞争;另一方面也为AI界提供了通向AGI的新路径,在神经网络派和符号AI派的争论中,论证了二者相互配合提效AI推理的可行性。

与此同时,AI从纸上谈兵到实战演练,仍有很长的路要走。如何保证简单任务执行的准确性、拓宽复杂任务处理的可能性、降低开发和部署成本等,都是AI玩家亟待解决的议题。

卡内基梅隆大学计算机科学教授Vince Conitzer告诉TechCrunch,AI系统在这些基准测试上持续取得令人瞩目的进展,但与此同时,语言模型和最近推出的具有推理功能的模型,仍会在一些简单的常识问题上苦苦挣扎,这种对比令人震惊。

他补充道,我并不认为这一切进展都是虚张声势,但它确实表明了,我们仍然不清楚下一个AI系统会有什么样的行为。这也意味着,这些AI系统可能会带来重大影响,因此我们迫切需要深入了解它们,以及它们可能造成的风险。

来源:TechCrunch

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张近东资产清零,张朝阳手握百亿现金:两种人生,一个忠告

张近东资产清零,张朝阳手握百亿现金:两种人生,一个忠告

老特有话说
2026-03-26 14:31:44
46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

科学发掘
2026-03-26 17:46:48
细思极恐!小玥儿正脸爆火!长发神似大S,这是来替妈妈大S来复仇的

细思极恐!小玥儿正脸爆火!长发神似大S,这是来替妈妈大S来复仇的

八卦王者
2026-03-06 11:37:14
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

200亿美元收益!NBA推进两大计划 每队老板至少分到6.5亿美元

罗说NBA
2026-03-26 06:21:27
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

朗威谈星座
2026-03-25 17:12:14
广汽集团,你疯了吗?

广汽集团,你疯了吗?

汽车K线
2026-03-26 09:20:19
华裔女赌神赵苏茜:曾横扫美国赌场,一局赢下400万,33岁遭焚尸

华裔女赌神赵苏茜:曾横扫美国赌场,一局赢下400万,33岁遭焚尸

叹为观止易
2026-03-24 16:45:26
46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

橙星文娱
2026-03-26 13:40:27
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
不信川普,更别信伊朗

不信川普,更别信伊朗

新浪财经
2026-03-26 16:21:30
长征谜案揭开,白崇禧在湘江边网开一面,李宗仁晚年一句话说破

长征谜案揭开,白崇禧在湘江边网开一面,李宗仁晚年一句话说破

云端小院
2026-03-24 09:05:49
封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

田先生篮球
2026-03-26 13:33:00
三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

弄月公子
2026-03-26 11:03:13
重庆警方通报“一小区有人高空撒钱”:系涉诈嫌犯抛撒赃款

重庆警方通报“一小区有人高空撒钱”:系涉诈嫌犯抛撒赃款

澎湃新闻
2026-03-26 21:39:03
网红“留几手”调侃张雪峰去世被禁止关注,就该让毫无口德的大V失去舞台

网红“留几手”调侃张雪峰去世被禁止关注,就该让毫无口德的大V失去舞台

极目新闻
2026-03-26 16:43:13
家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

有范又有料
2026-03-24 10:59:07
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

纪实:浙江幼师幼儿园潜伏22年,警察曝光真实身份,家长很后怕

谈史论天地
2026-03-01 09:49:38
日媒曝光强闯我驻日使馆不法之徒照片;案发前行动轨迹公布:乘坐新干线到达东京,在网吧过夜,现场发现的刀具,其称是在车站附近购买

日媒曝光强闯我驻日使馆不法之徒照片;案发前行动轨迹公布:乘坐新干线到达东京,在网吧过夜,现场发现的刀具,其称是在车站附近购买

大风新闻
2026-03-26 12:13:02
2026-03-26 23:43:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
手机
房产
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

手机要闻

OPPO K15 Pro 系列定档,岚影呼吸灯搭配金属中框

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版