网易首页 > 网易号 > 正文 申请入驻

首次击败人类数学天才,高中生最难数学考试被DeepMind AI攻克了

0
分享至

让人类高中生头疼的最难数学考试——国际数学奥林匹克竞赛(IMO)——被人工智能(AI)攻克了。

在一项近期公布的研究中,Google DeepMind团队称他们的几何解题系统 AlphaGeometry解决了 84%(42/50)的几何难题,其表现首次超过了 IMO 平均金牌得主(40.9/50)的水平。

此外,去年 7 月,AlphaGeometry 也“联手”AlphaProof(一个基于强化学习的形式数学推理新系统),在当年 IMO 中首次达到了银牌获得者的水平。

AlphaGeometry2 是 AlphaGeometry 的显著改进版本。它是一个神经符号混合系统,其语言模型基于 Gemini并在比其前身多一个数量级的合成数据上从头开始训练。这帮助模型解决更具有挑战性的几何问题,包括关于物体运动和角度、比例或距离的方程问题。

AlphaGeometry2 使用的符号引擎比其前身快两个数量级。面对新问题时,一种新颖的知识共享机制被用来实现不同搜索树的先进组合,以解决更复杂的问题。

对此,伦敦帝国理工学院数学家 Kevin Buzzard 评价道:“我想,不久之后,计算机就能在 IMO 竞赛中拿满分了”。

相关研究论文以“Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2”为题,已发布在预印本网站 arXiv 上。

更强的数学推理,速度提升 300 倍

AlphaGeometry2(AG2)是 Google DeepMind 开发的一款神经-符号混合 AI 系统,用于解决国际数学奥林匹克(IMO)的几何问题。

AG2 结合了语言模型(Neural)和符号推理引擎(Symbolic),采用一种混合推理方法(neuro-symbolic approach)来解决几何问题。相比其前代 AlphaGeometry(AG1),AG2 在解题率、搜索算法、语言模型和符号推理方面都有重大改进,首次超越了 IMO 平均金牌得主的表现。

据论文描述,AG2 在原始 AlphaGeometry(AG1)语言的基础上进行了扩展,使其能够处理更复杂的几何问题,包括:

  • 物体移动(Locus-type Problems):AG2 新增了轨迹(locus)相关谓词,使 AI 能够推理点、直线、圆等几何对象的移动;

  • 线性方程问题(Linear Equations):AG2 现在可以解析涉及角度、比例和距离的线性方程;

  • 新的几何谓词(Predicates):AG2 语言新增了多个谓词,以支持更复杂的几何推理。

这些扩展将AG2 语言的覆盖率(coverage rate)从 66% 提高到了 88%,使其能够处理更多 IMO 几何题目。

图|AG2 与 AG1 的训练数据分布对比(a-c): a.与 AG1 相比,AG2 包含更复杂/更长的问题; b.AG2 在每种问题类型的示例分布上更加均衡; c.G2 在包含辅助点的证明与不包含辅助点的证明之间具有更均衡的比例)

此外,AG2 还采用了 Gemini 语言模型,相比 AG1 具有更强的数学推理能力。该语言模型用于预测几何构造(如辅助线、角度计算等),并帮助生成解题步骤,其训练数据包含 3 亿条自动生成的定理和证明,大幅扩展了 AI 的数学知识库。

同时,AG2 采用了一种新型搜索算法(Shared Knowledge Search Trees, SKEST),引入知识共享机制,将多个搜索树(multiple search trees)结合在一起,相比 AG1 仅用单一搜索策略,AG2 允许不同搜索路径可以共享已验证的数学推理,显著提升了 IMO 竞赛的求解能力。

图| 搜索算法概览: 将多个搜索树结合在一起并通过一种特殊的知识共享机制,在它们之间共享已证明的推理

不仅如此,相比 AG1 的符号引擎,AG2 在求解速度上提升 300 倍,并且新增处理“双点”能力,能够解决一些需要构造多个相交点的问题。

探索可泛化 AI

尽管 AG2 已经取得突破性进展,但仍存在一定局限性。在 AG2 未能解决的题目中,有 6 道 IMO 题目因涉及变量点个数、不等式、非线性方程而未能求解,因 AG2 语言尚不支持这些类型;2 道题目涉及更高级的几何技术(如反演、投影几何、根轴法),目前也未在 AG2 的符号引擎中实现。

DeepMind 团队表示,未来 AlphaGeometry 的改进方向将包括处理涉及不等式和非线性方程的数学问题,这些能力对于“完全解决几何问题”至关重要;此外,进一步改进自动数学公式化(Auto-Formalization)技术,使 AI 能更准确地从自然语言解析数学问题也在团队的计划当中。

另外,研究表明, AG2 不仅能够生成辅助构造(auxiliary constructions), 还能推导出完整的证明(full proofs),这表明当前的语言模型有潜力在无需外部工具(如符号推理引擎)的情况下独立运行。如果他们的设想正确,这些解题能力可能会成为未来通用人工智能(AGI)的一个重要组成部分。

AlphaGeometry2 或许表明,符号操作和神经网络这两种方法的结合 ,是探索可泛化 AI 的一条有希望的道路事实上,根据 DeepMind 的论文,同样具有神经网络架构的 o1 无法解决 AlphaGeometry2 能够解答的任何 IMO 问题。

作者:陈小宇

https://arxiv.org/pdf/2502.03544

https://www.nature.com/articles/d41586-025-00406-7

https://techcrunch.com/2025/02/07/deepmind-claims-its-ai-performs-better-than-international-mathematical-olympiad-gold-medalists/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有不透风的墙!沈腾和林允的瓜未必是假的、站姐关站跑路

没有不透风的墙!沈腾和林允的瓜未必是假的、站姐关站跑路

琴声飞扬
2026-01-20 14:25:10
哈兰德:博德闪耀的主场不容易攻克,很多球队去那里陷入困境

哈兰德:博德闪耀的主场不容易攻克,很多球队去那里陷入困境

懂球帝
2026-01-22 01:30:16
第一批独生子女的残酷真相:父母去世后,成了举目无亲的“孤儿”

第一批独生子女的残酷真相:父母去世后,成了举目无亲的“孤儿”

原广工业
2026-01-21 00:40:02
2死3重伤!“1·23”邪教蛊惑自焚事件的悲剧始末——

2死3重伤!“1·23”邪教蛊惑自焚事件的悲剧始末——

中国反邪教
2026-01-21 09:16:11
马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

现代小青青慕慕
2026-01-22 00:25:08
中央汇金坚定持有多只龙头宽基ETF

中央汇金坚定持有多只龙头宽基ETF

财联社
2026-01-21 22:54:06
越南博主称中国队奔跑如怪兽,建议兴奋剂检测

越南博主称中国队奔跑如怪兽,建议兴奋剂检测

赫岝乡村摄影
2026-01-22 01:05:25
贝克汉姆家族彻底决裂,大儿子被逼反目成仇,婚外情当事人发声

贝克汉姆家族彻底决裂,大儿子被逼反目成仇,婚外情当事人发声

艺兔体坛
2026-01-21 23:20:16
反转再反转!贝克汉姆婚纱风波真相曝光,布鲁克林控诉被打脸,妮可拉谎言藏不住了

反转再反转!贝克汉姆婚纱风波真相曝光,布鲁克林控诉被打脸,妮可拉谎言藏不住了

科学发掘
2026-01-21 09:35:13
14分19分24分!京沪大战闹出惨案,深圳逆天反绝杀,山西重回前八

14分19分24分!京沪大战闹出惨案,深圳逆天反绝杀,山西重回前八

后仰大风车
2026-01-21 06:15:05
穆帅:很意外缺乏成绩的人能执教顶级球队;我很欣赏斯帕莱蒂

穆帅:很意外缺乏成绩的人能执教顶级球队;我很欣赏斯帕莱蒂

懂球帝
2026-01-21 04:50:13
李小萌”才是真正的肥而不腻,穿背心+阔腿裤,这肉感美没谁了

李小萌”才是真正的肥而不腻,穿背心+阔腿裤,这肉感美没谁了

章眽八卦
2026-01-07 13:28:00
日本政坛巨震!166票封喉,公明党倒戈,高市时代终结,中方回应

日本政坛巨震!166票封喉,公明党倒戈,高市时代终结,中方回应

史智文道
2026-01-20 16:30:54
变天了!苹果打破10年传统:iPhone以后一年发两次,标准版变鸡肋

变天了!苹果打破10年传统:iPhone以后一年发两次,标准版变鸡肋

小8说科技
2026-01-20 21:05:32
广东宏远双星加盟助阵,有望扭转颓势统治CBA联赛

广东宏远双星加盟助阵,有望扭转颓势统治CBA联赛

时光流转追梦人
2026-01-21 18:54:19
福建通报:438人违法乘机被拘留

福建通报:438人违法乘机被拘留

澎湃新闻
2026-01-21 00:53:04
WTT常规赛:林诗栋2-0被逆转!第2局连续失误,NO.34轰11-6追平!

WTT常规赛:林诗栋2-0被逆转!第2局连续失误,NO.34轰11-6追平!

刘姚尧的文字城堡
2026-01-21 16:37:02
赵露思助阵王鹤棣演唱会“抢镜了”,2套造型酷帅灵动,惊艳全场

赵露思助阵王鹤棣演唱会“抢镜了”,2套造型酷帅灵动,惊艳全场

明星私服穿搭daily
2026-01-19 08:47:58
牛!芬兰成功实现了无需物理电线即可通过空气传输电力

牛!芬兰成功实现了无需物理电线即可通过空气传输电力

老马拉车莫少装
2026-01-19 20:52:28
背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

背刺中国,出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应

文雅笔墨
2026-01-22 00:10:17
2026-01-22 01:55:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

中国球迷被指可免费入场看U23国足决赛 中使馆回应

头条要闻

中国球迷被指可免费入场看U23国足决赛 中使馆回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

时尚
旅游
健康
亲子
手机

缔造仙女梦的人,去了天堂继续缝制星光✨

旅游要闻

不必跟风“杀猪宴”,乡村旅游没有“标准答案”|新京报专栏

打工人年终总结!健康通关=赢麻了

亲子要闻

永远爱你老妈

手机要闻

iPhone越贵越好卖!iPhone18没有单打孔

无障碍浏览 进入关怀版