网易首页 > 网易号 > 正文 申请入驻

首次击败人类数学天才,高中生最难数学考试被DeepMind AI攻克了

0
分享至

让人类高中生头疼的最难数学考试——国际数学奥林匹克竞赛(IMO)——被人工智能(AI)攻克了。

在一项近期公布的研究中,Google DeepMind团队称他们的几何解题系统 AlphaGeometry解决了 84%(42/50)的几何难题,其表现首次超过了 IMO 平均金牌得主(40.9/50)的水平。

此外,去年 7 月,AlphaGeometry 也“联手”AlphaProof(一个基于强化学习的形式数学推理新系统),在当年 IMO 中首次达到了银牌获得者的水平。

AlphaGeometry2 是 AlphaGeometry 的显著改进版本。它是一个神经符号混合系统,其语言模型基于 Gemini并在比其前身多一个数量级的合成数据上从头开始训练。这帮助模型解决更具有挑战性的几何问题,包括关于物体运动和角度、比例或距离的方程问题。

AlphaGeometry2 使用的符号引擎比其前身快两个数量级。面对新问题时,一种新颖的知识共享机制被用来实现不同搜索树的先进组合,以解决更复杂的问题。

对此,伦敦帝国理工学院数学家 Kevin Buzzard 评价道:“我想,不久之后,计算机就能在 IMO 竞赛中拿满分了”。

相关研究论文以“Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2”为题,已发布在预印本网站 arXiv 上。

更强的数学推理,速度提升 300 倍

AlphaGeometry2(AG2)是 Google DeepMind 开发的一款神经-符号混合 AI 系统,用于解决国际数学奥林匹克(IMO)的几何问题。

AG2 结合了语言模型(Neural)和符号推理引擎(Symbolic),采用一种混合推理方法(neuro-symbolic approach)来解决几何问题。相比其前代 AlphaGeometry(AG1),AG2 在解题率、搜索算法、语言模型和符号推理方面都有重大改进,首次超越了 IMO 平均金牌得主的表现。

据论文描述,AG2 在原始 AlphaGeometry(AG1)语言的基础上进行了扩展,使其能够处理更复杂的几何问题,包括:

  • 物体移动(Locus-type Problems):AG2 新增了轨迹(locus)相关谓词,使 AI 能够推理点、直线、圆等几何对象的移动;

  • 线性方程问题(Linear Equations):AG2 现在可以解析涉及角度、比例和距离的线性方程;

  • 新的几何谓词(Predicates):AG2 语言新增了多个谓词,以支持更复杂的几何推理。

这些扩展将AG2 语言的覆盖率(coverage rate)从 66% 提高到了 88%,使其能够处理更多 IMO 几何题目。

图|AG2 与 AG1 的训练数据分布对比(a-c): a.与 AG1 相比,AG2 包含更复杂/更长的问题; b.AG2 在每种问题类型的示例分布上更加均衡; c.G2 在包含辅助点的证明与不包含辅助点的证明之间具有更均衡的比例)

此外,AG2 还采用了 Gemini 语言模型,相比 AG1 具有更强的数学推理能力。该语言模型用于预测几何构造(如辅助线、角度计算等),并帮助生成解题步骤,其训练数据包含 3 亿条自动生成的定理和证明,大幅扩展了 AI 的数学知识库。

同时,AG2 采用了一种新型搜索算法(Shared Knowledge Search Trees, SKEST),引入知识共享机制,将多个搜索树(multiple search trees)结合在一起,相比 AG1 仅用单一搜索策略,AG2 允许不同搜索路径可以共享已验证的数学推理,显著提升了 IMO 竞赛的求解能力。

图| 搜索算法概览: 将多个搜索树结合在一起并通过一种特殊的知识共享机制,在它们之间共享已证明的推理

不仅如此,相比 AG1 的符号引擎,AG2 在求解速度上提升 300 倍,并且新增处理“双点”能力,能够解决一些需要构造多个相交点的问题。

探索可泛化 AI

尽管 AG2 已经取得突破性进展,但仍存在一定局限性。在 AG2 未能解决的题目中,有 6 道 IMO 题目因涉及变量点个数、不等式、非线性方程而未能求解,因 AG2 语言尚不支持这些类型;2 道题目涉及更高级的几何技术(如反演、投影几何、根轴法),目前也未在 AG2 的符号引擎中实现。

DeepMind 团队表示,未来 AlphaGeometry 的改进方向将包括处理涉及不等式和非线性方程的数学问题,这些能力对于“完全解决几何问题”至关重要;此外,进一步改进自动数学公式化(Auto-Formalization)技术,使 AI 能更准确地从自然语言解析数学问题也在团队的计划当中。

另外,研究表明, AG2 不仅能够生成辅助构造(auxiliary constructions), 还能推导出完整的证明(full proofs),这表明当前的语言模型有潜力在无需外部工具(如符号推理引擎)的情况下独立运行。如果他们的设想正确,这些解题能力可能会成为未来通用人工智能(AGI)的一个重要组成部分。

AlphaGeometry2 或许表明,符号操作和神经网络这两种方法的结合 ,是探索可泛化 AI 的一条有希望的道路事实上,根据 DeepMind 的论文,同样具有神经网络架构的 o1 无法解决 AlphaGeometry2 能够解答的任何 IMO 问题。

作者:陈小宇

https://arxiv.org/pdf/2502.03544

https://www.nature.com/articles/d41586-025-00406-7

https://techcrunch.com/2025/02/07/deepmind-claims-its-ai-performs-better-than-international-mathematical-olympiad-gold-medalists/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川37岁主持人熹菲去世,前夫家暴赌博,为还债搏命赚钱还酗酒

四川37岁主持人熹菲去世,前夫家暴赌博,为还债搏命赚钱还酗酒

观察鉴娱
2026-05-03 14:09:27
14岁少女被首富10亿娶回家,8年连生四胎成母亲

14岁少女被首富10亿娶回家,8年连生四胎成母亲

最美的笔触
2026-05-02 17:56:34
西班牙25岁芭蕾舞演员赴日旅游,摸完奈良鹿后,发烧呕吐半年,确诊莱姆病!曾前往多个国家求医,如今几乎无法下床

西班牙25岁芭蕾舞演员赴日旅游,摸完奈良鹿后,发烧呕吐半年,确诊莱姆病!曾前往多个国家求医,如今几乎无法下床

都市快报橙柿互动
2026-05-03 12:38:36
大量游客夜爬泰山突遇降雨大风,厕所挤满过夜的人,有商铺售夜间休息位60元到100元,景区:建议出行前关注天气

大量游客夜爬泰山突遇降雨大风,厕所挤满过夜的人,有商铺售夜间休息位60元到100元,景区:建议出行前关注天气

极目新闻
2026-05-03 13:38:50
三度登顶!张雪车队陕西烧烤摊庆功全场买单,将在当地征战越野赛事

三度登顶!张雪车队陕西烧烤摊庆功全场买单,将在当地征战越野赛事

上游新闻
2026-05-03 13:07:07
男童在温州一野生景点徒步时落水,34岁父亲营救时不幸遇难,救援人员:水潭深约8米,人打捞上来就没了

男童在温州一野生景点徒步时落水,34岁父亲营救时不幸遇难,救援人员:水潭深约8米,人打捞上来就没了

极目新闻
2026-05-03 15:24:57
痛心!安徽19岁失联小伙遗体找到,生前邀父吃最后晚餐 细节曝光

痛心!安徽19岁失联小伙遗体找到,生前邀父吃最后晚餐 细节曝光

社会日日鲜
2026-05-03 10:11:16
知名女主持人熹菲抗癌10年不幸去世,年仅37岁,去年曾许愿再活5年

知名女主持人熹菲抗癌10年不幸去世,年仅37岁,去年曾许愿再活5年

极目新闻
2026-05-03 07:37:27
爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

爆冷!中国男团遭遇26年来世乒赛首败:1-3不敌韩国队 王楚钦缺阵

风过乡
2026-05-03 06:12:32
女子睡梦中184万被自动捐给三家慈善机构,支付宝回应令人震惊。

女子睡梦中184万被自动捐给三家慈善机构,支付宝回应令人震惊。

一丝不苟的法律人
2026-05-02 23:26:44
波尔图庆祝夺冠时从高台上往下扔了一个西瓜,差点把保安砸到

波尔图庆祝夺冠时从高台上往下扔了一个西瓜,差点把保安砸到

懂球帝
2026-05-03 11:09:33
朝鲜援俄伤亡惨重,惨烈程度远超预期!远超现代战争崩溃阈值

朝鲜援俄伤亡惨重,惨烈程度远超预期!远超现代战争崩溃阈值

嫹笔牂牂
2026-05-02 19:19:39
5月19日!新机官宣:8.1英寸+165Hz+4K,全球首发!

5月19日!新机官宣:8.1英寸+165Hz+4K,全球首发!

科技堡垒
2026-05-01 02:00:10
巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

巴勒斯坦公布选举结果,哈马斯被排除在外,加沙18年统治正式落幕

流史岁月
2026-05-01 12:00:22
停课一年!大学老师因说欧洲好被学生举报:从此课堂只念PPT

停课一年!大学老师因说欧洲好被学生举报:从此课堂只念PPT

教师吧
2026-05-03 12:51:55
张雪振臂高呼+连续爆粗口!两口干完大半杯啤酒 怒怼喷子:谁不服

张雪振臂高呼+连续爆粗口!两口干完大半杯啤酒 怒怼喷子:谁不服

风过乡
2026-05-03 00:00:23
突然,暴跌!日本,突传大消息!

突然,暴跌!日本,突传大消息!

证券时报
2026-05-02 18:40:20
河水莫名变红,环保博主称取样检测后,有人半夜敲门要“谈一谈”;警方:系镇政府工作人员

河水莫名变红,环保博主称取样检测后,有人半夜敲门要“谈一谈”;警方:系镇政府工作人员

大风新闻
2026-05-03 14:41:04
柳州发生刑案致4死1伤,警方称1名死者有重大嫌疑,居民:当晚来了不少警车,事发地为老旧住宅区

柳州发生刑案致4死1伤,警方称1名死者有重大嫌疑,居民:当晚来了不少警车,事发地为老旧住宅区

极目新闻
2026-05-03 13:46:23
对不起歼一20,F一35和F一47,法国超级达索和陈风战斗机只有一个

对不起歼一20,F一35和F一47,法国超级达索和陈风战斗机只有一个

林子说事
2026-05-02 22:47:28
2026-05-03 15:48:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

上海科技大学王晨辉教授因营救至亲溺水遇险 年仅39岁

头条要闻

上海科技大学王晨辉教授因营救至亲溺水遇险 年仅39岁

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

旅游
本地
家居
公开课
军事航空

旅游要闻

宝山文旅生活指南上线,邂逅温柔五月时光!

本地新闻

用青花瓷的方式,打开西溪湿地

家居要闻

灵动实用 生活艺术场

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版