网易首页 > 网易号 > 正文 申请入驻

Google DeepMind新AI媲美国际数学奥林匹克金牌的解题能力

0
分享至

Google DeepMind最近发布一款AI系统AlphaGeometry,使用1亿笔合成数据训练,就能在最新的30道国际数学奥林匹克(IMO)题目中,在规定时间内解出25道题。它不只比先前只解出10题的最佳AI还厉害,表现还接近人类金牌得主的平均值25.9道题,是迈向通用AI的一大里程碑。这项研究成果,日前也登上《Nature》期刊。

最先进的AI系统解几何学难题,仍是个挑战

为何AI解几何学题目很重要?

因为,几何学是数学最古老、最基础的分支之一,也是计算机科学、建筑、艺术、工程、天文等领域的重要工具。就计算机科学来说,几何学因涉及空间属性,例如距离、形状、大小和相对位置等,是重要的处理工具,尤其能用来设计和分析算法,执行常见的AI任务,如图像处理、计算机视觉和动作规划等。

几何学也是国际数学奥林匹克竞赛的重要课题。这个竞赛旨在测验逻辑推理和发现新知识的能力,每年吸引全球各地优秀的高中生,来挑战数学难题。

然而,就算是目前最先进的AI系统,都还难以证明数学猜想(Conjecture)的真伪。AI界普遍认为,能证明数学定理,是发展通用AI(即AGI)的关键一步,但它有个大挑战:训练数据的缺乏。因为,专为AI创建数学证明数据,既困难又昂贵,专家们很难收集到足够的训练数据,来打造AI解题模型。

根据IMO规则生成1亿笔训练数据,最终解出25道题

为解决这个挑战,Google DeepMind研究团队Trieu Trinh和Thang Luong先是根据IMO规则,生成了1亿个不同复杂度的数学定理和证明,并用这些合成的训练数据,从头训练出一套AI系统AlphaGeometry。在这个过程中,完全没使用人工范例。

而在架构上,它是一套神经符号(Neuro-symbolic)系统,采混合式架构,由神经语言模型(NLL)和符号推论引擎(Symbolic deduction engine)2大部分组成。

其中,神经语言模型扮演引导角色,来指导符号推论引擎,如何在IMO等级的问题中,从几何构造的无限可能中找出解决方案(如下图)。这是因为,IMO几何问题以图形呈现,需要添加新的几何结构(如点、线、面)才能解题,而AlphaGeometry的语言模型,可以从无数个可能性中,预测出添加哪些新结构最有用。这些线索,能帮助符号引擎进一步推导图形,找出最接近的解答。

AlphaGeometry如何解决一个简单问题:首先,给定问题图形和定理(左),AlphaGeometry(中)接着用符号引擎,来推导图形的新陈述,直到找到解决方案或新陈述用完为止。若未找到解决方案,AlphaGeometry的语言模型会添加一个可能有用的构造(蓝色部分),给符号引擎新的推导方向。这个循环会一直出现,直到找到解决方案为止(右)。

AlphaGeometry也成功在最新的IMO竞赛中,在规定时间内解出25道题(共30题),能力与世界上最聪明的高中数学生相当,媲美历届金牌的平均成绩25.9道题。

Google认为,这个成功,不只是数学推理上的突破,还能运用到更广泛的科学领域问题。而且,AlphaGeometry解决专家级的复杂数学问题,未来还能帮助人类更理解世界运行的过程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

极目新闻
2026-06-23 21:32:14
台湾回归终极方案:土地回归中国,人员自由往来,两岸统一新路径

台湾回归终极方案:土地回归中国,人员自由往来,两岸统一新路径

不甜的李子
2026-06-26 04:31:54
霉霉黑银战袍炸场!夜袭未婚夫派对闪婚戒抢镜

霉霉黑银战袍炸场!夜袭未婚夫派对闪婚戒抢镜

浅遇时光
2026-06-25 00:24:41
山海关外的比基尼远征

山海关外的比基尼远征

中国新闻周刊
2026-06-25 11:51:54
消失的150万契丹人找到了?DNA比对结果一出,原来就在我们身边

消失的150万契丹人找到了?DNA比对结果一出,原来就在我们身边

马蹄烫嘴说美食
2026-06-24 21:36:53
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
宝妈考编第一被作废后续:官方回应戳破谎言,网友一致表示不同情

宝妈考编第一被作废后续:官方回应戳破谎言,网友一致表示不同情

星娱叨叨社
2026-06-22 18:34:58
知名港星陈敏儿追悼会曝光,长子掩面痛哭,幼子说她已了无遗憾!

知名港星陈敏儿追悼会曝光,长子掩面痛哭,幼子说她已了无遗憾!

草莓解说体育
2026-06-26 03:10:51
换一个轮胎2500块!小米车主:真心碎了,当时干啥要买20寸的呀,也不知道换一下这么贵啊!网友:电车省油不省钱啊

换一个轮胎2500块!小米车主:真心碎了,当时干啥要买20寸的呀,也不知道换一下这么贵啊!网友:电车省油不省钱啊

大白聊IT
2026-06-23 18:14:46
二战士兵怎么解决生理需求的?德国最好笑,美国最实用

二战士兵怎么解决生理需求的?德国最好笑,美国最实用

月光作笺a
2026-06-02 00:10:43
哈佛研究发现:人生回报率最高的一件事,培养一个输出型爱好

哈佛研究发现:人生回报率最高的一件事,培养一个输出型爱好

心理观察局
2026-06-24 07:49:11
分数线公布,湖北高考600分及以上26883人

分数线公布,湖北高考600分及以上26883人

极目新闻
2026-06-25 15:46:43
曾医生还是离开了湖南某医院

曾医生还是离开了湖南某医院

大张的自留地
2026-06-25 13:41:06
莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

音乐时光的娱乐
2026-06-25 12:13:37
目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

犀利强哥
2026-06-25 02:13:25
深圳跌幅最大的片区

深圳跌幅最大的片区

说故事的阿袭
2026-06-26 00:17:53
金正恩宣布消息,美日集体沉默,韩专家:若开战,朝鲜能帮中俄忙

金正恩宣布消息,美日集体沉默,韩专家:若开战,朝鲜能帮中俄忙

谛听骨语本尊
2026-06-25 14:35:27
武统、和统都没希望?台岛专家曾言:大陆已经走上“第3条路”!

武统、和统都没希望?台岛专家曾言:大陆已经走上“第3条路”!

起喜电影
2026-06-26 03:28:33
受不了,这么蠢的国产剧,竟然收视第一!

受不了,这么蠢的国产剧,竟然收视第一!

独立鱼
2026-06-15 21:08:03
曼联又当冤大头!砸 1 亿争抢世界杯水货,厄瓜多尔一战彻底露馅

曼联又当冤大头!砸 1 亿争抢世界杯水货,厄瓜多尔一战彻底露馅

澜归序
2026-06-26 06:56:12
2026-06-26 08:36:49
十轮网 incentive-icons
十轮网
科技决定上限,资本决定走向。
15219文章数 4181关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

游戏
数码
房产
教育
公开课

《零度空间》PC配置需求公布 3060Ti就能爽玩

数码要闻

iPad/Mac等涨价只是开始?苹果声明暗示后续还有新一轮调价

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

教育要闻

高考志愿怎么填?黄仁勋说:孩子学什么专业并不重要?看教育部38个新专业就懂了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版