网易首页 > 网易号 > 正文 申请入驻

谷歌宣告:AI的水平超过数学奥赛金牌了

0
分享至

昨日,谷歌宣布DeepMind创造了人工智能领域的新纪录:其最新AI系统AlphaGeometry2,在国际数学奥林匹克竞赛(IMO)的大规模几何题目测试中,首次超越人类金牌得主水平。

研究团队从2000年到2024年的IMO竞赛中精选了45道几何题目,经过技术处理后转化为50道标准题目。测试结果显示,AlphaGeometry2成功解答了其中的42道,已经超过了金牌得主40.9分的平均成绩。

DeepMind的这一突破意义深远。研究团队认为,解决具有挑战性的几何问题(特别是欧几里得几何问题)所需的推理能力和策略选择能力,正是构建下一代通用人工智能的关键要素。

网友表示,「接近完美」。

AG2,一举超越IMO金牌得主

DeepMind之所以对这个高中数学竞赛如此重视,源于一个深层洞察:解决欧几里得几何问题的能力可能是构建更强大AI系统的关键。

证明数学定理需要同时具备推理能力和在多个可能步骤中做出选择的能力,这些问题解决技能可能成为未来通用AI模型的重要组成部分。

事实上,在2024年夏天的一次演示中,DeepMind将AlphaGeometry2与数学形式推理AI模型AlphaProof结合,成功解决了当年IMO竞赛6道题目中的4道。

在技术架构上,AlphaGeometry2采用了一种混合方案,将谷歌Gemini系列的语言模型与专门的符号运算引擎相结合。

在解题过程中,Gemini模型负责预测解题可能需要的几何构造(如添加辅助点线或圆),而符号引擎则基于严格的数学规则进行推导。两个模块通过并行搜索算法协同工作,将发现的有用信息存储在共享知识库中。当系统能够将Gemini模型的建议与符号引擎的已知原理结合,得出完整证明时,即认为完成了问题求解。

为了克服几何训练数据匮乏的困境,研究团队自主生成了超过3亿个不同复杂度的定理和证明用于训练。这种大规模的合成数据训练方法,为AI在特定领域实现突破提供了新的范例。

然而,AlphaGeometry2的能力仍存在明显边界。它无法处理包含可变点数、非线性方程和不等式的问题。在研究团队专门挑选的29道更具挑战性的IMO候选题中,系统仅能解决20道。

这一突破引发了对AI发展路径的深入思考。传统上,AI领域存在两种主要方法:基于符号操作的方法(通过规则操作代表知识的符号)和类似人脑的神经网络方法。

AlphaGeometry2采用混合架构:其Gemini模型采用神经网络架构,而符号引擎则基于规则运算。根据Deepmind的论文,在测试中,同样采用神经网络架构的OpenAI o1模型无法解决任何AlphaGeometry2成功解答的IMO问题。

卡内基梅隆大学AI专家Vince Conitzer表示:

"在这些基准测试上取得惊人进展的同时,包括最新的'推理型'在内的语言模型仍在一些简单的常识问题上举步维艰,这种对比令人深思。
这不是虚假繁荣,但说明我们仍然无法准确预测下一个系统的行为。考虑到这些系统可能产生的重大影响,我们迫切需要更好地理解它们及其潜在风险。"

但这种情况可能不会永远持续下去。在论文中,DeepMind 团队表示,他们发现了初步证据,表明AlphaGeometry2的语言模型部分已显示出无需符号引擎辅助也能生成部分解决方案的潜力。

不过,研究团队同时强调,在模型运算速度得到根本改善、"幻觉"问题彻底解决之前,符号运算等外部工具仍将在数学应用中扮演不可或缺的角色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
特朗普警告伊朗在和平协议问题上“认真起来”

特朗普警告伊朗在和平协议问题上“认真起来”

界面新闻
2026-03-26 19:29:30
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
四川某设计院爆大瓜!

四川某设计院爆大瓜!

黯泉
2026-03-26 18:36:06
厦门一女子长期遭家暴离家不敢归,丈夫向法院申请宣告其死亡,十多年后决心离婚才知道自己“死了”!

厦门一女子长期遭家暴离家不敢归,丈夫向法院申请宣告其死亡,十多年后决心离婚才知道自己“死了”!

环球网资讯
2026-03-26 14:44:08
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
美国悬赏1000万美金,通缉一中国四川小伙,他到底做了什么?

美国悬赏1000万美金,通缉一中国四川小伙,他到底做了什么?

趣文说娱
2026-03-26 18:11:01
泰国征兵广告用张凌赫做海报:想像“武安侯”一样帅气骑马吗?今年四月报名参军 选择骑兵部队

泰国征兵广告用张凌赫做海报:想像“武安侯”一样帅气骑马吗?今年四月报名参军 选择骑兵部队

闪电新闻
2026-03-26 17:45:38
2026-03-26 20:59:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143584文章数 2653027关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
房产
健康
公开课

上新|| 她们说,找到了自己的人生裙子!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版