网易首页 > 网易号 > 正文 申请入驻

超越IMO金牌?谷歌创超难FirstProof数学挑战新纪录

0
分享至

去年 7 月的 IMO 数学奥林匹克竞赛中,两大人工智能公司抢夺竞赛「金牌」成绩的闹剧搞得沸沸扬扬。

当时 OpenAI 和 谷歌 同时声称取得竞赛金牌,而 OpenAI 因,遭到广泛吐槽;谷歌 DeepMind 的 Gemini 进阶模型。

竞赛与真正的数学研究之间,仍然存在一道明显的分界线。

在此之后,AI 智能体飞速发展,解决数学问题的能力不再仅依靠模型的推理能力。AI 智能体已经可以开始自己做数学,不只是解题,更能够进行数学研究,而且研究的还是顶尖数学家都要挠头的问题,这意味着什么?

近日,来自谷歌 DeepMind ,由 Gemini 3 Deep Think 驱动的最新数学研究智能体 Aletheia 在首届 FirstProof 挑战中,自主解决了 10 道高难度研究问题中的 6 道,成为创下了该数学挑战赛的最佳纪录。


曾带队实现 AI IMO 金牌成绩的 DeepMind 超人类推理方向负责人 Thang Luong 表示,这一成果的分量超过去年 AI 在 IMO 测试中获得金牌的表现

相关论文《Aletheia tackles FirstProof autonomously》已发布在 arXiv,并且团队在 Github 上公开了解决 FirstProof 问题的提示词与输出结果。


  • 论文标题:Aletheia tackles FirstProof autonomously

  • 论文链接:https://arxiv.org/pdf/2602.21201

  • 提示词与输出结果:https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof:把 AI 放进真实的数学研究现场

FirstProof 是一项专门为评估 AI 数学研究能力而设计的实验性挑战。项目由多位活跃在不同数学分支的一线研究者发起,题目全部来自真实科研过程中的命题,被提出作为评估当前人工智能能力的测试。

这些问题挑战启动前从未公开证明,组织方提前将标准证明加密保存,以尽量排除训练数据泄露的可能。最终提交的答案,需要由领域专家人工审阅,判断其逻辑严密性与学术可接受度。评价标准接近论文审稿,而非自动判分。

这种设计刻意提高了门槛。它测试的,是 AI 在陌生问题上进行长期推理与结构构造的能力。换句话说,FirstProof 关心的,是系统是否具备参与数学研究的潜力。

这些问题于 2026 年 2 月 5 日发布,并设定了截止时间为太平洋时间 2026 年 2 月 13 日晚上 11:59 ,解决方法在截止后在互联网上发布。

这项评估本身极其困难,能够真正理解这些问题的专家屈指可数。关键的一点是:Aletheia 的所有解答均在没有任何人工干预的情况下生成,并且在 FirstProof 挑战规定的时间范围内提交。



研究团队执行整体流程

FirstProof 的第一作者确认了这一事实:


研究团队运行了两个版本的 Aletheia(两者仅在底层基础模型上有所不同),它们都由 Gemini DeepThink 提供支持。综合多数专家评审意见,这两个系统共同解决了 10 道题中的 6 道(第 2、5、7、8、9、10 题)。我们注意到,专家们对第 8 题的评估并不完全一致。



Aletheia 在 FirstProof 上的性能总结。专家评估列显示了在咨询的总专家人数中,有多少专家将解决方案评为正确。仅在 P8 上的评估不是一致的。

Aletheia 的「解题分析」

两个智能体在同样的 FirstProof 十个问题的执行结果如下所示:


在 FirstProof 的 10 道问题中,Aletheia 为其中 6 道题(P2、P5、P7、P8、P9、P10)生成了候选解答。在「best-of-2」的评估设置下,根据多数专家的评审意见,这 6 道题都被认定为在该解释框架下已正确解决。

Aletheia A 与 Aletheia B 针对相同的六道题目都生成了候选解答。单独来看,每个智能体都至少出现过一次「假阳性」(false positive),但在 best-of-2 的评估机制下,它们共同为六道题目都提供了可信的解答。这一结果相比 2025 年 12 月用于解决 Erdős 问题的 Aletheia 版本,在准确率上有明显提升。

不过,P8 的评估并非一致通过 ——7 位专家中有 5 位给出了「Correct」的评价。对于另外 4 道题(P1、P3、P4、P6),两个智能体都没有给出解答:要么明确输出「No solution found」(未找到解答),要么在时间限制内没有返回任何结果。

研究团队认为,Aletheia 具备一种「自我筛选」机制,这也是 Aletheia 的关键设计原则之一。

在将 AI 扩展为数学研究助手的过程中,可靠性才是首要瓶颈。如果智能体给出错误的「幻觉」答案,会极度浪费人类专家用于验证结果的时间与精力,与提高研究效率和自动化的目标背道而驰。

此外,解决问题的推理成本也是非常重要的指标。


在图中展示了每个候选解的推理成本,并将其表示为相对于 Erdős-1051 解答推理成本的倍数。不难发现,Aletheia 在所有问题上,推理成本都高于 Erdős-1051

尤其是 P7,其推理成本比此前观察到的规模高出一个数量级。研究者称,这一方面是因为 Generator 子智能体在生成候选解时消耗了大量计算资源,另一方面是因为需要更多轮交互才能通过 Verifier 子智能体的验证。

总结

数学研究包含多个环节:提出问题、建立框架、寻找关键结构、完成证明。当前系统显然还无法全面承担所有角色,但它已经开始在证明与验证环节发挥作用。

未来的研究场景或许会发生变化。人类研究者提出方向与核心思想,AI 负责高强度的路径搜索与形式化验证,再由人类进行理论整合与升华。这种协作模式,正在逐渐成形。

数学长期以来被视为人类理性能力的高地。如今,AI 正在这里取得实质性突破。当机器开始稳定地完成研究级证明,我们或许需要重新思考一个问题:

在未来的数学论文作者名单中,AI 会以什么身份出现?

© THE END

文章来源:机器之心。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

橙星文娱
2026-04-18 16:01:07
为什么说印度的海岸线,远看是老天爷赏饭,近看是逗你玩儿?

为什么说印度的海岸线,远看是老天爷赏饭,近看是逗你玩儿?

半解智士
2026-04-16 17:10:39
54岁黎姿海滩照曝光!三个孩子的妈?网友:确定不是AI换脸?

54岁黎姿海滩照曝光!三个孩子的妈?网友:确定不是AI换脸?

今古深日报
2026-04-20 10:16:38
单价飙升三倍也要毁约,表面老实巴交的马来西亚究竟藏了多深

单价飙升三倍也要毁约,表面老实巴交的马来西亚究竟藏了多深

寰球经纬所
2026-04-20 21:58:07
魔术112-101击败东部第1!这一战不得不承认6大现实:骑士赌对了

魔术112-101击败东部第1!这一战不得不承认6大现实:骑士赌对了

毒舌NBA
2026-04-20 09:19:51
高瓴资本张磊:判断一个人是否靠谱,关键看4个维度

高瓴资本张磊:判断一个人是否靠谱,关键看4个维度

新浪财经
2026-04-20 01:51:52
认罪刚一天!许家印长子每月4100万生活费,家族资产黑幕全揭开

认罪刚一天!许家印长子每月4100万生活费,家族资产黑幕全揭开

番外行
2026-04-20 12:46:52
小小甲钴胺,可以改善中老年人六大健康问题!

小小甲钴胺,可以改善中老年人六大健康问题!

药师方健
2026-04-09 22:01:20
只剩2天,解放军准时下通牒,赖清德将登机离台,萧旭岑判断准确

只剩2天,解放军准时下通牒,赖清德将登机离台,萧旭岑判断准确

共工之锚
2026-04-20 09:02:09
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

云舟史策
2026-04-20 07:21:35
李雨桐泄露薛之谦手机号、身份证号,被北京朝阳警方行政拘留

李雨桐泄露薛之谦手机号、身份证号,被北京朝阳警方行政拘留

封面新闻
2026-04-19 18:38:11
急疯了!快船梭哈式豪赌,4笔重磅交易曝光,只为留住伦纳德?

急疯了!快船梭哈式豪赌,4笔重磅交易曝光,只为留住伦纳德?

体育大朋说
2026-04-20 11:15:16
打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

趣文说娱
2026-04-18 19:34:03
什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

抽象派大师
2026-04-20 01:27:38
黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

顾史
2026-04-18 09:17:19
美国断供!万斯宣布停止援乌资金,欧洲6000亿军火账单谁买单?

美国断供!万斯宣布停止援乌资金,欧洲6000亿军火账单谁买单?

泠泠说史
2026-04-20 17:30:52
万达电影终于谢幕!“儒意系”大佬二度接盘的万达资产却频遭投诉

万达电影终于谢幕!“儒意系”大佬二度接盘的万达资产却频遭投诉

财通社
2026-04-20 21:38:13
越南一把手很焦虑:和中国一对比,才知道原来我们落后了这么多

越南一把手很焦虑:和中国一对比,才知道原来我们落后了这么多

头条爆料007
2026-04-20 15:46:48
很少有互联网公司的人去华为,但华为的人能去几乎所有地方,为啥

很少有互联网公司的人去华为,但华为的人能去几乎所有地方,为啥

老方
2026-04-20 09:49:45
仅播5集,热度破22000,追完后我想说:能和《漫长的季节》媲美了

仅播5集,热度破22000,追完后我想说:能和《漫长的季节》媲美了

星宿影视鸭
2026-04-20 10:58:00
2026-04-20 23:04:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5482文章数 64624关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

欧洲或再迎一位亲俄领导人 曾与泽连斯基发生公开冲突

头条要闻

欧洲或再迎一位亲俄领导人 曾与泽连斯基发生公开冲突

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

艺术
旅游
本地
时尚
公开课

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

旅游要闻

聊城东昌府区旅游攻略大赛颁奖典礼暨惠民旅游巴士发车仪式举行

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

继弯刀裤,阔腿裤之后,“围裹式长裤”突然大火!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版