网易首页 > 网易号 > 正文 申请入驻

超越IMO金牌?谷歌创超难FirstProof数学挑战新纪录

0
分享至

去年 7 月的 IMO 数学奥林匹克竞赛中,两大人工智能公司抢夺竞赛「金牌」成绩的闹剧搞得沸沸扬扬。

当时 OpenAI 和 谷歌 同时声称取得竞赛金牌,而 OpenAI 因,遭到广泛吐槽;谷歌 DeepMind 的 Gemini 进阶模型。

竞赛与真正的数学研究之间,仍然存在一道明显的分界线。

在此之后,AI 智能体飞速发展,解决数学问题的能力不再仅依靠模型的推理能力。AI 智能体已经可以开始自己做数学,不只是解题,更能够进行数学研究,而且研究的还是顶尖数学家都要挠头的问题,这意味着什么?

近日,来自谷歌 DeepMind ,由 Gemini 3 Deep Think 驱动的最新数学研究智能体 Aletheia 在首届 FirstProof 挑战中,自主解决了 10 道高难度研究问题中的 6 道,成为创下了该数学挑战赛的最佳纪录。


曾带队实现 AI IMO 金牌成绩的 DeepMind 超人类推理方向负责人 Thang Luong 表示,这一成果的分量超过去年 AI 在 IMO 测试中获得金牌的表现

相关论文《Aletheia tackles FirstProof autonomously》已发布在 arXiv,并且团队在 Github 上公开了解决 FirstProof 问题的提示词与输出结果。


  • 论文标题:Aletheia tackles FirstProof autonomously

  • 论文链接:https://arxiv.org/pdf/2602.21201

  • 提示词与输出结果:https://github.com/google-deepmind/superhuman/tree/main/aletheia

FirstProof:把 AI 放进真实的数学研究现场

FirstProof 是一项专门为评估 AI 数学研究能力而设计的实验性挑战。项目由多位活跃在不同数学分支的一线研究者发起,题目全部来自真实科研过程中的命题,被提出作为评估当前人工智能能力的测试。

这些问题挑战启动前从未公开证明,组织方提前将标准证明加密保存,以尽量排除训练数据泄露的可能。最终提交的答案,需要由领域专家人工审阅,判断其逻辑严密性与学术可接受度。评价标准接近论文审稿,而非自动判分。

这种设计刻意提高了门槛。它测试的,是 AI 在陌生问题上进行长期推理与结构构造的能力。换句话说,FirstProof 关心的,是系统是否具备参与数学研究的潜力。

这些问题于 2026 年 2 月 5 日发布,并设定了截止时间为太平洋时间 2026 年 2 月 13 日晚上 11:59 ,解决方法在截止后在互联网上发布。

这项评估本身极其困难,能够真正理解这些问题的专家屈指可数。关键的一点是:Aletheia 的所有解答均在没有任何人工干预的情况下生成,并且在 FirstProof 挑战规定的时间范围内提交。



研究团队执行整体流程

FirstProof 的第一作者确认了这一事实:


研究团队运行了两个版本的 Aletheia(两者仅在底层基础模型上有所不同),它们都由 Gemini DeepThink 提供支持。综合多数专家评审意见,这两个系统共同解决了 10 道题中的 6 道(第 2、5、7、8、9、10 题)。我们注意到,专家们对第 8 题的评估并不完全一致。



Aletheia 在 FirstProof 上的性能总结。专家评估列显示了在咨询的总专家人数中,有多少专家将解决方案评为正确。仅在 P8 上的评估不是一致的。

Aletheia 的「解题分析」

两个智能体在同样的 FirstProof 十个问题的执行结果如下所示:


在 FirstProof 的 10 道问题中,Aletheia 为其中 6 道题(P2、P5、P7、P8、P9、P10)生成了候选解答。在「best-of-2」的评估设置下,根据多数专家的评审意见,这 6 道题都被认定为在该解释框架下已正确解决。

Aletheia A 与 Aletheia B 针对相同的六道题目都生成了候选解答。单独来看,每个智能体都至少出现过一次「假阳性」(false positive),但在 best-of-2 的评估机制下,它们共同为六道题目都提供了可信的解答。这一结果相比 2025 年 12 月用于解决 Erdős 问题的 Aletheia 版本,在准确率上有明显提升。

不过,P8 的评估并非一致通过 ——7 位专家中有 5 位给出了「Correct」的评价。对于另外 4 道题(P1、P3、P4、P6),两个智能体都没有给出解答:要么明确输出「No solution found」(未找到解答),要么在时间限制内没有返回任何结果。

研究团队认为,Aletheia 具备一种「自我筛选」机制,这也是 Aletheia 的关键设计原则之一。

在将 AI 扩展为数学研究助手的过程中,可靠性才是首要瓶颈。如果智能体给出错误的「幻觉」答案,会极度浪费人类专家用于验证结果的时间与精力,与提高研究效率和自动化的目标背道而驰。

此外,解决问题的推理成本也是非常重要的指标。


在图中展示了每个候选解的推理成本,并将其表示为相对于 Erdős-1051 解答推理成本的倍数。不难发现,Aletheia 在所有问题上,推理成本都高于 Erdős-1051

尤其是 P7,其推理成本比此前观察到的规模高出一个数量级。研究者称,这一方面是因为 Generator 子智能体在生成候选解时消耗了大量计算资源,另一方面是因为需要更多轮交互才能通过 Verifier 子智能体的验证。

总结

数学研究包含多个环节:提出问题、建立框架、寻找关键结构、完成证明。当前系统显然还无法全面承担所有角色,但它已经开始在证明与验证环节发挥作用。

未来的研究场景或许会发生变化。人类研究者提出方向与核心思想,AI 负责高强度的路径搜索与形式化验证,再由人类进行理论整合与升华。这种协作模式,正在逐渐成形。

数学长期以来被视为人类理性能力的高地。如今,AI 正在这里取得实质性突破。当机器开始稳定地完成研究级证明,我们或许需要重新思考一个问题:

在未来的数学论文作者名单中,AI 会以什么身份出现?

© THE END

文章来源:机器之心。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英国从伊朗暂时撤出使馆人员

英国从伊朗暂时撤出使馆人员

澎湃新闻
2026-02-27 23:25:04
江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

古怪奇谈录
2025-06-28 13:49:02
百度和高德地图对比怎样?网友的评论真是让我有了选择

百度和高德地图对比怎样?网友的评论真是让我有了选择

侃神评故事
2026-02-22 11:45:03
生病小花后悔退网了?郭富城老年免费?王鹤棣电影扑街?田嘉瑞受宠?姨太问答

生病小花后悔退网了?郭富城老年免费?王鹤棣电影扑街?田嘉瑞受宠?姨太问答

毒舌扒姨太
2026-02-26 22:32:50
离岸人民币兑美元短线快速走低逾100点

离岸人民币兑美元短线快速走低逾100点

每日经济新闻
2026-02-27 08:46:06
邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

邱毅:大陆的鹰派上来了!解放军出现重大变动,台岛担忧武统提前

我心纵横天地间
2026-02-23 23:04:29
化身“新克罗斯”:一脚外脚背定乾坤,皇马铁血中场变身节拍器

化身“新克罗斯”:一脚外脚背定乾坤,皇马铁血中场变身节拍器

星耀国际足坛
2026-02-27 23:16:36
村里红白事从不回,男子母亲离世,邻居等着看笑话,结果长了见识

村里红白事从不回,男子母亲离世,邻居等着看笑话,结果长了见识

子芫伴你成长
2026-02-23 12:21:40
中虎跳峡游客落水事故目击者:同行女子称他们“马上回去就要结婚的”消防仍在搜救

中虎跳峡游客落水事故目击者:同行女子称他们“马上回去就要结婚的”消防仍在搜救

红星新闻
2026-02-27 14:14:12
3-0横扫进8强!中国女乒28岁王牌闪耀:世界第3追赶王曼昱孙颖莎

3-0横扫进8强!中国女乒28岁王牌闪耀:世界第3追赶王曼昱孙颖莎

李喜林篮球绝杀
2026-02-26 22:11:55
1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

1982 年高材生王佐良娶瘫痪的张海迪,40 年后,才知他是人间清醒

墨印斋
2025-11-15 16:42:56
3月1日起,国家新规正式实施,公职人员将终身追责,不得不知

3月1日起,国家新规正式实施,公职人员将终身追责,不得不知

老特有话说
2026-02-26 13:29:49
不是迷信!正月初十,要吃这3样“吉祥菜”,遵循传统,添财添福

不是迷信!正月初十,要吃这3样“吉祥菜”,遵循传统,添财添福

江江食研社
2026-02-26 13:16:51
福建该综合执法与应急管理局干部涉嫌受贿,检察院依法决定逮捕

福建该综合执法与应急管理局干部涉嫌受贿,检察院依法决定逮捕

大闽门户
2026-02-27 18:35:04
王天辰:住北京部队大院,身高185帅气迷人,出道10年终于火了

王天辰:住北京部队大院,身高185帅气迷人,出道10年终于火了

陈意小可爱
2026-02-27 11:10:14
涉嫌严重违法,广西两名干部,同日被查

涉嫌严重违法,广西两名干部,同日被查

南国今报
2026-02-27 08:38:55
谢贤前女友再曝猛料!相识第一天拒绝了两次谢贤,当时行情非常好

谢贤前女友再曝猛料!相识第一天拒绝了两次谢贤,当时行情非常好

念得小柔
2026-02-13 02:19:33
大桥螺丝一踢就掉?村民怀疑刚修好大桥存在质量问题 当地回应:螺丝起装饰作用 无安全隐患

大桥螺丝一踢就掉?村民怀疑刚修好大桥存在质量问题 当地回应:螺丝起装饰作用 无安全隐患

闪电新闻
2026-02-26 14:36:17
前中天主播吴中纯淋巴癌猝逝!蔡正元:非常不舍

前中天主播吴中纯淋巴癌猝逝!蔡正元:非常不舍

新时光点滴
2026-02-26 00:02:00
中国队逆转日本揪出最大毒瘤!他上场8分钟 球队输10分 打的真差

中国队逆转日本揪出最大毒瘤!他上场8分钟 球队输10分 打的真差

篮球专区
2026-02-26 21:18:29
2026-02-27 23:47:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5380文章数 64616关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

游戏
艺术
本地
公开课
军事航空

知名舅舅党爆料:索尼克游戏新作有望今年公布

艺术要闻

紫气东来,好运一整年!

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版