网易首页 > 网易号 > 正文 申请入驻

谷歌「AI联合数学家」刷新SOTA,牛津教授用它解开群论悬案

0
分享至

听雨 发自 凹非寺量子位 | 公众号 QbitAI

数学界「悬案簿」Kourovka Notebook,AI取得新突破。

群论领域几十年无解的第21.10号问题,被牛津数学家Marc Lackenby用谷歌一个新系统破解了。

过程也很有意思:AI第一次给出的证明是错的,被系统里的审查Agent揪出了漏洞。

Lackenby看到之后突然意识到:「等一下,我知道该如何填补这个漏洞」。

于是,通过和AI的反复配合,Lackenby最终成功解答出了这道数学难题。

这套人机协作的系统,就是谷歌DeepMind最新发布的「AI Co-Mathematician」(AI联合数学家)



它在最难的数学AI基准FrontierMath Tier 4上拿了48%,刷新SOTA。

甚至超过了GPT-5.5 Pro(39.6%)和GPT-5.4 Pro(37.5%)



最近几个月,不少数学难题,诸如接连几个Erdős问题都是用GPT解决的。

现在,谷歌也回归了。



「AI联合数学家」,是什么?

「AI联合数学家」是一个异步、有状态的工作空间,而非一问一答的模型。

顶层有一个「项目协调者」Agent负责统筹,拆解任务,调度多条研究线并行推进。



数学家上传一篇论文、提出一个研究方向后,协调者不会立刻输出答案,而是先和用户对话,像真正的合作者一样帮对方精炼问题。



之后它将任务分发到多条并行工作流:一条做文献检索,一条搭计算框架,一条尝试证明策略。

每条工作流都有自己的协调Agent,异步运行,互不阻塞。用户随时能介入、引导、接管。



如果Agent卡住了,它也会主动在聊天窗口里求助,而不是沉默重启。

比较特别的一点在于:对失败的态度

系统会持久化追踪所有失败的假说,不会丢弃,而是当作第一等的研究产出保存下来。



论文中提到,在数学研究里,知道什么行不通往往和知道什么行得通同等重要

「AI联合数学家」会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些「负空间」不会被丢弃,而是成为后续探索的上下文。

它的产出物也不是一段聊天记录或一篇未经验证的草稿,而是带margin注释和来源溯源的LaTeX文档——完全契合数学家社群的工作习惯。

「AI联合数学家」有什么意义?论文里有一段很精妙的比喻:

  • 软件工程领域已经有了Claude Code、Cursor这类AI编码环境,它们提供了持续迭代、版本控制、测试验证的完整工作流。
    但数学家此前一直缺少一个等价的编排层。

「AI联合数学家」就是试图填补这个空白。

它的定位,与DeepMind上一代系统AlphaEvolve完全不同。

AlphaEvolve更像一个自主搜索引擎:你把问题扔进去,它进化出一个更好的算法,人基本不在循环里。

而「AI联合数学家」要求数学家始终在回路中,系统在最适合的时机向人类提问,而不是替人类做完整件事。

刷新最难数学AI基准SOTA

在benchmark上,「AI联合数学家」也拿下了出彩的成绩:

刷新了最难的数学AI基准FrontierMath Tier 4的SOTA,拿了48%的准确率。



FrontierMath是Epoch AI开发的数学benchmark,包含350道原创高难度题,覆盖现代数学各大分支。

其中Tier 4仅50题,被Epoch AI描述为「其中一些问题可能数十年内AI都无法攻克」,人类专家解决一道通常需要数天。

「AI联合数学家」在48道非公开题中答对了23道,准确率48%



GPT-5.5 Pro此前在Tier 4拿到39.6%,GPT-5.4 Pro是37.5%,Claude Opus 4.6/4.7则双双落在22.9%。

相比之下,「AI联合数学家」把最高分推了近10个百分点。



值得注意的是,它的底层基座模型Gemini 3.1 Pro,单独做这个测试只拿到了19%。

从19%到48%,这29个百分点的跳跃完全来自系统层面的编排——并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。

而且其中有3道题是此前所有系统都没答对过的新题。

内部100题研究级数学基准测试中的准确率得分



基准之外,论文中还提到,有三位数学家已经用它来解决真实问题:

牛津大学数学家Marc Lackenby解决了Kourovka Notebook第21.10号问题(群论)。

审稿Agent先发现了AI初稿里的一个漏洞,Lackenby意识到自己知道怎么填补这个缺口,最后论文诞生。

数学家Semon Rezchikov在哈密顿系统中,向系统抛出一个技术性子问题,收到了一个关键引理。

他的评价是「其他AI系统在同一个prompt上全部失败」,且从美学上看这是他用过所有模型里证明风格最好的。

还有Gergely Bérczi,获得了关于Stirling系数对称幂表示的猜想证明。

此外,论文也坦承了两个失败模式。

第一种叫「讨好审稿人偏差」:Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误——但漏洞其实还在。

第二种是「死亡螺旋」:当迭代评审过程未能达成共识时,Agent们会陷入无限审稿循环,推理逐渐退化为幻觉。

另外还有一个结构性问题:当AI能在几分钟内生成一篇20页的证明草稿,人类同行评审仍需要数天,这对于依赖志愿者的学术评审体系会形成系统性压力。

而且AI虽然很擅长进行逻辑核验,发现代数错误或找出缺失的引用文献,但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。

如果过度依赖AI评审,可能会让人类定性判断被边缘化。

当然,在48%这个成绩上,论文中也坦诚披露了评估差异。

48%的得分是在特殊条件下取得的——每题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI标准评估框架不完全可比。

团队背景

「AI联合数学家」背后共有18位作者,有几个名字值得单独说说。

第一作者兼通讯作者Daniel Zheng,Google DeepMind研究工程师,研究方向是编程语言与机器学习的交叉。



2024年AlphaProof拿到IMO银牌那个项目里,他和Alex Davies共同主导了非正式系统(包括最终答案判定模块)的开发。

Alex Davies,同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者,是这条技术路线最重要的连接者之一。



通讯作者Pushmeet Kohli,Google DeepMind科学副总裁兼Google Cloud首席科学家,主导了AlphaFold(诺奖级成果)、AlphaProof、AlphaEvolve等一系列系统。



这篇论文是他带的团队在AI for Math路线上的最新一步。

另一位通讯作者Daniel M. Roy,多伦多大学统计系教授,研究横跨机器学习、数理统计和理论计算机科学。



2025年底从加拿大Vector Institute研究主任卸任,2026年1月以访问研究员身份加入DeepMind伦敦。三个学位均来自MIT。

Fernanda ViégasMartin Wattenberg则是PAIR(People+AI Research)团队的共同创始人,同时也是哈佛计算机科学教授,专注AI可解释性与人机交互。





他们负责AI联合数学家的用户交互与界面层——这也解释了为什么这个系统在「如何让数学家愿意用它」上花了相当多的心思。

值得注意的是,数学家Marc Lackenby并不是临时找来测试的「外部数学家」。



在其牛津主页的论文列表里,可以追溯到2021年,Lackenby就已经与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队的长期合作者。



One More Thing

放在更大的背景下,这是谷歌在AI for Math方向上已经走了几年的一条路线。

2024年,AlphaProof用强化学习做形式化数学推理,在IMO拿到银牌水准。

2025年,Gemini Deep Think在当年IMO达到金牌水准,六道题答对五道。

AlphaEvolve则是另一条线,自主发现新算法,在50多个开放数学问题上改进了20%的已知最优解。

「AI联合数学家」和这几个系统定位不同,不是更强的问题求解器,更倾向于面向研究者日常工作流的协作工具。

AlphaEvolve适合「给我一个更好的算法」,「AI联合数学家」则适合「陪我研究这个方向几个星期」。

目前「AI联合数学家」还在限量发布阶段,Pushmeet Kohli的表述是,目标是未来开发产品向更广泛的用户开放这个范式。

它还不是所有数学家都能用到的工具,但它证明了一件事:

AI和数学家之间的协作,可以比「问答」复杂得多,也有效得多。

论文地址:
https://arxiv.org/abs/2605.06651


[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

细说职场
2026-04-28 10:39:02
表决通过后,郑丽文获一边倒力挺,赵少康无地自容,两度发声抱屈

表决通过后,郑丽文获一边倒力挺,赵少康无地自容,两度发声抱屈

梦总会实现的呢
2026-05-09 16:25:00
五一高速真相:10万级燃油车霸屏,不是穷人多,是清醒的人太少

五一高速真相:10万级燃油车霸屏,不是穷人多,是清醒的人太少

侃故事的阿庆
2026-05-09 00:56:21
盲人在盲道被电动车撞,逃逸者反骂“不看路”,北京交警介入调查

盲人在盲道被电动车撞,逃逸者反骂“不看路”,北京交警介入调查

新京报
2026-05-09 08:44:24
我以前说长大了要娶师姐,后来去相亲时被她拦住说,敢去我挠烂你

我以前说长大了要娶师姐,后来去相亲时被她拦住说,敢去我挠烂你

人间百态大全
2026-05-09 06:40:03
韩国政坛罕见一幕:李在明等三名政要同日落泪

韩国政坛罕见一幕:李在明等三名政要同日落泪

看看新闻Knews
2026-05-09 16:28:14
美国名校教授潜入中国农村调查,意外找到了贫困的根源......

美国名校教授潜入中国农村调查,意外找到了贫困的根源......

霹雳炮
2026-05-07 04:00:03
有两个是独行侠出品!布伦森尼克斯生涯场均29.6分,高居历史第四

有两个是独行侠出品!布伦森尼克斯生涯场均29.6分,高居历史第四

无术不学
2026-05-09 11:27:47
2026年调整退休人员基本养老金的通知正式公布了吗?

2026年调整退休人员基本养老金的通知正式公布了吗?

白昼说故事
2026-05-09 11:31:21
江西一精神病院炒股,成上市公司前十大股东!最新回应来了

江西一精神病院炒股,成上市公司前十大股东!最新回应来了

极目新闻
2026-05-09 07:30:30
别再乱插电视HDMI接口了1、2、3不是随便用,插错万元电视也白费

别再乱插电视HDMI接口了1、2、3不是随便用,插错万元电视也白费

辉哥说动漫
2026-05-08 13:13:02
中国球迷险无法看国足踢世界杯!央视极限压价:2亿买两届转播权

中国球迷险无法看国足踢世界杯!央视极限压价:2亿买两届转播权

念洲
2026-05-07 16:31:49
HU7478航班延误1小时,机舱过道内“站着不少人”!航司回应:系旅客突发事件

HU7478航班延误1小时,机舱过道内“站着不少人”!航司回应:系旅客突发事件

极目新闻
2026-05-09 13:55:58
布拉德利・库珀雨天携女出街 父爱满满

布拉德利・库珀雨天携女出街 父爱满满

述家娱记
2026-05-09 10:48:03
古怪的一野:打到最后彭总都怕镇不住,十万大军几乎成了“川军”

古怪的一野:打到最后彭总都怕镇不住,十万大军几乎成了“川军”

史之铭
2026-05-08 18:32:15
网购榴莲“仅退款”买家被行拘,商家回应:对方是20多岁女生,把客服给骂哭了,自己实在气不过

网购榴莲“仅退款”买家被行拘,商家回应:对方是20多岁女生,把客服给骂哭了,自己实在气不过

番禺台
2026-05-09 12:19:20
钟汉良假发意外爆红,成全网热议名场面

钟汉良假发意外爆红,成全网热议名场面

小椰的奶奶
2026-05-08 11:58:54
国乒美女钱天一:26岁退役,不选编制选安置费,嫁世界冠军很幸福

国乒美女钱天一:26岁退役,不选编制选安置费,嫁世界冠军很幸福

以茶带书
2026-05-08 15:40:11
发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

发现了1个残酷真相:被美军抓走的马杜罗,如今已经被彻底遗忘

爱竞彩的小周
2026-05-08 19:53:26
普京不想再打了,俄军打下来的领土,足够给1亿俄罗斯人一个交待

普京不想再打了,俄军打下来的领土,足够给1亿俄罗斯人一个交待

混沌录
2026-05-05 13:50:21
2026-05-09 19:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12597文章数 176461关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

存储芯片上演造富潮

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
时尚
旅游
亲子
军事航空

玩家十年没清空过电脑回收站!一看容量当场傻眼了

今年春夏最火的3个穿搭思路,普通人可以直接照搬吗?

旅游要闻

别跑空!洛阳这些博物馆恢复周一例行闭馆

亲子要闻

2026好看又好用的妈咪育儿包有哪些?(5月最新)

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版