网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

谷歌「AI联合数学家」刷新SOTA，牛津教授用它解开群论悬案

2026-05-09 15:13:01　来源: 量子位

北京举报

0

分享至

听雨发自凹非寺量子位 | 公众号 QbitAI

数学界「悬案簿」Kourovka Notebook，AI取得新突破。

群论领域几十年无解的第21.10号问题，被牛津数学家Marc Lackenby用谷歌一个新系统破解了。

过程也很有意思：AI第一次给出的证明是错的，被系统里的审查Agent揪出了漏洞。

Lackenby看到之后突然意识到：「等一下，我知道该如何填补这个漏洞」。

于是，通过和AI的反复配合，Lackenby最终成功解答出了这道数学难题。

这套人机协作的系统，就是谷歌DeepMind最新发布的「AI Co-Mathematician」（AI联合数学家）

它在最难的数学AI基准FrontierMath Tier 4上拿了48%，刷新SOTA。

甚至超过了GPT-5.5 Pro（39.6%）和GPT-5.4 Pro（37.5%）

最近几个月，不少数学难题，诸如接连几个Erdős问题都是用GPT解决的。

现在，谷歌也回归了。

「AI联合数学家」，是什么？

「AI联合数学家」是一个异步、有状态的工作空间，而非一问一答的模型。

顶层有一个「项目协调者」Agent负责统筹，拆解任务，调度多条研究线并行推进。

数学家上传一篇论文、提出一个研究方向后，协调者不会立刻输出答案，而是先和用户对话，像真正的合作者一样帮对方精炼问题。

之后它将任务分发到多条并行工作流：一条做文献检索，一条搭计算框架，一条尝试证明策略。

每条工作流都有自己的协调Agent，异步运行，互不阻塞。用户随时能介入、引导、接管。

如果Agent卡住了，它也会主动在聊天窗口里求助，而不是沉默重启。

比较特别的一点在于：对失败的态度

系统会持久化追踪所有失败的假说，不会丢弃，而是当作第一等的研究产出保存下来。

论文中提到，在数学研究里，知道什么行不通往往和知道什么行得通同等重要

「AI联合数学家」会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些「负空间」不会被丢弃，而是成为后续探索的上下文。

它的产出物也不是一段聊天记录或一篇未经验证的草稿，而是带margin注释和来源溯源的LaTeX文档——完全契合数学家社群的工作习惯。

「AI联合数学家」有什么意义？论文里有一段很精妙的比喻：

软件工程领域已经有了Claude Code、Cursor这类AI编码环境，它们提供了持续迭代、版本控制、测试验证的完整工作流。
但数学家此前一直缺少一个等价的编排层。

「AI联合数学家」就是试图填补这个空白。

它的定位，与DeepMind上一代系统AlphaEvolve完全不同。

AlphaEvolve更像一个自主搜索引擎：你把问题扔进去，它进化出一个更好的算法，人基本不在循环里。

而「AI联合数学家」要求数学家始终在回路中，系统在最适合的时机向人类提问，而不是替人类做完整件事。

刷新最难数学AI基准SOTA

在benchmark上，「AI联合数学家」也拿下了出彩的成绩：

刷新了最难的数学AI基准FrontierMath Tier 4的SOTA，拿了48%的准确率。

FrontierMath是Epoch AI开发的数学benchmark，包含350道原创高难度题，覆盖现代数学各大分支。

其中Tier 4仅50题，被Epoch AI描述为「其中一些问题可能数十年内AI都无法攻克」，人类专家解决一道通常需要数天。

「AI联合数学家」在48道非公开题中答对了23道，准确率48%

GPT-5.5 Pro此前在Tier 4拿到39.6%，GPT-5.4 Pro是37.5%，Claude Opus 4.6/4.7则双双落在22.9%。

相比之下，「AI联合数学家」把最高分推了近10个百分点。

值得注意的是，它的底层基座模型Gemini 3.1 Pro，单独做这个测试只拿到了19%。

从19%到48%，这29个百分点的跳跃完全来自系统层面的编排——并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。

而且其中有3道题是此前所有系统都没答对过的新题。

内部100题研究级数学基准测试中的准确率得分

基准之外，论文中还提到，有三位数学家已经用它来解决真实问题：

牛津大学数学家Marc Lackenby解决了Kourovka Notebook第21.10号问题（群论）。

审稿Agent先发现了AI初稿里的一个漏洞，Lackenby意识到自己知道怎么填补这个缺口，最后论文诞生。

数学家Semon Rezchikov在哈密顿系统中，向系统抛出一个技术性子问题，收到了一个关键引理。

他的评价是「其他AI系统在同一个prompt上全部失败」，且从美学上看这是他用过所有模型里证明风格最好的。

还有Gergely Bérczi，获得了关于Stirling系数对称幂表示的猜想证明。

此外，论文也坦承了两个失败模式。

第一种叫「讨好审稿人偏差」：Agent会不断改写有缺陷的论证，直到AI审稿人不再能发现错误——但漏洞其实还在。

第二种是「死亡螺旋」：当迭代评审过程未能达成共识时，Agent们会陷入无限审稿循环，推理逐渐退化为幻觉。

另外还有一个结构性问题：当AI能在几分钟内生成一篇20页的证明草稿，人类同行评审仍需要数天，这对于依赖志愿者的学术评审体系会形成系统性压力。

而且AI虽然很擅长进行逻辑核验，发现代数错误或找出缺失的引用文献，但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。

如果过度依赖AI评审，可能会让人类定性判断被边缘化。

当然，在48%这个成绩上，论文中也坦诚披露了评估差异。

48%的得分是在特殊条件下取得的——每题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI标准评估框架不完全可比。

团队背景

「AI联合数学家」背后共有18位作者，有几个名字值得单独说说。

第一作者兼通讯作者Daniel Zheng，Google DeepMind研究工程师，研究方向是编程语言与机器学习的交叉。

2024年AlphaProof拿到IMO银牌那个项目里，他和Alex Davies共同主导了非正式系统（包括最终答案判定模块）的开发。

Alex Davies，同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者，是这条技术路线最重要的连接者之一。

通讯作者Pushmeet Kohli，Google DeepMind科学副总裁兼Google Cloud首席科学家，主导了AlphaFold（诺奖级成果）、AlphaProof、AlphaEvolve等一系列系统。

这篇论文是他带的团队在AI for Math路线上的最新一步。

另一位通讯作者Daniel M. Roy，多伦多大学统计系教授，研究横跨机器学习、数理统计和理论计算机科学。

2025年底从加拿大Vector Institute研究主任卸任，2026年1月以访问研究员身份加入DeepMind伦敦。三个学位均来自MIT。

Fernanda ViégasMartin Wattenberg则是PAIR（People+AI Research）团队的共同创始人，同时也是哈佛计算机科学教授，专注AI可解释性与人机交互。

他们负责AI联合数学家的用户交互与界面层——这也解释了为什么这个系统在「如何让数学家愿意用它」上花了相当多的心思。

值得注意的是，数学家Marc Lackenby并不是临时找来测试的「外部数学家」。

在其牛津主页的论文列表里，可以追溯到2021年，Lackenby就已经与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队的长期合作者。

One More Thing

放在更大的背景下，这是谷歌在AI for Math方向上已经走了几年的一条路线。

2024年，AlphaProof用强化学习做形式化数学推理，在IMO拿到银牌水准。

2025年，Gemini Deep Think在当年IMO达到金牌水准，六道题答对五道。

AlphaEvolve则是另一条线，自主发现新算法，在50多个开放数学问题上改进了20%的已知最优解。

「AI联合数学家」和这几个系统定位不同，不是更强的问题求解器，更倾向于面向研究者日常工作流的协作工具。

AlphaEvolve适合「给我一个更好的算法」，「AI联合数学家」则适合「陪我研究这个方向几个星期」。

目前「AI联合数学家」还在限量发布阶段，Pushmeet Kohli的表述是，目标是未来开发产品向更广泛的用户开放这个范式。

它还不是所有数学家都能用到的工具，但它证明了一件事：

AI和数学家之间的协作，可以比「问答」复杂得多，也有效得多。

论文地址：
https://arxiv.org/abs/2605.06651

[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

一个模型控制机器人所有运动，谷歌发布新一代机器人基础模型

DeepTech深科技 2026-07-31 20:58:04
0 跟贴 0
「机器学习之父」Jordan：Hinton等思想领袖们正在伤害年轻一代

机器之心Pro 2026-06-22 09:46:00
1 跟贴 1

100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0

腾讯科研智能体攻破50年未解数学难题，姚顺雨喊话正在招人

智东西 2026-07-31 19:34:27
0 跟贴 0
翁荔刚回OpenAI，Thinking Machines反手甩出新模型

新智元 2026-07-31 11:30:56
0 跟贴 0

AI助力多组学与机器学习联合分析（机器学习分析代谢组、蛋白组、宏基因组、网络药理学、转录组）

医咖会 2026-03-05 19:27:22
0 跟贴 0

阿里达摩院开源具身大脑基础模型

机器之心Pro 2026-02-11 18:09:11
0 跟贴 0
实测 DeepSeek V4 正式版：3 块钱干完 5 件事，AI「智价比」之战开打了

爱范儿 2026-07-31 19:55:24
0 跟贴 0

再多安全训练，也堵不住大语言模型的致命漏洞

DeepTech深科技 2026-07-30 19:39:14
0 跟贴 0
狂奔4天半的神秘AI，奥特曼宣判「永久停用」

新智元 2026-07-31 21:18:18
0 跟贴 0
深度分析：谁在害怕中国模型？

虎嗅APP 2026-07-31 22:10:12
0 跟贴 0
中层消失，Token狂热退潮，硅谷工程师眼里的「AI创业下半场」

36氪 2026-07-31 08:32:21
10 跟贴 10
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
马斯克要用 AI 打造《奥德赛》电影，我用小云雀 Seedance 2.5 提前实现了

爱范儿 2026-07-31 21:31:38
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
北大为何没有留住这位数学天才王虹

朱常在 2026-07-28 23:18:34
28 跟贴 28
王虹为什么能获得菲尔兹奖？一个视频说透

夜相思 2026-07-27 19:15:37
80 跟贴 80
当数学从“证明稀缺”走向“证明过剩”，经济学还有研究价值吗？

虎嗅APP 2026-07-31 21:10:15
0 跟贴 0
王虹介绍三维挂谷猜想，你听懂了吗？

元气八眉菌 2026-07-30 04:52:35
4 跟贴 4
「美股盘前」苹果跌超7%，库克最后一次财报会释放供应趋紧信号；亚马逊涨超12%，AWS收入同比增长37%；AI芯片股、存储股集体上涨，SK海力士涨超6%

每日经济新闻 2026-07-31 17:35:21
1 跟贴 1
美股财报季后的思考：科技巨头们，谁能更快将AI算力变成真金白银？

财联社 2026-07-31 19:05:19
1 跟贴 1
数学家丘成桐：自认为天才，往往难成才！

剪辑仙灵君 2026-07-30 05:45:01
1 跟贴 1
数学学霸柳智宇对王虹获奖经历的解读，听完热泪盈眶！

崩坏星穹铁道 2026-07-31 01:10:11
26 跟贴 26
难怪王虹会特别感谢她的博士生导师拉里古斯

大锤RUNKMD 2026-07-28 03:58:15
50 跟贴 50
杨植麟暴怒了！彻底掀桌！你OpenAI的算法不都是抄的？

网易科技态度见闻 2026-07-29 14:41:53
2 跟贴 2
创造百年纪录！中国天才王虹，拿下菲尔兹奖改写中国数学史#王虹

王总拍案 2026-07-27 14:56:11
0 跟贴 0
轻松掌握小阶梯数阵图，数学学习so easy！

夏时情绪 2026-07-30 03:43:56
0 跟贴 0
数学老师讲解二次根式化简难题，简单易懂！

小车车和小刘刘 2026-07-27 03:42:22
0 跟贴 0
你知道美国人是靠什么统治世界的吗，既不是苹果，也不是谷歌

小乇看事界 2026-07-30 10:43:35
1 跟贴 1
我反感菲尔兹奖成功后，一场只有“关系”的狂欢

快刀财经 2026-07-31 11:52:04
0 跟贴 0
数学最低138？张雪峰老师直呼厉害了，数学学好了什么都能干！

小朋友手工 2026-07-28 05:13:13
1 跟贴 1
菲尔兹奖照出中国教育最大的短板：为什么两位数学天才，都去了欧美？

东亚财评V 2026-07-30 19:20:50
5 跟贴 5
机器之心逛谷歌，分享最热的Self-Improving

机器之心Pro 2026-06-16 12:45:36
0 跟贴 0
北大韦神为什么没有获得菲尔兹奖？听听清华学霸杨奇函的分析

上易新鲜事 2026-07-31 04:13:39
69 跟贴 69
他做出爆火的谷歌CLI工具转头却被开除了

量子位 2026-06-28 18:42:01
0 跟贴 0
平民三巨头平替Fable 5！性能追平，成本砍半

量子位 2026-06-21 09:58:58
0 跟贴 0
菲尔兹奖花落北大，清华要被北大压五十年？听听清华老师怎么说

未名书屋 2026-07-28 03:53:34
308 跟贴 308
人民日报对王虹的称呼变了！18字之差释放强烈信号，丘成桐没说错

王衜晓 2026-07-30 22:35:35
1 跟贴 1
牛津顶级数学家震撼全场无神论者，一场15分钟的精彩演讲

爱丽丝爱分享 2026-07-30 01:10:24
707 跟贴 707
央视记者正面问丘成桐: 两位中国学者获得菲尔兹奖证明了什么！

柒号观察室 2026-07-28 21:22:58
0 跟贴 0

比亚迪“海獭”让日本人破防了

DearAuto

2026-07-29 20:20:03

反腐快讯：安徽两厅干被提起公诉！另有3人被查

反腐快讯：安徽两厅干被提起公诉！另有3人被查

凤凰网安徽

2026-07-31 17:55:19

顿巴斯决战提前打响，俄前锋部队突入双子城辖区，美欧乌三方出手

顿巴斯决战提前打响，俄前锋部队突入双子城辖区，美欧乌三方出手

此去经年q

2026-07-31 07:51:49

北京男篮锁定新外援，23+4+5后卫基本确定加盟，搭档布朗冲击总冠军

北京男篮锁定新外援，23+4+5后卫基本确定加盟，搭档布朗冲击总冠军

中国篮坛快讯

2026-07-31 15:33:21

墙倒众人扶！被人民日报点名的李维刚，再次证明真诚才是必杀技

墙倒众人扶！被人民日报点名的李维刚，再次证明真诚才是必杀技

舊事別提

2026-06-12 07:09:01

震惊！都江堰一景区，连绵的帐篷搭建在河道上，网友：在古代，哪位将军敢这样安营扎寨，回去都得被砍头吧

震惊！都江堰一景区，连绵的帐篷搭建在河道上，网友：在古代，哪位将军敢这样安营扎寨，回去都得被砍头吧

火山詩话

2026-07-29 20:57:45

外资调仓！摩根大通、瑞银增持A股名单曝光

外资调仓！摩根大通、瑞银增持A股名单曝光

21世纪经济报道

2026-07-31 12:57:08

3天破5千万！《御廷谣》打了多少资方的脸，泼天富贵轮到吴谨言

3天破5千万！《御廷谣》打了多少资方的脸，泼天富贵轮到吴谨言

秋风悲画芯

2026-07-30 16:06:54

吹牛逼吹出一个协会

微言微评

2026-07-31 08:08:12

性生活影响寿命？男性能力越强寿命越长？医生：再爱也要懂节制

性生活影响寿命？男性能力越强寿命越长？医生：再爱也要懂节制

39健康网

2026-07-31 20:42:47

其实小孩是没有退路的。如果父母不爱他，他也无处可去。如果同学欺负他，他也要硬着头皮去上学

其实小孩是没有退路的。如果父母不爱他，他也无处可去。如果同学欺负他，他也要硬着头皮去上学

窈窕妈妈

2026-07-30 21:07:20

布冯悼念巴雷西：我意甲首秀时你是米兰队长，能与你同场不可思议

布冯悼念巴雷西：我意甲首秀时你是米兰队长，能与你同场不可思议

懂球帝

2026-07-31 15:37:16

片酬不少拿，演啥就毁啥！这几位“戏混子”明星，演戏太尴尬

片酬不少拿，演啥就毁啥！这几位“戏混子”明星，演戏太尴尬

80后房车生活

2026-07-30 18:14:22

消费者称购二手车后发现多处问题，瓜子二手车与“查博士”均承认检测失误

消费者称购二手车后发现多处问题，瓜子二手车与“查博士”均承认检测失误

澎湃新闻

2026-07-31 16:14:27

汪小菲一件事暖了大洋彼岸老母亲的心，张兰终于等到了，释怀了

汪小菲一件事暖了大洋彼岸老母亲的心，张兰终于等到了，释怀了

明天去看太阳

2026-07-29 15:59:49

台股单日狂拉3186点，创史上最恐怖单日涨点！

台股单日狂拉3186点，创史上最恐怖单日涨点！

财闻

2026-07-31 13:59:28

2034杯4强诞生！中国足球小将红队对阵泰国球队，上演最强对决

2034杯4强诞生！中国足球小将红队对阵泰国球队，上演最强对决

李絙在北漂

2026-07-31 04:39:02

亚足联最新发声加入支持欧足联行列，英媒：FIFA商业计划似乎已宣告“破产”

亚足联最新发声加入支持欧足联行列，英媒：FIFA商业计划似乎已宣告“破产”

环球网资讯

2026-07-31 19:22:16

8000米高峰突发雪崩，10名登山者失踪，包括中国和美国公民！世界著名登山家尼尔马尔·普尔贾也在其中

8000米高峰突发雪崩，10名登山者失踪，包括中国和美国公民！世界著名登山家尼尔马尔·普尔贾也在其中

每日经济新闻

2026-07-31 14:24:05

或14.99万？特斯拉SUV国内现身！

或14.99万？特斯拉SUV国内现身！

米粒说车唯一呀

2026-07-29 20:46:20

追踪人工智能动态

13063文章数 176526关注度

往期回顾全部

科技要闻

DeepSeek-V4-Flash正式版API上线公测

头条要闻

教师在校内游泳馆溺亡家属:长达3分40秒救生员未察觉

头条要闻

教师在校内游泳馆溺亡家属:长达3分40秒救生员未察觉

体育要闻

欧足联掀桌！因凡蒂诺这次真玩大了？

娱乐要闻

百花奖影帝影后即将决出

财经要闻

华强北显卡涨价潮有显卡一周暴涨4000元

汽车要闻

听劝！换回机械门把手，这才是碳基生物该开的车！

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

教育

旅游

公开课

军事航空

数码要闻

太难杀了小米空调被烧融仍能运行高管也被震撼

教育要闻

L3秋｜成为多元包容、拥有勇气、不盲从大众的孩子

旅游要闻

贵州漂流景区现擦边"伴漂" 文旅创新不是软色情!

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

特朗普称哈马斯将全面解除武装

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版