网易首页 > 网易号 > 正文 申请入驻

谷歌发布AI联合数学家:牛津教授靠它破解群论悬案,最难数学基准刷新SOTA

0
分享至

数学界有个流传几十年的"悬案簿"Kourovka Notebook,第21.10号问题在群论领域始终无解。牛津数学家Marc Lackenby最近把它破了——用的不是传统纸笔,而是谷歌DeepMind刚发布的新系统。

过程挺有意思。AI第一次给出的证明是错的,被系统里的审查Agent揪出了漏洞。Lackenby看到后突然反应过来:"等一下,我知道该如何填补这个漏洞。"几番来回配合,这道难题最终告破。


这套系统叫"AI联合数学家"(AI Co-Mathematician),定位很清晰:不是替你做题,而是和你一起做。


它和常见的一问一答式模型完全不同。顶层有个"项目协调者"Agent统筹全局,数学家上传论文、提出方向后,它不会直接甩答案,而是先对话帮你精炼问题。之后任务被拆成多条并行工作流:文献检索、计算框架搭建、证明策略尝试,各走各的,互不阻塞。用户随时能介入、引导、接管。Agent卡住了还会主动在聊天窗口求助,而不是默默重启。

系统对"失败"的态度也很特别。所有被否定的假设、死胡同、审稿Agent发现的漏洞,都会被持久化追踪保存。论文里写得很直白:在数学研究里,知道什么行不通往往和知道什么行得通同等重要。最终产出也不是聊天记录或未经检验的草稿,而是带margin注释和来源溯源的LaTeX文档——数学家们熟悉的那套格式。

论文里有个精妙的类比。软件工程已有Claude Code、Cursor这类AI编码环境,提供持续迭代、版本控制、测试验证的完整工作流,但数学家一直缺少等价的编排层。"AI联合数学家"想填的就是这个空白。

这和DeepMind上一代系统AlphaEvolve完全是两条路。AlphaEvolve更像自主搜索引擎:问题扔进去,它进化出更好的算法,人基本不在循环里。"AI联合数学家"则要求数学家始终在回路中,系统在最适合的时机向人提问,而非替人做完所有事。

benchmark成绩同样亮眼。它在最难的数学AI基准FrontierMath Tier 4上拿了48%,刷新SOTA。这个基准由Epoch AI开发,350道原创高难度题覆盖现代数学各大分支。Tier 4仅50题,Epoch AI的描述是"其中一些问题可能数十年内AI都无法攻克",人类专家解决一道通常需要数天。

"AI联合数学家"在48道非公开题中答对23道。作为参照,GPT-5.5 Pro此前在Tier 4拿到39.6%,GPT-5.4 Pro是37.5%,Claude Opus 4.6/4.7双双落在22.9%。近10个百分点的提升,而且其中有3道题是此前所有系统都没答对过的新题。

更值得关注的是底层基座模型Gemini 3.1 Pro单独做这个测试只拿到19%。从19%到48%,这29个百分点的跳跃完全来自系统层面的编排:并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。


除了Lackenby的群论突破,还有两位数学家已用它解决真实问题。Semon Rezchikov在哈密顿系统中抛出一个技术性子问题,收到了一个关键引理。他的评价是"其他AI系统在同一个prompt上全部失败",且从美学上看这是他用过所有模型里证明风格最好的。Gergely Bérczi则获得了关于Stirling系数对称幂表示的猜想证明。

论文也坦诚披露了局限。第一种失败模式叫"讨好审稿人偏差":Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误——但漏洞其实还在。第二种是"死亡螺旋":当迭代评审过程未能达成共识时,Agent们陷入无限审稿循环,推理逐渐退化为幻觉。

结构性问题同样存在。AI几分钟能生成20页证明草稿,人类同行评审仍需数天,这对依赖志愿者的学术评审体系会形成系统性压力。而且AI虽擅长逻辑核验、发现代数错误、找出缺失引用,但缺乏判断论文优雅性、深度或真正数学价值的整体直觉。过度依赖AI评审,可能让人类定性判断被边缘化。

48%的得分也有特殊条件:每题给了48小时、没有token限制、使用团队自己的基础设施,与Epoch AI标准评估框架不完全可比。

团队共18位作者。第一作者兼通讯作者Daniel Zheng是DeepMind研究工程师,2024年AlphaProof拿IMO银牌时,他主导了非正式系统开发。Alex Davies是从AlphaProof到AlphaEvolve再到本项目的连续参与者,是这条技术路线的重要连接者。通讯作者Pushmeet Kohli是DeepMind科学副总裁兼Google Cloud首席科学家,AlphaFold、AlphaProof、AlphaEvolve均出自他手。另一位通讯作者Daniel M. Roy是多伦多大学统计系教授,2026年1月以访问研究员身份加入DeepMind伦敦。

最近几个月,GPT接连解决了几个Erdős问题。现在谷歌带着"AI联合数学家"回归,AI for Math的竞赛还在继续。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅!浓眉再度联手状元秀!恭喜快船,躺赢了!

重磅!浓眉再度联手状元秀!恭喜快船,躺赢了!

左右为篮
2026-05-11 09:06:30
她是到现在为止,我见过最好身材的美女,再也没有超过她的了

她是到现在为止,我见过最好身材的美女,再也没有超过她的了

手工制作阿歼
2026-05-11 05:40:51
最新研究出炉:外星人有70%的几率不存在,人类就是唯一!

最新研究出炉:外星人有70%的几率不存在,人类就是唯一!

观察宇宙
2026-05-09 21:29:10
5月11日人民币对美元中间价调升35个基点

5月11日人民币对美元中间价调升35个基点

证券时报
2026-05-11 09:40:03
王大雷调侃:我只记得我们是2-0;玉宁那个进球真的太漂亮了

王大雷调侃:我只记得我们是2-0;玉宁那个进球真的太漂亮了

懂球帝
2026-05-11 09:20:10
新一轮金融危机,开始了

新一轮金融危机,开始了

米宅
2026-05-11 07:22:58
苹果 iPhone Air 又降价,再次刷新历史!

苹果 iPhone Air 又降价,再次刷新历史!

XCiOS俱乐部
2026-05-10 20:23:44
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
深圳2-0浙江晋级四强:贺希宁23分末节4三分 程帅澎25分史密斯3双

深圳2-0浙江晋级四强:贺希宁23分末节4三分 程帅澎25分史密斯3双

醉卧浮生
2026-05-10 21:44:46
情报高层被美中情局引诱成间谍,叛逃后被溺毙在南美的大海里

情报高层被美中情局引诱成间谍,叛逃后被溺毙在南美的大海里

阿胡
2026-04-14 12:22:32
县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

大风新闻
2026-05-10 15:07:12
如果鳄雀鳝逃逸至长江,它会不会是无敌的存在?打遍江鱼无敌手?

如果鳄雀鳝逃逸至长江,它会不会是无敌的存在?打遍江鱼无敌手?

向航说
2026-05-08 01:40:03
出卖项羽的项伯,最后是什么下场呢?

出卖项羽的项伯,最后是什么下场呢?

贱议你读史
2026-04-26 01:13:49
耗时17年!这条普速铁路6月底将全线开工,采用全额资本金

耗时17年!这条普速铁路6月底将全线开工,采用全额资本金

铁路叨叨嘴
2026-05-11 10:27:22
仅播6集,就拿下9.5高分,终于又有好剧可以追了!

仅播6集,就拿下9.5高分,终于又有好剧可以追了!

蓝莓影视推荐
2026-05-11 13:12:53
5月9日阅兵的俄罗斯,走向垃圾时间

5月9日阅兵的俄罗斯,走向垃圾时间

黔有虎
2026-05-09 16:22:09
打破惯例!访华前特朗普再做新安排,美专家担忧,是他主动要访华

打破惯例!访华前特朗普再做新安排,美专家担忧,是他主动要访华

井普椿的独白
2026-05-11 13:09:00
猪身上最好吃的部位排行,梅花肉倒数第1,第1很稀有,建议了解

猪身上最好吃的部位排行,梅花肉倒数第1,第1很稀有,建议了解

阿莱美食汇
2026-05-10 14:15:56
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
重大突破!600172,“一”字涨停

重大突破!600172,“一”字涨停

数据宝
2026-05-11 10:50:13
2026-05-11 15:24:49
硅屿手记
硅屿手记
有态度网友ytd
3874文章数 20关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:特朗普确定本周访华 中美在东亚有个共同的敌人

头条要闻

媒体:特朗普确定本周访华 中美在东亚有个共同的敌人

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

房产
健康
旅游
家居
亲子

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

干细胞能让人“返老还童”吗

旅游要闻

宁国铁匠山:绿水青山间奏响的生态与经济交响曲

家居要闻

多元生活 此处无声

亲子要闻

从依恋到分化:我们是如何一步步走出“妈妈的世界”的?

无障碍浏览 进入关怀版