2026AI科学盛典——菲尔兹奖得主陶哲轩主题演讲全文《机器辅助与数学研究的未来》|物理学家|埃尔德什

分享至

★置顶zzllrr小乐公众号（主页右上角）数学科普不迷路！

2月11日，陶哲轩在UCLA（加州大学洛杉矶分校），发表首场主题演讲《机器辅助与数学研究的未来》：

作者摘要：
近年来，多种机器辅助的数学辅助方式迅速成熟，尤其是在形式证明助手、大语言模型、在线协作平台及其相互作用方面。我们回顾了这些发展，并推测它们将如何影响未来的数学研究实践。
核心要点笔记（极简版）

数学很保守
教材、黑板、小团队合作，两百年来变化很小。
AI 带来三大突破
规模化研究、大众可参与、形式化验证过滤错误。
埃尔德什问题集现状
- AI 成功率约 1%–2%
- 能解决关注人少、中等难度问题
- 暂时啃不动顶级难题
未来模式
- 人类主攻深度思想
- AI 负责检索、计算、批量尝试、形式化
- 社区 + 工具 + 验证 = 新数学
长期判断
- AI 会变成标配工具，而非取代数学家
- 跨学科合作（数学 × 物理 × 生物）也将因此受益

以下正文为完整演讲内容（含Q&A问答环节）

作者：陶哲轩（Terence Tao） & SAIR基金会 2026-2-11

译者：zzllrr小乐（数学科普公众号）2026-2-15

陶哲轩演讲全文

嗯，我们能建立的所有这些新联系……我觉得 IPAM（加州大学洛杉矶分校纯数学与应用数学研究所）这个平台的核心就是搭建交流与联结，而今天这场活动，正是探讨一个非常重要话题的绝佳场合。

好的，那我接下来要讲的是数学正在如何发生改变。过去几年里，大家能明显感受到一股热潮：AI人工智能和各类工具在数学以及其他领域的能力越来越强。但我认为，真正的变革，是从今年才真正开始落地的。

说实话，数学这门学科早就该迎来一些革新了。因为在很多方面，我们是一个极度保守的领域——不是政治意义上的保守，而是研究与教学方式上的保守。

我给大家举两个例子。

差不多 201 年前，柯西写过一本专著，奠定了复分析的基础，比如大家熟知的柯西公式。这本书是用法语写的，不是拉丁语——（笑声）——但除此之外，它和你今天看到的教材几乎一模一样。我们现在教数学的方式，只在次要细节上有变化。一个研究复分析的研究生，基本上能完全看懂那本两百年前的书。

还有，我们至今仍极度依赖黑板。数学几乎是唯一一个还在大量使用黑板的学科，甚至到了摄影师都把黑板当成一种艺术形式的地步。事实上，杰西卡·温就出过一本很精美的画册，专门拍摄数学家的黑板，把它当作一种别处看不到的独特艺术。（笑声）

所以我们这个领域确实有点与众不同。

再比如，我们的合作程度非常低，至少直到最近都是如此。哪怕和其他自然科学比也是这样。这里有一张十年前的图表，统计的是数学、化学、物理论文的合著人数。几十年来，数学论文的合作者一直停留在 1～2 人；而其他学科早就意识到，现代研究需要广泛协作、多元团队。我们在这方面明显落后，没能跟上科学规模化、产业化的趋势。

这背后是有原因的，不只是因为数学家“不爱社交”。（笑声）

首先，数学的入门门槛极高，很多问题甚至需要数学博士才能理解题意。

其次，我们对证明的严谨性要求极高。我们希望每一步都绝对正确。如果 10 个人合作，只要有一个人不可靠、给出的论证站不住脚，要么所有人都得逐一核对——这非常繁琐——要么整个工作流程就无法规模化。

黑板在两三个人讨论时非常棒，和思维同频的人一起在黑板上推导问题，体验堪称绝佳。

但如果是 20 人、50 人，分布在不同国家，你就没法靠一块黑板、甚至靠 Zoom 真正解决一个复杂问题。

所以，数学不像其他学科那样与时俱进，是有客观原因的。

但我认为，随着技术发展，这一切即将改变。

过去一两年，我们终于开始出现大规模合作项目。

我喜欢打一个比方：

在实验科学里，有两种研究模式：

一种是个案研究——盯着一个对象，做深度、细致的分析。这很像传统数学：盯着一个问题、一个概念，仔细钻研。

另一种是群体普查——研究上千个样本，做数据分析、统计，看比例、看规律。

而在数学里，我们一直做不到第二种，因为直到最近，我们都没有工具能系统地研究“一大批问题”。

现在，我们终于可以开始广泛参与了。

在其他科学里，早就有公民科学：业余爱好者可以收集蝴蝶、观测彗星、采集水样……哪怕数据没那么完美、有噪声，依然能用。

而直到不久前，数学还做不到这一点，除了找大素数等少数项目能吸引爱好者参与。

但现在，数学也可以了。

我们开始出现这样的项目：贡献者不只是职业数学家，还有研究生、中学生、计算机行业、科技行业的爱好者，利用业余时间参与。

越来越多人能用有趣的方式为数学做出贡献。

当然，还有人工智能。

AI 发展得极快，现在已经能实时助力这些项目，带来的效率提升远大于它带来的麻烦。我们已经跨过了这个临界点。

而让这一切真正运转起来的，还有一个秘密武器：

形式化验证。

自动检验论证是否正确的技术取得了巨大进步。

哪怕来自 AI、大众或大规模项目的贡献并不完全可靠，我们也有办法过滤掉不可信的内容，留下优质成果。这一点带来了颠覆性改变。

我这几年多次讲过类似内容，以前通常会列举 AI、神经网络在单点问题上取得的进展。

但正如我所说，我们现在进入了规模化时代。

所以今天我只重点讲一个“群体研究”案例，我把它叫做一次样本普查——就是最近在社交网络上很火的：

埃尔德什问题集。

https://www.erdosproblems.com

它是第一批能让我们系统用上所有这些新工具的大规模问题库，可以清晰看出哪些方法有效、优势和局限在哪里。

保罗·埃尔德什（Paul Erdős, 1913—1996）

保罗·埃尔德什是 20 世纪一位极其多产的数学家，发了 1500 多篇论文，至今可能仍是纪录保持者。他几乎和所有人都合作过。（笑声）他特别喜欢提问题，我 10 岁见过他，他当场就丢给我一个问题，我们一起研究，虽然没解决，但后来被别人解决了。

他最有名的特点之一，就是不断提出问题，有些还设了现金奖励。大部分奖金不高，几十美元，但有少数问题影响极大。

比如其中一个问题，他悬赏了 5000 美元，至今仍是开放问题。我本人也研究过它的一些方向，很多阶段性成果都发在了顶级期刊。

埃尔德什很擅长提出这种好问题：non-trivial（非平凡），也不是完全不可能，刚好处在只要有进展就很有价值的边界上。

他把这类问题叫作橡子：需要深刻、精妙的新洞见，最终能长成参天大树。

但他提了大约一千多个问题，不都是“橡子”。

有些后来发现简单得离谱。

比如他问过一个阶乘方程有没有解，看上去像个经典数论问题。几十年后人们用计算机一搜就发现：无解，有非常直接的反例。

https://www.erdosproblems.com/399

他自己也知道这类问题，把它们叫作棉花糖：只是一口小甜点，短暂有趣一下。

所以这一千多个问题难度差异极大。

这里我要先澄清一个误区：

最近社交媒体上，有些 AI 公司宣传“我们解决了 5 个、6 个埃尔德什问题”，仿佛数学家的工作就是天天解这种题。

我必须先说明：解题只是数学研究的一部分。

我们更关心理解概念、沟通、简化、建立理论。解题的意义，往往不在于问题本身有多少应用，而在于解题过程中会发现新方法。

比如等差数列相关问题，直接催生了整个加性组合领域。

但不管怎么说，这一千个问题，有解的、未解的，在计算机科学家眼里，非常像一个基准测试集。

它不是官方基准，但非常诱人：你可以拿新 AI 工具来测——能解多少个？

它成了一个很好的数据集，用来快照式评估当前工具的水平，还能做对比实验：哪种 AI 用法更有效？只看一两个成功案例看不出来，但一千个问题就可以做数据分析。

当然，这里也有不少炒作。我直接说结论：

目前 AI 并没有在数学家最关心的那些顶级难题上取得突破。

它解决的，大多是关注度不足的问题：只在论文里出现过一两次，几乎没有后续文献，没人认真深挖。

但 AI 可以规模化，所以它能帮我们清理掉一大批被人类忽略的“低垂果实”。

即便如此，AI 的能力提升绝不是纯炒作，是肉眼可见的真实进步。

对我来说，这些进展真正展示的是：

数学可以有一种互补的新模式。

传统上，人类小团队花数月攻克难题，我们会继续这么做。

但同时，我们可以让 AI 去规模化扫荡一千个问题，把所有简单可解的先解决掉：把 20 种技巧自动套用到一万个问题上，看哪些能直接攻破——这就是现在 AI 能做到的。

我们还能做统计。

从去年 9 月起，我们开始追踪数据：

这一千多个问题里，目前还有 699 个未解决；已解决大约 480 个，数量一直在稳步上升。AI 大约从某个节点开始大幅贡献；还有一次激增是因为文献检索工具出现，AI 从旧文献里挖出了一堆早已被解决但没被统计进来的答案。

最近几周增速有所放缓，可能是因为有新的基准出现，吸引了大量注意力。

同时，我们还在把很多证明形式化，用 Lean 语言进行机器验证。

很多进步现在看起来平平无奇，但半年前还觉得很震撼，就像当年的网页搜索：刚出现时惊为天人，现在习以为常。

现在的深度研究工具，可以让 AI 检索海量文献，跨语言、跨领域，找到几十年前某篇论文里的相似结论，稍微修改就能解决当前问题。

我们终于有了语义检索，这是我们多年想要的能力。

AI 偶尔会编造参考文献，但至少文献检索可以手动核对。

就这样，二三十个埃尔德什问题被解决。

现在用 AI 生成代码、做数值实验也极其简单。

更重要的是形式化速度大幅提升：

以前把非形式证明转成可机器检查的形式证明要花几周，现在几小时就能完成。

这对和 AI 合作至关重要，因为 AI 生成的几页证明常常夹杂错误，没人有时间逐行看，但自动转成形式证明后，能不能通过一目了然，我们就能处理大量 AI 输出的证明。

我自己最近一篇论文也用到了 AI：用它验证结论、画专业级图表，比自己写 Python 快得多。

哪怕只做这些辅助工作，AI 已经非常优秀。

这就是形式化证明的样子，有点像数学和 Python 的混合体。对专家来说有点冗长、不够优雅，但只要能编译过，我们就满意了。优雅可以以后再优化。

我们能取得这么多进展，还有一个关键：社区。

Thomas Bloom 非常努力地建立了社区、论坛和规则。

我们既不极端捧 AI，也不极端反 AI。

论坛允许 AI 生成的解法，但有明确规则：

必须披露、必须总结、必须对内容负责、不能刷屏、长内容放链接。

这套合理的规则运行得很好，避免了被低质 AI 内容淹没，传统数学家和 AI 辅助研究者之间有了建设性交流。

我快速举两个真实的人机协作案例：

第一个是问题 367，严格来说还没完全解决，它有两个不等式。

AI 证明了其中一个，另一个仍开放。

https://www.erdosproblems.com/367

过程是：

一位参与者做数值实验，得到一个构造，但需要证明一个恒等式；

我登录论坛，没手推，直接把问题给了 Gemini，它用稍复杂的工具证明了缺失步骤；

我把证明简化解释在论坛；

第三个人把证明喂给 AI 自动形式化工具，转成 Lean 代码，验证通过。

这就是典型的人机协作链条。

第二个例子，也是最后一个：

问题 1026，我们完全解决了。

https://www.erdosproblems.com/1026

它可以理解成一个硬币游戏：

爱丽丝把硬币分成 n 堆，鲍勃只能选单调递增或单调递减的堆，要让自己拿到最多硬币；爱丽丝要让自己损失最少。

问题是：这个游戏的公平价格是多少？也就是 c(n) 是多少？这就是埃尔德什的问题。

论坛里有人用线性规划算出小 n 的情况，提出猜想：

如果堆数是平方数 k²，最优比例是 1/k。

后来用深度检索发现，这个猜想 1980 年就有人提过，只是我们不知道。

两个月没进展，直到有人把猜想喂给自动证明工具，居然证出来了。

AI 把硬币问题巧妙转化成了小正方形填大正方形的问题，我们都很意外。

后来发现 1959 年有过类似技巧，2016 年也有人用别的方法解决过平方情况。

所以这不是全新的开放问题突破，但方法很有创造性。

但它只解决了平方数情况，那非平方数呢？

线性规划到后来规模指数爆炸，算不动。

我用另一个 AI 工具 AlphaEvolve，算出直到 n=16 的最优或近似最优分堆方式，观察规律，给出 c(n) 的猜想；

合作者又把猜想简化；

再后来有人发现，这个函数和另一个正方形装箱问题里的函数几乎一样，而那个问题两年前刚被解决。

把这些拼在一起，我们最终完整解决了问题 1026，并且已经形式化验证。

这是非常迷人的人机协作过程。

总结

AI 已经让数学以前所未有的规模、速度展开新可能，参与者也空前广泛。

最重要的是：当你有一套系统化的问题或任务数据集，很多好事就会发生。

计算机科学早就懂这一点，但数学家以前不够重视数据集。

现在，有了好的任务集，有大量工具，有很多非职业数学家愿意尝试，就会出现各种意想不到的进展。

AI 显著降低了数学的入门门槛。

有些问题甚至是高中生在 AI 辅助下解决的，而且能用 Lean 严格验证。

另一点至关重要：验证机制。

大家都见过不加验证的 AI 会带来什么。

AI 本身已经很强，但人机协作的潜力才更大，尤其适合长尾应用。

对于最难的那几个顶级难题，目前还不清楚怎么直接应用这套方法；

但如果是一千个中等难度问题，AI 非常强大。

我的分享就到这里，谢谢大家。

（掌声）

问答环节

问：您最后说 AI 的应用非常场景化。五年、十年后还会是这样吗？

答：技术上可能仍然是场景化的，但我们会学会怎么正确使用它。

可以类比维基百科：刚出现时，学生直接抄到作业里，老师想禁止。后来大家明白：维基百科不是用来给最终答案的，而是起点、参考文献，需要自己判断。

现在没人禁止维基百科，因为我们懂了用法。

AI 会走同样的路。

五年后，学界会形成成熟文化，知道 AI 能做什么、不能做什么，不再需要纠结“好 AI”、“坏 AI”的问题。

问：那些很难的著名问题，比如你证明的那个定理，AI 能解决吗？

答：目前还不能。

有人把一千个问题挨个喂给 AI，成功率大约 1%～2%，已经很惊人。

但目前解决的，都是研究较少、解法较短、比较标准的问题。

对于需要艰深独创方法的难题，AI 还没有给出过人类从未见过的全新思路。这是我们当前的状态。

问：那提出猜想呢？

答：好问题。

这个网站目前不接受外来新猜想。

但猜想是潜在的重要方向。

问题有明确“解/未解”，有评分目标，AI 很擅长优化。

但猜想有用/没用，很难评分。随机生成猜想很容易，生成有用的猜想很难。

短期来看，更可能的模式是：

人类提出猜想，AI 来评判、尝试证伪、用例子检验、给出反馈。

AI 自主提出高质量猜想，暂时还做不到，但会是重要方向。

问：你说 AI 帮助数学解决中等难度问题，那它对数学和物理、生物等学科的交叉有帮助吗？

答：目前跨学科合作依然很难，往往只有同校刚好有重叠方向的人才会合作。

如果能让数学家更多参与应用数学，会非常棒。

我们下个月就有活动，把物理学家和数学家聚在一起做这件事。

AI 应该会有帮助，比如解释基础概念：我和物理学家合作，我不懂量子场论，让 AI“用数学家能懂的方式讲给我听”，这很有用。

不过有一点区别：

数学之所以能很好地用 AI，是因为我们有严格验证，能过滤错误。

换到其他学科，验证没有这么严密，但依然有空间。

更广泛的参与，也包括让数学家参与物理、化学、生物项目。

好的，再次感谢大家。

参考资料

https://www.youtube.com/watch?v=SuTxpKggY30

https://sair.foundation/event/ai-for-science-kickoff-2026/

2026AI科学盛典——圆桌讨论《AI与高等教育变革》会议全文

2026AI科学盛典——圆桌讨论《AI与数学》会议全文

2026AI科学盛典——诺贝尔奖得主巴里·巴里什（Barry Barish）主题演讲全文《LIGO：十年新科学》

https://www.erdosproblems.com/367

https://www.erdosproblems.com/26

小乐数学科普近期文章

·开放 · 友好 · 多元 · 普适 · 守拙·

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

置顶加星★

数学科普不迷路！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.