专访数学家Daniel Litt（丹尼尔・利特）：AI人工智能的数学能力或长期处于不均衡发展状态（下）|伍德|阿尔法

分享至

★置顶zzllrr小乐公众号（主页右上角）数学科普不迷路！

接上篇：

访谈背景简介：

丹尼尔・利特（Daniel Litt）是多伦多大学数学系教授。他一直密切关注人工智能在推动数学发现领域的发展进程，对此态度时而审慎怀疑，时而满怀期待。

本期Epoch.ai与其探讨的话题包括：当下的模型能解决的最难数学问题究竟是什么；是否有确凿证据表明人工智能正推动数学研究提速；以及人工智能能否攻克千禧年大奖难题。

他们还探讨如何评估数学研究的进展，其中包括Epoch.ai全新推出的「FrontierMath前沿数学：开放式问题」基准测试 —— 该测试以数学领域具有研究价值的未解问题为依据，对人工智能模型的能力进行评估。

详情参阅：

访谈人简介：

丹尼尔·利特（Daniel Litt）是多伦多大学数学助理教授。他获得斯坦福大学博士学位，研究重点是代数几何与数论之间的相互作用。

格雷格・伯纳姆（Greg Burnham）是 Epoch AI 的研究员。在此之前，他曾在Elemental Cognition和Bridgewater Associates工作。他拥有普林斯顿大学数学学士学位。

安森（Anson Ho）是 Epoch AI 的研究员。他致力于帮助对人工智能未来发展及其社会影响进行更严谨的理解。

时间节点目录：

（采访时间和内容较长，分成十四小节，上下两篇。本篇为下篇，涉及后七小节）

00:00:00 一、如今人工智能能解决的最难数学问题是什么？

00:16:08 二、当下的人工智能模型对数学研究的助力有多大？

00:23:36 三、垃圾论文、大语言模型生成的证明与审稿危机

00:27:21 四、人工智能实现数学问题的大规模筛选

00:33:49 五、人工智能何时能发展到足以在顶级数学期刊发表成果的水平？

00:42:15 六、智能的价值回报体现在何处？

00:59:50 七、人工智能能否攻克千禧年大奖难题？

01:11:54 八、数学领域还存在大量易解的「低垂果实」吗？

01:18:47 九、丹尼尔如何调整职业发展，以适应人工智能的发展进程？

01:25:28 十、人工智能数学基准测试，实际在评估什么能力？

01:33:05 十一、开放式问题基准测试的设计思路

01:56:35 十二、数学家会相信关于数学猜想的启发式论证吗？

02:01:24 十三、若人工智能攻克「FrontierMath前沿数学：开放式问题」基准测试，会带来什么影响？

02:06:53 十四、人工智能是否即将推动数学研究迈入加速发展阶段？

作者：epoch.ai 2026-1-29

译者：zzllrr小乐（数学科普公众号）2026-1-31

访谈实录（下）：

八、数学领域还有很多容易解决的问题吗？

[01:11:54]

安森：你在推特上提到过，解决一个数学问题的含金量，取决于前人在这个问题上付出了多少努力。我们是否有可能梳理这些问题，量化一下前人的付出？

丹尼尔：可以去看提出这些问题的论文，以及这篇论文的引用量。不过对于那些已经被解决的问题，我其实并不清楚具体数据。比如第 124 号难题的高难度版本目前仍未解决，提出这个问题的论文只有 14 次引用。对于一篇 1996 年的数学论文来说，这个引用量并不算高。

格雷格：但 14 次引用也并非毫无意义。

丹尼尔：1996 年发表的数学论文里，有很多引用量为零。而且这 14 次引用，大概率并非都是针对这个难题本身 —— 这篇论文里提出了很多问题。

格雷格：你知道有多少人在研究p曲率猜想（p-curvature conjecture）吗？

丹尼尔：非常少。这也是我一直想要攻克的难题，我为它投入了大量精力。目前还在积极研究这个猜想的人，我估计我都认识，人数应该不到 20 个。从历史来看，80 年代、90 年代和 21 世纪初，这个领域的研究热度更高，后来研究者们陷入了瓶颈，热度也就降了下来。或许现在相关领域出现了一些新的思路。

任何一个连专业术语都没多少人理解的问题，关注者自然会很少。目前能完全理解 p 曲率猜想所有术语的人，可能也就几千个。

格雷格：是否存在一种选择效应，让一些问题变成了 “研究者觉得研究它很没面子” 的问题？

丹尼尔：比如考拉兹猜想（3n+1猜想），它还很容易吸引一些非专业的业余研究者。很多问题，专家的看法都是 “我们目前还没有合适的方法解决它”，这就难免会让人产生一种 “你凭什么觉得自己能解决” 的质疑。（详情参阅）

对于那些著名的重大难题，是否有很多研究者在悄悄尝试，只是没有公布成果？或许每个人都会偶尔思考这些著名难题，包括那些在相关领域发表过论文的知名学者。但 “尝试解决一个问题” 到底意味着什么？很多时候，人们只是想着 “要是能解决这个问题就好了”，然后就没有任何实际行动了。

格雷格：当你觉得 “或许我有一个值得一试的想法” 时，是什么感受？

丹尼尔：有时候会在半夜醒来，突然想到一个绝妙的主意。我思考问题的方式主要有两种：要么从一个想法出发，慢慢推演；要么先掌握一种通过其他途径想到的新方法，再思考 “这个方法能解决哪些问题”，从中挖掘价值，这是一种机会主义的研究思路。

有时候我也会定下明确的目标，比如解决某个问题、证明某个猜想 —— 更准确地说，是先尝试理解某个数学对象，再通过证明一个有意义的结论，来检验自己的理解程度。我会找一个最简单的例子，一个用现有方法无法解决的例子，先尝试攻克它，在这个过程中开发新的方法，再看看这种新方法能走多远。

格雷格：从数据分析的角度来看，如果把引用量作为评估指标，是否需要进行一些非线性的修正？

丹尼尔：引用量的参考价值可能被高估了 —— 有很多论文引用了黎曼猜想的相关研究，但其实并没有为解决黎曼猜想做出任何实质性的贡献。

格雷格：那这样一来，引用量这个指标就没什么意义了。

丹尼尔：我认为用这种方式评估数学问题的难度，其实非常不靠谱。

安森：还存在垃圾论文的问题。

丹尼尔：还有大量论文声称证明了黎曼猜想，这显然让相关研究的评估变得更难。计算机科学领域也有很多论文引用了 P 与 NP 问题的相关内容，但它们真的推动了这个问题的解决吗？

九、丹尼尔如何适应人工智能发展，调整自己的职业发展规划

[01:18:47]

格雷格：在我们深入聊评估方法之前，想问一下，为了在人工智能时代站稳脚跟、谋求发展，你已经做出了哪些调整，或者有哪些规划？

丹尼尔：我正在做一些事，因为我预判人工智能的能力会不断提升。目前有很多研究者在做数学形式化的工作，比如用Lean或其他证明验证软件将数学内容形式化，但我并没有参与这项工作，因为我预计未来几年，能让人凭直觉完成形式化的工具会有大幅改进。

格雷格：凭直觉完成形式化 —— 我再跟你确认一下这个概念。

丹尼尔：当然，也有一部分原因是我并非这个领域的专家，我只是简单尝试过。而且我并不打算因为预判人工智能能力会提升，就改变自己研究的问题方向，或是使用的研究方法。

究其根本，我认为自己的工作核心不是证明定理，而是理解数学对象。证明定理，只是检验理解程度的一个标准。很多定理或猜想，都是研究的 “终点” 而非 “源头”—— 也就是说，如果你能开发出一种方法证明这个定理，说明你已经理解了相关的数学内容，但研究的真正价值，在于这份理解本身。

这或许也能解释，为什么训练人工智能开展高质量数学研究如此困难：我们发表的论文，大多没能传达出数学研究的真正价值 —— 研究的核心，是让人类对某个学科的理解更进一步。

格雷格：你脑海中形成这份理解时的那些想法，并不会出现在论文里。

丹尼尔：研究者会努力把自己的直觉写进论文，但这向来是个难题。如果我能直接告诉学生 “你应该这样理解这个数学对象”—— 我确实会这么说，但这并不能传递任何有价值的信息。这只是给了他们一个线索，需要他们自己去研究这个数学对象，才能慢慢领悟，而这份直觉本身，无法直接传递。除了一些高度凝练的表述或隐晦的提示，论文的文字里根本没有这份直觉的痕迹。

格雷格：我能想象到这种情况：你发表了一篇论文，标题是 “某猜想的证明”，但你构建相关理论的过程曲折得多，而论文里根本没有留下多少能让人工智能学习的线索。

丹尼尔：很多研究都是这样的：证明一个结论时，你通常会有一个非常清晰的核心思路，之后会遇到各种各样的障碍，可能是因为你不理解证明过程中的某个中间对象。你会想办法绕开这些障碍，最终写出来的论证过程看起来会非常晦涩。当然，你会试图在论文里提示 “这才是我真正的研究思路”，但这种提示的效果往往不尽如人意。

那这和人工智能对我个人规划的影响有什么关系呢？人工智能无法替我理解数学对象。正因为直觉的传递如此困难，即便有一个模型在各方面能力都超过我，它可能也只能在很小的程度上帮助我理解这些数学对象，甚至可能毫无帮助。

格雷格：也就是说，核心的研究工作，终究还是要靠自己。

丹尼尔：我看到你在推特上引用了一位哲学家的话，说数学家的社会角色，是成为数学理解的 “载体”。我特别喜欢这个说法 —— 太贴切了。我很好奇，你是否会为这种角色感到困扰？如果未来人工智能能比人类更快地解决任何数学问题，彻底主导人类的数学研究，你会感到困扰吗？你还会继续研究数学吗？

丹尼尔：做数学研究的一大乐趣，就是证明一个结论时的那种成就感。这种成就感，未必只有解决未解难题才能获得。或许会少了一些虚荣心的满足，但这份核心的情感体验依然存在。

对我而言，研究数学的真正目标，是理解这个世界。如果未来社会的需求，正如佩利所说，是让数学家成为人类数学理解的 “载体”，让我们通过研讨会，向大家解读人工智能证明的最新重大成果，只要社会愿意支持这项工作，我会非常乐意。

格雷格：就像在后稀缺的乌托邦社会（post-scarcity utopia）里，这种工作依然有价值。

丹尼尔：当然。而且我认为，我们离那个时代还很远。

格雷格：但只要我们还是现在的自己，就依然会想要做这份工作。

丹尼尔：这里存在一个社会问题：如果人工智能模型在数学研究的所有领域都比人类更有优势，或者公众认为它们更有优势 —— 我认为后者的可能性更大 —— 社会还会愿意支持数学家的研究工作吗？这是一个悬而未决的问题，但我希望答案是肯定的。

格雷格：目前来看，公众普遍认为数学研究大多最终会产生实际价值。

丹尼尔：数学之所以能产生实际价值，一个重要原因是有人类专家的存在，以及数学研究培养出的人力资本。即便是研究最抽象、最纯粹数学的人，他们作为数学理解的 “载体”，本身就具有价值。无论未来的人工智能模型能力多强、创新能力多高，让人类成为数学理解的载体依然有价值，即便在数学研究领域，人工智能已经完全超越了人类。

十、人工智能数学基准测试，究竟在评估什么？

[01:25:28]

格雷格：我们想继续完善数学基准测试的体系，尤其是 “前沿数学” 基准测试。但目前来看，这个测试的评估维度，并没有涵盖所有重要的能力。你认为其中最核心的缺失是什么？

丹尼尔：我先说说我对基准测试评估内容的理解。这类测试试图评估的能力包括：是否理解专业术语的含义？是否掌握已有的研究成果？是否熟悉现有的研究方法？能否应用这些方法？还有一定的推理能力和创新能力？

但在我看来，这些基准测试最终主要评估的，还是知识储备。人类解决问题时，知识储备通常是有限的，所以我们会怎么做？可能先有一个思路，研究一段时间后，发现 “需要把这个结论或结果作为中间步骤”，然后再尝试证明这个中间结论，或者去查阅相关资料。

证明中间结论的过程，甚至发现 “存在这样一个可利用的中间结论” 的过程，都是高度依赖推理的。但如果一个模型已经记住了所有的数学文献，它早就知道这个中间结论的存在，要意识到这个结论能用来证明目标问题，就几乎不需要任何推理了。

当你向一个熟记所有文献的模型提问时，你其实并没有测试到那种 “知识储备有限的人类解决问题时所展现的核心推理能力”。人类需要自己发现的那些已有结论，模型早就知道了。

对人类而言，很多能测试出推理能力、并与数学专业能力和研究成就高度相关的问题，对模型而言，已经无法反映其真正的推理能力了。任何一个人类，如果能在 “前沿数学FrontierMath” 基准测试中取得和模型一样的成绩，大概率会成为一名非常成功的研究者，但模型并没有展现出相应的研究能力。这就是原因所在 —— 同一个问题，对人类和对模型，测试的是完全不同的能力。

格雷格：补充一个你可能不知道的信息：我们深入研究了Gemini 2.5 （谷歌双子座AI工具）深度思考模型的数学能力，还让它手动完成了 “前沿数学” 基准测试。测试中的所有问题都有三个评分维度：背景知识、执行难度、创新要求。执行难度主要看解题过程的长度，以及需要完成的繁琐计算量；背景知识看解题所需的知识是否高深、晦涩；而创新要求 —— 我本以为这是三个维度中，与我们所说的推理能力最相关的一个。但结果显示，Gemini 模型的得分与背景知识、执行难度维度呈负相关，而与创新要求维度完全无关。

丹尼尔：这很有意思。

格雷格：这恰好印证了你所说的现象。即便我们试图让 “前沿数学” 基准测试覆盖创新能力这个维度，但模型解决问题的过程，似乎并没有体现出对这个维度的感知，也不会因为问题的创新要求高而觉得更难。

丹尼尔：其他模型也呈现出同样的规律吗？Google Gemini（双子座）模型似乎很少使用合成数据，这可能导致它对一些偏门的专业领域了解较少。

格雷格：GPT-5 等其他模型也是如此。没错，它们确实缺失了创新能力这一核心维度。

丹尼尔：还有一个问题：人们试图设计一道难题时，实际上，出题者本身都很忙，他们设计的题目，往往是自己已经知道解法的。而一道任何人都知道解法的题，显然可以用现有的方法解决。

或许出题者会想出一种新方法来解题，只是还没写进论文。但这种方法究竟是真正的创新，还是只是对出题者而言的新方法，就不得而知了。最终这篇论文发表，新方法进入训练数据，这个问题也就无法再用来测试模型开发新方法的能力了。

有时候，解决一道难题的关键，只是需要在一篇论文里找到一个公式，代入数值计算，而理解这篇论文的专业术语，需要大量的背景知识。但模型的背景知识储备量极大，它们能直接读取 PDF 文献，然后代入数值计算。

格雷格：有时候，这类测试最终变成了测试 “模型能否读懂 PDF 文献”。

丹尼尔：没错。我的看法是，如果一个基准测试的难度，仅限于人类几小时内能解决的问题，那它很快就会被模型吃透。人类几小时能完成的工作，其实非常有限。

格雷格：参与我们 “前沿数学” 四级测试命题的一位研究者说，他对自己出的题特别满意，因为这道题是他被 “绊住” 后花了两周时间研究出来的。他没有直接用自己会解的题，而是给自己定了一个目标 ——“用这些方法设计一道题”，然后不断探索，最终才有了这道题。

丹尼尔：出题者投入的时间越长，题目质量大概率也会越高。但这里还有一个陷阱：如果一个人刻意想设计一道难题，最终设计出的，往往是对他自己而言的难题。比如他会在自己不擅长的领域出题。

格雷格：然后就会觉得所有内容都是新的、有趣的、难的。

丹尼尔：但对这个领域的专家而言，这道题可能很简单。设计一道难题，却不验证它的实际难度，最终做出的基准测试，很容易就会被模型吃透。

十一、开放式问题基准测试的设计思路

[01:33:05]

格雷格：接下来聊聊我们正在设计的 “开放式问题” 基准测试 —— 目前还只是暂定名。这个测试的核心目标，是选取目前人类还无法解决的数学开放式问题。同时我们还受限于 “自动验证” 的要求：即便目前人类不知道答案，一旦人工智能给出一个答案，我们需要能用程序验证这个答案是否正确。设计这个测试，也是为了避开 “无法评估问题实际难度” 的痛点。

丹尼尔：很多开放式问题的研究，都受限于 “关注者过少”，所以这些问题的实际难度，可能并没有看起来那么高。一个有效的办法，是让数学家来评估 “这道题是否难”，这样能避免后续随意抬高评价门槛。

我很认可这个项目的一点是：目前很多人工智能实验室都投入大量资源解决某个数学问题，只是为了对外宣称 “我们解决了这个问题”。如果这些资源能被投入到人们真正关心的问题上，会是一件好事。有些实验室在做真正的科学研究，但有些实验室的主要工作，其实只是公关。

格雷格：这个测试也能让我们对一系列问题进行 “预先登记”。当某个实验室宣称 “我们的模型解决了这个问题” 时，我们就能知道，这个成果的筛选有多刻意。

丹尼尔：开放人工智能曾发表过一篇论文，他们梳理了一些学术会议的论文，从中挑选问题研究，我记得他们选了十个问题，最终解决了一个。这个数据能让我们窥见一斑。我认为这篇论文，并不能证明人工智能的数学能力在加速提升。而且和所有这类研究成果一样，背后都存在各种复杂的影响因素。

格雷格：没错。如果我们能让数学家来评估 “这个问题是否有研究价值”，该如何量化这种评估？我们该用什么样的标准？

丹尼尔：或许可以让数学家给出评级，比如 “有价值”、“非常有价值”、“极具价值”，也可以让他们分析这个问题的研究意义。有时候，一个问题有研究价值，是因为它是研究的 “源头”—— 解决它能推导出很多有意义的结论。我理解这个基准测试，主要是寻找能被验证的构造性问题。

格雷格：我们并非只关注构造性问题，但受限于 “自动验证” 的要求，选取的问题通常都是 “构造一个数学对象” 这类问题。

丹尼尔：有些构造性问题的研究，确实能产生实质性的研究成果；但有些构造性问题，只是检验理解程度的 “基准”。比如欧拉幂和猜想，因为暴力搜索的方法行不通，解决这个问题的过程，就是检验研究者理解程度的过程。要解决它，你必须想出一种巧妙的搜索方法，而这也意味着你已经理解了相关的搜索空间。

格雷格：这些作为 “理解基准” 的构造性问题，目前人类都无法解决，用它们来评估人工智能的理解能力，是否公平？

丹尼尔：这取决于问题本身。有些问题的研究，只是受限于关注者过少。很多研究者寻找的数学构造，目前的研究水平还停留在 “有人在周末用笔记本电脑做了一次简单的搜索”。如果人工智能能找到一种更好的构造方法，只能说明它做了一次尝试，而人类之前从未尝试过。这种成果显然有价值，但我们很难判断，这能反映出人工智能的什么能力。

但也有一些问题，比如 M₂₃ 单群的逆问题，我认为如果能像曼哈顿计划一样集中资源研究，肯定能解决，它绝对在人类的能力范围内，而且也确实有很多研究者尝试过。

格雷格：我们是否应该将 “研究价值” 和 “难度” 作为两个独立的评估维度？

丹尼尔：这绝对是两个不同的维度，只是二者存在相关性，因为人们会更愿意研究有价值的问题，而那些有价值却仍未被解决的问题，往往难度都很高。

格雷格：我们之前聊过抬高评价门槛的问题。有些情况是，你原本以为某个问题不会用一种平庸的方法解决，但看到人工智能的解法后发现，其中毫无新想法，完全就是硬算出来的。它确实证明了结论，但这个成果，对预测人工智能的能力发展，似乎毫无参考价值。我们该如何提前规避这种情况？

丹尼尔：我想说明的是，如果人工智能解决的是一个并非因 “关注者过少” 而未解的开放式问题，即便证明过程只是硬算，这也依然有价值，我们不能说 “这个成果毫无意义”。硬算的能力，对数学家而言，本身就是一种重要的技能。

格雷格：如果有能力的话，数学家自己也会这么做。

丹尼尔：四色定理的证明，难道就没人认可吗？确实有人质疑，但我认为这些质疑是错误的。

数学研究中，抬高评价门槛的现象由来已久。18、19 世纪的很多伟大数学家，都是计算高手，而他们当时做的很多计算工作，现在一个八年级的学生用图形计算器就能完成。我们本就是工具的使用者，使用工具解决问题，无可厚非。

格雷格：用各种方法做有价值的数学研究，本就是公平的。但从能力预测的角度来看，如果我们发现，人工智能解决某个问题的方法，和AlphaProof（阿尔法证明器）解决 2024 年国际数学奥林匹克竞赛第六题的方法如出一辙 —— 都是平庸的硬算，这会让人感到震惊。

丹尼尔：有时候，一个问题在被解决之前，你永远不知道它其实很简单，人类数学家也会遇到这种情况。去年，我和艾伦・兰德斯曼（Aaron Landesman）解决了一个悬置了 40 年的开放式问题，但我们没有把成果发表在《数学年刊》上，因为事后看来，这个解法并没有什么研究价值。这种情况很常见。

或许我们可以这样做：建立一套明确的标准，判断一个成果是否包含真正的新想法，也就是一套事后评估准则。我们甚至可以等五年，看看有多少新的研究成果，是基于这个成果中的想法得出的。

有限域上的相关猜想，其证明引入了多项式方法，而这个方法后来产生了巨大的影响，这篇论文也发表在了《数学年刊》上，从后续的研究成果来看，这个发表决定是完全合理的。但如果只是用硬算的方法解决了国际数学奥林匹克竞赛的第六题，这个解法显然无法衍生出任何新的研究成果。

格雷格：我们一直在思考一种难度评估方法：统计有多少数学家为这个问题付出了努力，付出了多长时间，还可以考虑研究者的资历。如果有 1 到 2 位青年数学家尝试解决这个问题但失败了，那么人工智能解决了它，对我们而言，算是多大的突破？

丹尼尔：目前还不清楚，数学领域究竟还有多少容易解决的问题，有可能数量非常多。人工智能目前还没有开始解决有价值的开放式问题，这或许能从侧面说明，这类问题的数量并不多。但所有问题的研究，都受限于关注者过少。如果真的有大量容易解决的问题，那么人工智能的出现，会带来数学研究的巨大突破，基准测试也会变得很简单 —— 随便拿一个开放式问题给它，最终都能被解决。

另一方面，也有一些侧面证据表明，并非所有问题的研究都受限于关注者过少，数学领域的 “低垂果实” 其实并不多。当研究者真正投入精力研究一个问题时，要么能解决它，要么会发现它确实很难。

格雷格：你为什么会有这样的感受？

丹尼尔：那些著名的未解猜想，证明过程却非常简短的，这样的例子其实寥寥无几。如果数学领域真的有大量容易解决却未被解决的问题，我们应该会经常看到研究者发现并解决这类问题的案例。这种情况确实存在，但非常罕见。

通常来说，一个重要猜想的解决，并非只引入一个简单的新想法，而是会引入多个新想法，或者依赖于该领域的诸多其他研究进展。你能从证明过程中，清晰地看到解决这个问题所需的各项突破。

当然，我们并非总能提前看到这些突破。有时候，你能证明一个结论，只是因为你需要的最后一个中间结论，刚被其他人证明，恰好能用上；有时候，这个中间结论已经发表在文献中二十年了，只是你才发现。

我们每个人都有过这样的经历：看到一篇新发表的论文，会想 “哦，我早就知道这个核心想法了，要是我当时能意识到它能解决这个问题就好了”。我最喜欢的一篇论文就是如此，它的核心想法，来自我几年前在数学问答网站MathOverflow上提的一个问题的回答，我当时看到这个回答时，肠子都悔青了。

格雷格：对于这个开放式问题基准测试，我们被一个硬性、恼人且不自然的条件束缚着 —— 自动验证，我们需要用计算机程序来判断答案是否正确。这个条件的影响有多大？

丹尼尔：理论上，这并不是一个限制。任何数学构造，排除不完备性的问题，都可以附上一个能被验证的证明过程。但在实际操作中，这确实是一个实实在在的限制，因为我们的资源有限，无法让研究者为所有问题编写验证程序。

格雷格：我们目前只能选取 “普通的计算机程序就能验证答案” 的问题。

丹尼尔：所以第一个限制就是，很多数学领域和有价值的问题，都不属于这类可被程序验证的问题。比如代数几何的很多领域，就没有这类问题，数论的一些领域也是如此，不过计算数论领域有很多漂亮的可验证问题。

这个条件带来的核心限制，其实是对问题研究价值的筛选。有些问题，比如反伽罗瓦问题，既需要构造可验证的数学对象，也有很高的研究价值，但这类问题非常少见。大多数情况下，研究者需要构造的是一系列无限的数学对象，而这类构造的验证难度要大得多。

格雷格：我发现有一类问题很适合这个测试 —— 零知识证明相关问题。比如需要构造一个无限序列，我们不需要验证整个序列，只需要验证第 297 项即可。

丹尼尔：这是一个非常好的思路，但很快就会遇到实际问题，除非验证的速度能极快。通常来说，我们最多也就验证前五项。即便是反伽罗瓦问题，我们可以提出验证要求，但大概率验证到前 3 到 4 项之后，就不具备实操性了。

所以这个条件带来的限制是非常大的。我们希望这个基准测试中，构造数学对象的能力，能成为人工智能理解能力或巧妙搜索能力的一个参考指标，但往往很难判断这一点。有时候，我们有证据表明人类研究者尝试过但失败了，所以能确定，人类目前缺失了某种能力；但有时候，人类研究者已经用一些巧妙的思路解决了类似的问题，而这个问题却毫无进展。

格雷格：确实有一些问题，每一次新的构造，都需要一个漂亮的新想法。如果人工智能能给出一个新的构造，我们会希望背后也有一个漂亮的新想法支撑。

我之前给你发过一份问题清单，我们的目标是让清单中的问题覆盖不同的难度等级。在难度较低的一端，我们担心的是，出题的博士后当时可能状态不好，出的题在某些方面，难度甚至不如国际数学奥林匹克竞赛的第一题。不过我们可以用统计学的方法规避这个问题。我也很好奇难度较高的一端 —— 数学领域最有价值、最难的问题，往往抽象性也更高。

丹尼尔：这可能涉及到莫拉维克（Moravec）悖论：数学问题的难度，一方面在于需要高强度的推理，另一方面在于需要掌握大量的专业术语，在脑海中构建一套庞大的理论体系。

代数几何素来以难度高著称，这很可能只是因为人类本身并不擅长这个领域，而且从事该领域研究的人类研究者本就很少。

格雷格：没错，还是关注者过少的问题。对于我发给你的那份问题清单，你有没有直观的感受，哪些问题 “难度高得多，也更有研究价值”？

丹尼尔：有几个问题给我的印象很深。比如 M₂₃单群的逆问题，我可以明确说，如果这个问题被解决，我会非常兴奋。我认为集中资源研究的话，人类能解决这个问题，而它的解决，也会是一件大事。无论是人类还是人工智能解决了它，我都会无比兴奋。

还有一些关于无理性的问题。70 年代末，阿佩里（Apéry）证明了黎曼泽塔zeta函数ζ(3)是无理数，也就是所有正整数的立方的倒数和是无理数，这个证明堪称神奇。他在一次会议上公布了这个证明，当时所有人都不敢相信，直到大家回去验证后，才惊叹于证明的精妙。后来研究者们发现，这个证明与深奥的 G-函数理论相关。

而相关的开放式问题是，寻找一系列整数或幂级数，让阿佩里的方法能应用于其他有意义的常数。扎吉尔（Zagier）是一位非常资深的数学家，他做了大量的计算，试图找到类似的序列，取得了一些小成果，找到了 6 到 7 个例子。

格雷格：这些例子，都不是你之前认为最有研究价值的那些常数吧？

丹尼尔：近期，卡莱加里（Calegari）、季米特洛夫（Dimitrov）和唐云清在这个领域取得了新的进展。他们没有寻找新的序列，而是想出了新的方法，对阿佩里的通用方法进行了漂亮的改进，让这个方法能应用于更广泛的序列。我可以明确说，这个问题的难度很高，有很多研究者都为它付出了努力。

十二、数学家会相信关于猜想的启发式论证吗？

[01:56:35]

格雷格：我们面临的另一个挑战是，希望选取的问题都是有解的。

丹尼尔：你们想要选取的是有确定答案的问题，也就是正确的猜想。但要判断一个猜想是否正确，本身就非常难，更不用说证明它了。

格雷格：如果一个熟悉某领域的数学家告诉我们，他有 80% 的把握，这个问题会朝某个方向解决，只是他自己无法构造出相关的数学对象，你会有多相信他的判断？

丹尼尔：比随机猜测的准确率高一点，但高不了多少。数学家的观点总是在变化。比如你清单中的一个问题：寻找秩至少为 30 的椭圆曲线。长期以来，这个领域的所有人都认为，椭圆曲线的秩是无界的，但现在，大部分研究者认为，椭圆曲线的秩是有界的。

格雷格：真的吗？

丹尼尔：近期有不少启发式的研究支持这个观点，不过也有一些研究者对此表示怀疑。人们对猜想正确性的判断一直在变，比如霍奇猜想，大部分代数几何学家认为它是正确的，但也有很多人持反对意见。

格雷格：有些情况下，研究者已经证明了某种数学构造是存在的，但就是无法具体构造出来。

丹尼尔：我其实很喜欢这类问题。比如用概率方法得出的拉姆齐数（Ramsey numbers）的界，研究者已经证明了这个界的存在，而相关的开放式问题，就是寻找具体的构造。我目前正在研究的一个问题，也属于这类：塞尔（Serre）提出，需要为一些用非构造性方法证明存在的数学对象，找到具体的构造，而我正在做这项工作。构造性的证明和非构造性的证明，有着天壤之别，构造性的证明能让你获得更多的洞见。

安森：有哪些经典的启发式论证，或是这类论证的典型例子，能让研究者在没有完整证明的情况下，改变对猜想的判断？

丹尼尔：数论领域，用随机模型研究数论对象的做法，由来已久。比如，我们可以认为素数的分布，类似于满足某些性质的随机整数集合，然后构造一个满足这些性质的随机序列，研究这个序列几乎必然具备的性质，进而猜测素数也具备这些性质。

研究椭圆曲线时，我们也会先梳理出它的所有性质，构造一个满足这些性质的随机模型，再猜测椭圆曲线的性质。一个最基础的例子：某个几何或数论问题中，出现了一个 n 阶方阵，我们可以假设这个方阵的行为，和一个随机的 n 阶方阵一致。

梅兰妮・马切特・伍德（Melanie Matchett Wood）和她的合作者做了一项漂亮的研究，他们研究了整数随机矩阵，并基于此对椭圆曲线及相关数论对象做出了预测。这项研究背后有定理支撑 —— 该定理指出，满足 x、y、z 性质的随机对象，会具备某类特定性质。

一个经典的例子是数域的类群，我们假设它的行为，和按照某种分布生成的随机交换群一致，进而猜测，如果按照某种自然的顺序罗列数域，那么满足 X、Y、Z 性质的数域的比例，和满足这些性质的随机交换群的比例一致。这就是科恩 - 伦斯特拉（Cohen-Lenstra）启发式，它也是目前数论和算术统计领域的重要研究动力。

十三：如果人工智能攻克了 “Frontier Math前沿数学：开放式问题” 基准测试会怎样？

[2:01:24]

格雷格：如果人工智能彻底碾压了这个基准测试，解决了我们讨论的这类问题，那我们所处的世界，会变成什么样？

丹尼尔：我会感到无比兴奋。可以想见，人工智能找到这些数学构造的方法，至少在很大程度上，会是有研究价值的。

有一个值得思考的问题：人工智能解决这类构造性问题的能力，与它的其他能力之间，存在怎样的相关性？构造性问题有明确的奖励信号，我们可以针对性地训练模型，让它专注于解决这类问题，但很难说这个奖励信号，是否能让模型的能力迁移到证明类问题上。当然，证明类问题的答案，也是可以被验证的。

格雷格：但或许需要等验证的体系更加完善后，再针对证明类问题训练模型。

丹尼尔：对我而言，关于人工智能数学能力未来发展的一个核心问题，是模型的能力迁移性有多强。如果每发现或发明一个新的数学对象，都需要从头训练一个新的模型，那么人工智能的发展，会和模型能快速掌握新对象并展开研究的情况，截然不同。

甚至可以说，模型在代数几何领域的通用知识和能力，能否迁移到 “代数几何 + 微小拓展” 的领域，都是一个问题。过去十年，数学家提出了十种关于 “空间” 的新定义，而人工智能面临的问题，甚至不只是持续学习 —— 即便模型能学习这些新定义，它是否能像人类一样，具备运用这些定义开展研究的能力，还是一个未知数。

我们现在讨论的，是一个特殊情况：模型非常擅长构造可验证的数学对象。但这种能力，与更广泛的数学研究能力之间的相关性，仍未可知。但可以肯定的是，这种能力的出现，会是一个划时代的突破。

格雷格：至少在数学领域，绝对是划时代的。而对于人工智能的整体能力而言，这取决于模型的能力迁移性如何。它的能力可能非常狭窄，就像我们通过不断优化，让人工智能在棋牌游戏中取胜一样。

丹尼尔：目前，AlphaEvolve（阿尔法进化）已经能做出一些数学构造了，虽然它还无法完成有价值的证明，但已经能做出有意义的构造。

格雷格：你在推特上明确表示过，AlphaEvolve做出的构造，研究价值有限。

丹尼尔：这些构造的研究价值，主要在于它们是由自动化系统完成的。但我们可以想象，未来的迭代版本，能做出本身就具备重要独立研究价值的构造。

格雷格：最后一个我真正关心的问题：人工智能的这种能力，不仅能迁移到数学的其他领域，还能迁移到其他科学领域、研发领域吗？如果未来人工智能能持续解决有价值的数学问题，而且并非依靠AlphaProof（阿尔法证明器）这类高度专业化的方法，这会对其他科学研究、人工智能自身的研发，带来什么影响？

丹尼尔：我的看法是，目前人工智能无法自主开展高质量数学研究的核心障碍，和它无法完成任何有经济价值的工作的障碍，是一致的：有时候需要创新能力，需要适应新的方法，需要学习新的知识，需要为一项工作投入大量的时间，而这些，都是目前的人工智能系统难以做到的。

我认为，如果这些障碍被攻克，模型会成为非常优秀的数学研究者，而攻克这些障碍，也是模型具备高水平数学研究能力的必要条件。

格雷格：有一个问题：是否存在一种特殊的要素，让数学研究的难度独树一帜，以至于数学成为人工智能迈向具有社会变革意义的通用智能过程中，最后被攻克的领域之一？

丹尼尔：我认为这种可能性非常小。我们很难说清，开展高质量的数学研究，究竟需要哪些能力，这本身就是一个需要内省的问题。但有证据表明，它需要创新能力，需要长期投入的毅力。

当然，也有可能事实并非如此，如果是这样，那么数学领域的发展，可能会领先于其他领域。但我认为，数学研究并不存在什么特殊的 “独门要素”，我的研究工作，和其他人的工作，本质上并没有太大区别。当然，我会花更多的时间躺在沙发上，盯着墙，单纯地思考问题，但这些工作所需的核心能力，和其他任何有经济价值的工作，其实都是相通的。

十四、人工智能即将推动数学研究加速发展吗？

[02:06:53]

格雷格：还有哪些问题，是我们应该问但还没问的？

丹尼尔：我想再多说一点：这一切的核心，其实是开展不同数学研究活动的边际成本。我认为人工智能会带来重大影响的领域，是让 “尝试解决一个问题” 的边际成本变得极低。

很多猜想的研究，都存在这样的情况：你其实应该写一个计算机程序，做一些计算验证，但你只是懒得做。解决这类猜想，并不需要能力多强的人工智能系统，而我们已经看到，很多这类猜想正在被人工智能解决。我认为这是一件意义重大的事。

格雷格：这会让数学研究的发展速度，提升多少？

丹尼尔：我并不认为这会带来多大的 “加速”，数学研究本身存在一种 “成本”—— 你必须动手尝试，而降低这种成本，本身就有重要意义，即便研究的核心瓶颈并不在此。

数学研究的核心障碍，始终是：你需要有一个好的想法。大多数人一年也就只有几个好想法，我目前还不清楚，人工智能能在多大程度上帮助人类产生好想法。但有时候，研究并不需要好想法，只需要坐下来，硬算完成即可。而判断一个问题是否需要好想法，本身就是一种非常重要的能力。

即便人工智能的能力不再提升，数学研究中的很多摩擦和阻碍，也会逐渐消失，而这，也是我认为人工智能会带来最多进展的领域。

格雷格：也就是说，你认为人工智能目前给数学研究带来的影响，并非让研究速度出现突破性的提升，而是消除了研究中的诸多阻碍，这是你理解人工智能对数学研究当下价值的核心视角。

丹尼尔：说到 “加速发展”，我非常希望能找到一种方法，将这个概念量化，真正去评估：我们是否真的在经历数学研究的加速发展？人类历史上，是否出现过这样的加速？随着时间的推移，数学家的人均研究产出，是否有所提升？即便有了这么多新工具，这个问题的答案，对我而言依然不明确。该如何量化这个问题？我们可以看引用量，但这是一个非常糟糕的参考指标，而且它还和人口数量高度相关。

格雷格：在我们结束访谈之前，未来几个月，有哪些事是你比较期待的？

丹尼尔：八月份的时候，我还说过，“以人工智能目前的能力，还没有解决很多稍有研究价值的猜想，这一点很奇怪”。而现在，我认为这类猜想的解决，已经开始出现了。

未来一年内，会有更多这样的猜想被解决 —— 这些问题没人真正深入研究过，只是研究者随手写下的问题，但依然有一定的研究价值，而人工智能会自主解决它们。我认为这种情况的可能性非常大。

格雷格：未来我们肯定会有很多机会，推出紧急播客来解读这些成果。大家可以关注丹尼尔的推特，这里绝对是了解人工智能与数学研究相关资讯的优质平台。非常感谢你接受我们的访谈。

丹尼尔：也非常感谢你们的邀请，能参加这次访谈，我很开心。

格雷格：非常愉快的交流。

原文参考资料：

欧拉幂和猜想：

兰德与帕金（Lander & Parkin，1966 年，首个反例）https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf

埃尔基斯（Elkies，1988 年，四次幂情形）https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf

埃斯诺尔特与格罗申尼希（Esnault & Groechenig，相伴理论与朗兰兹纲领）https://arxiv.org/abs/1707.00752

德利涅（Deligne）对韦伊猜想的证明（1974 年）http://www.numdam.org/item/PMIHES_1974__43__273_0/

泽塔ζ函数值的无理性：

阿佩里（Apéry）的证明（1978-1979 年）http://www.numdam.org/item/AST_1979__61__11_0/

范德普滕（Van der Poorten）的阐释https://doi.org/10.1007/BF03028234

扎吉尔（Zagier）的计算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf

卡莱加里 - 季米特洛夫 - 唐云清（Calegari-Dimitrov-Tang）的近期进展https://arxiv.org/abs/2408.15403

数论中的随机模型：

梅兰妮・马切特・伍德（Melanie Matchett Wood）关于随机矩阵的研究https://doi.org/10.1353/ajm.2019.0008

科恩 - 伦斯特拉（Cohen-Lenstra）启发式https://doi.org/10.1007/BFb0099440

提及的千禧年大奖难题：

黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/

霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/

贝赫和斯维讷通 - 戴尔（BSD）猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/

纳维 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/

前沿数学：开放式问题基准测试 https://epoch.ai/frontiermath/open-problems

参考资料

https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time

小乐数学科普近期文章

·开放 · 友好 · 多元 · 普适 · 守拙·

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

置顶加星★

数学科普不迷路！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.