★置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!
![]()
接上篇:
访谈背景简介:
丹尼尔・利特(Daniel Litt)是多伦多大学数学系教授。他一直密切关注人工智能在推动数学发现领域的发展进程,对此态度时而审慎怀疑,时而满怀期待。
本期Epoch.ai与其探讨的话题包括:当下的模型能解决的最难数学问题究竟是什么;是否有确凿证据表明人工智能正推动数学研究提速;以及人工智能能否攻克千禧年大奖难题。
他们还探讨如何评估数学研究的进展,其中包括Epoch.ai全新推出的「FrontierMath前沿数学:开放式问题」基准测试 —— 该测试以数学领域具有研究价值的未解问题为依据,对人工智能模型的能力进行评估。
详情参阅:
访谈人简介:
![]()
丹尼尔·利特(Daniel Litt)是多伦多大学数学助理教授。他获得斯坦福大学博士学位,研究重点是代数几何与数论之间的相互作用。
![]()
格雷格・伯纳姆(Greg Burnham)是 Epoch AI 的研究员。在此之前,他曾在Elemental Cognition和Bridgewater Associates工作。他拥有普林斯顿大学数学学士学位。
![]()
安森(Anson Ho)是 Epoch AI 的研究员。他致力于帮助对人工智能未来发展及其社会影响进行更严谨的理解。
时间节点目录:
(采访时间和内容较长,分成十四小节,上下两篇。本篇为下篇,涉及后七小节)
00:00:00 一、如今人工智能能解决的最难数学问题是什么?
00:16:08 二、当下的人工智能模型对数学研究的助力有多大?
00:23:36 三、垃圾论文、大语言模型生成的证明与审稿危机
00:27:21 四、人工智能实现数学问题的大规模筛选
00:33:49 五、人工智能何时能发展到足以在顶级数学期刊发表成果的水平?
00:42:15 六、智能的价值回报体现在何处?
00:59:50 七、人工智能能否攻克千禧年大奖难题?
01:11:54 八、数学领域还存在大量易解的「低垂果实」吗?
01:18:47 九、丹尼尔如何调整职业发展,以适应人工智能的发展进程?
01:25:28 十、人工智能数学基准测试,实际在评估什么能力?
01:33:05 十一、开放式问题基准测试的设计思路
01:56:35 十二、数学家会相信关于数学猜想的启发式论证吗?
02:01:24 十三、若人工智能攻克「FrontierMath前沿数学:开放式问题」基准测试,会带来什么影响?
02:06:53 十四、人工智能是否即将推动数学研究迈入加速发展阶段?
作者:epoch.ai 2026-1-29
译者:zzllrr小乐(数学科普公众号)2026-1-31
访谈实录(下):
八、数学领域还有很多容易解决的问题吗?
[01:11:54]
安森:你在推特上提到过,解决一个数学问题的含金量,取决于前人在这个问题上付出了多少努力。我们是否有可能梳理这些问题,量化一下前人的付出?
丹尼尔:可以去看提出这些问题的论文,以及这篇论文的引用量。不过对于那些已经被解决的问题,我其实并不清楚具体数据。比如第 124 号难题的高难度版本目前仍未解决,提出这个问题的论文只有 14 次引用。对于一篇 1996 年的数学论文来说,这个引用量并不算高。
格雷格:但 14 次引用也并非毫无意义。
丹尼尔:1996 年发表的数学论文里,有很多引用量为零。而且这 14 次引用,大概率并非都是针对这个难题本身 —— 这篇论文里提出了很多问题。
格雷格:你知道有多少人在研究p曲率猜想(p-curvature conjecture)吗?
丹尼尔:非常少。这也是我一直想要攻克的难题,我为它投入了大量精力。目前还在积极研究这个猜想的人,我估计我都认识,人数应该不到 20 个。从历史来看,80 年代、90 年代和 21 世纪初,这个领域的研究热度更高,后来研究者们陷入了瓶颈,热度也就降了下来。或许现在相关领域出现了一些新的思路。
任何一个连专业术语都没多少人理解的问题,关注者自然会很少。目前能完全理解 p 曲率猜想所有术语的人,可能也就几千个。
格雷格:是否存在一种选择效应,让一些问题变成了 “研究者觉得研究它很没面子” 的问题?
丹尼尔:比如考拉兹猜想(3n+1猜想),它还很容易吸引一些非专业的业余研究者。很多问题,专家的看法都是 “我们目前还没有合适的方法解决它”,这就难免会让人产生一种 “你凭什么觉得自己能解决” 的质疑。(详情参阅 )
对于那些著名的重大难题,是否有很多研究者在悄悄尝试,只是没有公布成果?或许每个人都会偶尔思考这些著名难题,包括那些在相关领域发表过论文的知名学者。但 “尝试解决一个问题” 到底意味着什么?很多时候,人们只是想着 “要是能解决这个问题就好了”,然后就没有任何实际行动了。
格雷格:当你觉得 “或许我有一个值得一试的想法” 时,是什么感受?
丹尼尔:有时候会在半夜醒来,突然想到一个绝妙的主意。我思考问题的方式主要有两种:要么从一个想法出发,慢慢推演;要么先掌握一种通过其他途径想到的新方法,再思考 “这个方法能解决哪些问题”,从中挖掘价值,这是一种机会主义的研究思路。
有时候我也会定下明确的目标,比如解决某个问题、证明某个猜想 —— 更准确地说,是先尝试理解某个数学对象,再通过证明一个有意义的结论,来检验自己的理解程度。我会找一个最简单的例子,一个用现有方法无法解决的例子,先尝试攻克它,在这个过程中开发新的方法,再看看这种新方法能走多远。
格雷格:从数据分析的角度来看,如果把引用量作为评估指标,是否需要进行一些非线性的修正?
丹尼尔:引用量的参考价值可能被高估了 —— 有很多论文引用了黎曼猜想的相关研究,但其实并没有为解决黎曼猜想做出任何实质性的贡献。
格雷格:那这样一来,引用量这个指标就没什么意义了。
丹尼尔:我认为用这种方式评估数学问题的难度,其实非常不靠谱。
安森:还存在垃圾论文的问题。
丹尼尔:还有大量论文声称证明了黎曼猜想,这显然让相关研究的评估变得更难。计算机科学领域也有很多论文引用了 P 与 NP 问题的相关内容,但它们真的推动了这个问题的解决吗?
九、丹尼尔如何适应人工智能发展,调整自己的职业发展规划
[01:18:47]
格雷格:在我们深入聊评估方法之前,想问一下,为了在人工智能时代站稳脚跟、谋求发展,你已经做出了哪些调整,或者有哪些规划?
丹尼尔:我正在做一些事,因为我预判人工智能的能力会不断提升。目前有很多研究者在做数学形式化的工作,比如用Lean或其他证明验证软件将数学内容形式化,但我并没有参与这项工作,因为我预计未来几年,能让人凭直觉完成形式化的工具会有大幅改进。
格雷格:凭直觉完成形式化 —— 我再跟你确认一下这个概念。
丹尼尔:当然,也有一部分原因是我并非这个领域的专家,我只是简单尝试过。而且我并不打算因为预判人工智能能力会提升,就改变自己研究的问题方向,或是使用的研究方法。
究其根本,我认为自己的工作核心不是证明定理,而是理解数学对象。证明定理,只是检验理解程度的一个标准。很多定理或猜想,都是研究的 “终点” 而非 “源头”—— 也就是说,如果你能开发出一种方法证明这个定理,说明你已经理解了相关的数学内容,但研究的真正价值,在于这份理解本身。
这或许也能解释,为什么训练人工智能开展高质量数学研究如此困难:我们发表的论文,大多没能传达出数学研究的真正价值 —— 研究的核心,是让人类对某个学科的理解更进一步。
格雷格:你脑海中形成这份理解时的那些想法,并不会出现在论文里。
丹尼尔:研究者会努力把自己的直觉写进论文,但这向来是个难题。如果我能直接告诉学生 “你应该这样理解这个数学对象”—— 我确实会这么说,但这并不能传递任何有价值的信息。这只是给了他们一个线索,需要他们自己去研究这个数学对象,才能慢慢领悟,而这份直觉本身,无法直接传递。除了一些高度凝练的表述或隐晦的提示,论文的文字里根本没有这份直觉的痕迹。
格雷格:我能想象到这种情况:你发表了一篇论文,标题是 “某猜想的证明”,但你构建相关理论的过程曲折得多,而论文里根本没有留下多少能让人工智能学习的线索。
丹尼尔:很多研究都是这样的:证明一个结论时,你通常会有一个非常清晰的核心思路,之后会遇到各种各样的障碍,可能是因为你不理解证明过程中的某个中间对象。你会想办法绕开这些障碍,最终写出来的论证过程看起来会非常晦涩。当然,你会试图在论文里提示 “这才是我真正的研究思路”,但这种提示的效果往往不尽如人意。
那这和人工智能对我个人规划的影响有什么关系呢?人工智能无法替我理解数学对象。正因为直觉的传递如此困难,即便有一个模型在各方面能力都超过我,它可能也只能在很小的程度上帮助我理解这些数学对象,甚至可能毫无帮助。
格雷格:也就是说,核心的研究工作,终究还是要靠自己。
丹尼尔:我看到你在推特上引用了一位哲学家的话,说数学家的社会角色,是成为数学理解的 “载体”。我特别喜欢这个说法 —— 太贴切了。我很好奇,你是否会为这种角色感到困扰?如果未来人工智能能比人类更快地解决任何数学问题,彻底主导人类的数学研究,你会感到困扰吗?你还会继续研究数学吗?
丹尼尔:做数学研究的一大乐趣,就是证明一个结论时的那种成就感。这种成就感,未必只有解决未解难题才能获得。或许会少了一些虚荣心的满足,但这份核心的情感体验依然存在。
对我而言,研究数学的真正目标,是理解这个世界。如果未来社会的需求,正如佩利所说,是让数学家成为人类数学理解的 “载体”,让我们通过研讨会,向大家解读人工智能证明的最新重大成果,只要社会愿意支持这项工作,我会非常乐意。
格雷格:就像在后稀缺的乌托邦社会(post-scarcity utopia)里,这种工作依然有价值。
丹尼尔:当然。而且我认为,我们离那个时代还很远。
格雷格:但只要我们还是现在的自己,就依然会想要做这份工作。
丹尼尔:这里存在一个社会问题:如果人工智能模型在数学研究的所有领域都比人类更有优势,或者公众认为它们更有优势 —— 我认为后者的可能性更大 —— 社会还会愿意支持数学家的研究工作吗?这是一个悬而未决的问题,但我希望答案是肯定的。
格雷格:目前来看,公众普遍认为数学研究大多最终会产生实际价值。
丹尼尔:数学之所以能产生实际价值,一个重要原因是有人类专家的存在,以及数学研究培养出的人力资本。即便是研究最抽象、最纯粹数学的人,他们作为数学理解的 “载体”,本身就具有价值。无论未来的人工智能模型能力多强、创新能力多高,让人类成为数学理解的载体依然有价值,即便在数学研究领域,人工智能已经完全超越了人类。
十、人工智能数学基准测试,究竟在评估什么?
[01:25:28]
格雷格:我们想继续完善数学基准测试的体系,尤其是 “前沿数学” 基准测试。但目前来看,这个测试的评估维度,并没有涵盖所有重要的能力。你认为其中最核心的缺失是什么?
丹尼尔:我先说说我对基准测试评估内容的理解。这类测试试图评估的能力包括:是否理解专业术语的含义?是否掌握已有的研究成果?是否熟悉现有的研究方法?能否应用这些方法?还有一定的推理能力和创新能力?
但在我看来,这些基准测试最终主要评估的,还是知识储备。人类解决问题时,知识储备通常是有限的,所以我们会怎么做?可能先有一个思路,研究一段时间后,发现 “需要把这个结论或结果作为中间步骤”,然后再尝试证明这个中间结论,或者去查阅相关资料。
证明中间结论的过程,甚至发现 “存在这样一个可利用的中间结论” 的过程,都是高度依赖推理的。但如果一个模型已经记住了所有的数学文献,它早就知道这个中间结论的存在,要意识到这个结论能用来证明目标问题,就几乎不需要任何推理了。
当你向一个熟记所有文献的模型提问时,你其实并没有测试到那种 “知识储备有限的人类解决问题时所展现的核心推理能力”。人类需要自己发现的那些已有结论,模型早就知道了。
对人类而言,很多能测试出推理能力、并与数学专业能力和研究成就高度相关的问题,对模型而言,已经无法反映其真正的推理能力了。任何一个人类,如果能在 “前沿数学FrontierMath” 基准测试中取得和模型一样的成绩,大概率会成为一名非常成功的研究者,但模型并没有展现出相应的研究能力。这就是原因所在 —— 同一个问题,对人类和对模型,测试的是完全不同的能力。
格雷格:补充一个你可能不知道的信息:我们深入研究了Gemini 2.5 (谷歌双子座AI工具)深度思考模型的数学能力,还让它手动完成了 “前沿数学” 基准测试。测试中的所有问题都有三个评分维度:背景知识、执行难度、创新要求。执行难度主要看解题过程的长度,以及需要完成的繁琐计算量;背景知识看解题所需的知识是否高深、晦涩;而创新要求 —— 我本以为这是三个维度中,与我们所说的推理能力最相关的一个。但结果显示,Gemini 模型的得分与背景知识、执行难度维度呈负相关,而与创新要求维度完全无关。
丹尼尔:这很有意思。
格雷格:这恰好印证了你所说的现象。即便我们试图让 “前沿数学” 基准测试覆盖创新能力这个维度,但模型解决问题的过程,似乎并没有体现出对这个维度的感知,也不会因为问题的创新要求高而觉得更难。
丹尼尔:其他模型也呈现出同样的规律吗?Google Gemini(双子座)模型似乎很少使用合成数据,这可能导致它对一些偏门的专业领域了解较少。
格雷格:GPT-5 等其他模型也是如此。没错,它们确实缺失了创新能力这一核心维度。
丹尼尔:还有一个问题:人们试图设计一道难题时,实际上,出题者本身都很忙,他们设计的题目,往往是自己已经知道解法的。而一道任何人都知道解法的题,显然可以用现有的方法解决。
或许出题者会想出一种新方法来解题,只是还没写进论文。但这种方法究竟是真正的创新,还是只是对出题者而言的新方法,就不得而知了。最终这篇论文发表,新方法进入训练数据,这个问题也就无法再用来测试模型开发新方法的能力了。
有时候,解决一道难题的关键,只是需要在一篇论文里找到一个公式,代入数值计算,而理解这篇论文的专业术语,需要大量的背景知识。但模型的背景知识储备量极大,它们能直接读取 PDF 文献,然后代入数值计算。
格雷格:有时候,这类测试最终变成了测试 “模型能否读懂 PDF 文献”。
丹尼尔:没错。我的看法是,如果一个基准测试的难度,仅限于人类几小时内能解决的问题,那它很快就会被模型吃透。人类几小时能完成的工作,其实非常有限。
格雷格:参与我们 “前沿数学” 四级测试命题的一位研究者说,他对自己出的题特别满意,因为这道题是他被 “绊住” 后花了两周时间研究出来的。他没有直接用自己会解的题,而是给自己定了一个目标 ——“用这些方法设计一道题”,然后不断探索,最终才有了这道题。
丹尼尔:出题者投入的时间越长,题目质量大概率也会越高。但这里还有一个陷阱:如果一个人刻意想设计一道难题,最终设计出的,往往是对他自己而言的难题。比如他会在自己不擅长的领域出题。
格雷格:然后就会觉得所有内容都是新的、有趣的、难的。
丹尼尔:但对这个领域的专家而言,这道题可能很简单。设计一道难题,却不验证它的实际难度,最终做出的基准测试,很容易就会被模型吃透。
十一、开放式问题基准测试的设计思路
[01:33:05]
格雷格:接下来聊聊我们正在设计的 “开放式问题” 基准测试 —— 目前还只是暂定名。这个测试的核心目标,是选取目前人类还无法解决的数学开放式问题。同时我们还受限于 “自动验证” 的要求:即便目前人类不知道答案,一旦人工智能给出一个答案,我们需要能用程序验证这个答案是否正确。设计这个测试,也是为了避开 “无法评估问题实际难度” 的痛点。
丹尼尔:很多开放式问题的研究,都受限于 “关注者过少”,所以这些问题的实际难度,可能并没有看起来那么高。一个有效的办法,是让数学家来评估 “这道题是否难”,这样能避免后续随意抬高评价门槛。
我很认可这个项目的一点是:目前很多人工智能实验室都投入大量资源解决某个数学问题,只是为了对外宣称 “我们解决了这个问题”。如果这些资源能被投入到人们真正关心的问题上,会是一件好事。有些实验室在做真正的科学研究,但有些实验室的主要工作,其实只是公关。
格雷格:这个测试也能让我们对一系列问题进行 “预先登记”。当某个实验室宣称 “我们的模型解决了这个问题” 时,我们就能知道,这个成果的筛选有多刻意。
丹尼尔:开放人工智能曾发表过一篇论文,他们梳理了一些学术会议的论文,从中挑选问题研究,我记得他们选了十个问题,最终解决了一个。这个数据能让我们窥见一斑。我认为这篇论文,并不能证明人工智能的数学能力在加速提升。而且和所有这类研究成果一样,背后都存在各种复杂的影响因素。
格雷格:没错。如果我们能让数学家来评估 “这个问题是否有研究价值”,该如何量化这种评估?我们该用什么样的标准?
丹尼尔:或许可以让数学家给出评级,比如 “有价值”、“非常有价值”、“极具价值”,也可以让他们分析这个问题的研究意义。有时候,一个问题有研究价值,是因为它是研究的 “源头”—— 解决它能推导出很多有意义的结论。我理解这个基准测试,主要是寻找能被验证的构造性问题。
格雷格:我们并非只关注构造性问题,但受限于 “自动验证” 的要求,选取的问题通常都是 “构造一个数学对象” 这类问题。
丹尼尔:有些构造性问题的研究,确实能产生实质性的研究成果;但有些构造性问题,只是检验理解程度的 “基准”。比如欧拉幂和猜想,因为暴力搜索的方法行不通,解决这个问题的过程,就是检验研究者理解程度的过程。要解决它,你必须想出一种巧妙的搜索方法,而这也意味着你已经理解了相关的搜索空间。
格雷格:这些作为 “理解基准” 的构造性问题,目前人类都无法解决,用它们来评估人工智能的理解能力,是否公平?
丹尼尔:这取决于问题本身。有些问题的研究,只是受限于关注者过少。很多研究者寻找的数学构造,目前的研究水平还停留在 “有人在周末用笔记本电脑做了一次简单的搜索”。如果人工智能能找到一种更好的构造方法,只能说明它做了一次尝试,而人类之前从未尝试过。这种成果显然有价值,但我们很难判断,这能反映出人工智能的什么能力。
但也有一些问题,比如 M₂₃ 单群的逆问题,我认为如果能像曼哈顿计划一样集中资源研究,肯定能解决,它绝对在人类的能力范围内,而且也确实有很多研究者尝试过。
格雷格:我们是否应该将 “研究价值” 和 “难度” 作为两个独立的评估维度?
丹尼尔:这绝对是两个不同的维度,只是二者存在相关性,因为人们会更愿意研究有价值的问题,而那些有价值却仍未被解决的问题,往往难度都很高。
格雷格:我们之前聊过抬高评价门槛的问题。有些情况是,你原本以为某个问题不会用一种平庸的方法解决,但看到人工智能的解法后发现,其中毫无新想法,完全就是硬算出来的。它确实证明了结论,但这个成果,对预测人工智能的能力发展,似乎毫无参考价值。我们该如何提前规避这种情况?
丹尼尔:我想说明的是,如果人工智能解决的是一个并非因 “关注者过少” 而未解的开放式问题,即便证明过程只是硬算,这也依然有价值,我们不能说 “这个成果毫无意义”。硬算的能力,对数学家而言,本身就是一种重要的技能。
格雷格:如果有能力的话,数学家自己也会这么做。
丹尼尔:四色定理的证明,难道就没人认可吗?确实有人质疑,但我认为这些质疑是错误的。
数学研究中,抬高评价门槛的现象由来已久。18、19 世纪的很多伟大数学家,都是计算高手,而他们当时做的很多计算工作,现在一个八年级的学生用图形计算器就能完成。我们本就是工具的使用者,使用工具解决问题,无可厚非。
格雷格:用各种方法做有价值的数学研究,本就是公平的。但从能力预测的角度来看,如果我们发现,人工智能解决某个问题的方法,和AlphaProof(阿尔法证明器)解决 2024 年国际数学奥林匹克竞赛第六题的方法如出一辙 —— 都是平庸的硬算,这会让人感到震惊。
丹尼尔:有时候,一个问题在被解决之前,你永远不知道它其实很简单,人类数学家也会遇到这种情况。去年,我和艾伦・兰德斯曼(Aaron Landesman)解决了一个悬置了 40 年的开放式问题,但我们没有把成果发表在《数学年刊》上,因为事后看来,这个解法并没有什么研究价值。这种情况很常见。
或许我们可以这样做:建立一套明确的标准,判断一个成果是否包含真正的新想法,也就是一套事后评估准则。我们甚至可以等五年,看看有多少新的研究成果,是基于这个成果中的想法得出的。
有限域上的相关猜想,其证明引入了多项式方法,而这个方法后来产生了巨大的影响,这篇论文也发表在了《数学年刊》上,从后续的研究成果来看,这个发表决定是完全合理的。但如果只是用硬算的方法解决了国际数学奥林匹克竞赛的第六题,这个解法显然无法衍生出任何新的研究成果。
格雷格:我们一直在思考一种难度评估方法:统计有多少数学家为这个问题付出了努力,付出了多长时间,还可以考虑研究者的资历。如果有 1 到 2 位青年数学家尝试解决这个问题但失败了,那么人工智能解决了它,对我们而言,算是多大的突破?
丹尼尔:目前还不清楚,数学领域究竟还有多少容易解决的问题,有可能数量非常多。人工智能目前还没有开始解决有价值的开放式问题,这或许能从侧面说明,这类问题的数量并不多。但所有问题的研究,都受限于关注者过少。如果真的有大量容易解决的问题,那么人工智能的出现,会带来数学研究的巨大突破,基准测试也会变得很简单 —— 随便拿一个开放式问题给它,最终都能被解决。
另一方面,也有一些侧面证据表明,并非所有问题的研究都受限于关注者过少,数学领域的 “低垂果实” 其实并不多。当研究者真正投入精力研究一个问题时,要么能解决它,要么会发现它确实很难。
格雷格:你为什么会有这样的感受?
丹尼尔:那些著名的未解猜想,证明过程却非常简短的,这样的例子其实寥寥无几。如果数学领域真的有大量容易解决却未被解决的问题,我们应该会经常看到研究者发现并解决这类问题的案例。这种情况确实存在,但非常罕见。
通常来说,一个重要猜想的解决,并非只引入一个简单的新想法,而是会引入多个新想法,或者依赖于该领域的诸多其他研究进展。你能从证明过程中,清晰地看到解决这个问题所需的各项突破。
当然,我们并非总能提前看到这些突破。有时候,你能证明一个结论,只是因为你需要的最后一个中间结论,刚被其他人证明,恰好能用上;有时候,这个中间结论已经发表在文献中二十年了,只是你才发现。
我们每个人都有过这样的经历:看到一篇新发表的论文,会想 “哦,我早就知道这个核心想法了,要是我当时能意识到它能解决这个问题就好了”。我最喜欢的一篇论文就是如此,它的核心想法,来自我几年前在数学问答网站MathOverflow上提的一个问题的回答,我当时看到这个回答时,肠子都悔青了。
格雷格:对于这个开放式问题基准测试,我们被一个硬性、恼人且不自然的条件束缚着 —— 自动验证,我们需要用计算机程序来判断答案是否正确。这个条件的影响有多大?
丹尼尔:理论上,这并不是一个限制。任何数学构造,排除不完备性的问题,都可以附上一个能被验证的证明过程。但在实际操作中,这确实是一个实实在在的限制,因为我们的资源有限,无法让研究者为所有问题编写验证程序。
格雷格:我们目前只能选取 “普通的计算机程序就能验证答案” 的问题。
丹尼尔:所以第一个限制就是,很多数学领域和有价值的问题,都不属于这类可被程序验证的问题。比如代数几何的很多领域,就没有这类问题,数论的一些领域也是如此,不过计算数论领域有很多漂亮的可验证问题。
这个条件带来的核心限制,其实是对问题研究价值的筛选。有些问题,比如反伽罗瓦问题,既需要构造可验证的数学对象,也有很高的研究价值,但这类问题非常少见。大多数情况下,研究者需要构造的是一系列无限的数学对象,而这类构造的验证难度要大得多。
格雷格:我发现有一类问题很适合这个测试 —— 零知识证明相关问题。比如需要构造一个无限序列,我们不需要验证整个序列,只需要验证第 297 项即可。
丹尼尔:这是一个非常好的思路,但很快就会遇到实际问题,除非验证的速度能极快。通常来说,我们最多也就验证前五项。即便是反伽罗瓦问题,我们可以提出验证要求,但大概率验证到前 3 到 4 项之后,就不具备实操性了。
所以这个条件带来的限制是非常大的。我们希望这个基准测试中,构造数学对象的能力,能成为人工智能理解能力或巧妙搜索能力的一个参考指标,但往往很难判断这一点。有时候,我们有证据表明人类研究者尝试过但失败了,所以能确定,人类目前缺失了某种能力;但有时候,人类研究者已经用一些巧妙的思路解决了类似的问题,而这个问题却毫无进展。
格雷格:确实有一些问题,每一次新的构造,都需要一个漂亮的新想法。如果人工智能能给出一个新的构造,我们会希望背后也有一个漂亮的新想法支撑。
我之前给你发过一份问题清单,我们的目标是让清单中的问题覆盖不同的难度等级。在难度较低的一端,我们担心的是,出题的博士后当时可能状态不好,出的题在某些方面,难度甚至不如国际数学奥林匹克竞赛的第一题。不过我们可以用统计学的方法规避这个问题。我也很好奇难度较高的一端 —— 数学领域最有价值、最难的问题,往往抽象性也更高。
丹尼尔:这可能涉及到莫拉维克(Moravec)悖论:数学问题的难度,一方面在于需要高强度的推理,另一方面在于需要掌握大量的专业术语,在脑海中构建一套庞大的理论体系。
代数几何素来以难度高著称,这很可能只是因为人类本身并不擅长这个领域,而且从事该领域研究的人类研究者本就很少。
格雷格:没错,还是关注者过少的问题。对于我发给你的那份问题清单,你有没有直观的感受,哪些问题 “难度高得多,也更有研究价值”?
丹尼尔:有几个问题给我的印象很深。比如 M₂₃单群的逆问题,我可以明确说,如果这个问题被解决,我会非常兴奋。我认为集中资源研究的话,人类能解决这个问题,而它的解决,也会是一件大事。无论是人类还是人工智能解决了它,我都会无比兴奋。
还有一些关于无理性的问题。70 年代末,阿佩里(Apéry)证明了黎曼泽塔zeta函数ζ(3)是无理数,也就是所有正整数的立方的倒数和是无理数,这个证明堪称神奇。他在一次会议上公布了这个证明,当时所有人都不敢相信,直到大家回去验证后,才惊叹于证明的精妙。后来研究者们发现,这个证明与深奥的 G-函数理论相关。
而相关的开放式问题是,寻找一系列整数或幂级数,让阿佩里的方法能应用于其他有意义的常数。扎吉尔(Zagier)是一位非常资深的数学家,他做了大量的计算,试图找到类似的序列,取得了一些小成果,找到了 6 到 7 个例子。
格雷格:这些例子,都不是你之前认为最有研究价值的那些常数吧?
丹尼尔:近期,卡莱加里(Calegari)、季米特洛夫(Dimitrov)和唐云清在这个领域取得了新的进展。他们没有寻找新的序列,而是想出了新的方法,对阿佩里的通用方法进行了漂亮的改进,让这个方法能应用于更广泛的序列。我可以明确说,这个问题的难度很高,有很多研究者都为它付出了努力。
十二、数学家会相信关于猜想的启发式论证吗?
[01:56:35]
格雷格:我们面临的另一个挑战是,希望选取的问题都是有解的。
丹尼尔:你们想要选取的是有确定答案的问题,也就是正确的猜想。但要判断一个猜想是否正确,本身就非常难,更不用说证明它了。
格雷格:如果一个熟悉某领域的数学家告诉我们,他有 80% 的把握,这个问题会朝某个方向解决,只是他自己无法构造出相关的数学对象,你会有多相信他的判断?
丹尼尔:比随机猜测的准确率高一点,但高不了多少。数学家的观点总是在变化。比如你清单中的一个问题:寻找秩至少为 30 的椭圆曲线。长期以来,这个领域的所有人都认为,椭圆曲线的秩是无界的,但现在,大部分研究者认为,椭圆曲线的秩是有界的。
格雷格:真的吗?
丹尼尔:近期有不少启发式的研究支持这个观点,不过也有一些研究者对此表示怀疑。人们对猜想正确性的判断一直在变,比如霍奇猜想,大部分代数几何学家认为它是正确的,但也有很多人持反对意见。
格雷格:有些情况下,研究者已经证明了某种数学构造是存在的,但就是无法具体构造出来。
丹尼尔:我其实很喜欢这类问题。比如用概率方法得出的拉姆齐数(Ramsey numbers)的界,研究者已经证明了这个界的存在,而相关的开放式问题,就是寻找具体的构造。我目前正在研究的一个问题,也属于这类:塞尔(Serre)提出,需要为一些用非构造性方法证明存在的数学对象,找到具体的构造,而我正在做这项工作。构造性的证明和非构造性的证明,有着天壤之别,构造性的证明能让你获得更多的洞见。
安森:有哪些经典的启发式论证,或是这类论证的典型例子,能让研究者在没有完整证明的情况下,改变对猜想的判断?
丹尼尔:数论领域,用随机模型研究数论对象的做法,由来已久。比如,我们可以认为素数的分布,类似于满足某些性质的随机整数集合,然后构造一个满足这些性质的随机序列,研究这个序列几乎必然具备的性质,进而猜测素数也具备这些性质。
研究椭圆曲线时,我们也会先梳理出它的所有性质,构造一个满足这些性质的随机模型,再猜测椭圆曲线的性质。一个最基础的例子:某个几何或数论问题中,出现了一个 n 阶方阵,我们可以假设这个方阵的行为,和一个随机的 n 阶方阵一致。
梅兰妮・马切特・伍德(Melanie Matchett Wood)和她的合作者做了一项漂亮的研究,他们研究了整数随机矩阵,并基于此对椭圆曲线及相关数论对象做出了预测。这项研究背后有定理支撑 —— 该定理指出,满足 x、y、z 性质的随机对象,会具备某类特定性质。
一个经典的例子是数域的类群,我们假设它的行为,和按照某种分布生成的随机交换群一致,进而猜测,如果按照某种自然的顺序罗列数域,那么满足 X、Y、Z 性质的数域的比例,和满足这些性质的随机交换群的比例一致。这就是科恩 - 伦斯特拉(Cohen-Lenstra)启发式,它也是目前数论和算术统计领域的重要研究动力。
十三:如果人工智能攻克了 “Frontier Math前沿数学:开放式问题” 基准测试会怎样?
[2:01:24]
格雷格:如果人工智能彻底碾压了这个基准测试,解决了我们讨论的这类问题,那我们所处的世界,会变成什么样?
丹尼尔:我会感到无比兴奋。可以想见,人工智能找到这些数学构造的方法,至少在很大程度上,会是有研究价值的。
有一个值得思考的问题:人工智能解决这类构造性问题的能力,与它的其他能力之间,存在怎样的相关性?构造性问题有明确的奖励信号,我们可以针对性地训练模型,让它专注于解决这类问题,但很难说这个奖励信号,是否能让模型的能力迁移到证明类问题上。当然,证明类问题的答案,也是可以被验证的。
格雷格:但或许需要等验证的体系更加完善后,再针对证明类问题训练模型。
丹尼尔:对我而言,关于人工智能数学能力未来发展的一个核心问题,是模型的能力迁移性有多强。如果每发现或发明一个新的数学对象,都需要从头训练一个新的模型,那么人工智能的发展,会和模型能快速掌握新对象并展开研究的情况,截然不同。
甚至可以说,模型在代数几何领域的通用知识和能力,能否迁移到 “代数几何 + 微小拓展” 的领域,都是一个问题。过去十年,数学家提出了十种关于 “空间” 的新定义,而人工智能面临的问题,甚至不只是持续学习 —— 即便模型能学习这些新定义,它是否能像人类一样,具备运用这些定义开展研究的能力,还是一个未知数。
我们现在讨论的,是一个特殊情况:模型非常擅长构造可验证的数学对象。但这种能力,与更广泛的数学研究能力之间的相关性,仍未可知。但可以肯定的是,这种能力的出现,会是一个划时代的突破。
格雷格:至少在数学领域,绝对是划时代的。而对于人工智能的整体能力而言,这取决于模型的能力迁移性如何。它的能力可能非常狭窄,就像我们通过不断优化,让人工智能在棋牌游戏中取胜一样。
丹尼尔:目前,AlphaEvolve(阿尔法进化)已经能做出一些数学构造了,虽然它还无法完成有价值的证明,但已经能做出有意义的构造。
格雷格:你在推特上明确表示过,AlphaEvolve做出的构造,研究价值有限。
丹尼尔:这些构造的研究价值,主要在于它们是由自动化系统完成的。但我们可以想象,未来的迭代版本,能做出本身就具备重要独立研究价值的构造。
格雷格:最后一个我真正关心的问题:人工智能的这种能力,不仅能迁移到数学的其他领域,还能迁移到其他科学领域、研发领域吗?如果未来人工智能能持续解决有价值的数学问题,而且并非依靠AlphaProof(阿尔法证明器)这类高度专业化的方法,这会对其他科学研究、人工智能自身的研发,带来什么影响?
丹尼尔:我的看法是,目前人工智能无法自主开展高质量数学研究的核心障碍,和它无法完成任何有经济价值的工作的障碍,是一致的:有时候需要创新能力,需要适应新的方法,需要学习新的知识,需要为一项工作投入大量的时间,而这些,都是目前的人工智能系统难以做到的。
我认为,如果这些障碍被攻克,模型会成为非常优秀的数学研究者,而攻克这些障碍,也是模型具备高水平数学研究能力的必要条件。
格雷格:有一个问题:是否存在一种特殊的要素,让数学研究的难度独树一帜,以至于数学成为人工智能迈向具有社会变革意义的通用智能过程中,最后被攻克的领域之一?
丹尼尔:我认为这种可能性非常小。我们很难说清,开展高质量的数学研究,究竟需要哪些能力,这本身就是一个需要内省的问题。但有证据表明,它需要创新能力,需要长期投入的毅力。
当然,也有可能事实并非如此,如果是这样,那么数学领域的发展,可能会领先于其他领域。但我认为,数学研究并不存在什么特殊的 “独门要素”,我的研究工作,和其他人的工作,本质上并没有太大区别。当然,我会花更多的时间躺在沙发上,盯着墙,单纯地思考问题,但这些工作所需的核心能力,和其他任何有经济价值的工作,其实都是相通的。
十四、人工智能即将推动数学研究加速发展吗?
[02:06:53]
格雷格:还有哪些问题,是我们应该问但还没问的?
丹尼尔:我想再多说一点:这一切的核心,其实是开展不同数学研究活动的边际成本。我认为人工智能会带来重大影响的领域,是让 “尝试解决一个问题” 的边际成本变得极低。
很多猜想的研究,都存在这样的情况:你其实应该写一个计算机程序,做一些计算验证,但你只是懒得做。解决这类猜想,并不需要能力多强的人工智能系统,而我们已经看到,很多这类猜想正在被人工智能解决。我认为这是一件意义重大的事。
格雷格:这会让数学研究的发展速度,提升多少?
丹尼尔:我并不认为这会带来多大的 “加速”,数学研究本身存在一种 “成本”—— 你必须动手尝试,而降低这种成本,本身就有重要意义,即便研究的核心瓶颈并不在此。
数学研究的核心障碍,始终是:你需要有一个好的想法。大多数人一年也就只有几个好想法,我目前还不清楚,人工智能能在多大程度上帮助人类产生好想法。但有时候,研究并不需要好想法,只需要坐下来,硬算完成即可。而判断一个问题是否需要好想法,本身就是一种非常重要的能力。
即便人工智能的能力不再提升,数学研究中的很多摩擦和阻碍,也会逐渐消失,而这,也是我认为人工智能会带来最多进展的领域。
格雷格:也就是说,你认为人工智能目前给数学研究带来的影响,并非让研究速度出现突破性的提升,而是消除了研究中的诸多阻碍,这是你理解人工智能对数学研究当下价值的核心视角。
丹尼尔:说到 “加速发展”,我非常希望能找到一种方法,将这个概念量化,真正去评估:我们是否真的在经历数学研究的加速发展?人类历史上,是否出现过这样的加速?随着时间的推移,数学家的人均研究产出,是否有所提升?即便有了这么多新工具,这个问题的答案,对我而言依然不明确。该如何量化这个问题?我们可以看引用量,但这是一个非常糟糕的参考指标,而且它还和人口数量高度相关。
格雷格:在我们结束访谈之前,未来几个月,有哪些事是你比较期待的?
丹尼尔:八月份的时候,我还说过,“以人工智能目前的能力,还没有解决很多稍有研究价值的猜想,这一点很奇怪”。而现在,我认为这类猜想的解决,已经开始出现了。
未来一年内,会有更多这样的猜想被解决 —— 这些问题没人真正深入研究过,只是研究者随手写下的问题,但依然有一定的研究价值,而人工智能会自主解决它们。我认为这种情况的可能性非常大。
格雷格:未来我们肯定会有很多机会,推出紧急播客来解读这些成果。大家可以关注丹尼尔的推特,这里绝对是了解人工智能与数学研究相关资讯的优质平台。非常感谢你接受我们的访谈。
丹尼尔:也非常感谢你们的邀请,能参加这次访谈,我很开心。
格雷格:非常愉快的交流。
原文参考资料:
欧拉幂和猜想:
兰德与帕金(Lander & Parkin,1966 年,首个反例)https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf
埃尔基斯(Elkies,1988 年,四次幂情形)https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf
埃斯诺尔特与格罗申尼希(Esnault & Groechenig,相伴理论与朗兰兹纲领)https://arxiv.org/abs/1707.00752
德利涅(Deligne)对韦伊猜想的证明(1974 年)http://www.numdam.org/item/PMIHES_1974__43__273_0/
泽塔ζ函数值的无理性:
阿佩里(Apéry)的证明(1978-1979 年)http://www.numdam.org/item/AST_1979__61__11_0/
范德普滕(Van der Poorten)的阐释https://doi.org/10.1007/BF03028234
扎吉尔(Zagier)的计算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf
卡莱加里 - 季米特洛夫 - 唐云清(Calegari-Dimitrov-Tang)的近期进展https://arxiv.org/abs/2408.15403
数论中的随机模型:
梅兰妮・马切特・伍德(Melanie Matchett Wood)关于随机矩阵的研究https://doi.org/10.1353/ajm.2019.0008
科恩 - 伦斯特拉(Cohen-Lenstra)启发式https://doi.org/10.1007/BFb0099440
提及的千禧年大奖难题:
黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/
霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/
贝赫和斯维讷通 - 戴尔(BSD)猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/
纳维 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/
前沿数学:开放式问题基准测试 https://epoch.ai/frontiermath/open-problems
参考资料
https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time
小乐数学科普近期文章
·开放 · 友好 · 多元 · 普适 · 守拙·![]()
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
右上角
置顶加星★
数学科普不迷路!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.