网易首页 > 网易号 > 正文 申请入驻

专访数学家Daniel Litt(丹尼尔・利特):AI人工智能的数学能力或长期处于不均衡发展状态(下)

0
分享至

置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!


接上篇:

访谈背景简介:

丹尼尔・利特(Daniel Litt)是多伦多大学数学系教授。他一直密切关注人工智能在推动数学发现领域的发展进程,对此态度时而审慎怀疑,时而满怀期待。

本期Epoch.ai与其探讨的话题包括:当下的模型能解决的最难数学问题究竟是什么;是否有确凿证据表明人工智能正推动数学研究提速;以及人工智能能否攻克千禧年大奖难题。

他们还探讨如何评估数学研究的进展,其中包括Epoch.ai全新推出的「FrontierMath前沿数学:开放式问题」基准测试 —— 该测试以数学领域具有研究价值的未解问题为依据,对人工智能模型的能力进行评估。

详情参阅:

访谈人简介:


丹尼尔·利特(Daniel Litt是多伦多大学数学助理教授。他获得斯坦福大学博士学位,研究重点是代数几何与数论之间的相互作用。


格雷格・伯纳姆(Greg Burnham是 Epoch AI 的研究员。在此之前,他曾在Elemental Cognition和Bridgewater Associates工作。他拥有普林斯顿大学数学学士学位。


安森(Anson Ho是 Epoch AI 的研究员。他致力于帮助对人工智能未来发展及其社会影响进行更严谨的理解。

时间节点目录:

(采访时间和内容较长,分成十四小节,上下两篇。本篇为下篇,涉及后七小节)

00:00:00 一、如今人工智能能解决的最难数学问题是什么?

00:16:08 二、当下的人工智能模型对数学研究的助力有多大?

00:23:36 三、垃圾论文、大语言模型生成的证明与审稿危机

00:27:21 四、人工智能实现数学问题的大规模筛选

00:33:49 五、人工智能何时能发展到足以在顶级数学期刊发表成果的水平?

00:42:15 六、智能的价值回报体现在何处?

00:59:50 七、人工智能能否攻克千禧年大奖难题?

01:11:54 八、数学领域还存在大量易解的「低垂果实」吗?

01:18:47 九、丹尼尔如何调整职业发展,以适应人工智能的发展进程?

01:25:28 十、人工智能数学基准测试,实际在评估什么能力?

01:33:05 十一、开放式问题基准测试的设计思路

01:56:35 十二、数学家会相信关于数学猜想的启发式论证吗?

02:01:24 十三、若人工智能攻克「FrontierMath前沿数学:开放式问题」基准测试,会带来什么影响?

02:06:53 十四、人工智能是否即将推动数学研究迈入加速发展阶段?

作者:epoch.ai 2026-1-29

译者:zzllrr小乐(数学科普公众号)2026-1-31

访谈实录(下):

八、数学领域还有很多容易解决的问题吗?

[01:11:54]

安森:你在推特上提到过,解决一个数学问题的含金量,取决于前人在这个问题上付出了多少努力。我们是否有可能梳理这些问题,量化一下前人的付出?

丹尼尔:可以去看提出这些问题的论文,以及这篇论文的引用量。不过对于那些已经被解决的问题,我其实并不清楚具体数据。比如第 124 号难题的高难度版本目前仍未解决,提出这个问题的论文只有 14 次引用。对于一篇 1996 年的数学论文来说,这个引用量并不算高。

格雷格:但 14 次引用也并非毫无意义。

丹尼尔:1996 年发表的数学论文里,有很多引用量为零。而且这 14 次引用,大概率并非都是针对这个难题本身 —— 这篇论文里提出了很多问题。

格雷格:你知道有多少人在研究p曲率猜想(p-curvature conjecture)吗?

丹尼尔:非常少。这也是我一直想要攻克的难题,我为它投入了大量精力。目前还在积极研究这个猜想的人,我估计我都认识,人数应该不到 20 个。从历史来看,80 年代、90 年代和 21 世纪初,这个领域的研究热度更高,后来研究者们陷入了瓶颈,热度也就降了下来。或许现在相关领域出现了一些新的思路。

任何一个连专业术语都没多少人理解的问题,关注者自然会很少。目前能完全理解 p 曲率猜想所有术语的人,可能也就几千个。

格雷格:是否存在一种选择效应,让一些问题变成了 “研究者觉得研究它很没面子” 的问题?

丹尼尔:比如考拉兹猜想(3n+1猜想),它还很容易吸引一些非专业的业余研究者。很多问题,专家的看法都是 “我们目前还没有合适的方法解决它”,这就难免会让人产生一种 “你凭什么觉得自己能解决” 的质疑。(详情参阅 )

对于那些著名的重大难题,是否有很多研究者在悄悄尝试,只是没有公布成果?或许每个人都会偶尔思考这些著名难题,包括那些在相关领域发表过论文的知名学者。但 “尝试解决一个问题” 到底意味着什么?很多时候,人们只是想着 “要是能解决这个问题就好了”,然后就没有任何实际行动了。

格雷格:当你觉得 “或许我有一个值得一试的想法” 时,是什么感受?

丹尼尔:有时候会在半夜醒来,突然想到一个绝妙的主意。我思考问题的方式主要有两种:要么从一个想法出发,慢慢推演;要么先掌握一种通过其他途径想到的新方法,再思考 “这个方法能解决哪些问题”,从中挖掘价值,这是一种机会主义的研究思路。

有时候我也会定下明确的目标,比如解决某个问题、证明某个猜想 —— 更准确地说,是先尝试理解某个数学对象,再通过证明一个有意义的结论,来检验自己的理解程度。我会找一个最简单的例子,一个用现有方法无法解决的例子,先尝试攻克它,在这个过程中开发新的方法,再看看这种新方法能走多远。

格雷格:从数据分析的角度来看,如果把引用量作为评估指标,是否需要进行一些非线性的修正?

丹尼尔:引用量的参考价值可能被高估了 —— 有很多论文引用了黎曼猜想的相关研究,但其实并没有为解决黎曼猜想做出任何实质性的贡献。

格雷格:那这样一来,引用量这个指标就没什么意义了。

丹尼尔:我认为用这种方式评估数学问题的难度,其实非常不靠谱。

安森:还存在垃圾论文的问题。

丹尼尔:还有大量论文声称证明了黎曼猜想,这显然让相关研究的评估变得更难。计算机科学领域也有很多论文引用了 P 与 NP 问题的相关内容,但它们真的推动了这个问题的解决吗?

九、丹尼尔如何适应人工智能发展,调整自己的职业发展规划

[01:18:47]

格雷格:在我们深入聊评估方法之前,想问一下,为了在人工智能时代站稳脚跟、谋求发展,你已经做出了哪些调整,或者有哪些规划?

丹尼尔:我正在做一些事,因为我预判人工智能的能力会不断提升。目前有很多研究者在做数学形式化的工作,比如用Lean或其他证明验证软件将数学内容形式化,但我并没有参与这项工作,因为我预计未来几年,能让人凭直觉完成形式化的工具会有大幅改进。

格雷格:凭直觉完成形式化 —— 我再跟你确认一下这个概念。

丹尼尔:当然,也有一部分原因是我并非这个领域的专家,我只是简单尝试过。而且我并不打算因为预判人工智能能力会提升,就改变自己研究的问题方向,或是使用的研究方法。

究其根本,我认为自己的工作核心不是证明定理,而是理解数学对象。证明定理,只是检验理解程度的一个标准。很多定理或猜想,都是研究的 “终点” 而非 “源头”—— 也就是说,如果你能开发出一种方法证明这个定理,说明你已经理解了相关的数学内容,但研究的真正价值,在于这份理解本身。

这或许也能解释,为什么训练人工智能开展高质量数学研究如此困难:我们发表的论文,大多没能传达出数学研究的真正价值 —— 研究的核心,是让人类对某个学科的理解更进一步。

格雷格:你脑海中形成这份理解时的那些想法,并不会出现在论文里。

丹尼尔:研究者会努力把自己的直觉写进论文,但这向来是个难题。如果我能直接告诉学生 “你应该这样理解这个数学对象”—— 我确实会这么说,但这并不能传递任何有价值的信息。这只是给了他们一个线索,需要他们自己去研究这个数学对象,才能慢慢领悟,而这份直觉本身,无法直接传递。除了一些高度凝练的表述或隐晦的提示,论文的文字里根本没有这份直觉的痕迹。

格雷格:我能想象到这种情况:你发表了一篇论文,标题是 “某猜想的证明”,但你构建相关理论的过程曲折得多,而论文里根本没有留下多少能让人工智能学习的线索。

丹尼尔:很多研究都是这样的:证明一个结论时,你通常会有一个非常清晰的核心思路,之后会遇到各种各样的障碍,可能是因为你不理解证明过程中的某个中间对象。你会想办法绕开这些障碍,最终写出来的论证过程看起来会非常晦涩。当然,你会试图在论文里提示 “这才是我真正的研究思路”,但这种提示的效果往往不尽如人意。

那这和人工智能对我个人规划的影响有什么关系呢?人工智能无法替我理解数学对象。正因为直觉的传递如此困难,即便有一个模型在各方面能力都超过我,它可能也只能在很小的程度上帮助我理解这些数学对象,甚至可能毫无帮助。

格雷格:也就是说,核心的研究工作,终究还是要靠自己。

丹尼尔:我看到你在推特上引用了一位哲学家的话,说数学家的社会角色,是成为数学理解的 “载体”。我特别喜欢这个说法 —— 太贴切了。我很好奇,你是否会为这种角色感到困扰?如果未来人工智能能比人类更快地解决任何数学问题,彻底主导人类的数学研究,你会感到困扰吗?你还会继续研究数学吗?

丹尼尔:做数学研究的一大乐趣,就是证明一个结论时的那种成就感。这种成就感,未必只有解决未解难题才能获得。或许会少了一些虚荣心的满足,但这份核心的情感体验依然存在。

对我而言,研究数学的真正目标,是理解这个世界。如果未来社会的需求,正如佩利所说,是让数学家成为人类数学理解的 “载体”,让我们通过研讨会,向大家解读人工智能证明的最新重大成果,只要社会愿意支持这项工作,我会非常乐意。

格雷格:就像在后稀缺的乌托邦社会(post-scarcity utopia)里,这种工作依然有价值。

丹尼尔:当然。而且我认为,我们离那个时代还很远。

格雷格:但只要我们还是现在的自己,就依然会想要做这份工作。

丹尼尔:这里存在一个社会问题:如果人工智能模型在数学研究的所有领域都比人类更有优势,或者公众认为它们更有优势 —— 我认为后者的可能性更大 —— 社会还会愿意支持数学家的研究工作吗?这是一个悬而未决的问题,但我希望答案是肯定的。

格雷格:目前来看,公众普遍认为数学研究大多最终会产生实际价值。

丹尼尔:数学之所以能产生实际价值,一个重要原因是有人类专家的存在,以及数学研究培养出的人力资本。即便是研究最抽象、最纯粹数学的人,他们作为数学理解的 “载体”,本身就具有价值。无论未来的人工智能模型能力多强、创新能力多高,让人类成为数学理解的载体依然有价值,即便在数学研究领域,人工智能已经完全超越了人类。

十、人工智能数学基准测试,究竟在评估什么?

[01:25:28]

格雷格:我们想继续完善数学基准测试的体系,尤其是 “前沿数学” 基准测试。但目前来看,这个测试的评估维度,并没有涵盖所有重要的能力。你认为其中最核心的缺失是什么?

丹尼尔:我先说说我对基准测试评估内容的理解。这类测试试图评估的能力包括:是否理解专业术语的含义?是否掌握已有的研究成果?是否熟悉现有的研究方法?能否应用这些方法?还有一定的推理能力和创新能力?

但在我看来,这些基准测试最终主要评估的,还是知识储备。人类解决问题时,知识储备通常是有限的,所以我们会怎么做?可能先有一个思路,研究一段时间后,发现 “需要把这个结论或结果作为中间步骤”,然后再尝试证明这个中间结论,或者去查阅相关资料。

证明中间结论的过程,甚至发现 “存在这样一个可利用的中间结论” 的过程,都是高度依赖推理的。但如果一个模型已经记住了所有的数学文献,它早就知道这个中间结论的存在,要意识到这个结论能用来证明目标问题,就几乎不需要任何推理了。

当你向一个熟记所有文献的模型提问时,你其实并没有测试到那种 “知识储备有限的人类解决问题时所展现的核心推理能力”。人类需要自己发现的那些已有结论,模型早就知道了。

对人类而言,很多能测试出推理能力、并与数学专业能力和研究成就高度相关的问题,对模型而言,已经无法反映其真正的推理能力了。任何一个人类,如果能在 “前沿数学FrontierMath” 基准测试中取得和模型一样的成绩,大概率会成为一名非常成功的研究者,但模型并没有展现出相应的研究能力。这就是原因所在 —— 同一个问题,对人类和对模型,测试的是完全不同的能力。

格雷格:补充一个你可能不知道的信息:我们深入研究了Gemini 2.5 (谷歌双子座AI工具)深度思考模型的数学能力,还让它手动完成了 “前沿数学” 基准测试。测试中的所有问题都有三个评分维度:背景知识、执行难度、创新要求。执行难度主要看解题过程的长度,以及需要完成的繁琐计算量;背景知识看解题所需的知识是否高深、晦涩;而创新要求 —— 我本以为这是三个维度中,与我们所说的推理能力最相关的一个。但结果显示,Gemini 模型的得分与背景知识、执行难度维度呈负相关,而与创新要求维度完全无关。

丹尼尔:这很有意思。

格雷格:这恰好印证了你所说的现象。即便我们试图让 “前沿数学” 基准测试覆盖创新能力这个维度,但模型解决问题的过程,似乎并没有体现出对这个维度的感知,也不会因为问题的创新要求高而觉得更难。

丹尼尔:其他模型也呈现出同样的规律吗?Google Gemini(双子座)模型似乎很少使用合成数据,这可能导致它对一些偏门的专业领域了解较少。

格雷格:GPT-5 等其他模型也是如此。没错,它们确实缺失了创新能力这一核心维度。

丹尼尔:还有一个问题:人们试图设计一道难题时,实际上,出题者本身都很忙,他们设计的题目,往往是自己已经知道解法的。而一道任何人都知道解法的题,显然可以用现有的方法解决。

或许出题者会想出一种新方法来解题,只是还没写进论文。但这种方法究竟是真正的创新,还是只是对出题者而言的新方法,就不得而知了。最终这篇论文发表,新方法进入训练数据,这个问题也就无法再用来测试模型开发新方法的能力了。

有时候,解决一道难题的关键,只是需要在一篇论文里找到一个公式,代入数值计算,而理解这篇论文的专业术语,需要大量的背景知识。但模型的背景知识储备量极大,它们能直接读取 PDF 文献,然后代入数值计算。

格雷格:有时候,这类测试最终变成了测试 “模型能否读懂 PDF 文献”。

丹尼尔:没错。我的看法是,如果一个基准测试的难度,仅限于人类几小时内能解决的问题,那它很快就会被模型吃透。人类几小时能完成的工作,其实非常有限。

格雷格:参与我们 “前沿数学” 四级测试命题的一位研究者说,他对自己出的题特别满意,因为这道题是他被 “绊住” 后花了两周时间研究出来的。他没有直接用自己会解的题,而是给自己定了一个目标 ——“用这些方法设计一道题”,然后不断探索,最终才有了这道题。

丹尼尔:出题者投入的时间越长,题目质量大概率也会越高。但这里还有一个陷阱:如果一个人刻意想设计一道难题,最终设计出的,往往是对他自己而言的难题。比如他会在自己不擅长的领域出题。

格雷格:然后就会觉得所有内容都是新的、有趣的、难的。

丹尼尔:但对这个领域的专家而言,这道题可能很简单。设计一道难题,却不验证它的实际难度,最终做出的基准测试,很容易就会被模型吃透。

十一、开放式问题基准测试的设计思路

[01:33:05]

格雷格:接下来聊聊我们正在设计的 “开放式问题” 基准测试 —— 目前还只是暂定名。这个测试的核心目标,是选取目前人类还无法解决的数学开放式问题。同时我们还受限于 “自动验证” 的要求:即便目前人类不知道答案,一旦人工智能给出一个答案,我们需要能用程序验证这个答案是否正确。设计这个测试,也是为了避开 “无法评估问题实际难度” 的痛点。

丹尼尔:很多开放式问题的研究,都受限于 “关注者过少”,所以这些问题的实际难度,可能并没有看起来那么高。一个有效的办法,是让数学家来评估 “这道题是否难”,这样能避免后续随意抬高评价门槛。

我很认可这个项目的一点是:目前很多人工智能实验室都投入大量资源解决某个数学问题,只是为了对外宣称 “我们解决了这个问题”。如果这些资源能被投入到人们真正关心的问题上,会是一件好事。有些实验室在做真正的科学研究,但有些实验室的主要工作,其实只是公关。

格雷格:这个测试也能让我们对一系列问题进行 “预先登记”。当某个实验室宣称 “我们的模型解决了这个问题” 时,我们就能知道,这个成果的筛选有多刻意。

丹尼尔:开放人工智能曾发表过一篇论文,他们梳理了一些学术会议的论文,从中挑选问题研究,我记得他们选了十个问题,最终解决了一个。这个数据能让我们窥见一斑。我认为这篇论文,并不能证明人工智能的数学能力在加速提升。而且和所有这类研究成果一样,背后都存在各种复杂的影响因素。

格雷格:没错。如果我们能让数学家来评估 “这个问题是否有研究价值”,该如何量化这种评估?我们该用什么样的标准?

丹尼尔:或许可以让数学家给出评级,比如 “有价值”、“非常有价值”、“极具价值”,也可以让他们分析这个问题的研究意义。有时候,一个问题有研究价值,是因为它是研究的 “源头”—— 解决它能推导出很多有意义的结论。我理解这个基准测试,主要是寻找能被验证的构造性问题。

格雷格:我们并非只关注构造性问题,但受限于 “自动验证” 的要求,选取的问题通常都是 “构造一个数学对象” 这类问题。

丹尼尔:有些构造性问题的研究,确实能产生实质性的研究成果;但有些构造性问题,只是检验理解程度的 “基准”。比如欧拉幂和猜想,因为暴力搜索的方法行不通,解决这个问题的过程,就是检验研究者理解程度的过程。要解决它,你必须想出一种巧妙的搜索方法,而这也意味着你已经理解了相关的搜索空间。

格雷格:这些作为 “理解基准” 的构造性问题,目前人类都无法解决,用它们来评估人工智能的理解能力,是否公平?

丹尼尔:这取决于问题本身。有些问题的研究,只是受限于关注者过少。很多研究者寻找的数学构造,目前的研究水平还停留在 “有人在周末用笔记本电脑做了一次简单的搜索”。如果人工智能能找到一种更好的构造方法,只能说明它做了一次尝试,而人类之前从未尝试过。这种成果显然有价值,但我们很难判断,这能反映出人工智能的什么能力。

但也有一些问题,比如 M₂₃ 单群的逆问题,我认为如果能像曼哈顿计划一样集中资源研究,肯定能解决,它绝对在人类的能力范围内,而且也确实有很多研究者尝试过。

格雷格:我们是否应该将 “研究价值” 和 “难度” 作为两个独立的评估维度?

丹尼尔:这绝对是两个不同的维度,只是二者存在相关性,因为人们会更愿意研究有价值的问题,而那些有价值却仍未被解决的问题,往往难度都很高。

格雷格:我们之前聊过抬高评价门槛的问题。有些情况是,你原本以为某个问题不会用一种平庸的方法解决,但看到人工智能的解法后发现,其中毫无新想法,完全就是硬算出来的。它确实证明了结论,但这个成果,对预测人工智能的能力发展,似乎毫无参考价值。我们该如何提前规避这种情况?

丹尼尔:我想说明的是,如果人工智能解决的是一个并非因 “关注者过少” 而未解的开放式问题,即便证明过程只是硬算,这也依然有价值,我们不能说 “这个成果毫无意义”。硬算的能力,对数学家而言,本身就是一种重要的技能。

格雷格:如果有能力的话,数学家自己也会这么做。

丹尼尔:四色定理的证明,难道就没人认可吗?确实有人质疑,但我认为这些质疑是错误的。

数学研究中,抬高评价门槛的现象由来已久。18、19 世纪的很多伟大数学家,都是计算高手,而他们当时做的很多计算工作,现在一个八年级的学生用图形计算器就能完成。我们本就是工具的使用者,使用工具解决问题,无可厚非。

格雷格:用各种方法做有价值的数学研究,本就是公平的。但从能力预测的角度来看,如果我们发现,人工智能解决某个问题的方法,和AlphaProof(阿尔法证明器)解决 2024 年国际数学奥林匹克竞赛第六题的方法如出一辙 —— 都是平庸的硬算,这会让人感到震惊。

丹尼尔:有时候,一个问题在被解决之前,你永远不知道它其实很简单,人类数学家也会遇到这种情况。去年,我和艾伦・兰德斯曼(Aaron Landesman)解决了一个悬置了 40 年的开放式问题,但我们没有把成果发表在《数学年刊》上,因为事后看来,这个解法并没有什么研究价值。这种情况很常见。

或许我们可以这样做:建立一套明确的标准,判断一个成果是否包含真正的新想法,也就是一套事后评估准则。我们甚至可以等五年,看看有多少新的研究成果,是基于这个成果中的想法得出的。

有限域上的相关猜想,其证明引入了多项式方法,而这个方法后来产生了巨大的影响,这篇论文也发表在了《数学年刊》上,从后续的研究成果来看,这个发表决定是完全合理的。但如果只是用硬算的方法解决了国际数学奥林匹克竞赛的第六题,这个解法显然无法衍生出任何新的研究成果。

格雷格:我们一直在思考一种难度评估方法:统计有多少数学家为这个问题付出了努力,付出了多长时间,还可以考虑研究者的资历。如果有 1 到 2 位青年数学家尝试解决这个问题但失败了,那么人工智能解决了它,对我们而言,算是多大的突破?

丹尼尔:目前还不清楚,数学领域究竟还有多少容易解决的问题,有可能数量非常多。人工智能目前还没有开始解决有价值的开放式问题,这或许能从侧面说明,这类问题的数量并不多。但所有问题的研究,都受限于关注者过少。如果真的有大量容易解决的问题,那么人工智能的出现,会带来数学研究的巨大突破,基准测试也会变得很简单 —— 随便拿一个开放式问题给它,最终都能被解决。

另一方面,也有一些侧面证据表明,并非所有问题的研究都受限于关注者过少,数学领域的 “低垂果实” 其实并不多。当研究者真正投入精力研究一个问题时,要么能解决它,要么会发现它确实很难。

格雷格:你为什么会有这样的感受?

丹尼尔:那些著名的未解猜想,证明过程却非常简短的,这样的例子其实寥寥无几。如果数学领域真的有大量容易解决却未被解决的问题,我们应该会经常看到研究者发现并解决这类问题的案例。这种情况确实存在,但非常罕见。

通常来说,一个重要猜想的解决,并非只引入一个简单的新想法,而是会引入多个新想法,或者依赖于该领域的诸多其他研究进展。你能从证明过程中,清晰地看到解决这个问题所需的各项突破。

当然,我们并非总能提前看到这些突破。有时候,你能证明一个结论,只是因为你需要的最后一个中间结论,刚被其他人证明,恰好能用上;有时候,这个中间结论已经发表在文献中二十年了,只是你才发现。

我们每个人都有过这样的经历:看到一篇新发表的论文,会想 “哦,我早就知道这个核心想法了,要是我当时能意识到它能解决这个问题就好了”。我最喜欢的一篇论文就是如此,它的核心想法,来自我几年前在数学问答网站MathOverflow上提的一个问题的回答,我当时看到这个回答时,肠子都悔青了。

格雷格:对于这个开放式问题基准测试,我们被一个硬性、恼人且不自然的条件束缚着 —— 自动验证,我们需要用计算机程序来判断答案是否正确。这个条件的影响有多大?

丹尼尔:理论上,这并不是一个限制。任何数学构造,排除不完备性的问题,都可以附上一个能被验证的证明过程。但在实际操作中,这确实是一个实实在在的限制,因为我们的资源有限,无法让研究者为所有问题编写验证程序。

格雷格:我们目前只能选取 “普通的计算机程序就能验证答案” 的问题。

丹尼尔:所以第一个限制就是,很多数学领域和有价值的问题,都不属于这类可被程序验证的问题。比如代数几何的很多领域,就没有这类问题,数论的一些领域也是如此,不过计算数论领域有很多漂亮的可验证问题。

这个条件带来的核心限制,其实是对问题研究价值的筛选。有些问题,比如反伽罗瓦问题,既需要构造可验证的数学对象,也有很高的研究价值,但这类问题非常少见。大多数情况下,研究者需要构造的是一系列无限的数学对象,而这类构造的验证难度要大得多。

格雷格:我发现有一类问题很适合这个测试 —— 零知识证明相关问题。比如需要构造一个无限序列,我们不需要验证整个序列,只需要验证第 297 项即可。

丹尼尔:这是一个非常好的思路,但很快就会遇到实际问题,除非验证的速度能极快。通常来说,我们最多也就验证前五项。即便是反伽罗瓦问题,我们可以提出验证要求,但大概率验证到前 3 到 4 项之后,就不具备实操性了。

所以这个条件带来的限制是非常大的。我们希望这个基准测试中,构造数学对象的能力,能成为人工智能理解能力或巧妙搜索能力的一个参考指标,但往往很难判断这一点。有时候,我们有证据表明人类研究者尝试过但失败了,所以能确定,人类目前缺失了某种能力;但有时候,人类研究者已经用一些巧妙的思路解决了类似的问题,而这个问题却毫无进展。

格雷格:确实有一些问题,每一次新的构造,都需要一个漂亮的新想法。如果人工智能能给出一个新的构造,我们会希望背后也有一个漂亮的新想法支撑。

我之前给你发过一份问题清单,我们的目标是让清单中的问题覆盖不同的难度等级。在难度较低的一端,我们担心的是,出题的博士后当时可能状态不好,出的题在某些方面,难度甚至不如国际数学奥林匹克竞赛的第一题。不过我们可以用统计学的方法规避这个问题。我也很好奇难度较高的一端 —— 数学领域最有价值、最难的问题,往往抽象性也更高。

丹尼尔:这可能涉及到莫拉维克(Moravec)悖论:数学问题的难度,一方面在于需要高强度的推理,另一方面在于需要掌握大量的专业术语,在脑海中构建一套庞大的理论体系。

代数几何素来以难度高著称,这很可能只是因为人类本身并不擅长这个领域,而且从事该领域研究的人类研究者本就很少。

格雷格:没错,还是关注者过少的问题。对于我发给你的那份问题清单,你有没有直观的感受,哪些问题 “难度高得多,也更有研究价值”?

丹尼尔:有几个问题给我的印象很深。比如 M₂₃单群的逆问题,我可以明确说,如果这个问题被解决,我会非常兴奋。我认为集中资源研究的话,人类能解决这个问题,而它的解决,也会是一件大事。无论是人类还是人工智能解决了它,我都会无比兴奋。

还有一些关于无理性的问题。70 年代末,阿佩里(Apéry)证明了黎曼泽塔zeta函数ζ(3)是无理数,也就是所有正整数的立方的倒数和是无理数,这个证明堪称神奇。他在一次会议上公布了这个证明,当时所有人都不敢相信,直到大家回去验证后,才惊叹于证明的精妙。后来研究者们发现,这个证明与深奥的 G-函数理论相关。

而相关的开放式问题是,寻找一系列整数或幂级数,让阿佩里的方法能应用于其他有意义的常数。扎吉尔(Zagier)是一位非常资深的数学家,他做了大量的计算,试图找到类似的序列,取得了一些小成果,找到了 6 到 7 个例子。

格雷格:这些例子,都不是你之前认为最有研究价值的那些常数吧?

丹尼尔:近期,卡莱加里(Calegari)、季米特洛夫(Dimitrov)和唐云清在这个领域取得了新的进展。他们没有寻找新的序列,而是想出了新的方法,对阿佩里的通用方法进行了漂亮的改进,让这个方法能应用于更广泛的序列。我可以明确说,这个问题的难度很高,有很多研究者都为它付出了努力。

十二、数学家会相信关于猜想的启发式论证吗?

[01:56:35]

格雷格:我们面临的另一个挑战是,希望选取的问题都是有解的。

丹尼尔:你们想要选取的是有确定答案的问题,也就是正确的猜想。但要判断一个猜想是否正确,本身就非常难,更不用说证明它了。

格雷格:如果一个熟悉某领域的数学家告诉我们,他有 80% 的把握,这个问题会朝某个方向解决,只是他自己无法构造出相关的数学对象,你会有多相信他的判断?

丹尼尔:比随机猜测的准确率高一点,但高不了多少。数学家的观点总是在变化。比如你清单中的一个问题:寻找秩至少为 30 的椭圆曲线。长期以来,这个领域的所有人都认为,椭圆曲线的秩是无界的,但现在,大部分研究者认为,椭圆曲线的秩是有界的。

格雷格:真的吗?

丹尼尔:近期有不少启发式的研究支持这个观点,不过也有一些研究者对此表示怀疑。人们对猜想正确性的判断一直在变,比如霍奇猜想,大部分代数几何学家认为它是正确的,但也有很多人持反对意见。

格雷格:有些情况下,研究者已经证明了某种数学构造是存在的,但就是无法具体构造出来。

丹尼尔:我其实很喜欢这类问题。比如用概率方法得出的拉姆齐数(Ramsey numbers)的界,研究者已经证明了这个界的存在,而相关的开放式问题,就是寻找具体的构造。我目前正在研究的一个问题,也属于这类:塞尔(Serre)提出,需要为一些用非构造性方法证明存在的数学对象,找到具体的构造,而我正在做这项工作。构造性的证明和非构造性的证明,有着天壤之别,构造性的证明能让你获得更多的洞见。

安森:有哪些经典的启发式论证,或是这类论证的典型例子,能让研究者在没有完整证明的情况下,改变对猜想的判断?

丹尼尔:数论领域,用随机模型研究数论对象的做法,由来已久。比如,我们可以认为素数的分布,类似于满足某些性质的随机整数集合,然后构造一个满足这些性质的随机序列,研究这个序列几乎必然具备的性质,进而猜测素数也具备这些性质。

研究椭圆曲线时,我们也会先梳理出它的所有性质,构造一个满足这些性质的随机模型,再猜测椭圆曲线的性质。一个最基础的例子:某个几何或数论问题中,出现了一个 n 阶方阵,我们可以假设这个方阵的行为,和一个随机的 n 阶方阵一致。

梅兰妮・马切特・伍德(Melanie Matchett Wood)和她的合作者做了一项漂亮的研究,他们研究了整数随机矩阵,并基于此对椭圆曲线及相关数论对象做出了预测。这项研究背后有定理支撑 —— 该定理指出,满足 x、y、z 性质的随机对象,会具备某类特定性质。

一个经典的例子是数域的类群,我们假设它的行为,和按照某种分布生成的随机交换群一致,进而猜测,如果按照某种自然的顺序罗列数域,那么满足 X、Y、Z 性质的数域的比例,和满足这些性质的随机交换群的比例一致。这就是科恩 - 伦斯特拉(Cohen-Lenstra)启发式,它也是目前数论和算术统计领域的重要研究动力。

十三:如果人工智能攻克了 “Frontier Math前沿数学:开放式问题” 基准测试会怎样?

[2:01:24]

格雷格:如果人工智能彻底碾压了这个基准测试,解决了我们讨论的这类问题,那我们所处的世界,会变成什么样?

丹尼尔:我会感到无比兴奋。可以想见,人工智能找到这些数学构造的方法,至少在很大程度上,会是有研究价值的。

有一个值得思考的问题:人工智能解决这类构造性问题的能力,与它的其他能力之间,存在怎样的相关性?构造性问题有明确的奖励信号,我们可以针对性地训练模型,让它专注于解决这类问题,但很难说这个奖励信号,是否能让模型的能力迁移到证明类问题上。当然,证明类问题的答案,也是可以被验证的。

格雷格:但或许需要等验证的体系更加完善后,再针对证明类问题训练模型。

丹尼尔:对我而言,关于人工智能数学能力未来发展的一个核心问题,是模型的能力迁移性有多强。如果每发现或发明一个新的数学对象,都需要从头训练一个新的模型,那么人工智能的发展,会和模型能快速掌握新对象并展开研究的情况,截然不同。

甚至可以说,模型在代数几何领域的通用知识和能力,能否迁移到 “代数几何 + 微小拓展” 的领域,都是一个问题。过去十年,数学家提出了十种关于 “空间” 的新定义,而人工智能面临的问题,甚至不只是持续学习 —— 即便模型能学习这些新定义,它是否能像人类一样,具备运用这些定义开展研究的能力,还是一个未知数。

我们现在讨论的,是一个特殊情况:模型非常擅长构造可验证的数学对象。但这种能力,与更广泛的数学研究能力之间的相关性,仍未可知。但可以肯定的是,这种能力的出现,会是一个划时代的突破。

格雷格:至少在数学领域,绝对是划时代的。而对于人工智能的整体能力而言,这取决于模型的能力迁移性如何。它的能力可能非常狭窄,就像我们通过不断优化,让人工智能在棋牌游戏中取胜一样。

丹尼尔:目前,AlphaEvolve(阿尔法进化)已经能做出一些数学构造了,虽然它还无法完成有价值的证明,但已经能做出有意义的构造。

格雷格:你在推特上明确表示过,AlphaEvolve做出的构造,研究价值有限。

丹尼尔:这些构造的研究价值,主要在于它们是由自动化系统完成的。但我们可以想象,未来的迭代版本,能做出本身就具备重要独立研究价值的构造。

格雷格:最后一个我真正关心的问题:人工智能的这种能力,不仅能迁移到数学的其他领域,还能迁移到其他科学领域、研发领域吗?如果未来人工智能能持续解决有价值的数学问题,而且并非依靠AlphaProof(阿尔法证明器)这类高度专业化的方法,这会对其他科学研究、人工智能自身的研发,带来什么影响?

丹尼尔:我的看法是,目前人工智能无法自主开展高质量数学研究的核心障碍,和它无法完成任何有经济价值的工作的障碍,是一致的:有时候需要创新能力,需要适应新的方法,需要学习新的知识,需要为一项工作投入大量的时间,而这些,都是目前的人工智能系统难以做到的。

我认为,如果这些障碍被攻克,模型会成为非常优秀的数学研究者,而攻克这些障碍,也是模型具备高水平数学研究能力的必要条件。

格雷格:有一个问题:是否存在一种特殊的要素,让数学研究的难度独树一帜,以至于数学成为人工智能迈向具有社会变革意义的通用智能过程中,最后被攻克的领域之一?

丹尼尔:我认为这种可能性非常小。我们很难说清,开展高质量的数学研究,究竟需要哪些能力,这本身就是一个需要内省的问题。但有证据表明,它需要创新能力,需要长期投入的毅力。

当然,也有可能事实并非如此,如果是这样,那么数学领域的发展,可能会领先于其他领域。但我认为,数学研究并不存在什么特殊的 “独门要素”,我的研究工作,和其他人的工作,本质上并没有太大区别。当然,我会花更多的时间躺在沙发上,盯着墙,单纯地思考问题,但这些工作所需的核心能力,和其他任何有经济价值的工作,其实都是相通的。

十四、人工智能即将推动数学研究加速发展吗?

[02:06:53]

格雷格:还有哪些问题,是我们应该问但还没问的?

丹尼尔:我想再多说一点:这一切的核心,其实是开展不同数学研究活动的边际成本。我认为人工智能会带来重大影响的领域,是让 “尝试解决一个问题” 的边际成本变得极低。

很多猜想的研究,都存在这样的情况:你其实应该写一个计算机程序,做一些计算验证,但你只是懒得做。解决这类猜想,并不需要能力多强的人工智能系统,而我们已经看到,很多这类猜想正在被人工智能解决。我认为这是一件意义重大的事。

格雷格:这会让数学研究的发展速度,提升多少?

丹尼尔:我并不认为这会带来多大的 “加速”,数学研究本身存在一种 “成本”—— 你必须动手尝试,而降低这种成本,本身就有重要意义,即便研究的核心瓶颈并不在此。

数学研究的核心障碍,始终是:你需要有一个好的想法。大多数人一年也就只有几个好想法,我目前还不清楚,人工智能能在多大程度上帮助人类产生好想法。但有时候,研究并不需要好想法,只需要坐下来,硬算完成即可。而判断一个问题是否需要好想法,本身就是一种非常重要的能力。

即便人工智能的能力不再提升,数学研究中的很多摩擦和阻碍,也会逐渐消失,而这,也是我认为人工智能会带来最多进展的领域。

格雷格:也就是说,你认为人工智能目前给数学研究带来的影响,并非让研究速度出现突破性的提升,而是消除了研究中的诸多阻碍,这是你理解人工智能对数学研究当下价值的核心视角。

丹尼尔:说到 “加速发展”,我非常希望能找到一种方法,将这个概念量化,真正去评估:我们是否真的在经历数学研究的加速发展?人类历史上,是否出现过这样的加速?随着时间的推移,数学家的人均研究产出,是否有所提升?即便有了这么多新工具,这个问题的答案,对我而言依然不明确。该如何量化这个问题?我们可以看引用量,但这是一个非常糟糕的参考指标,而且它还和人口数量高度相关。

格雷格:在我们结束访谈之前,未来几个月,有哪些事是你比较期待的?

丹尼尔:八月份的时候,我还说过,“以人工智能目前的能力,还没有解决很多稍有研究价值的猜想,这一点很奇怪”。而现在,我认为这类猜想的解决,已经开始出现了。

未来一年内,会有更多这样的猜想被解决 —— 这些问题没人真正深入研究过,只是研究者随手写下的问题,但依然有一定的研究价值,而人工智能会自主解决它们。我认为这种情况的可能性非常大。

格雷格:未来我们肯定会有很多机会,推出紧急播客来解读这些成果。大家可以关注丹尼尔的推特,这里绝对是了解人工智能与数学研究相关资讯的优质平台。非常感谢你接受我们的访谈。

丹尼尔:也非常感谢你们的邀请,能参加这次访谈,我很开心。

格雷格:非常愉快的交流。

原文参考资料:

欧拉幂和猜想:

兰德与帕金(Lander & Parkin,1966 年,首个反例)https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf

埃尔基斯(Elkies,1988 年,四次幂情形)https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf

埃斯诺尔特与格罗申尼希(Esnault & Groechenig,相伴理论与朗兰兹纲领)https://arxiv.org/abs/1707.00752

德利涅(Deligne)对韦伊猜想的证明(1974 年)http://www.numdam.org/item/PMIHES_1974__43__273_0/

泽塔ζ函数值的无理性:

阿佩里(Apéry)的证明(1978-1979 年)http://www.numdam.org/item/AST_1979__61__11_0/

范德普滕(Van der Poorten)的阐释https://doi.org/10.1007/BF03028234

扎吉尔(Zagier)的计算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf

卡莱加里 - 季米特洛夫 - 唐云清(Calegari-Dimitrov-Tang)的近期进展https://arxiv.org/abs/2408.15403

数论中的随机模型:

梅兰妮・马切特・伍德(Melanie Matchett Wood)关于随机矩阵的研究https://doi.org/10.1353/ajm.2019.0008

科恩 - 伦斯特拉(Cohen-Lenstra)启发式https://doi.org/10.1007/BFb0099440

提及的千禧年大奖难题:

黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/

霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/

贝赫和斯维讷通 - 戴尔(BSD)猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/

纳维 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/

前沿数学:开放式问题基准测试 https://epoch.ai/frontiermath/open-problems

参考资料

https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time

小乐数学科普近期文章

·开放 · 友好 · 多元 · 普适 · 守拙·

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

置顶加星

数学科普不迷路!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“好标准的技校脸”,技校女生大合照火了,网友:能把老实人打傻

“好标准的技校脸”,技校女生大合照火了,网友:能把老实人打傻

妍妍教育日记
2026-01-30 20:54:12
最高法院出裁定。储户大额存款消失银行不担责的裁判惯例将终结

最高法院出裁定。储户大额存款消失银行不担责的裁判惯例将终结

新类型案例解读1
2026-02-01 19:13:33
100元纸币,这种麒麟号码,1张价值58000元!

100元纸币,这种麒麟号码,1张价值58000元!

小陈收藏社
2026-02-01 14:14:44
85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

85岁老人被指漏水到楼下,自砸地板证清白全程公证,结果:没渗漏;“冤枉”业主物业该担何责?律师说法

大风新闻
2026-02-01 20:16:03
美国财长贝森特:中国“制裁”日本,是因为日本首相“挑衅”所致

美国财长贝森特:中国“制裁”日本,是因为日本首相“挑衅”所致

我心纵横天地间
2026-02-01 13:34:59
人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

人生建议,不要轻易带父母去旅游!网友:只有疯了的人才带

另子维爱读史
2026-01-23 20:28:44
足坛悲喜夜!曼联皇马齐齐绝杀,曼城遭逼平,国米8分领跑意甲

足坛悲喜夜!曼联皇马齐齐绝杀,曼城遭逼平,国米8分领跑意甲

阿超他的体育圈
2026-02-02 05:55:03
父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

起飞做故事
2026-01-28 18:56:29
价格大跌,广州市民大批涌入,有人一下花掉36万元购买足金饰品!店员:忙到连轴转

价格大跌,广州市民大批涌入,有人一下花掉36万元购买足金饰品!店员:忙到连轴转

环球网资讯
2026-02-01 17:58:53
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

顾史
2026-01-28 20:39:56
狂胜58分!新疆送四川开局22连败联赛垫底 阿不都19+6+7

狂胜58分!新疆送四川开局22连败联赛垫底 阿不都19+6+7

醉卧浮生
2026-02-01 21:07:19
黑云压城城欲摧!美伊战争开始读秒,美国“不死凤凰”登场

黑云压城城欲摧!美伊战争开始读秒,美国“不死凤凰”登场

史政先锋
2026-01-31 16:27:48
就在刚刚!中方强硬发声:90天内不支付358亿赔偿金

就在刚刚!中方强硬发声:90天内不支付358亿赔偿金

爱吃醋的猫咪
2026-02-01 19:34:35
安徽一男子参加公司年会,先后抽中10万元彩票和苹果17ProMax,公司人士:纯运气,无暗箱操作

安徽一男子参加公司年会,先后抽中10万元彩票和苹果17ProMax,公司人士:纯运气,无暗箱操作

极目新闻
2026-02-01 13:10:29
台“教育部”正式宣布,禁止下载抖音、小红书、微信等高风险app

台“教育部”正式宣布,禁止下载抖音、小红书、微信等高风险app

我心纵横天地间
2026-02-01 13:11:09
高云翔深夜在天津街头淋雪,边走边笑,网友:你这一生后悔不

高云翔深夜在天津街头淋雪,边走边笑,网友:你这一生后悔不

少女的烦恼
2026-02-01 15:50:54
江苏婚车被拦后续:原因疑似曝光,特意请假,朋友在小卖部等号令

江苏婚车被拦后续:原因疑似曝光,特意请假,朋友在小卖部等号令

离离言几许
2026-02-01 20:13:46
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
2026-02-02 06:44:49
小乐数学科普 incentive-icons
小乐数学科普
zzllrr小乐,小乐数学科普,让前沿数学流行起来~
232文章数 7关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

头条要闻

特朗普又有疯狂想法:白宫格斗赛 首都飙赛车

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

房产
健康
旅游
家居
艺术

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

耳石症分类型,症状大不同

旅游要闻

“你好!中国”亮相2026马德里国际旅游展 | 新民侨梁

家居要闻

蓝调空舍 自由与个性

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

无障碍浏览 进入关怀版