★置顶zzllrr小乐公众号(主页右上角)数学科普不迷路!
![]()
访谈背景简介:
丹尼尔・利特(Daniel Litt)是多伦多大学数学系教授。他一直密切关注AI人工智能在推动数学发现领域的发展进程,对此态度时而审慎怀疑,时而满怀期待。
本期Epoch.ai与其探讨的话题包括:当下的模型能解决的最难数学问题究竟是什么;是否有确凿证据表明人工智能正推动数学研究提速;以及人工智能能否攻克千禧年大奖难题。
他们还探讨如何评估数学研究的进展,其中包括Epoch.ai全新推出的「FrontierMath前沿数学:开放式问题」基准测试 —— 该测试以数学领域具有研究价值的未解问题为依据,对人工智能模型的能力进行评估。
详情参阅:
访谈人简介:
![]()
丹尼尔·利特(Daniel Litt)是多伦多大学数学助理教授。他获得斯坦福大学博士学位,研究重点是代数几何与数论之间的相互作用。
![]()
格雷格・伯纳姆(Greg Burnham)是 Epoch AI 的研究员。在此之前,他曾在Elemental Cognition和Bridgewater Associates工作。他拥有普林斯顿大学数学学士学位。
![]()
安森(Anson Ho)是 Epoch AI 的研究员。他致力于帮助对人工智能未来发展及其社会影响进行更严谨的理解。
时间节点目录:
(采访时间和内容较长,分成十四小节,上下两篇。本篇为上篇,涉及前七小节)
00:00:00 一、如今人工智能能解决的最难数学问题是什么?
00:16:08 二、当下的人工智能模型对数学研究的助力有多大?
00:23:36 三、垃圾论文、大语言模型生成的证明与审稿危机
00:27:21 四、人工智能实现数学问题的大规模筛选
00:33:49 五、人工智能何时能发展到足以在顶级数学期刊发表成果的水平?
00:42:15 六、智能的价值回报体现在何处?
00:59:50 七、人工智能能否攻克千禧年大奖难题?
01:11:54 八、数学领域还存在大量易解的「低垂果实」吗?
01:18:47 九、丹尼尔如何调整职业发展,以适应人工智能的发展进程?
01:25:28 十、人工智能数学基准测试,实际在评估什么能力?
01:33:05 十一、开放式问题基准测试的设计思路
01:56:35 十二、数学家会相信关于数学猜想的启发式论证吗?
02:01:24 十三、若人工智能攻克「FrontierMath前沿数学:开放式问题」基准测试,会带来什么影响?
02:06:53 十四、人工智能是否即将推动数学研究迈入加速发展阶段?
作者:epoch.ai 2026-1-29
译者:zzllrr小乐(数学科普公众号)2026-1-30
访谈实录(上):
一、如今的人工智能能攻克哪些最难的数学难题?
[00:00:00]
格雷格:大家好,我是Epoch人工智能研究院(Epoch AI)的研究员格雷格・伯纳姆(Greg Burnham),这位是我的同事安森(Anson Ho)。
安森:我也是Epoch人工智能研究院的研究员。
格雷格:今天我们还邀请到了丹尼尔,你好,丹尼尔。
丹尼尔:你们好,很高兴和大家见面,能线下交流很开心。我是丹尼尔・利特( Daniel Litt ),多伦多大学的数学教授。
格雷格:我们先从一个有趣的问题开始吧。你能否说说,如今的人工智能系统能解决的最难的数学难题,大概处于什么水平?
丹尼尔:这个问题问得很好。目前所有的前沿大模型,基本都能在最新的国际数学奥林匹克竞赛(IMO)中拿到金牌,这可以作为衡量其能力的一个不错基准。后面我们也会聊到几个已经被解决的数学开放问题,这些问题要么是在人工智能的辅助下解决的,要么是由人工智能自主攻克的。客观来说,这些问题的难度大概相当于国际数学奥林匹克竞赛中难度中等或偏低的题目。
格雷格:明白了。
丹尼尔:有迹象表明,现在的人工智能系统其实能做到更好一些。如果加以优化,当前这一代的模型大概率能发挥出更优的性能。但总体而言,其解题水平还是停留在竞赛题层面 —— 也就是优秀的高中生或大学生能在几小时内解决的题目。
格雷格:你曾大胆断言,未来一年内,我们或许能看到一些些许有价值的数学猜想被人工智能解决。这句话具体是什么意思?
丹尼尔:在我看来,“些许有价值的猜想”,指的是有人正式发表过、至少有一个研究者真正关注过,且大概率有人为其花费过至少数小时研究的猜想。这类难度的猜想数量不少,我认为当前的人工智能系统,在算力支持达到约 100 万次运算量级的情况下,就能解决其中一部分。
格雷格:懂了。
丹尼尔:其实近期已经有一些例子符合这个标准了,或许这个预测已经成真,只是对于这些问题的实际价值,还存在一些争议。
格雷格:也就是争议在于这些问题的价值到底有多大。
丹尼尔:对,核心就是这些问题的实际研究价值究竟如何。
格雷格:你多次提到用 “人类解决该问题所需的时间” 作为衡量标准,你总体来说认可这个衡量维度吗?
丹尼尔:说实话,并不认可。我觉得这不是衡量难题难度的好方法。拿国际数学奥林匹克竞赛的题目来说,全世界最顶尖的参赛学生大概有一个半小时的解题时间,这能给难度设定一个上限,但对于很多这类题目,如果你交给专业数学家来做,他们实际花费的时间反而会更长 —— 因为他们会反复推敲,也没有竞赛中那种强烈的解题动力。此外,解决竞赛题所用到的方法是非常有限的,而在数学研究中,研究者没有任何方法上的束缚,会尝试所有思路、反复摸索,甚至会借助计算机演算具体的例子。
难度本身是个很微妙的概念,该如何评判呢?很多时候,或许最好的评判方式是事后复盘:当你看到证明过程的逻辑结构后,会觉得 “其实这个问题也没那么难”。但这种方式也有隐患 —— 如果用它来评估人工智能模型的能力,很容易导致不断改变评判标准:模型给出了证明,你却会说 “这题本来就不难,我不过是点了个按钮而已”。
安森:你经常在推特上提到,这些人工智能系统能为数学研究带来的实际助力其实相当有限,但也有人认为这种助力要大得多。你如何解释这种认知差异?
丹尼尔:人工智能模型在某些领域的表现确实更出色。比如最优化理论领域,我的了解是,OpenAI 有不少该领域的专家,他们生成了大量相关数据,还结合自身的人类专业知识指导模型训练。所以该领域的研究者能从模型中获得更多帮助,我一点也不意外。相比之下,在代数几何和数论领域,人工智能模型的表现就没那么好了。
有些研究领域,更适配人工智能模型当前所具备的工具使用能力。比如你想为某个不等式找反例,编写代码验证是很自然的做法;但如果你想为 “三次三维簇的中间雅可比簇相关猜想” (
intermediate Jacobian of a cubic threefold)找反例,大概率没有任何代码能帮上忙。
除此之外,我认为很多人可能夸大了模型对自己的帮助。新工具的出现,使用起来确实很有趣,但很多人在谈论人工智能加速科学研究时,并没有尝试进行严谨的实证检验。我愿意相信,人工智能确实消除了研究中的一些阻碍,但数学研究中还有很多瓶颈,是当前的模型无法触及的。如果人工智能只是解决了 “打开论文找到引理 3.7” 这类小问题,却无法帮研究者产生好的想法,那这真的能算加速研究吗?
安森:我通常会用莫拉维克(Moravec)悖论来解释人工智能在不同领域的能力差异或能力的不均衡性,而在数学领域内部,这种能力的不均衡性同样存在。一部分原因来自训练数据,一部分是因为有些数学领域更适配人工智能的特性。这两点能解释大部分的能力差异吗?还是说还有其他因素?
丹尼尔:开展数学研究需要的是一种高维度的综合能力,这和竞赛解题有一点不同 —— 研究中没有一套固定的、已知的有效方法。那些需要创造性思维的数学问题,模型至今都没能成功解决。
我们在数学领域看到的这种能力不均衡,其实和在其他所有领域看到的情况是一样的,并没有什么特殊性。人工智能模型无法自主开展高质量数学研究的最大障碍,和自动化任何工作的最大障碍是同一个:它们无法完成长上下文任务。人类需要花费六个月解决的任务,模型目前完全做不到。一旦未来的模型能完成这个量级的软件工程任务,那么它们开始开展高质量的数学研究,也就不足为奇了。在这一点上,数学研究并没有什么特殊之处。
格雷格:我有一个脑洞大开的想法:人工智能模型在空间推理和视觉空间直觉方面的能力较弱,或许当一个数学问题能通过符号运算的方式解决时,它们的表现会格外出色?
丹尼尔:或许是这样,但我对这种解释持一点怀疑态度。数学家思考数学问题的方式千差万别,我们中有些人是空间视觉型思考者,有些人则更偏向语言文字型思考者。
格雷格:我很好奇,有没有数学家患有心象缺失症(aphantasia)?
丹尼尔:当然有,甚至有些几何学家都患有心象缺失症,这是很有名的事。有大量数学家在用截然不同的方法研究问题,这也是为什么有些数学家的整体数学水平远高于我,却无法在相同时间内证明我能证明的定理,甚至根本证明不了。核心原因就是我们的研究方法不同。
目前能较好解决数学问题的人工智能模型大概有三四款,它们的解题方法略有差异,但这种差异性远小于人类数学家之间的差异,这一点在各项基准测试中也能体现出来:不同模型能解决的问题有很高的重合度,而基准测试中的所有问题,至少有一位人类数学家能解决。在我看来,我们可以把人工智能模型看作一位独立的数学家 —— 它们会在某些问题上表现出色,也会在某些问题上束手无策。但或许我们不必过度解读模型擅长或不擅长的问题类型,这只是因为目前可供研究的模型只有两三款而已,只是一种客观结果。
格雷格:你认为人工智能的能力,在数学的不同子领域之间,存在多大的迁移性?
丹尼尔:我的感受是,当你让模型证明一个代数几何领域的命题时,它大概率只会尝试在文献中找到相关命题,或是极其相似的结论,然后在此基础上进行一两步推理。而当你问它一个组合数学的问题时,它并不会做出同样的、真正的解题尝试。
和一个掌握了所有模型所知的代数几何或数论知识的研究生相比,这个研究生能进行的推理要多得多,也能真正尝试去证明定理。在部分数学领域,模型的知识储备已经超越人类,但它们未必掌握了拥有相同知识储备的人类研究生所具备的研究方法。这只是我的直观感受。
格雷格:你觉得模型在哪些数学领域的原生推理能力更强?
丹尼尔:在证明不等式这类问题上,它们的能力绝对比我强。我猜测原因是这类问题更容易生成训练数据,而且相关的训练数据量可能远多于代数几何领域。
格雷格:你说的不等式,是竞赛类型的不等式吗?还是分析学中更有研究价值的不等式?
丹尼尔:是那些编写代码能辅助解决的不等式问题,模型在这类问题上的表现通常都很出色。现在我每次需要证明不等式时,第一步都会借助模型编写代码,来探究问题的解空间特征。
格雷格:你之前提到的两个观点,看起来存在一定矛盾:一方面,你说模型缺少的是产生好想法的能力;另一方面,你又说如果模型能在多个领域持续工作六个月,或许也能做好数学研究。
丹尼尔:这个问题问得很好,这两个观点确实存在矛盾。在我看来,从单纯应用已知方法,到开发新的研究方法,这之间是一个连续的过程。而开发一种新方法,说白了就是把上百种不同的思路以某种方式结合起来,而完成这件事的关键要素之一,就是时间。只是目前还不确定,时间是不是唯一的要素。
我自己做数学研究的经历是,极少会出现 “突然想到一个绝妙的想法,一下子就解决了问题” 的情况。偶尔会有半夜醒来,问题突然有了答案的时刻,但通常这种情况的发生,前提是你已经为这个问题钻研了数月。时间的积累确实有其独特的价值,只是我不确定自己的自我反思是否足够可靠,能判断时间是不是唯一的核心要素。
研究中还会发生其他事:你会形成自己的研究思路,或是找到不同问题之间的类比关系 —— 数学研究中存在一种难以言喻的玄妙特质,而这种特质,目前的模型还无法展现。但或许这也只是一种主观感受,这种玄妙的特质,可能只是把你读过、吸收的大量想法浓缩成人类能理解的形式而已,或许和上下文压缩的原理很接近。
格雷格:目前有一些关于智能的核心类比观点 —— 比如 “智能是一种搜索行为”,或是 “智能是一种信息压缩能力”,而人类目前只是在这些方面做得更好而已。
丹尼尔:我总体上对这类类比持怀疑态度。在我看来,做好数学研究的方式有很多种。看看不同数学家的研究能力就会发现,彼此的能力重叠度其实很低。我敢肯定,没有哪位数学家能证明我能证明的所有定理,也有很多数学家的思考方式和我截然不同。
二、如今的人工智能模型对数学研究的帮助有多大?
[00:16:08]
格雷格:能否结合前代研究工具,说说你认为当前人工智能工具的实际效用?比如文献检索功能,现在的模型确实做得更好,但谷歌学术早就实现了文献检索。
丹尼尔:目前的人工智能工具,其实和前代工具处于同一发展脉络中。文献检索方面,模型至少在部分任务上,已经比谷歌或谷歌学术做得更好了,这确实能节省一些时间,但具体能省多少,我也不确定。和过去去图书馆查资料相比,能节省多少时间呢?
格雷格:大概就是长期来看,能提升 2% 左右的工作效率这种水平。
丹尼尔:没错,基本就是这个趋势。总体而言,这些提升都相当有限,我怀疑其带来的效率提升不会超过 1% 或 2%。
格雷格:如果今天人工智能的发展突然停滞,你认为当前的技术水平,不足以推动数学研究质量出现爆发式提升?
丹尼尔:我认为数学研究的效率会保持我们以往看到的增长速度,这种增长在一定程度上可能归功于技术,但大概率主要是因为研究人口的增长。你也可以对谷歌提出同样的问题:谷歌或电子邮件,到底提升了多少工作效率?
格雷格:你经历过谷歌出现前后的时代吗?那段变化对你有什么感受?
丹尼尔:没有,我出生于 1988 年,2015 年拿到博士学位,所以在我开始接触数学研究时,谷歌就已经存在了。我问过一些年长的数学家这个问题,他们的普遍共识是,谷歌确实提升了数学研究的效率,但这种提升很难直观看到,也很难找到一个指标来衡量。从直观感受来看,谷歌的出现并没有带来优秀数学新思想的爆发式增长,我认为核心原因是,文献检索并非数学研究的主要瓶颈。
人工智能工具还有一个前身,那就是计算机技术的发展。上世纪 60、70、80 年代,计算机技术的发展推动了多个数学领域的重大进展。有一个经典的例子:欧拉曾提出幂和猜想,探讨何时存在若干个 k 次幂的和等于另一个 k 次幂。这个猜想的第一个反例,就是通过计算机搜索找到的。更著名的是,四次幂的情况在 1988 年由埃尔基斯解决,他用到了一种非常巧妙的计算机搜索方法。
格雷格:如果没有计算机,这种方法根本无从施展,尽管其中包含了大量人类的巧思。
丹尼尔:没错。他找到了一种方法,让 1988 年的计算机能处理这类问题,即便是现在,单纯的暴力穷举也依然无法解决这些问题。但这确实是数学研究的一大突破。如果我们的人工智能模型停留在当前水平,数学研究也会沿着这个趋势自然发展。
格雷格:具体会呈现出怎样的发展状态?目前我们主要将模型用于文献检索和代码编写,或许未来会在代码编写方面进一步发展,比如朝着 AlphaEvolve 的方向?
丹尼尔:有时候,数学研究的突破需要进行大量的搜索验证,而这类搜索往往需要一定的研究技巧。比如你需要验证上千个不同的例子,却没有固定的算法来处理每个例子,每个例子都需要一点新的想法,或是运用一些标准的研究方法,这种工作很难用计算机程序自动化实现。
在代数几何领域,你可能需要完成一系列推导步骤,其中一部分可以用 Python 程序自动化,另一部分则需要真正的研究思路。以目前模型的能力,我认为可以想象,一些这类例子的搜索验证工作,能以较高的可靠性实现自动化。
格雷格:这类工作过去大多需要人工完成,工作量会随着问题规模线性增加,而现在 ——
丹尼尔:现在其中一部分工作的工作量能大幅减少,这也是我非常期待的一点。有时候我发表的论文,核心就是一个精妙的构造,而找到这个构造,需要我进行大量搜索,还要思考该从哪个方向入手。AlphaEvolve 的出现,或许就是这种自动化搜索的雏形 —— 也就是由智能大语言模型辅助的自动化搜索。我能想象,这会对数学研究产生非常重大的影响,但这种影响和计算机技术的影响一脉相承,并不意味着数学研究的完全自动化。
格雷格:也就是继续探索如何利用计算机减少人工劳动,或是开辟新的研究方向。
丹尼尔:对,就像四色定理的证明、开普勒猜想的证明一样,这类问题需要验证大量的案例,而计算机能帮助我们完成这项工作。
格雷格:如果大幅提升算力,能让这类工作实现更大的突破吗?
丹尼尔:其实数学家已经在这么做了。我和计算数论领域的研究者聊过,他们的对话非常有趣 —— 有人会拿着一个问题说,“根据摩尔定律,等到算力不再成为限制时,这个问题在今年就能被解决”,而这些预测的准确率还相当高。
你或许听过这个例子:一个整数能否表示为三个立方数的和。我们知道每个具体案例的解决难度,提升两倍、三倍算力,就能找到更多有研究价值的整数解。但问题是,这种进展究竟能算真正的数学突破吗?有人对此比我更兴奋。
我想象的场景是,当你要寻找某种构造的例子,却没有已知的算法时,让 GPT 进行巧妙的搜索,让它自己产生思路。
格雷格:如果给它足够的测试时间 ——
丹尼尔:或许最终它能找到一些结果。我并不认为随着测试时间的增加,它能产生越来越精妙的想法,只是能尝试更多的思路而已。
三、垃圾论文、大语言模型生成的证明,以及数学审稿危机
[00:23:36]
格雷格:目前人工智能是否给数学研究带来了一些问题?大学中的作弊问题显然已经出现,那垃圾论文的问题呢?
丹尼尔:垃圾论文的问题肯定存在。大概从 9 月份开始,我开始统计预印本平台 arXiv 上标题或摘要中包含 “霍奇猜想(Hodge conjecture)” 的论文。霍奇猜想是现存的六大千禧年难题之一,也是普通人最难理解其表述的一个猜想。长期以来,这个猜想都能避开一些非专业研究者的胡乱尝试,因为普通人根本写不出关于它的、看似合理的内容,但现在情况不同了,前沿模型能写出关于霍奇猜想的、看起来言之有理的文本。
9 月和 10 月,arXiv 的数学 - 代数几何分类下,有 12 到 13 篇论文的标题或摘要包含霍奇猜想,其中除了一篇,其余全是无意义的垃圾论文。我无法证明这些论文是大语言模型生成的,但从写作风格来看,答案非常明显,而且其中有大概六位作者是反复发表这类垃圾论文的。
这个问题的影响有多大呢?它不过是浪费了我几分钟的时间。但随着大语言模型越来越擅长写看似连贯的文本,过去你花 10 秒就能看出一篇论文是无意义的,现在却需要花几分钟。其中最离谱的一篇,论证逻辑完全不通,但你必须读到论文中间,才能发现一些命题纯粹是胡说八道 —— 它的引言部分写得完全合理、有趣,还提出了非常大胆的结论,想要验证它是垃圾论文,并不是一件容易的事。我认为这个问题会越来越严重。
在目前形式化验证并不实用的数学领域,这会成为一个大问题。你可以想象更糟糕的情况:一个卡在某个问题上的研究生,利用模型生成某个关键步骤的无意义证明,论文的 99% 都是正确的,但因为这一处无意义的证明,整篇论文变得毫无价值。
格雷格:人类从很久以前就开始在研究中弄虚作假了。
丹尼尔:现在确实有很多错误的论文,但核心问题在于边际成本:说谎和作弊的边际成本,现在变得低多了。
格雷格:如果人工智能的能力就此停滞,这个问题在社会层面能得到管控吗?
丹尼尔:这个问题正在加剧数学领域的审稿危机 —— 目前产生的论文数量,远超过了能被严谨审稿的数量,而且情况会持续恶化。这在很大程度上是由数学学术界的激励机制造成的,而非模型本身的问题。我们会沿用以往的方式管控,但效果会不尽如人意。不过我也看到了一些希望:模型也能帮助检查论文,目前已经有一些不错的相关工具在开发中了。
四、人工智能实现了大规模的数学问题搜索验证
[00:27:21]
安森:我想从更长远的角度聊聊这个问题。人工智能和数学研究的发展,很大一部分都依赖于算力和规模化,我们之前也聊到,让人工智能进行大量的例子验证。当我们拥有了大规模开展这类数学实验的能力后,数学各领域的发展会呈现出怎样的趋势?
丹尼尔:你问的正是我之前提到的,让模型进行大量的例子验证,而非让模型去解决黎曼猜想这类顶级难题。
安森:对,就是这个意思。
丹尼尔:我认为这会是以往研究趋势的延续 —— 我们能验证更多有研究价值的例子,核心优势在于,尝试第一个直观思路的成本变得极低。在过去,我想要找到一个精妙的构造,必须坐下来尝试各种思路,即便这些思路几乎不需要什么巧思,也依然要花费我几天的时间,而我本身还有很多其他工作。更何况,这个问题可能只是一个偶然想到的问题,我还有更感兴趣的研究方向,尝试解决它存在机会成本。
而现在,尝试一种思路的边际成本变得极低,即便用的是能力并不出众的模型,这也具有极高的价值。数学研究的推进方式之一,就是寻找各类有趣的案例,而偶尔就能从中发现有价值的结论,这并不一定需要深刻的洞见或绝妙的想法,只需要花费时间。让人工智能自动化地搜索这些有趣的案例,会是一件意义重大的事。
数学中有一些零散的经典案例,比如散在有限单群、例外李群,研究者会用相当系统的方法去寻找它们,但最终还是需要靠发现。很多时候,发现的过程就是看到有人推导出了一个有趣的例子,然后从中观察到一些有价值的性质。我最引以为傲的一些研究成果,就是从文献中发现了有趣的结论,然后推导出了相关的推论。
格雷格:这种研究方式的效率确实很高。
丹尼尔:这是数学研究推进的重要方式,数学的发展并非只依靠最顶尖的数学家证明惊天定理,还有大量研究者在做着基础性的工作,研究各类有趣的问题,他们偶尔就能发现重要的结论。即便自动化的水平达不到普通专业数学家的程度,这种自动化的搜索验证,也会对数学研究产生巨大的影响。
安森:这类数学实验的收益递减速度有多快?验证一千个例子,会比验证一百个例子有用得多吗?
丹尼尔:这取决于搜索的方式。至少对我而言,最有价值的例子,往往出现在需要从无限多的对象中寻找少数特殊对象的场景中,比如找 26 个特殊对象,这些对象都是极其罕见、极具特殊性的。这时候就不能用暴力穷举,而是需要一定的巧思,而模型能将这部分巧思的工作实现一定程度的自动化。我能想象,在一些场景中,验证一百万个例子的价值,远高于验证一百个例子。
安森:哪些数学领域最适配这种大规模的实验验证?
丹尼尔:我认为所有领域都适配。代数几何中有一些我很喜欢的特殊构造,比如三次曲面上的 27 条直线、平面四次曲线的 28 条双切线,这些例子都有有趣的性质,还和例外李群相关。这些都是1800年代的经典结论,但如果能找到新的、类似的精妙特殊构造,会是一件非常了不起的事,而且这并非不可能,研究者也一直在发现这类有趣的例子。
安森:这么说来,算力确实至关重要。那为什么不是所有数学家都想去大型实验室,和 OpenAI、深度思维(DeepMind)这类拥有海量算力的机构合作呢?
丹尼尔:因为目前模型的能力还没达到那个水平。现在想要实现这种自动化,方式大概是让模型循环执行 “寻找该现象的有趣例子” 的指令,并记录已经验证过的例子,但当你真的让模型这么做时,它基本会 100% 失败。至少在代数几何领域,模型的能力还达不到,它们甚至无法完成一个有研究价值的例子的验证。不过这种情况可能很快就会改变。
安森:如果根据 FrontierMath 的发展趋势推断,或许到明年年底,这个基准测试就会被模型完全攻克。
丹尼尔:但我认为,攻克 FrontierMath,和实现这种大规模的例子验证,并没有什么关联。
五、人工智能何时能写出登上顶级数学期刊的论文?
[00:33:49]
格雷格:聊聊你关心的时间维度吧。你曾和塔梅伊・贝西罗格卢(Tamay Besiroglu)打赌,以 3 比 1 的赔率赌:到 2030 年初,人工智能系统无法自主写出符合当前标准、能发表在你所在领域顶级期刊《数学年刊》(Annals)上的论文。这意味着你认为这件事发生的概率只有 25%。
丹尼尔:我觉得自己当时可能有点过于自信了,不过从那之后,我的预估其实更偏向于自己的判断了。
格雷格:我记得,塔梅伊的预估向你靠拢了,而你的预估也向他靠拢了一点。
丹尼尔:对,还挺有意思的。这个打赌还有一些附加条件:首先,人工智能的这种能力必须是可复现的 —— 当然,如果模型证明了黎曼猜想,那这条条件就另当别论了。
格雷格:要求可复现,是为了避免只是偶然的成功。
丹尼尔:对,不能是模型恰好找到一个反例,推翻了某个重要猜想这种偶然情况,而是能稳定地产出高质量论文。还有一个成本条件:每篇论文的边际成本必须约为 10 万美元,这个数字是估算的人类数学家写出一篇《数学年刊》论文的边际成本。
格雷格:毕竟数学家的年薪也到不了上百万美元,所以 ——
丹尼尔:大概率我们不会花费 10 万美元的算力去做这件事,不过也有可能。但如果到 2031 年,模型写出这样的论文只需要 1000 美元,那这个赌局就很容易判定结果了。
格雷格:客观来说,五年内有 25% 的概率实现这件事,从当前的技术水平来看,这已经是非常大的进步了。
丹尼尔:我认为这个预测是很合理的。
格雷格:从打赌到现在,你的判断有哪些变化?
丹尼尔:25% 这个概率感觉有点偏低,这其实只是我的直观感受,没有什么实际依据。我认为,模型在这段时间内,大概率能自主开展高质量的数学研究。这个打赌原本是为了衡量 “模型是否会在数学研究中对人类形成绝对优势”,但我现在发现,这其实是一个很糟糕的衡量标准。
原因之一是:目前有很多数学家的能力远胜于我,他们写出一篇《数学年刊》论文的边际成本也低得多,一年就能写一篇。我目前只发表过一篇《数学年刊》的论文,还有几篇发表在同级别期刊上,但从某种意义上来说,这些数学家并没有对我形成绝对优势 —— 我们的研究视角不同,做数学研究的方式也不同,在一些领域,我在证明有趣的定理、理解有趣的数学问题上,反而具有显著的优势。
格雷格:如果五年后的模型,依然保持着如今的特性 —— 所有模型的解题方式都大同小异,就像一位风格固定的数学家。
丹尼尔:没错。你可以想象,未来的模型会在某些类型的数学研究中表现极其出色,甚至能证明各类不同的定理,但即便如此,就像马克西姆・孔采维奇(Maxim Kontsevich)这样的顶级数学家存在,并不意味着其他数学家就没有存在的价值了。
格雷格:这里的成本条件其实有点关联。假设算力成本为零,模型的运算速度也不再受限,就好像把你的大脑放进数据中心,一分钟就能经历主观上的 100 年,你能胜过世界上所有的数学家吗?
丹尼尔:这个问题问得很好。目前,由于各种限制,我主要在自己擅长的领域做研究,偶尔需要学习或开发新的研究方法 —— 这也是目前模型还无法做到的事,而这需要花费大量的精力。如果没有这些限制,我就能更容易地学习其他研究者的方法,而这取决于我持续学习的能力。
当我们把人类和模型对比时,结果可能也取决于模型在持续学习方面的发展。不过我的预期是,即便有这样的条件,我或许能做出很多精彩的数学研究 —— 如果拥有这么多资源却毫无建树,那也太说不过去了。但其他数学家依然会有极高的价值,因为数学研究中存在一些我并不适合的思考方式和研究模式。
格雷格:人工智能会打破我们熟知的比较优势格局吗?
丹尼尔:我认为没有理由这么认为。而且我们讨论的是没有资源限制的情况,而资源限制是分析比较优势的关键前提。
格雷格:五年后的场景,或许会是这样:人工智能在某些数学领域表现不佳,人类就专注于这些领域,而少数人类研究者则指导人工智能在其擅长的领域开展研究。
丹尼尔:我认为研究者也会尝试为人工智能建立一种 “研究品味” 的评估体系,让它能自主去研究有价值的问题。五年的时间,25% 的概率这个判断,我基本还是保持不变,可能会稍微调高一点。我认为,在 15 到 20 年内,人工智能系统大概率会在很多数学领域对人类形成优势,如果没有出现这种情况,我会感到很意外。
格雷格:你是根据什么趋势做出这个判断的?
丹尼尔:主要还是直观感受。我也延续了人工智能预测的老传统:说五年,就是认为这件事很快会发生;说超过五年,就是指从五年到永远的任何时间。上世纪 60、70 年代的人工智能发展预测,也是这样说 5 到 20 年的。
格雷格:说白了,就是两种判断:一种是 “可能很快会发生,但我不确定”,另一种是 “天啊,谁知道呢”。
丹尼尔:我的意思是,如果当前的发展趋势持续下去,模型能开展高质量的自主数学研究,是有合理可能性的 ——25%,但远非必然。
六、智能的收益究竟有多大?
[00:42:15]
安森:或许我们可以把时间拉到 15 或 20 年以后,甚至更久。一个人思考 100 年,和 100 个人思考 1 年,这两种方式的研究成果该如何对比?有没有办法衡量,一个人持续思考 100 年,能力会提升多少?
丹尼尔:我把这个问题和我们之前聊的 “如何判断问题难度” 结合起来说吧。有很多数学问题,明显具有这样的特质:如果开展一个曼哈顿计划式的专项研究,集中力量攻克,很快就能解决,这些问题缺少的只是研究者的关注。即便只是让几位数学家全身心投入研究,这些问题也几乎肯定能被解决。
格雷格:你能举几个这样的例子吗?
丹尼尔:比如最后一个散在有限单群 ——马蒂厄群(Mathieu group) M₂₃的反问题,这大概率是一个难题,已经有不少人研究过了。但我敢肯定,如果美国政府将其每年 2 亿美元的数学研究经费中的相当一部分,投入到这个问题的研究中,它很快就能被解决。
格雷格:这个例子很有参考价值。
丹尼尔:如果让一个人长期专注思考,很多问题都能被解决。我从 2016 年开始思考一个问题,这个问题是我在一场报告中接触到的,我很喜欢这个问题,尝试解决过,但当时没有任何进展,不过我一直把它放在心上,最终在 2024 年解决了它。
在这个过程中,你会学习新的知识,将不同的问题关联起来,还会遇到一个问题:如何将自己的知识和猜想匹配起来,甚至首先要知道这个猜想的存在。随着时间的推移,你尝试各种思路,有时最终就能找到解决方法。事实上,这个问题的解决方法中,有一个核心要素直到 2023 年才被提出,有时候你就是需要等待其他人完成相关的研究工作。
格雷格:这么说来,单个数学家的研究过程,其实有点像一个数学家团队的研究过程,因为其他人也完成了其中的部分工作。
丹尼尔:没错,一部分原因就是时间的推移:你会学习新知识,尝试不同思路,成为更优秀的数学家,掌握更多研究方法。数学研究的一个重要点 —— 也是目前人类依然远胜于模型的一点,就是当你接触到一个新的研究对象时,你会尝试去 “熟悉” 它:反复研究、推敲各类相关问题和例子,分析相关的特殊情况,通过这种方式了解这个研究对象,并为其建立相关的理论。
我真的很担心当前范式下的模型能力:现在,模型想要学习一个新的领域,必须重新训练一个新模型。比如彼得・舒尔茨(Peter Scholze)正在发展的 Gestalten(格式塔)理论,这是一种新的空间理论,目前所有的模型都不了解这个理论,它们可以上网查阅相关论文,但无法真正接触这个研究对象并开展研究。
格雷格:也就是只能做到浅尝辄止的程度。
丹尼尔:它们无法真正去 “熟悉” 一个研究对象,而人类可以随着时间的推移做到这一点。时间对解决问题的最大帮助,就是让你熟悉研究对象,并形成相关的直觉。而模型如果不重新训练,就无法做到这一点。解决一个涉及新研究对象或新思考方式的问题,其边际成本就是训练一个新模型的成本 —— 这个成本极高,远比让一个人类研究者去理解这个研究对象的成本高得多。
格雷格:即便是为了完成这类研究,持续学习能力也显得至关重要。
丹尼尔:这种持续学习,不仅仅是像人类一样读一篇论文就能理解研究对象,还需要像人类一样去 “探索尝试”。我知道目前已经有人尝试让模型在数学研究中进行自博弈,但目前还不清楚其效果如何。
格雷格:在模型的思维链推理中,能看到一点这种探索尝试的迹象:它们会尝试不同的思路,进行一些摸索,最终找到解决方法。这可能是因为它们的训练目标就是解决具体的问题,而非基于研究品味去寻找 “更好的研究视角”,或许这种能力会随着规模化发展而提升。
丹尼尔:对,我对此并非持怀疑态度。
安森:我还发现一个有趣的点,就是研究的并行化存在局限性。你刚才提到的那个 2024 年解决的问题,依赖于 2023 年的另一项研究成果。如果对比 “丹尼尔思考 100 年” 和 “100 个丹尼尔同时思考”,或许长期的持续思考,会因为持续学习而更有成效,但研究的并行化也存在瓶颈,或者说,整个数学研究领域的发展,还需要其他方面的突破。
丹尼尔:你说得很对。这个问题的解决,借鉴了两大深度理论的成果:非交换霍奇理论和函数域上的朗兰兹纲领。而这项研究能推进的关键,是其他人 —— 埃斯诺尔特(Esnault)、达德齐奥(D’Addezio)和格雷琴尼希(Groechenig),利用函数域上的朗兰兹纲领和伴随理论证明了一个结论。这一点是我自己想不到的,虽然它和我的研究领域很接近,我也有所了解,但这确实是一个极具创造性的重要研究成果,和我当时的研究思路截然不同。
即便我独自思考这个问题 100 年,也很难确定自己能发现这两者之间的关联。从历史来看,让一个人类研究者独自长期专注于一个问题,研究效率大概率是很低的,你会尝试各种思路,然后在某个时间点遭遇收益递减。
格雷格:研究的并行化中,多样性是很重要的一点。你有没有尝试让模型去做一些令人意外、更具原创性的研究,即便结果是错误的?
丹尼尔:当然试过。现在,每当我思考一个开放问题时,第一件事就是让模型给出一些思路,但这些思路几乎都是无意义的。
格雷格:确实是这样。
丹尼尔:我从来没有从模型那里,得到过一个能通过初步检验、适用于深度开放问题的思路。
格雷格:从某种抽象的角度来看,随机初始化似乎应该能解决这个问题,但我们目前还没看到这种效果。
丹尼尔:你也可以尝试 —— 我每天醒来,其实都是一次新的 “随机初始化”。
格雷格:没错。
丹尼尔:但我自身的思维定式依然存在,这限制了我去真正探索数学研究的全部可能性。
安森:这就牵扯到了智能的收益问题。如果有一百万个安森,尝试去做你现在的研究,我认为不会有太多进展。而如果把规模再扩大,一百万个丹尼尔和超级智能数学家对比,是否会出现同样的情况:超级智能的能力远超人类,无论增加多少研究者数量,或是延长多少研究时间,都无法匹敌?
丹尼尔:我先反驳一下你说的 “安森做我的研究不会有进展” 这个观点。我认为,如果你真的投入大量时间去学习有趣的数学知识,一定能做出精彩的数学研究,只是研究的方向大概率会和我不同,因为我们的偏好和能力不同。但你看起来是个很聪明的人,只要有足够的动力和资源,我相信你一定能做出有价值的数学研究。
同样,对于超级智能人工智能 —— 无论这个概念具体指什么,即便是在数学研究这个相对狭窄的领域,智能也是一种极其高维度的能力。对比不同的人类数学家就能发现,我们各自在截然不同的方面表现出色。即便想象出一个能解决大量有趣研究问题的人工智能,也无法确定它能解决所有人类擅长的、有趣的数学研究问题。
格雷格:我们可以把问题说得更具体一点:在某个特定领域中,最适合该领域的、最聪明的研究者,其研究效率的天花板是怎样的?有没有这样的情况:如果你知道某个顶尖研究者正在研究一个问题,你就会避开这个问题?
丹尼尔:这种情况在某种程度上是存在的,但我认为这和能力无关。比如目前p 进霍奇理论是一个非常活跃的领域,我在多个方面和这个领域有所交集,但我并没有真正投身其中,原因是这个领域的发展速度非常快,如果我想进入这个领域,需要学习大量知识,跟上其他研究者的步伐,这更多的是机会成本的问题。
格雷格:所以在人类研究者中,我们并没有看到所谓的 “智能收益” 的极致体现。
丹尼尔:我有一个两岁半的女儿,她很可爱,也很聪明,但目前还无法进行数学研究,毕竟她才两岁半。人类的能力之间,确实存在绝对的差异,但在专业数学家之间,能力的差异更多体现在数学研究是一个高维度的领域,而研究者各自专注于不同的方向。
如果模型继续沿着当前的范式发展,保持能力的不均衡性,且相比人类,其能力范围更狭窄,那它们依然能为数学研究带来巨大的价值。人类研究者各自专注于极小的研究领域,这意味着几乎所有的数学问题,都存在 “关注瓶颈”—— 甚至能理解一个问题表述中所有术语的人,可能只有十个。你可以想象,这些问题本身未必很难,只是没有人有时间去研究而已。
安森:对于关心超级智能和人工智能快速发展的人来说,还有一个角度:假设我们通过某种方式提升了数学研究的进展速度,并将其分解为三个因素 —— 更多的人工智能、人工智能更长时间的研究、更智能的人工智能。这三者的贡献占比会是怎样的?
丹尼尔:其实在人工智能出现之前,我都不确定过去 40 年数学研究的进展速度是否真的提升了。我的感受是,研究效率的提升,很大程度上归功于数学家数量的增加。一旦人工智能的能力达到人类的水平,或许研究效率的提升,也会主要取决于人工智能的数量。
有一个小问题需要关注:为什么人类研究者的数量增加,能带来研究效率的提升?一部分原因是关注的问题变多了,另一部分是思考方式的多样性。而人工智能能否带来同样的效果,取决于其发展方向。
数学家数量的增加,带来的研究效率提升,大概率只是因为有更多的时间被投入到不同的问题上,有更多的问题得到了关注。我认为,即便是能力并不出众的人工智能,其数量的增加也能带来显著的研究效率提升。
而关于 “智能的收益”,这个问题的定义本身就不够清晰,在我看来,智能是一个非常高维度的概念。
你可以想象,拥有一种能巧妙搜索高维度证明空间的能力,会具有极高的价值。黎曼猜想的证明,大概率需要发展出目前尚未存在的各类研究对象和理论,而这需要在极高维度的搜索空间中进行大量的探索。
在实际研究中,这种探索大多是这样进行的:普通数学家研究各类研究对象,进行低维度的搜索,验证大量的例子,发现其中的规律;然后研究者开始将这些规律提炼为相关的研究对象和理论。那些我们认为最顶尖的数学家所做的、高层次的理论构建,其实高度依赖于底层的大量基础工作和例子分析,而这在很大程度上,也归功于数学家数量的增加带来的规模效应。
七、人工智能会解决千禧年数学难题吗?
[00:59:50]
格雷格:来聊一个有趣的小问题:你认为黎曼猜想,或是其他的千禧年难题,在不同时间被解决的概率是多少?
丹尼尔:我最熟悉的千禧年难题是黎曼猜想、BSD猜想(伯奇和斯温纳顿 - 戴尔猜想),以及霍奇猜想。其中,黎曼猜想是我们唯一能大致想象出证明框架的难题。
有一个与之类似的猜想 ——有限域上代数簇的黎曼猜想,由德利涅(Deligne)在上世纪 70 年代证明,而其中最接近黎曼猜想的部分,是更早由韦伊(Weil)证明的曲线的黎曼猜想。我们其实能大致想象出黎曼猜想的证明框架 —— 它应该和韦伊的证明框架相似。
韦伊给出了曲线黎曼猜想的两个证明,问题在于,证明中的各类推导步骤,在整数域中并不适用,只适用于有限域上的曲线。我们需要找到方法,让这些推导步骤在整数域中也能成立。这听起来像是科幻小说,但至少我们有一个看似合理的思考方向。
很多数学家都研究过如何让这些推导步骤在整数域中成立,我认为在未来十年内,其中一种尝试有可能成功,我给的概率大概是 15%—— 概率不算高,但也并非不可能。
总体而言,观察重大开放问题的解决过程会发现,从掌握解决问题所需的最后一个关键思路,到最终完成证明,这段时间通常都很短。比如费马大定理,谷山-志村(Taniyama-Shimura)猜想的提出,到费马大定理最终被证明,时间间隔其实并不长。
格雷格:这么说来,既然曲线的韦伊猜想已经被证明了几十年,或许黎曼猜想的证明也离我们不远了?
丹尼尔:事实上,当韦伊证明了曲线的黎曼猜想后,人们都认为黎曼猜想的证明很快就会到来,这是我对这段数学史的理解。但结果并非如此,所以人们其实并不知道,解决黎曼猜想还缺少哪些关键的新想法,我们只是对这些想法的大致方向有一些模糊的感知。
事实上,当韦伊证明了曲线领域的黎曼猜想后,人们都以为黎曼猜想的完整证明很快就会问世。这是我对这段历史的理解。可结果并非如此。所以时至今日,人们依然不知道究竟缺失了哪些新的思路。我们只是隐约能感知到,这些新思路大概会是何种方向。
格雷格:人工智能的发展,有没有让你改变对相关时间的预判?
丹尼尔:其实并没有 —— 我目前还没看到,人工智能展现出开展高质量数学研究所需的任何关键特质。一丝火花都没有。在我看来,解开一道国际数学奥林匹克竞赛题,与开展高质量的数学研究之间的差距,比很多人想象的要大得多。
我的预判基本没什么变化。当下人工智能能助力完成的任务,以及看似很快就能胜任的任务,似乎都并非解决重大未解猜想的核心瓶颈。话虽如此,我依然认为人工智能有 25% 的可能性实现高质量的数学研究。而这其中或许有 5% 的可能性 —— 具体取决于技术的发展路径 —— 它会取得一些颠覆性的突破。
格雷格:聊个轻松的话题:千禧年大奖难题。这些数学领域的重大目标,你觉得它们被解决的可能性有多大?人工智能又是否会做出实质性的贡献?
丹尼尔:我的预判是,未来十年,没有任何一个千禧年大奖难题能由人工智能自主解决。
格雷格:十年?
丹尼尔:总的来说,未来十年能被解决的,我觉得可能是 0 到 1 个。纳维 - 斯托克斯方程的研究据说有了一些进展,不过这并非我的研究领域,但我并不认为它被彻底解决是完全不可能的事。近期有消息称,有一个团队正与深度思维公司合作研究这个问题 —— 他们用的或许更多是传统的深度学习技术,而非大语言模型或推理模型。
格雷格:这七个难题中,庞加莱猜想在被正式提出后不久就被解决了。也就是说,我们的成功先例并非为零。
丹尼尔:但其中有几个难题,比如霍奇猜想,目前来看完全毫无思路,BSD 猜想也是如此。至于黎曼猜想,我们之前也聊过,虽然有一些初步的思路,但根本说不清离最终证明还有多远。可能十年内就能解决,也可能要等上百年。
格雷格:这和你对人工智能发展时间线的其他判断能关联起来 —— 你说五年内人工智能写出《数学年刊》级别的论文有 25% 的可能性,这其中是否也包含了……
丹尼尔:我的看法是,即便人工智能还没开始攻克千禧年大奖难题,实现这一目标也是很有可能的。
格雷格:也就是说,这 25% 的可能性里,攻克千禧年难题的占比其实很小。而你预判的 20 年时间线,其实已经超出了这个范畴 —— 是人工智能经过更久的沉淀和发展之后的事。
丹尼尔:这取决于人工智能的发展速度是否会加快,或者说是否能实现自我迭代。总的来说,我对此持怀疑态度,就像我对所有领域的发展加速论都存疑一样。
格雷格:那我们不妨聊聊数学研究的评估与基准测试。先做一个假设:你说目前还没看到人工智能展现出你认为的关键特质,那这些特质具体是什么?
丹尼尔:我来设想一下,在我看来,人工智能具备这些特质会有哪些信号。
第一,提出一个新颖且有价值的定义,这一点至关重要;
第二,展现出专业的研究品味 —— 比如提出一个有意义的问题,哪怕只是通过猜想发现某种新的数学现象。事实上,很多最重要的数学成果,最初都只是一个猜想。而这一点,目前的人工智能系统很难做到。
第三,构建一套理论 —— 这和提出新定义相关,也就是建立理论体系的能力。目前来看,人工智能还从未展现出过这种能力。不过让我颇感意外的是,现在的模型能在训练中学习人类使用的方法,并加以应用。这也是推理模型的重大突破 —— 它们能掌握成熟的方法,并以较高的可靠性落地应用。
如果人工智能能开发出一种新的研究方法 —— 新方法和旧方法之间本就存在一个连续的发展谱系 —— 只要我能识别出这种创新,那就是一个重要信号。但目前来看,这些特质人工智能一个都不具备。它们会很快拥有吗?或许吧。
格雷格:在数学研究的各项任务中,哪些是人工智能最难攻克的?你提到的构建理论和提出猜想似乎是核心难点,还有其他的吗?
丹尼尔:我要求自己的每一篇论文都包含新的思路,虽然并非所有论文都能做到 —— 有时候你只是找到一个技巧,解决了一个古老的猜想。其实大多数人都很难产生大量新想法,数学家通常一年也就发表 1 到 2 篇论文。和其他学科相比,我们的总产出其实并不算高。
而开发一种新的研究方法,本质上就是提出真正的新想法。可究竟什么才算是新想法?这正是最难的地方。
格雷格:只有当你真正看到时,才会明白。
丹尼尔:没错,这就是核心难点。人们总喜欢拿AlphaGo举例 —— 它的第 37 步棋被称作 “非人类的一步”,是人类棋手永远不会想到的走法。这一步,让人工智能跳出了人类棋手的搜索范围。但如果人工智能只是提出了一个新想法,哪怕这个想法人类也能想到,这算不算另一种形式的 “第 37 步棋”?
有意思的是,其实在这些人工智能系统出现之前,类似的情况就已经存在了。开普勒猜想的证明、四色定理的证明,都是 “非人类的证明”。研究的主导者是人,但绝大部分工作都是由计算机完成的海量案例分析 —— 你可以说这是繁琐的案例分析,也可以说是精妙的,因为数学里没有糟糕的研究,所有正确的结论都是美的。
格雷格:你说过,你会鼓励自己的研究生去适应这种研究方式。
丹尼尔:解决数学问题,本就该不择手段,为什么要自我设限?从这个角度来说,上述的计算机辅助证明其实也算一种 “第 37 步棋”,只不过和人工智能无关。但如果人工智能只是复刻这种证明方式 —— 把海量的案例分析自动化,我不会认为这是它的 “第 37 步棋”,因为人类早就做到过这一点了。
你也可以想象,用Lean定理证明器给出某个难题的证明过程,全程没有任何注释,人类根本无法从中提炼出清晰的论证思路。只要看过Lean的代码就知道,这绝非易事。
但如果我看到人工智能提出了一种我认为的新方法 —— 一种在现有文献中完全找不到先例的方法,那我会感到无比兴奋。
格雷格:我之所以格外关注你的观点,是因为你一直在努力做到实事求是,不随意抬高评价的门槛。
丹尼尔:人总是很容易忍不住抬高门槛。当下,人工智能解决一个问题所能说明的,一方面是 “人工智能具备相应能力”,另一方面也可能是 “这个问题本身并不难”。
数学家们总爱说:“这个问题虽然被人工智能解决了,但它其实很简单,所以我们不必过分高估人工智能的能力。” 在某种程度上,这话是对的。但我们也应该客观评估模型的实际表现,不妨问问自己:如果这是人类写出的答案,我会感到兴奋吗?对于近期人工智能解决的那些数学问题,如果有人告诉我,这是人类用这种方法解决的 —— 现实中也确实有人类做到过 —— 我会说:“哇,这很酷。” 对待人工智能的成果,我也是同样的态度。
格雷格:“哇,这很酷。生活继续。但当下不必贬低这份成果。”
——上篇完,下篇待续——
原文参考资料:
欧拉幂和猜想:
兰德与帕金(Lander & Parkin,1966 年,首个反例)https://www.ams.org/journals/bull/1966-72-06/S0002-9904-1966-11654-3/S0002-9904-1966-11654-3.pdf
埃尔基斯(Elkies,1988 年,四次幂情形)https://www.ams.org/journals/mcom/1988-51-184/S0025-5718-1988-0930224-9/S0025-5718-1988-0930224-9.pdf
埃斯诺尔特与格罗申尼希(Esnault & Groechenig,相伴理论与朗兰兹纲领)https://arxiv.org/abs/1707.00752
德利涅(Deligne)对韦伊猜想的证明(1974 年)http://www.numdam.org/item/PMIHES_1974__43__273_0/
泽塔ζ函数值的无理性:
阿佩里(Apéry)的证明(1978-1979 年)http://www.numdam.org/item/AST_1979__61__11_0/
范德普滕(Van der Poorten)的阐释https://doi.org/10.1007/BF03028234
扎吉尔(Zagier)的计算https://people.mpim-bonn.mpg.de/zagier/files/tex/AperylikeRecEqs/fulltext.pdf
卡莱加里 - 季米特洛夫 - 唐云清(Calegari-Dimitrov-Tang)的近期进展https://arxiv.org/abs/2408.15403
数论中的随机模型:
梅兰妮・马切特・伍德(Melanie Matchett Wood)关于随机矩阵的研究https://doi.org/10.1353/ajm.2019.0008
科恩 - 伦斯特拉(Cohen-Lenstra)启发式https://doi.org/10.1007/BFb0099440
提及的千禧年大奖难题:
黎曼猜想https://www.claymath.org/millennium/riemann-hypothesis/
霍奇猜想https://www.claymath.org/millennium/hodge-conjecture/
贝赫和斯维讷通 - 戴尔(BSD)猜想https://www.claymath.org/millennium/birch-and-swinnerton-dyer-conjecture/
纳维 - 斯托克斯方程https://www.claymath.org/millennium/navier-stokes-equation/
前沿数学:开放式问题基准测试 https://epoch.ai/frontiermath/open-problems
参考资料
https://epoch.ai/epoch-after-hours/daniel-litt-ai-math-capabilities-could-be-jagged-for-a-long-time
小乐数学科普近期文章
·开放 · 友好 · 多元 · 普适 · 守拙·![]()
让数学
更加
易学易练
易教易研
易赏易玩
易见易得
易传易及
欢迎评论、点赞、在看、在听
收藏、分享、转载、投稿
查看原始文章出处
点击zzllrr小乐
公众号主页
右上角
置顶加星★
数学科普不迷路!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.