网易首页 > 网易号 > 正文 申请入驻

陶哲轩谈数学界的新工作流

0
分享至

来源:市场资讯

(来源:图灵人工智能)

您想知道的人工智能干货,第一时间送达


孔某人推荐序:

能看到本文的读者应该众所周知:纯数学是目前LLM攻坚的主要方向之一,在进步速度上没有比Coding慢。

那么在有如此强工具的介入下,现在的数学学界到底怎么样了呢?数学进展飞速了么?而这就是本文回答的问题。

实际上数学进展并没有飞速,而这过程中让大家重新认识了我们为什么需要数学证明,除了能够证明之外我们还需要什么。

从本文可以窥见其他理论领域未来面对的问题,以及对于其他领域应该也有很多参考意义。

title: Terence Tao: New mathematical workflows | Future of Mathematicsurl: https://www.youtube.com/watch?v=Uc2zt198U_Udate: 20260513


文字凝练版

00:00:04

Jared:

我们非常荣幸邀请到Terence Tao作为主讲嘉宾。他是UCLA数学教授,也是IPAM(Institute for Pure and Applied Mathematics)的特别项目主任。

Terry告诉我,几个月前IPAM举办了一场类似主题的会议,这些话题已经在不断涌现。实际上早在2021年的IPAM会议上,他就观察到许多趋势正在汇聚,并为数学界敲响了警钟——我们现在开始看到的进展,以及未来一年可能发生的变化,他很早就在关注了。

Terry在2006年获得了Fields奖,研究涵盖数论、组合学、偏微分方程和分析学。但今天,他将和我们讨论未来几年我们可能需要思考的新数学工作流程。

00:01:26

Terence Tao:

我的演讲会着眼于比其他许多报告更宏观的层面。目前AI辅助数学的前沿水平大约处于解决单个问题的级别——选一个开放猜想,可能写出一篇论文。但数学不仅仅是一堆互不相关的定理和论文的集合,它上面有一整个系统。我认为我们必须开始思考这个更大的系统,甚至可能需要降低问题层面优化的优先级,因为它正开始与系统层面的优化相冲突。

数学作为一个整体,几百年来没有太大变化。如果你回到100年前、200年前的数学会议,也许语言是德语或法语,没有PowerPoint或Beamer,但做数学的方式基本没变。而其他科学在近几十年已经发生了变革——甚至在AI之前就有其他革命。

在其他科学中,大规模协作变得越来越常见。现在多作者论文中不只是两三个合著者,而是10个、50个,这种情况正变得普遍。从图表中可以看到,数学几十年来基本保持在一两个合著者的水平。

另一个变革是数据爆炸。许多科学领域曾处于数据稀缺时代,获取数据很困难。但现在它们进入了数据丰富时代,被数据淹没——也许不是无限数据,但能获取大量数据。基因测序就是一个很好的例子。

我认为在数学中,我们正在进入一个类似的时代。几千年来,我们一直处于"证明稀缺"时代——证明很难找到。现在我们正进入"证明丰富"时代:并非一切都能被证明,但生成证明的能力已经开始远远超过数学其他环节的处理速度。我们必须适应这一点。


传统上,数学工作方式是这样的:少数人一起合作,通常在黑板前。我们仍然经常面对面交流,虽然也能通过Zoom和邮件做一些事情,但主要还是当面。我们仍然使用纸和笔。我们需要每个人都是专家——博士水平的数学家。每个人都审查彼此的工作。

正因如此,我们需要合作者之间的高度信任。特别是因为证明的可靠性取决于最弱的环节——如果有一个不可靠的合作者搞砸了某个关键步骤,而没有其他人审查,整个证明就会崩溃。其他科学有更多鲁棒性,比如一个数据点偏差一点不是大问题。但在纯数学中,我们的论证结构不具备那种鲁棒性。应用数学嘛,某些类型的东西可以容忍一些数值误差。

00:05:31

还有一个我们以前不需要做、但现在变得极为重要的区分——项目有两类目标。

显式目标是我们明确说出来想要的:证明这个定理、解决这个猜想、回答这个问题。但实际上还有许多隐式目标附着于显式目标之上,我们以前不需要专门说明,因为解决显式目标的人类往往自动地也完成了这些隐式目标。但AI不一定会这样做,这正在成为一个重要问题。

比如你和合作者说"我想证明这个猜想",这是显式目标。但在过程中,你同时还在实现各种隐式目标:弄清楚你的证明如何与过去文献关联;自然的后续问题是什么;正在发展什么新技术,它们对其他问题有多大用处;关键困难是什么,如果有多种技术,哪种技术在解决哪个困难;故事是什么,叙事是什么——即高层概览。最后同样重要的是,研究项目的一个主要隐式目标是训练作者自身变得更擅长解题,而且不仅是作者,读论文的人也应该从中提升能力。你不只是想让人看到有个了不起的证明但他们自己无法复现,你还想要训练他们。

这些隐式目标以前不需要明确提出来,因为人类在解题过程中自然会记录困难点在哪里,如果使用了过去文献就会引用它,并且会从项目的成功和失败中学习。

但现在有一个危险,我认为已经开始出现了:AI工具可能会将这些目标彼此解耦。我们开始看到一些AI解决方案,技术上确实解决了显式目标——它们解决了问题——但你看那个解答,它们并没有满足我们期望人类生成的解答所应达到的隐式目标。

也许它们会生成一个猜想的证明,甚至在Lean或其他可靠验证机制中通过了验证,但它们不会引用影响来源——它们会使用论文中的想法但不引用该论文。我们经常发现,这些证明虽然验证正确,但花了大量时间在相当常规的步骤上,而那些新颖且有趣、真正应该被突出的部分,往往只是被塞在论文的某个小节里。它们不一定能提出什么是关键新想法、可以研究什么新问题的洞见,也不会训练任何人类变得更擅长这类任务。

这是当前AI的情况。其中一些缺陷可以通过更好的prompt来改善,但这不是我们以前需要关注的事情。很多解题尝试,人们只是高兴得到了答案,再加上一个Lean验证的勾作为奖励,然后就结束了——"好了,其他任务留给别人去收拾吧。"

但我们即将进入一个时代:会有一个人们关心的问题,有一个AI给出的解答,但没有人能就此作报告——没有任何一个人类能理解这个证明到足以做报告并回答问题的程度。也许你可以说让AI来做报告,但我认为这会是一个非常不令人满意的局面:一个问题被解决了,但整个领域并没有进步,因为我们无法使用这个证明。

00:10:16

传统上我们有同行评审。我不会点名,但确实存在一些人类写的论文解决了问题,却没有很好地解释关键想法或训练下一代。但我们把它们送给审稿人,审稿人可以在一定程度上指出这些问题并部分纠正。随着时间推移,会有后续论文、也许有教材和其他阐释,有一个我称之为"proof digestion"(证明消化)的过程——证明被简化,主要想法被提取,最终可以在某个研究生课上讲授。

但AI生成论文的数量已经使得人类审稿人基本无法处理所有这些任务了,除了最重要的结果之外。所以我们必须转向自动化方法。

形式化证明验证至少可以排除错误的证明,但正确只是我们想要的隐式目标之一。我们还希望证明是可理解的,希望它能指向进一步的方向。形式验证至少免除了审稿人逐行检查正确性的职责——也许这部分可以外包给Lean之类的工具。但即便审稿人只需评估重要性和与文献的联系,数量仍然太大。

那么可以用其他AI评审来评估论文的趣味性、引用是否完整。这可能会有帮助,但并非万无一失。特别是reward hacking是一个非常严重的问题,你不能将其作为主要防线,只能作为额外的过滤器。

我最近一直在用的类比是:AI技术就像汽车的发明。我们现在有了速度快得多的交通工具,但我们的基础设施——期刊、课程、教材、培训学生的方式、审稿系统——来自19世纪,是汽车出现之前的街道。你可以造出更快、更高效、载客更多的车,但交通不仅不会改善,反而会恶化。整个传输网络的容量可能因为你不断改进汽车技术而实际下降。

优化单个人从A到B的原子交通问题,并不能优化整个人口如何尽可能高效地满足交通需求的全局问题。

所以我们需要新的基础设施——设计一个能容纳自动化证明器等新技术的整体数学系统。但你同时也需要"步行道"。汽车很好,但你不会希望它们无处不在——这个房间里就没有汽车,这是有道理的。你需要明确划分:数学的哪些部分允许无限制的AI输入,哪些部分允许部分AI输入——也许是"滑板车"级别的,哪些部分是纯人类的。

在我们建立这样的基础设施之前,拥有更好更快的AI、产出更多证明,超过某个点之后就不再有帮助了。这是我们现在必须面对的问题。我们必须超越传统工作流程——少数人在一起花几个月解决一个问题、消化它、发表它的模式。

00:15:04

还有什么其他工作流程呢?比如Polymath项目,来自21世纪初的"远古时代"——前现代AI时期。我们通过大规模协作解决了一些问题——按数学标准的"大规模",也就是12到20个人在线协作。

大约有15个这样的项目,主要通过博客和wiki运作,典型的2000年代互联网工具。它们能解决一些开放问题,但更典型的做法是拿一个已有证明来优化——比如改进某些界,或者丰富它与其他领域的联系。

这些项目不擅长深度——不像某个数学家在阁楼里闷头工作七年那种挖掘全新洞见。但它们擅长的是广度。因为项目是开放的,你能让来自数学各个领域的几十位专家进来评论。相比传统的三人合作——你只能获取那三个人的专业知识加上文献检索——Polymath项目中,当有人说"我这里需要一个优化理论的引理",很可能就有人跳出来说"我认得这个,这跟某某有联系"。

现代AI与此有相似之处——AI也擅长广度,它们是在整个互联网上训练的,这是它们的超能力之一。

这些Polymath项目还有一个有趣的演化模式:开始是混沌阶段,几百人评论,尝试各种不同方向。然后大多数方向被修剪掉,某一条路径显得有前景,但几百人中可能只有五六人对追踪这条路径感兴趣。于是就像量子波函数坍缩一样,Polymath项目坍缩成三四个人的传统协作,之后要么转到线下,要么继续在线但本质上就是普通合作了。Polymath项目的价值在于识别出正确的方法,并集结出正确的合作者组合。

另外一个不太被认识到但我收到很多反馈的价值是:这些项目足够开放,研究生和刚学数学的人能真正看到问题解决的实际过程。你看论文或听报告,通常都是非常光鲜的成功故事——不会展示死胡同、失败的尝试、以及如何修复问题。但因为Polymath的一切都是公开进行的,大家能看到这些,这是另一个重要价值。

00:18:54

然而,这些项目最终衰退了是有原因的——它们不可扩展。要运行这样的项目,基本上得有人处理涌入的几百条评论,进行审核,温和地劝说那些方向不对的人别再继续推进死路,同时鼓励有前途的方向,还得检查所有贡献。这是在Lean和AI出现之前,一切都是手动完成的,所以基本上得有人把这当全职工作。

而且2000年代初的技术——博客和wiki——也没有GitHub、Overleaf这些工具,连基本的版本控制都没有。所有沟通都是通过文本评论来回传递,而不是用一个GitHub仓库或其他现代工具。这些问题有些可以用现代技术解决,但Polymath项目整体而言,它的时代已经过去了。

举一个最著名的例子——Polymath 8。张益唐证明了素数之间存在有界间距——可以找到无穷多对相差有界的素数。他的计算给出的界是7000万,但他在论文中也指出7000万没什么特别的,这只是他的证明给出的结果,他没有花功夫去优化。但一旦这个结果公布出来,优化它就成了一个非常诱人的目标。

起初是个人作者各自尝试——"我能到6000万"、"我能到5000万"。然后我们把它众包起来,大约一年后,界被降到了246。这是一个成功的众包项目案例,跟传统研究项目很不同。

它之所以成功,有几个关键因素。第一,有明确的目标和清晰的度量标准——这一点对AI领域的人可能很有共鸣,有了度量标准就容易优化、容易做基准测试、可以有排行榜来追踪进展。

第二,它是模块化的,张益唐的证明有若干独立组件,优化其中一个组件的界就能自动改善最终结果,所以可以去中心化,不同小组独立处理不同部分,参与者不需要理解整个项目。

第三,允许部分进展。把7000万改进到300万但没到200万,这仍然有价值。不像很多定理证明——要么证出来要么没有。

第四,可尝试的空间极大,有很多构造方法和变体,一两个人可能无法识别所有可能的优化方向,所以适合众包。

这里展示的就是当时的排行榜——至少是第一页——可以看到界在这一列随时间稳步下降,有些大的突破性跳跃,还有各种组件数字以复杂方式汇入这个总数。但这一切也是手工完成的,这是一个由人类维护者维护的wiki,不是自动生成的。

Polymath项目已经过时了,但它有现代版本——形式化项目。这类项目有非常相似的模块化结构:你要形式化一个大定理,就把它拆成小块,人们可以认领单个部分来形式化。现在我们有了GitHub、Lean和持续集成,验证部分至少可以自动化。项目可以去中心化,不同人认领不同的任务簇,通过论坛进行松散协调。

我们使用现代项目管理方法——有可分配的任务,比起当年只靠博客评论、由人手动追踪谁在做什么,组织化程度高了很多。论坛讨论也更加结构化,可以搜索。

我们正在开始将AI用于这类项目的小型组件。把大定理拆分成很多引理后,有人可以认领一个引理,手动形式化或者交给AI。有时候AI会报告某个结果无法证明,因为存在反例——而这实际上是因为语句的形式化有误。这时你就得回到社区讨论如何修复,可能需要修改其他地方的定义。所以目前还无法完全自动化,有些问题仍需要人类介入,但论坛讨论的形式很适合处理这类协调问题。

00:24:59

不过我们目前面临的挑战是,技术已经超越了基础设施。现在AI不仅能形式化单个定理或引理,还能处理整篇论文——把论文喂给一个自主Agent,它会自己尝试分解和形式化。但我们发现,即使它在技术上成功了,要把结果整合进一个现有的形式化项目仍然很困难。

问题有几方面:项目可能有自己的分解方式,而Agent用了不同的分解方式;风格可能不同;它们可能反复证明类似的语句,而实际上应该提取一个统一的抽象引理调用多次。当前的形式化AI工具没有遵循最佳形式化实践——它们主要被训练来让代码正确编译,这当然是基本条件,但形式化还有其他隐性目标,我们还没有在这些方面正确训练AI。

另一个问题是,现有基础设施——聊天论坛、GitHub这些——都是为人类优化的。AI在形式化过程中遇到问题时,它不会跑到Zulip上发帖提问,等人类回复,然后去修复。也许将来会有AI机器人出现在这些论坛里,但目前人类的协作工作流和AI的自主工作流几乎是不相交的。它们只能在微观层面被粘合:一个人认领一个子任务,私下与AI协作完成,然后回来跟团队沟通。所以整合仍然是一个持续的挑战。

我们可能需要做的是区分两类形式化任务。一种唯一目标就是验证某个定理为真——不关心证明有多丑、代码是否可复用、是否优雅可读,唯一要的就是那个验证勾号。这类任务现在有个流行说法叫"merely true"——我们只知道它被证明了,仅此而已。对于这类没有其他隐性目标的任务,当前AI工具是够用的,你可以直接把它扔给任何LLM。

但还有一类多目标形式化项目,除了形式化本身,你还希望代码优雅、可读、可复用、能和其他代码集成——有很多隐性目标。对于这类项目,在现阶段我们无法让AI超越一定程度,AI必须被限制在解决极度明确的子任务上,人类必须负责编排。也许将来会改变,但目前我们必须做出这种区分。

00:28:45

即便你做了这种区分——把行人区与高速公路分开——仍然会产生一个激励差距的问题。假设有一个你想证明的重大结果,比如有限单群分类定理,你希望得到一个形式化证明。现在假设有一个大规模的自动形式化工程,把所有相关论文都消化了,输出一个百万行的代码仓库,在Lean中证明了有限单群分类定理——但完全是意大利面代码式的证明,没有任何解释说明各部分如何组合在一起,你唯一学到的就是"分类定理是对的"。

这在某种意义上比没有好,但问题来了:如果你还想要一个规范化的形式证明——结构清晰、模块化、识别出关键步骤、整合了文献中的简化证明——突然间激励就消失了。因为我们整个数学社会系统奖励的是"第一个做某事的人"。你不再是第一个形式化这个项目的人了,你能招募到的志愿者会少得多,因为别人会问:"为什么还要做这个?已经做过了。"

这里存在一个悖论:在显式目标上做得更好,可能实际上对更广泛的目标有害。人们不愿做剩余的工作,因为生成激励的显式目标已经达成了。即使有人确实开始做规范的形式化,也存在很大的诱惑去直接从混乱的形式化中抓取代码片段,而不像自己手工编写时那样花精力打磨。

这种速度与质量之间的权衡正变得越来越紧迫。我们在形式化项目中看到了这一点,也在问题求解中看到了——虽然问题求解不是数学家做的唯一事情,但确实是核心组成部分之一。

一个正在实时上演这种动态的实验场是Erdős问题数据库。这是一个问题集合,首先,这些问题所在的数学领域似乎因某种原因特别适合AI方法;其次,它有足够大的问题集且难度梯度多样,你可以清楚地看到进展随时间推移在改善。最重要的是,它有一个网站和论坛,论坛有明确的AI政策,欢迎某些类型的AI贡献。

这一点很重要。其他问题论坛,比如MathOverflow,AI政策限制严格得多,基本是"仅限行人"的区域,AI使用非常有限。因此你在那些网站上看不到多少AI贡献。但另一方面,它们也没有经历Erdős网站正在经历的"交通拥堵"问题。所以这是一个权衡。

00:32:53

Erdős问题大约有一千个。去年9月时,大约380个已被解决,主要来自已有文献。后来陆续有文献中找到的解答、人类的新证明,以及越来越多的AI贡献。

2026年初有一段混乱的爆发期——大约50个问题被通过各种方式解决,有的大量使用了AI,有的完全没用AI,还有混合的。我觉得它们互相催化了,因为大家看到别人都在做这些问题,于是吸引了大量关注。之后进入了一段平台期,基本上所有容易的问题或之前没人看过的问题,现在都已被多个AI和多个人类检视过了。然后就在最近一个月左右,又开始回升——GPT-5.5的发布是一个重要因素。我们开始看到又一批问题被解决。但未解决问题的紫色线仍有六七百个。

要说明的是,这些问题的难度差异极大。有些一页纸就能解决,有些基本上是Annals of Mathematics级别的论文才能解决或取得部分进展。这些是原始数字,没有按难度加权——虽然有些问题确实附有美元奖金(笑),但我们没有尝试做加权处理。

AI在解决这些问题上的用处是多方面的。最早的成功在文献检索方面——大约一年前AI在这方面变得非常强。然后是验证和形式化已有证明,确保其正确性。还有重构——把复杂证明精简为更短的证明,或优化常数。现在AI在生成现有证明的变体方面也非常出色,在各种数值探索和模拟方面也很强。而且越来越常见的是,通过半自主甚至完全自主的方式,只需最少的prompt,就能生成部分或完整的解答。

00:35:44

我们发现了一种阻抗不匹配。解决一个数学问题实际上有三个阶段:第一是证明生成——找到一个完整的证明;第二是证明验证——确保证明没有错误;第三是证明消化——理解关键思想是什么,与已有文献有何关系,叙事是什么,回想起来你自己会怎么想到这个证明,以及现在能回答哪些新问题。

直到大约一年前,这三个阶段都很难,都主要由人类完成。由于它们难度大致相当,我们可以主要关注证明生成——如果你花几个月生成了一个证明,在这过程中你可能也已经完成了验证和消化的工作。我们不需要把这些目标彼此解耦。

但现在随着AI和形式验证的进步,前两个阶段正在变得自动化和快速化,第三个阶段却纹丝未动。于是我们第一次经历了"证明消化不良"——我们在大量生成证明,甚至在验证这些证明,但解决过程并未完成,因为没有人充分理解这些证明到能做报告、能向别人解释的程度。我们没有从这些证明中学到东西——它们只是三分之二的证明。

我认为正确的衡量标准不是证明是否已生成或已验证,而是是否有人能就此做一场报告并接受听众提问。当前AI生成的解答只完成了这个任务的三分之二。

我们在Erdős问题上看到的典型情况是这样的:有人发帖说"在使用GPT-5多次之后,我解决了这个问题",然后写道——"这份草稿通过了几轮AI检查,但我没有时间亲自验证每个细节,因此发在这里,非常感谢任何评论和检查。"这个案例目前仍未被验证。这就是激励差距——这个人加上GPT获得了解决问题的功劳,但清理和验证的后续工作就没人做了。以前这类解答频率很低,志愿者乐意花一小时帮忙。但现在有大约20个这样的待处理案例积压,都说"我没时间检查或解释",这变成了别人的问题。我们确实面临着证明消化不良。

而且AI生成的证明读起来往往令人沮丧。比如Jared今早提到的那个案例——Liam Paninski和GPT解决了Erdős问题1196。GPT生成了大约10页的证明,它是正确的,但你读它时会发现:其中一个关键引理,如果你懂数论,就会知道它就是Mordell定理。但证明中从未提及这一点,只是写"这是一个定理,这是证明"。在人类写的论文中,这里会写"由Mordell定理可知",然后直接往下走。但AI呈现的方式让你觉得这是证明的核心组件,而实际上它只是一个微小的组成部分。人类写作中那些基本的表达特征——强调论证最重要的部分、弱化不重要的部分——在第一代AI生成的证明中往往看不到。

你可以把这些AI证明再喂给其他AI说"请改善表达",这有一点帮助。但由于激励差距,人们的激励往往只是尽快发布第一个证明,而不做清理工作。这正在成为一个问题。

00:40:44

正如我所说,Erdős问题网站现在第一次出现了交通拥堵。我维护着一个记录所有AI数学贡献的wiki页面,其中有一栏是"待评估的提交",以前通常只有一两条,现在有二十条。我们在很多情况下缺乏去审查它们的激励。目前我们会挑选看起来最有希望的、贡献者花了时间清理输出并提供人类可读摘要的那些。我们开始在其中一些上推进,但大量仍在积压——而且可能会永久积压下去。

这种情况到处都在发生。你看所有开源项目的pull request,情况非常类似。期刊很快也会面临同样的问题。

一个明显的应对措施是:我们不看AI生成的解答,除非它附带Lean证明。这会有帮助,但那只是第二道过滤。最终我们会面对大量经过形式验证的AI生成证明,仍然需要被消化。这只是部分解决方案。

我认为,直到最近我们只关注证明生成和证明验证作为两个主要步骤,但现在必须认识到:即使证明被验证了,那也不是解决过程的最终阶段。证明消化是重要的第三阶段——它过去在前两个阶段完成时会有机地发生,但现在我们必须把它显式化、赋予它价值,真正重新定义什么叫"一个解答",并改变激励结构。

这里有一段Bill Thurston非常切题的名言:"我们不是在追求定义、定理和证明的某种抽象产量配额。成功的衡量标准是,我们所做的是否能让人们更清晰、更有效地思考和理解数学。"

以上是AI贡献如何给传统工作流制造瓶颈的情况。但还有另一个选择——建造高速公路。也许我们应该接受传统数学是有速率限制的,它能吸收的AI辅助只有这么多。但存在一些以前不可能、现在借助AI变得可能的新数学方式,也许可以扩展规模——我们也应该去尝试这些。我举几个例子。

00:43:36

第一个是我两年前启动的Equational Theories Project,想看能否通过众包自动证明数以百万计的微定理。我挑了一个非常基础的课题——泛代数(universal algebra)。我生成了一系列代数律,比如交换律、结合律,以及其他4000条律,然后问哪些蕴涵哪些。例如,交换律是否蕴涵结合律?每个满足交换律的二元运算是否自动满足结合律?答案是否定的,因为你可以构造一个满足其一但不满足另一个的反例。但这样的问题有2200万个。任意一个问题,代数方向的研究生用纸笔工作一小时大多能判定真假并给出证明,但我没有2000万个研究生。

而且有少数问题确实很难——当律的长度足够长时,判定蕴涵关系是不可判定问题。我限制了律的长度,只允许使用四次运算,这就给出了4000条律和2200万个问题。

三个月内我们解决了所有问题。大约95%可以完全自动化完成,99%可以用各种方法解决——我们主要用的是传统的自动定理证明器,而非现代AI。最后剩下大约100个真正困难的问题需要人工解决,所有结果都在Lean中形式化了。

这个项目非常适合众包,因为有一个清晰的benchmark——有个dashboard显示还有多少蕴涵关系未解决,数字持续下降。人们可以认领一组问题去研究,整个过程高度去中心化:有人给出人工证明,别人转化为Lean代码,又有人将方法自动化并扫描其他2200万个问题看是否适用,运作得非常好。

现在如果你把这些问题输入前沿模型,它能解决99.9%的问题,甚至给出Lean证明。但它每个问题要思考三十分钟,而你有2200万个问题。我们这个项目没有预算,全靠志愿者。原则上一家大型科技公司的前沿模型可以复现整个项目,但成本极其高昂。所以不应该把前沿模型作为第一道防线——应该先用最便宜的工具,比如上世纪九十年代就有的自动定理证明器,尽可能清除低垂果实,然后逐层升级自动化和人工,把最昂贵的资源——人类专家和前沿AI——留给经过筛选的最困难问题集合。

00:47:05

这个项目的一个副产品是,我现在拥有了2200万个代数问题的数据集,这其实是一个很好的测试集。如果你拿一个开源模型——DeepSeek或Qwen之类——给它这些问题,甚至不要求证明,只问蕴涵关系是真还是假,正确率大约只有55%,几乎跟随机猜测差不多。所以当前开源模型在这类问题上非常弱,但它们比前沿模型便宜得多。

目前我正与Damek Davis合作,在Simons Foundation赞助下运行一个挑战赛,看能否通过更好的prompt来提升开源模型的表现,使其接近前沿模型的水平。我们称之为"蒸馏挑战"或"cheat sheet挑战"——类比考试场景:优等生能轻松拿满分,普通学生只能在真假题上拿50%,但如果给普通学生一页cheat sheet,他们在2200万道题的随机抽样上能否提高正确率?

比赛已经运行了大约三个月。参与者免费注册,提交cheat sheet,在我们的playground上针对各种开源模型做benchmark。第一阶段刚结束,最佳cheat sheet能达到80-90%的正确率,即使我们筛选出特别困难的问题,也能看到显著提升——大致在随机猜测和前沿模型表现的中间水平。

现在我们正在运行第二阶段:参与者不再只提交prompt,而是提交Python代码,可以调用LLM,但有预算限制且只能使用开源模型。目标也不只是回答真假,而是要提供Lean证明或反证。看看效果如何会很有意思。

这类任务中,不受限制地使用AI是完全可以的。人们创建自己的harness,用各种自制工具精炼cheat sheet,结果很有趣,而且不受传统数学瓶颈的限制。所以我认为我们必须区分两类工作:传统工作流因结构性原因仍将以人为主导;但我们也应该开创新的挑战——AlphaProof就是一个AI友好挑战的好例子——在这些领域可以真正发挥现代AI的全部能力。

我们需要生成新挑战,同时对于现有任务比如解题,我们需要改变激励机制。仅仅是第一个证明某件事或第一个形式化定理,这不应该继续被视为首要目标——它只是目标的一部分。阐释和消化正变得远为重要。

更广泛地说,我们需要更善于清晰表达目标。给人类一个任务,人通常不仅理解你明确说出的内容,还能读出言外之意、理解你的隐含目标。但AI就像那些能非常字面地实现愿望的精灵——你让它做什么,它就做什么,但你随后意识到还有其他你也想要但没有说出来的东西。所以我们需要更多思考:我们的目标到底是什么?我们为什么做数学?

00:51:59

观众1:

你提到激励机制的差距,让我想到Szemerédi定理——最初有一个复杂且不透明的证明,之后出现了更具启发性的证明,而这些后续证明同样受到推崇,尽管它们并没有证明什么全新的东西。这个类比对于思考如何应对AI有参考价值吗?

Terence Tao:

是的,这种证明演替在人类数学中已经发生了。第一个证明定理的人往往不是最适合解释证明的人。而且仅仅是知道定理为真这一心理突破,本身就能间接启发其他证明。所以AI给出一个不可压缩的证明仍然有价值——这已经在发生了,很快就有其他证明出现,部分受到AI证明的启发。

但新的问题是阻抗不匹配(impedance mismatch)。以前,愿意消化证明的人数及其能力,大致与生成证明的能力相当。但如果证明生成能力增加了一两个数量级,而消化能力没有提升,就会产生交通拥堵。如果你有十个甚至一百个能产出定理的人,却只有一个能消化这些工作的人,那就是个问题。

观众2:

你提到了"只需形式化验证"的证明类别,Equational Theories Project是个很好的例子。在更传统的数学领域中,有没有类似的情况——不值得去理解实际证明,只需要验证?

Terence Tao:

有的。我现在正在做的数论领域中,有一个分支叫显式解析数论(explicit analytic number theory)。解析数论经常说某个量渐近趋于零,对任意epsilon存在常数C满足某个界,我们大量使用大O记号。但通常我们不写出具体常数,因为太混乱了,就说"存在一个常数",但不写出它具体是什么。

而显式解析数论就是仔细算出所有常数——这个常数是6.5,这个界在N大于10的46次方时成立,诸如此类。这个领域的人极其谨慎,做大量精确数值计算和微优化,工作非常枯燥。但我们又对论文中任何错误都极度偏执,因为这些结果层层叠加相互依赖。

所以我们希望有自动化方式来验证和生成新结果。每当某个界被改进,它如何传播?如何影响其他常数?就像更新Excel表格中的一个单元格,其他单元格也应该随之更新。你没有在做什么有趣的新数学,只是在重新计算,然后用Lean之类的工具验证。这完全适合AI来做——没人想做这种事。传统数学中确实存在这类非常适合外包给AI的任务,我们应该多想想还有哪些类似的项目,让它们与人类数学研究并行运作。

00:56:27

观众3:

你提到证明生成和验证不再那么优先,但我们仍需要proof digestion。你会建议如何改变数学教育?从研究生的分析课到本科的线性代数课,怎样才能适应这种变化?

Terence Tao:

我们还没有答案,但我认为需要降低"得到正确答案"作为主要评估标准的优先级。我们已经处于这样一个时代:几乎任何本科数学课程的随机作业题甚至考试题,AI都能正确解答。

我认为我们需要转向演示、项目、讨论、对话等形式。有一些有趣的实验——哈佛有位数学教授让整个班级协作生成一个prompt,目标是让AI尽可能准确地解答两年前的期末考试。学生分成几个团队:一个负责数据生成(创建新的测试题),一个负责prompt工程(设计好的prompt),一个负责评估AI输出,还有一个负责整体编排协调。最终的prompt大约能正确解答50%的期末考试题,表现令人印象深刻。而且这个过程对所有参与的学生都非常有教育意义。

所以我们需要创造性地应对。至于传统的评估方式,除非你在完全没有AI辅助的环境下进行现场考试,否则我认为基本上已经行不通了。

00:58:45

观众4:

能否用带人类反馈的强化学习(RLHF)来做证明消化?

Terence Tao:

我的简短回答是不行。当你只有一把锤子时,一切看起来都像钉子。你确实可以制造出看起来像证明消化的东西——制定评分标准来判断引用是否正确、要点是否突出,让AI互相评判。但如果你过度依赖这类度量标准,就会出现reward hacking,反而可能让问题更严重——你会得到看起来在解释问题的论文,但很久之后才发现那些解释其实是误导性的,没有强调正确的东西。

消化需要时间。有些论文的影响两年后才被意识到,当时没有任何明显的度量指标能表明这是一个突破。后来在某个语境下发现了与其他数学领域的联系,回顾起来才知道那篇论文预见了当时没人看到的发展。优化有它适用的地方,但也有些事情是优化会伤害的。不能因为优化在某些时候有效,就把它当成解决一切问题的锤子。

Jared:

或许费马是第一个这么干的人——他说空间不够,没法写完证明,堪称第一个"不消化者"。

Terence Tao:

哈哈。确实,现在这个问题更普遍了,但未来我们可以做更多的消化工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一句"出事我赔",车圈如坐针毡

一句"出事我赔",车圈如坐针毡

大刘说说
2026-06-02 14:07:42
“最佳血压”是多少?医生提醒:过60岁,血压最好保持在这个范围

“最佳血压”是多少?医生提醒:过60岁,血压最好保持在这个范围

健康科普365
2026-05-29 21:45:03
百姓躺平摆烂,食税群体怎么办?

百姓躺平摆烂,食税群体怎么办?

律法刑道
2026-06-03 09:30:48
一位教授曾深入调查:中国农村当前最严重问题,不只农民收入太低

一位教授曾深入调查:中国农村当前最严重问题,不只农民收入太低

混沌录
2026-05-13 14:56:43
总决赛G1伤情报告出炉,FMVP榜更新,文班亚马双喜临门

总决赛G1伤情报告出炉,FMVP榜更新,文班亚马双喜临门

世界体育圈
2026-06-03 09:21:53
玄学提醒:你永远不要操心你孩子的命运,看完这段话让你释怀

玄学提醒:你永远不要操心你孩子的命运,看完这段话让你释怀

金沛的国学笔记
2026-05-13 10:55:09
腾讯将推出微信智能体,市值一天上涨3600亿元

腾讯将推出微信智能体,市值一天上涨3600亿元

财经杂志
2026-06-03 10:10:51
台湾42岁老师性侵6年级小学生,4个月9次 生下一孩,判17年仍不服

台湾42岁老师性侵6年级小学生,4个月9次 生下一孩,判17年仍不服

墨策史
2026-06-01 01:30:05
中国电磁弹射完爆SpaceX!火箭发射成本直降90%,马斯克看懵了

中国电磁弹射完爆SpaceX!火箭发射成本直降90%,马斯克看懵了

深析古今
2026-06-03 12:26:30
前特斯拉中国设计中心负责人张海星:具身智能并非重复自动驾驶的故事,最快18个月洗牌

前特斯拉中国设计中心负责人张海星:具身智能并非重复自动驾驶的故事,最快18个月洗牌

澎湃新闻
2026-06-02 14:44:27
法国特种兵突袭11万吨俄罗斯油轮,不到24小时,普京政府准时断供

法国特种兵突袭11万吨俄罗斯油轮,不到24小时,普京政府准时断供

小小科普员
2026-06-03 14:54:50
正大量上市,钾含量是苹果8倍,6月敞开吃,腿脚有劲,精神饱满

正大量上市,钾含量是苹果8倍,6月敞开吃,腿脚有劲,精神饱满

王二哥老搞笑
2026-06-03 13:45:22
魏宗万去世细节曝光:多次住院,拒500万广告靠租房度日

魏宗万去世细节曝光:多次住院,拒500万广告靠租房度日

笑饮孤鸿非
2026-06-03 11:26:05
公安部公布4起污染环境犯罪典型案例

公安部公布4起污染环境犯罪典型案例

界面新闻
2026-06-03 16:38:04
河南房企老板谭小朋去世!年仅38岁,楼盘销冠,妻子悲痛发声

河南房企老板谭小朋去世!年仅38岁,楼盘销冠,妻子悲痛发声

小鋭有话说
2026-06-03 12:11:54
西交大学生周凯旋被判死刑,行刑前拒见家属,孤身赴死!

西交大学生周凯旋被判死刑,行刑前拒见家属,孤身赴死!

华人星光
2026-05-23 10:51:12
CBA消息!杜锋和广东男篮续约,杨鸣拒绝执教北控 胡金秋膝伤加重

CBA消息!杜锋和广东男篮续约,杨鸣拒绝执教北控 胡金秋膝伤加重

中国篮坛快讯
2026-06-03 13:50:10
广西一村庄十几个光棍扎堆晒太阳,直言没老婆再努力也没盼头

广西一村庄十几个光棍扎堆晒太阳,直言没老婆再努力也没盼头

捣蛋窝
2026-06-03 10:51:55
强闯西沙9国退群,中方收拾后,崔天凯严词质问荷兰:何其愚蠢

强闯西沙9国退群,中方收拾后,崔天凯严词质问荷兰:何其愚蠢

阿伧说事
2026-06-03 15:46:49
56岁工地大爷坦言:跳了三个月交谊舞,才明白那些女人的真正意图

56岁工地大爷坦言:跳了三个月交谊舞,才明白那些女人的真正意图

施工员小天哥
2026-06-02 15:14:57
2026-06-03 16:51:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3453886文章数 7788关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

艺术
教育
本地
健康
旅游

艺术要闻

二十年前割麦的场景

教育要闻

盒子里的球怎么算组合?方法太简单!

本地新闻

用杨柳青年画的方式,打开天津

违规干细胞抗衰美容,为何肆无忌惮

旅游要闻

海拔3666米的牛背山,凭啥承接“登超”?

无障碍浏览 进入关怀版