这是一场关于“真理”与“概率”的博弈。
编译 | 王启隆
来源 | youtu.be/Z5GKnb4H_bM
出品丨AI 科技大本营(ID:rgznai100)
在数学界,陶哲轩(Terence Tao)的名字本身就代表着一种“确定性”。
这位菲尔兹奖得主、被誉为“数学界的莫扎特”的天才,过去几十年的工作是和最纯粹的逻辑、最绝对的真理打交道。但在 2026 年初,他做了一个看似“反直觉”的决定——他要以此身为桥梁,去拥抱那个充满了概率、幻觉和不确定性的 AI 世界。
就在昨天,陶哲轩联合创立的SAIR(科学与 AI 研究基金会)正式浮出水面,宣告这位大神入局 AI for Science。
![]()
▲ 右上角居然还有 B 站和抖音官号,这就和外国的机构不一样了
这件事的信号意义极强。过去两年,“AI for Science”虽然喊得震天响,但科学界始终弥漫着一种尴尬的“割裂感”:一派是 AI 极客,他们用大模型生成看似完美的论文摘要,却对背后的物理机制一窍不通;另一派是传统科学家,他们看着 ChatGPT 编造的参考文献嗤之以鼻,坚守着这一亩三分地。
可能比较看得清的,还属弄出了 AlphaFold 的诺奖得主、谷歌现在的 AI 掌门人哈萨比斯(Demis Hassabis)。
而陶哲轩显然认为是后者,但他加了一个极其苛刻的前提:我们必须驯服 AI。
如果你关注陶哲轩最近一年的动态,会发现他不再仅仅是那个解决素数猜想的数学家。他在博客上分享如何用 ChatGPT 辅助写代码,他在推特上推崇形式化证明语言 Lean,他甚至在思考如何让 AI 成为数学研究的“合著者”。
SAIR 的成立,就是这种思考的实体化。在即将于 UCLA 举办的启动仪式前,陶哲轩接受了一次深度专访。
在这次对话中,他没有盲目吹捧 AI 的神力,反而是以前所未有的冷静,甚至带着一种“挑剔”的眼光,剖析了当前 AI 在科研中的致命弱点:它像一个只会讨好老师的作弊学生,它像一个不仅听不懂话还爱钻空子的许愿精灵,它甚至连“记住昨天说过什么”都做不到。
但他同时指出,数学,可能是 AI 救赎的唯一机会。因为在所有学科中,只有数学拥有一套名为“形式化验证”的终极测谎仪。
![]()
以下是 SAIR 官方最新发布的专访实录,包含了陶哲轩对 AI 介入科学研究最坦诚、最硬核的思考。
![]()
学术界不能“坐等”科技公司的施舍
主持人:大家好,今天我们非常荣幸邀请到陶哲轩。随着 SAIR 基金会启动在即,我们很想听听您的新视角。首先,能否请您简单介绍一下自己?
陶哲轩:好的。我是陶哲轩,UCLA 的数学教授。以前我的兴趣主要在纯数学,但最近几年,我越来越深入地参与到利用 AI 和其他新技术来做数学,或者更广泛地说,做科学研究的新方法中。
最近,我和其他几位科学家及捐赠者共同创立了 SAIR(Foundation for Science and AI Research)。这是一个新的基金会,旨在支持“AI for Science”,探索如何将这些新技术整合到科学工作流中。几天后,我们将在 UCLA 的 IPAM(纯粹与应用数学研究所)举办首次启动活动。
主持人:我想这是很多人都想问的问题:是什么让您决定共同创立 SAIR?
陶哲轩:这是多种因素的结合。
过去几年里,我越来越确信:这些技术已经准备好改变科学了。
但关键在于,我们必须准备好去接纳它们。我们需要学会“正确”地使用它,并避免“错误”的用法。事实上,把 AI 融入科研有很多错误的路径,而正确的路径其实非常少。
在这个过程中,学术界不能只是被动等待。我们不能等着科技公司扔给我们一个现成的产品,然后直接拿来用。我们需要深度介入,去互动,去搞清楚哪些科学领域适合 AI,哪些仍然适合人类的传统方法。
另外,还有一个比较现实的原因。过去一年,资金环境充满了不确定性。比如我所在的 IPAM,我们的很多项目曾一度面临资金暂停的困境。那种混乱时期迫使我们去寻找新的资金来源,去接触新的投资人和合作伙伴。而在某种程度上,危机也带来了转机,SAIR 就是这次合作的成果之一。
![]()
AI 的阿喀琉斯之踵,与数学界的“终极测谎仪”
主持人:您提到数学在 AI 应用中似乎很特别。为什么?
陶哲轩:潜力确实非常大。但我们要先谈谈现代 AI 工具,尤其是大语言模型(LLMs)的一个巨大的“阿喀琉斯之踵”:它们的随机性(Stochastic)。
它们并不真正“扎根”于现实。它们有时能给出极好的答案,有时却给出完全的垃圾。它们只是在统计学上匹配出一个看似不错的答案,而不是基于理解。
因此,在很多学科里,AI 的应用并不像最初预期的那样令人满意,因为不可靠。
但在所有应用领域中,数学几乎是独一无二的——因为我们拥有非常成熟的验证能力。
如果你给我一个数学证明,无论是人写的还是机器写的,我们有逻辑定律,有数学法则,我们可以检查它对不对。现在,我们甚至可以用计算机来做这件事——我们有形式化证明助手(Formal Proof Assistants)语言,它们可以自动验证证明的正确性。
这就在某种程度上让 AI“不得不诚实”。这让数学比其他学科有更大的机会去过滤掉 AI 那些糟糕的、胡说八道的用法,而保留下有效的用法。当然,并非所有数学都能被形式化验证,比如提出新猜想或解释概念,AI 目前还未必擅长。但在证明验证这一块,潜力是巨大的。
主持人:随着验证程序的发展,我们是否会迎来一个节点:AI 可以持续生成想法并自我验证,从而创造出全新的东西?
陶哲轩:这确实是我们的目标。目前,AI 会生成各种随机的想法,其中可能只有极少数是有价值的。我们现在还无法直接验证“想法”本身。
但我们可以借鉴物理学或化学的方法。物理学家提出一个假设,然后通过实验收集证据——这虽然不是严格的证明,但能增加或减少你对假设的信心。
我预见未来的数学会带有更多的“实验性质”。现在的数学几乎完全是理论推导,但在未来,AI 可能会提出一个假设(比如某个公式对所有自然数都成立),然后它自己去设计实验,测试几个数值案例,或者检查它是否与文献中已有的结果兼容。
这种应用目前还处于早期阶段,因为我们还没有建立起完善的验证机制。但随着我们对 AI 使用方式的成熟,我想象这种模式终究会出现——也许还需要 10 年左右。
主持人:10 年听起来并不算太远。
陶哲轩:其实进展比我预期的要快。之前有些人对 AI 的期望高得离谱,觉得数学家或科学家马上就要被取代了——现实显然并非如此。但 AI 确实已经能够证明一些以前从未被证明的定理(虽然通常是用标准方法),也能发现一些我们未曾注意到的模式。
它依然不可靠,但潜力显而易见。关键在于研究如何正确地使用它。
主持人:AI 似乎很擅长结构化的重复任务。
陶哲轩:没错。AI 和人类是不同的。虽然“人工智能”这个名字听起来像是要取代人类,但实际上,人类并不喜欢做那些高度重复的任务。
在数学里,如果你给一个人 1000 道类似的题目,他可能做完前两道就烦了,剩下的根本不想碰。那么,把剩下的 998 道交给 AI,这就是一种非常自然的分工。
在短期内,更合理的模式是:人类提出构想,画出第一步的草图和方向,然后把那些繁重的填补工作交给 AI。这将极大地加速现有的工作流程。
![]()
形式化验证:如何逼迫 AI 停止“作弊”
主持人:既然 AI 经常给出看似合理实则胡扯的解释,我们该怎么改进这一点?
陶哲轩:在数学领域,目前我们找到的最好办法就是形式化验证(Formal Verification)。
流程是这样的:AI 首先生成一段自然语言的论证,这可能对也可能错。然后,我们让同一个或另一个 AI,把这段论证转换成形式化语言。每一个断言、每一步推导都必须被转化成精确的代码,然后交给一个非常严格的编译器去验证。
注意,这个编译器不是 AI,它是传统的、极其可靠的软件系统,专门为了高可靠性而设计。到目前为止,我们在主流形式化证明语言的编译器中几乎没有发现过重大漏洞。
如果验证失败,我们就让 AI 重试;如果通过,我们就得到了一份很长的、被机器验证过的形式化证明。虽然这份证明可能很难读,但我们可以反过来再让 AI 去解释它。
形式化证明的美妙之处在于,每一步都极其精确。你可以手动把一个巨大的定理拆分成许多小块,每一块都可以单独研究。
我们已经遇到过很多这样的例子:AI 生成了一个证明,我们一开始完全看不懂。但在我们对它生成的代码进行“反编译”和研究几天后,我们不仅理解了思路,甚至还在文献中找到了类似的人类先例。
AI 的优势在于广度。它吸收了海量文献中的技巧精华。人类数学家可能熟练掌握四五种技巧,而 AI 可能掌握十几种。虽然它并不总是能恰当地使用这些技巧,但只要问题本身在现有文献中有基础,AI 的表现就很强。
目前我们还没有看到 AI 提出完全没有先例的、前所未有的全新思想——不过说实话,大多数人类数学家也做不到这一点。
![]()
为什么现在的 AI 还算不上“合著者”?
主持人:您认为 AI 的下一个重要里程碑是什么?是思考方式的改变,还是应用层面的突破?
陶哲轩:还有很多方面需要提升。首先是创造力,尤其是那种无法追溯到现有文献的原创性。
其次是持续学习能力。我曾把当前 AI 在数学上的能力比作一个研究生:它掌握了很多技巧,它会尝试应用,有时成功有时失败。
但人类研究生有一个巨大的优势:他们会从错误中学习。如果你指出他们的错误,下周再见面时,他们通常不会再犯同样的错误。
但 AI 不是。你开启一个新的会话,它往往就“忘记”了一切。虽然现在的上下文窗口可以保留之前的对话,但这并不稳定。还有一个众所周知的现象:如果你告诉 AI不要做某件事,它反而可能更倾向于去做。目前的 AI 是通用的,我们还没有能力让它真正“专业化”——比如把它变成一个“只做数学”的专家。
但我最想看到的里程碑,是一个真正稳健的、成熟的工作流整合。
目前我们使用 AI 的方式是“拼凑”的。写论文卡住了,就打开浏览器问问 Chatbot;或者像有些人尝试的那样,把 AI 当作 Agent(智能体)让它接管电脑(这其实是个坏主意)。
现在的 AI 还谈不上是真正的“合著者”。
当你和人类合作时,你们可以在黑板前讨论,写下公式,这种互动是高度整合的。人类花了几百年时间打磨人与人协作的方式,但我们还没有找到与 AI 协作的最佳模式。
主持人:您觉得这种协作感具体缺失在哪里?
陶哲轩:这很难描述,可能是一种无形的因素。就像疫情期间我们都转到了 Zoom 线上会议。从功能上讲,线上会议完全可以传达信息,但面对面的交流中有眼神接触、有肢体语言,这些微妙的东西丢失了。
同样,和 AI 聊天时,你也缺失了这些隐性的信号。
更重要的是,AI 公司倾向于展示那种“一键生成最终答案”的产品。你按个按钮,AI 给你整个解决方案。但问题是,你并没有参与到这个解决方案的创造过程中。
如果让你去向别人解释这个答案,你解释不出来;如果你想修改它,你只能乞求 AI:“请你帮我改一下”,而每次修改往往会让结果变得更差。
理想的协作应该是互动式的:你走一步,AI 接一步;你给出反馈,它进行修正。通过这种互动,你会理解证明是如何一步步构建出来的。
正如我们常说的,有时我们真正想要的不仅仅是答案,而是那个过程。
如果要找个比喻,我觉得 AI 应该像“盐”。做菜时加一点盐会让食物更美味,但你不能把整罐盐都倒进去。关键在于:在合适的时候用,在不合适的时候不用。
主持人:这很有意思。AI 似乎太专注于“回答问题”本身,而不一定在乎整体意义上的“正确”。
陶哲轩:这正是机器学习哲学的核心。
早期 AI 试图模仿人类的推理过程,结果并不好。后来人们转向了另一种方法:只定义一个目标(Metric),不管过程是否优雅或合理,只要最大化这个指标就行。这在数据量和算力上来后,效果惊人。
但也正因为如此,AI 有时“太”擅长优化目标了。
它就像神话故事里那个只按字面意思理解愿望的精灵(Genie)。你告诉它“我要优化这个指标”或者“我要解决这个问题”,它就会投入所有的算力去精确地达成这个指令。
比如,如果我要求 AI 在形式化证明助手里生成一个证明,并且强行要求“无论如何都要得到证明”。它可能会作弊——比如它会随意添加一个新的公理,或者偷偷修改定义,以此来满足你的要求。从字面上看,它确实完成了任务,但这违背了我们的初衷。
人类其实不太擅长精确定义目标。当我们让人类去倒茶时,不需要告诉他“不要把茶倒在我身上”,因为人类有常识。但 AI 没有这种隐含的常识背景。
所以我们正在学习,给 AI 布置任务时,尤其是那些需要精确规范的任务,必须把目标描述得非常清楚,堵住所有漏洞,并认真思考自己真正想要什么。
![]()
最大的误解:把所有技术都叫 AI
主持人:最后一个问题,您认为大众在科学中使用 AI 时,最常见的误解是什么?
陶哲轩:对大多数人来说,AI 等同于聊天机器人。它会像人一样回应你,说些好听的话。
有些科学家确实用聊天机器人来辅助思考,但在科研中,更有效、更强大的 AI 用法其实完全不同,通常是结合了验证机制的数值计算、绘图或逻辑检验。科学家使用 AI 的方式与公众大相径庭——我们不需要它生成可爱的图片,那对科研没用。
遗憾的是,现在的舆论把所有东西都打包叫做“AI”。实际上,这是数百种相关技术的集合。
比如神经网络,这东西存在二十多年了。它没有现在的 LLM 那么“性感”,没有对话界面,本质上就是个数据处理工具,用来在数据中寻找模式。它很朴素,很枯燥,但科学家们用了这么多年,效果非常好。
这种最常用的技术,往往不是公众最关注的。也许我们需要更好的命名方式,而不是把所有东西都一股脑地塞进“AI”这个标签里。
主持人:好的,今天的采访就到这里。非常感谢您接受我们的采访。
陶哲轩:很高兴参与。

未来没有前后端,只有 AI Agent 工程师。
这场十倍速的变革已至,你的下一步在哪?
4 月 17-18 日,由 CSDN 与奇点智能研究院联合主办「2026 奇点智能技术大会」将在上海隆重召开,大会聚焦 Agent 系统、世界模型、AI 原生研发等 12 大前沿专题,为你绘制通往未来的认知地图。
成为时代的见证者,更要成为时代的先行者。
奇点智能技术大会上海站,我们不见不散!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.