陶哲轩谈 AI：最危险的不是不会，是“看起来没错”|数学|翻译|图灵|定理|推理

陶哲轩谈 AI：最危险的不是不会，是“看起来没错”

2026-01-02 08:02:05　来源: AI深度研究员

上海举报

分享至

全文 2,000字 | 阅读约 6 分钟

（陶哲轩做客 Brian Keating 播客访谈精彩片段）

刚刚上线的一期播客节目中。

菲尔兹奖得主陶哲轩说：AI 最危险的地方，不是它不会，而是它错得太像对了。

AI 把一段推理写得滴水不漏。逻辑链完整，术语齐全，语气笃定。你一读，就有点信了。

可问题是：你无法确认它是不是真的对。

它为什么这么说？
如果错了谁能看出来？
能不能被复现？
能不能被验收？

这些基本问题，AI一落地就会遇到。这不是技术问题，而是责任问题。陶哲轩在节目中从三个层面剖析了这个问题：AI如何模仿、为什么缺乏判断、以及为什么难以验证。

他的结论是：当 AI 的产出越来越像真的，验证它没错的能力，才是真正稀缺的。

这篇文章只围绕一个问题：你有没有能力确认 AI 没错？

第一节：模仿｜AI 在复制思维的外壳

陶哲轩说，现在的 AI 在做数学时，看起来什么都会，但实际上，它根本不知道自己在做什么。

它能写出一段看起来像证明的内容，有定理、有步骤、有“所以”，语气还挺自然。

但如果你深入追问一句：你为什么这么写？

他指出，AI 给的答案完全是逻辑不通（complete nonsense）。明显看出它根本不知道自己在说什么。

这种 AI 更像是一个紧张的学生，在黑板前快速把训练中见过的内容拼凑出来，但他自己不理解这个推理是否合理。

更麻烦的是，你很难确认 AI 是真的推导出来的，还是只是在复述训练数据。

陶哲轩把这个叫做“Contamination”（数据污染）：教科书里有的定理、例题，AI 在训练时都见过。它可能只是在重复训练时见过的内容，而不是在思考。这也是目前大模型在专业领域的一个共同问题：它很会模仿，但不具备判断力。

人类在做一道数学题时，会有基本的直觉。

但 AI 没有。

它是从海量语料中，找到最可能出现的句子接着往下写。它输出的不是逻辑，而是统计概率。

这导致了一个危险后果：这些模型说得越像人、表达越自然，我们越容易下意识相信它是对的，而不去查每一步推理是否真的成立。

尤其在数学里，只要有一环错了，整个结论就全盘崩塌。但 AI 不会告诉你哪一步有问题，它甚至不知道它错了。

这不是 AI 错得离谱，而是错得太像真的了，这才是陶哲轩最担忧的地方。

第二节：动机｜AI说不清为什么这么做

“那它为什么能错得这么像？”

在陶哲轩看来，AI 在数学里的表现，不止是缺逻辑，更严重的是它对问题本身没有理解。

一个真正懂数学的人，在面对一个新问题时，心里首先会冒出的是：

这个问题值不值得解？
它跟哪些已知知识有关？
有没有什么有趣的定理或者公式可以利用？

而 AI 没有这种判断。

它写出某个定理，不是因为它知道这个定理在证明中起关键作用，而是见过这样的证明，就照着写。

陶哲轩强调，AI 不具备价值判断，它不知道这件事为什么重要，也不知道哪些问题更值得解决。数学世界里最难的从来不是怎么做，而是做什么。

一个真正的突破，往往来自提了一个没人想到的问题。

但 AI 只能解决现成的问题，没法提出新问题。

这就是 AI 的本质：它能帮你回忆已知的东西，但你必须自己判断哪些是真的、哪些更有价值。

AI 不知道什么重要、什么不重要。它不是不会做，而是不知道该做什么。

因为它缺乏动机。

第三节：验证｜AI 写的东西过不了检查

就算 AI 知道该做什么，还有一个更致命的问题：它写出来的东西，往往过不了检查。

在数学里，答案只是起点，真正重要的，是你怎么一步步推出来的。

一个结论成立，不是因为它听起来合理，而是因为它可以被检查、被追溯、被验证。

数学家出错是正常的，大师也不例外。但人类的证明有个优势：推导过程清晰。所以哪怕有漏洞，同行也能检查出问题。

而 AI 给出的，缺少这种推导过程。

这不只是数学问题。

律师用 AI 生成法律文书，发现引用的判例根本不存在。据报道，有律师因为没验证 AI 生成的案例引用，在法庭上被当场拆穿，最后被罚款。
程序员用 AI 写代码，看起来能跑，但埋了安全漏洞。没仔细审查就上线，等发现时损失已经造成。
金融分析师用 AI 生成投资报告，数据来源、计算逻辑都说不清楚。你敢拿这个给客户做决策吗？

问题的核心都一样：AI 给你一个“看起来对”的结果，但你很难验证每一步是否站得住脚。

怎么办？陶哲轩的答案是：

只在你能验证的范围内使用 AI。

也就是说，不是不用 AI，而是必须把 AI 和验证工具配对使用。AI 负责生成，人类或自动验证系统负责检查。

超出验证能力的部分，不要碰。

在这个前提下，AI 的价值在哪？

陶哲轩认为，AI 的真正价值，不在于攻克那些最顶级的数学难题，而在于处理数百万个不够重要、不值得顶尖数学家花时间、但又有一定价值的中等难度问题。

这些问题数量太大，人类研究者太少，处理不过来。而 AI 的优势恰恰在于规模：哪怕它只能解决这 100 万个问题中的10%，那也是 10 万个已解决的问题。

除了批量处理，在日常研究中，AI 也能发挥辅助作用。比如文献综述：某类问题可能已经有十几种解决方法，你在研究时可能记得六个，忘了另外六个。这时 AI 能提醒你那些你忘记的方法。当然，它可能还会幻觉出三个根本不存在的方法，所以你必须验证。

甚至，AI 还能帮你从数据中找到隐藏的规律。

陶哲轩举了一个实际案例：纽结理论中，有个叫 signature 的不变量，神经网络发现它可以从一堆其他不变量中高精度预测出来。

一开始这只是个黑箱：你输入20个数，它吐出一个预测，90%的时候是对的。但研究者可以分析这个黑箱，调整输入，看输出怎么变化。

最后他们发现：这20个输入里，3个真正重要，另外17个几乎没用。通过这种分析，他们反推出了背后的数学关系，最终证明了它。

这些才是 AI 的正确用法：不是让它直接给答案，而是让它提供线索、找出可能性，然后由人类去判断、去验证、去决策。

无论是数学研究、法律文书、代码审查，还是投资分析，AI 适合当批量处理工具和辅助工具，而不是最终决策者。

前提是：有人能验收它生成的内容，确认哪些能用、哪些不能用。

用 AI，可以。

但要记住一句话：信任，但必须验证。

结语｜它不是会做数学，是在表演“会”

AI 最危险的，不是它不会，是它表现得像会。

它能写出看起来完整的推理，但说不清为什么。
它能复述训练数据里的内容，但判断不了重要性。
它能排列出推理的格式，但经不起逐步检查。

你很难从表面判断：它是真懂，还是在照搬？是在推理，还是在东拼西凑？

这才是陶哲轩真正担心的事：

AI 做得越像真的，你就越容易信它。但它错得也越像对的，你就越难发现。

识自AI

本文由AI深度研究院出品，内容翻译整理自陶哲轩在 Brian Keating 播客访谈等网上公开素材，属翻译整理性质。内容为原文翻译与合理编译，未逐字复制原访谈材料。未经授权，不得转载

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.youtube.com/watch?v=ukpCHo5v-Gc&t=1614s

https://pmc.ncbi.nlm.nih.gov/articles/PMC5352490/?utm_source=chatgpt.com

https://www.lingexp.uni-tuebingen.de/z2/Morphology/baroni.rows

https://x.com/DrBrianKeating

https://mathstodon.xyz/%40tao/114967652676795985

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

陶哲轩谈 AI：最危险的不是不会，是“看起来没错”

台积电市值破2万亿美元，翻倍只用了16个月

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

老人被大狗撕咬骨折住进ICU 犬主付1000元后驾车离开

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

撒贝宁到沈阳跑亲戚 老婆李白模特身材

春节档"开门黑" 电影票少卖了7000万张

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

花园宝宝致敬过这一段

中央民族大学2026年美术类专业复试考场安排

转头就晕的耳石症，能开车上班吗？

艺居办公 温度与效率

这位艺术家的马赛克画让人惊叹不已！

曝雄鹿计划今夏追小卡字母哥渴望与其并肩作战

撒贝宁到沈阳跑亲戚老婆李白模特身材

艺居办公温度与效率