全文 2,000字 | 阅读约 6 分钟
![]()
(陶哲轩做客 Brian Keating 播客访谈精彩片段)
刚刚上线的一期播客节目中。
菲尔兹奖得主陶哲轩说:AI 最危险的地方,不是它不会,而是它错得太像对了。
AI 把一段推理写得滴水不漏。逻辑链完整,术语齐全,语气笃定。你一读,就有点信了。
可问题是:你无法确认它是不是真的对。
它为什么这么说?
如果错了谁能看出来?
能不能被复现?
能不能被验收?
这些基本问题,AI一落地就会遇到。这不是技术问题,而是责任问题。陶哲轩在节目中从三个层面剖析了这个问题:AI如何模仿、为什么缺乏判断、以及为什么难以验证。
他的结论是:当 AI 的产出越来越像真的,验证它没错的能力,才是真正稀缺的。
这篇文章只围绕一个问题:你有没有能力确认 AI 没错?
第一节: 模仿|AI 在复制思维的外壳
陶哲轩说,现在的 AI 在做数学时,看起来什么都会,但实际上,它根本不知道自己在做什么。
它能写出一段看起来像证明的内容,有定理、有步骤、有“所以”,语气还挺自然。
但如果你深入追问一句:你为什么这么写?
他指出,AI 给的答案完全是逻辑不通(complete nonsense)。明显看出它根本不知道自己在说什么。
这种 AI 更像是一个紧张的学生,在黑板前快速把训练中见过的内容拼凑出来,但他自己不理解这个推理是否合理。
更麻烦的是,你很难确认 AI 是真的推导出来的,还是只是在复述训练数据。
陶哲轩把这个叫做“Contamination”(数据污染):教科书里有的定理、例题,AI 在训练时都见过。它可能只是在重复训练时见过的内容,而不是在思考。这也是目前大模型在专业领域的一个共同问题:它很会模仿,但不具备判断力。
人类在做一道数学题时,会有基本的直觉。
但 AI 没有。
它是从海量语料中,找到最可能出现的句子接着往下写。它输出的不是逻辑,而是统计概率。
这导致了一个危险后果:这些模型说得越像人、表达越自然,我们越容易下意识相信它是对的,而不去查每一步推理是否真的成立。
尤其在数学里,只要有一环错了,整个结论就全盘崩塌。但 AI 不会告诉你哪一步有问题,它甚至不知道它错了。
这不是 AI 错得离谱,而是错得太像真的了,这才是陶哲轩最担忧的地方。
第二节: 动机|AI说不清为什么这么做
“那它为什么能错得这么像?”
在陶哲轩看来,AI 在数学里的表现,不止是缺逻辑,更严重的是它对问题本身没有理解。
一个真正懂数学的人,在面对一个新问题时,心里首先会冒出的是:
这个问题值不值得解?
它跟哪些已知知识有关?
有没有什么有趣的定理或者公式可以利用?
而 AI 没有这种判断。
它写出某个定理,不是因为它知道这个定理在证明中起关键作用,而是见过这样的证明,就照着写。
陶哲轩强调,AI 不具备价值判断,它不知道这件事为什么重要,也不知道哪些问题更值得解决。数学世界里最难的从来不是怎么做,而是做什么。
一个真正的突破,往往来自提了一个没人想到的问题。
但 AI 只能解决现成的问题,没法提出新问题。
这就是 AI 的本质:它能帮你回忆已知的东西,但你必须自己判断哪些是真的、哪些更有价值。
AI 不知道什么重要、什么不重要。它不是不会做,而是不知道该做什么。
因为它缺乏动机。
第三节: 验证|AI 写的东西过不了检查
就算 AI 知道该做什么,还有一个更致命的问题:它写出来的东西,往往过不了检查。
在数学里,答案只是起点,真正重要的,是你怎么一步步推出来的。
一个结论成立,不是因为它听起来合理,而是因为它可以被检查、被追溯、被验证。
数学家出错是正常的,大师也不例外。但人类的证明有个优势:推导过程清晰。所以哪怕有漏洞,同行也能检查出问题。
而 AI 给出的,缺少这种推导过程。
这不只是数学问题。
律师用 AI 生成法律文书,发现引用的判例根本不存在。据报道,有律师因为没验证 AI 生成的案例引用,在法庭上被当场拆穿,最后被罚款。
程序员用 AI 写代码,看起来能跑,但埋了安全漏洞。 没仔细审查就上线,等发现时损失已经造成。
金融分析师用 AI 生成投资报告,数据来源、计算逻辑都说不清楚。 你敢拿这个给客户做决策吗?
问题的核心都一样:AI 给你一个“看起来对”的结果,但你很难验证每一步是否站得住脚。
怎么办?陶哲轩的答案是:
只在你能验证的范围内使用 AI。
也就是说,不是不用 AI,而是必须把 AI 和验证工具配对使用。AI 负责生成,人类或自动验证系统负责检查。
超出验证能力的部分,不要碰。
在这个前提下,AI 的价值在哪?
陶哲轩认为,AI 的真正价值,不在于攻克那些最顶级的数学难题,而在于处理数百万个不够重要、不值得顶尖数学家花时间、但又有一定价值的中等难度问题。
这些问题数量太大,人类研究者太少,处理不过来。而 AI 的优势恰恰在于规模:哪怕它只能解决这 100 万个问题中的10%,那也是 10 万个已解决的问题。
除了批量处理,在日常研究中,AI 也能发挥辅助作用。 比如文献综述:某类问题可能已经有十几种解决方法,你在研究时可能记得六个,忘了另外六个。这时 AI 能提醒你那些你忘记的方法。当然,它可能还会幻觉出三个根本不存在的方法,所以你必须验证。
甚至,AI 还能帮你从数据中找到隐藏的规律。
陶哲轩举了一个实际案例:纽结理论中,有个叫 signature 的不变量,神经网络发现它可以从一堆其他不变量中高精度预测出来。
一开始这只是个黑箱:你输入20个数,它吐出一个预测,90%的时候是对的。但研究者可以分析这个黑箱,调整输入,看输出怎么变化。
最后他们发现:这20个输入里,3个真正重要,另外17个几乎没用。通过这种分析,他们反推出了背后的数学关系,最终证明了它。
这些才是 AI 的正确用法:不是让它直接给答案,而是让它提供线索、找出可能性,然后由人类去判断、去验证、去决策。
无论是数学研究、法律文书、代码审查,还是投资分析,AI 适合当批量处理工具和辅助工具,而不是最终决策者。
前提是:有人能验收它生成的内容,确认哪些能用、哪些不能用。
用 AI,可以。
但要记住一句话:信任,但必须验证。
结语|它不是会做数学,是在表演“会”
AI 最危险的,不是它不会,是它表现得像会。
它能写出看起来完整的推理,但说不清为什么。
它能复述训练数据里的内容,但判断不了重要性。
它能排列出推理的格式,但经不起逐步检查。
你很难从表面判断:它是真懂,还是在照搬?是在推理,还是在东拼西凑?
这才是陶哲轩真正担心的事:
AI 做得越像真的,你就越容易信它。但它错得也越像对的,你就越难发现。
识自AI
本文由AI深度研究院出品,内容翻译整理自陶哲轩在 Brian Keating 播客访谈等网上公开素材,属翻译整理性质。内容为原文翻译与合理编译,未逐字复制原访谈材料。未经授权,不得转载
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://www.youtube.com/watch?v=ukpCHo5v-Gc&t=1614s
https://pmc.ncbi.nlm.nih.gov/articles/PMC5352490/?utm_source=chatgpt.com
https://www.lingexp.uni-tuebingen.de/z2/Morphology/baroni.rows
https://x.com/DrBrianKeating
https://mathstodon.xyz/%40tao/114967652676795985
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.