网易首页 > 网易号 > 正文 申请入驻

陶哲轩谈 AI:最危险的不是不会,是“看起来没错”

0
分享至

全文 2,000字 | 阅读约 6 分钟


(陶哲轩做客 Brian Keating 播客访谈精彩片段)

刚刚上线的一期播客节目中。

菲尔兹奖得主陶哲轩说:AI 最危险的地方,不是它不会,而是它错得太像对了。

AI 把一段推理写得滴水不漏。逻辑链完整,术语齐全,语气笃定。你一读,就有点信了。

可问题是:你无法确认它是不是真的对。

  • 它为什么这么说?

  • 如果错了谁能看出来?

  • 能不能被复现?

  • 能不能被验收?

这些基本问题,AI一落地就会遇到。这不是技术问题,而是责任问题。陶哲轩在节目中从三个层面剖析了这个问题:AI如何模仿、为什么缺乏判断、以及为什么难以验证。

他的结论是:当 AI 的产出越来越像真的,验证它没错的能力,才是真正稀缺的。

这篇文章只围绕一个问题:你有没有能力确认 AI 没错?

第一节: 模仿|AI 在复制思维的外壳

陶哲轩说,现在的 AI 在做数学时,看起来什么都会,但实际上,它根本不知道自己在做什么。

它能写出一段看起来像证明的内容,有定理、有步骤、有“所以”,语气还挺自然。

但如果你深入追问一句:你为什么这么写?

他指出,AI 给的答案完全是逻辑不通(complete nonsense)。明显看出它根本不知道自己在说什么。

这种 AI 更像是一个紧张的学生,在黑板前快速把训练中见过的内容拼凑出来,但他自己不理解这个推理是否合理。

更麻烦的是,你很难确认 AI 是真的推导出来的,还是只是在复述训练数据。

陶哲轩把这个叫做“Contamination”(数据污染):教科书里有的定理、例题,AI 在训练时都见过。它可能只是在重复训练时见过的内容,而不是在思考。这也是目前大模型在专业领域的一个共同问题:它很会模仿,但不具备判断力。

人类在做一道数学题时,会有基本的直觉。

但 AI 没有。

它是从海量语料中,找到最可能出现的句子接着往下写。它输出的不是逻辑,而是统计概率。

这导致了一个危险后果:这些模型说得越像人、表达越自然,我们越容易下意识相信它是对的,而不去查每一步推理是否真的成立。

尤其在数学里,只要有一环错了,整个结论就全盘崩塌。但 AI 不会告诉你哪一步有问题,它甚至不知道它错了。

这不是 AI 错得离谱,而是错得太像真的了,这才是陶哲轩最担忧的地方。

第二节: 动机|AI说不清为什么这么做

“那它为什么能错得这么像?”

在陶哲轩看来,AI 在数学里的表现,不止是缺逻辑,更严重的是它对问题本身没有理解。

一个真正懂数学的人,在面对一个新问题时,心里首先会冒出的是:

  • 这个问题值不值得解?

  • 它跟哪些已知知识有关?

  • 有没有什么有趣的定理或者公式可以利用?

而 AI 没有这种判断。

它写出某个定理,不是因为它知道这个定理在证明中起关键作用,而是见过这样的证明,就照着写。

陶哲轩强调,AI 不具备价值判断,它不知道这件事为什么重要,也不知道哪些问题更值得解决。数学世界里最难的从来不是怎么做,而是做什么。

一个真正的突破,往往来自提了一个没人想到的问题。

但 AI 只能解决现成的问题,没法提出新问题。

这就是 AI 的本质:它能帮你回忆已知的东西,但你必须自己判断哪些是真的、哪些更有价值。

AI 不知道什么重要、什么不重要。它不是不会做,而是不知道该做什么。

因为它缺乏动机。

第三节: 验证|AI 写的东西过不了检查

就算 AI 知道该做什么,还有一个更致命的问题:它写出来的东西,往往过不了检查。

在数学里,答案只是起点,真正重要的,是你怎么一步步推出来的。

一个结论成立,不是因为它听起来合理,而是因为它可以被检查、被追溯、被验证。

数学家出错是正常的,大师也不例外。但人类的证明有个优势:推导过程清晰。所以哪怕有漏洞,同行也能检查出问题。

而 AI 给出的,缺少这种推导过程。

这不只是数学问题。

  • 律师用 AI 生成法律文书,发现引用的判例根本不存在。据报道,有律师因为没验证 AI 生成的案例引用,在法庭上被当场拆穿,最后被罚款。

  • 程序员用 AI 写代码,看起来能跑,但埋了安全漏洞。 没仔细审查就上线,等发现时损失已经造成。

  • 金融分析师用 AI 生成投资报告,数据来源、计算逻辑都说不清楚。 你敢拿这个给客户做决策吗?

问题的核心都一样:AI 给你一个“看起来对”的结果,但你很难验证每一步是否站得住脚。

怎么办?陶哲轩的答案是:

只在你能验证的范围内使用 AI。

也就是说,不是不用 AI,而是必须把 AI 和验证工具配对使用。AI 负责生成,人类或自动验证系统负责检查。

超出验证能力的部分,不要碰。

在这个前提下,AI 的价值在哪?

陶哲轩认为,AI 的真正价值,不在于攻克那些最顶级的数学难题,而在于处理数百万个不够重要、不值得顶尖数学家花时间、但又有一定价值的中等难度问题。

这些问题数量太大,人类研究者太少,处理不过来。而 AI 的优势恰恰在于规模:哪怕它只能解决这 100 万个问题中的10%,那也是 10 万个已解决的问题。

除了批量处理,在日常研究中,AI 也能发挥辅助作用。 比如文献综述:某类问题可能已经有十几种解决方法,你在研究时可能记得六个,忘了另外六个。这时 AI 能提醒你那些你忘记的方法。当然,它可能还会幻觉出三个根本不存在的方法,所以你必须验证。

甚至,AI 还能帮你从数据中找到隐藏的规律。

陶哲轩举了一个实际案例:纽结理论中,有个叫 signature 的不变量,神经网络发现它可以从一堆其他不变量中高精度预测出来。

一开始这只是个黑箱:你输入20个数,它吐出一个预测,90%的时候是对的。但研究者可以分析这个黑箱,调整输入,看输出怎么变化。

最后他们发现:这20个输入里,3个真正重要,另外17个几乎没用。通过这种分析,他们反推出了背后的数学关系,最终证明了它。

这些才是 AI 的正确用法:不是让它直接给答案,而是让它提供线索、找出可能性,然后由人类去判断、去验证、去决策。

无论是数学研究、法律文书、代码审查,还是投资分析,AI 适合当批量处理工具和辅助工具,而不是最终决策者。

前提是:有人能验收它生成的内容,确认哪些能用、哪些不能用。

用 AI,可以。

但要记住一句话:信任,但必须验证。

结语|它不是会做数学,是在表演“会”

AI 最危险的,不是它不会,是它表现得像会。

  • 它能写出看起来完整的推理,但说不清为什么。

  • 它能复述训练数据里的内容,但判断不了重要性。

  • 它能排列出推理的格式,但经不起逐步检查。

你很难从表面判断:它是真懂,还是在照搬?是在推理,还是在东拼西凑?

这才是陶哲轩真正担心的事:

AI 做得越像真的,你就越容易信它。但它错得也越像对的,你就越难发现。

识自AI

本文由AI深度研究院出品,内容翻译整理自陶哲轩在 Brian Keating 播客访谈等网上公开素材,属翻译整理性质。内容为原文翻译与合理编译,未逐字复制原访谈材料。未经授权,不得转载

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料:

https://www.youtube.com/watch?v=ukpCHo5v-Gc&t=1614s

https://pmc.ncbi.nlm.nih.gov/articles/PMC5352490/?utm_source=chatgpt.com

https://www.lingexp.uni-tuebingen.de/z2/Morphology/baroni.rows

https://x.com/DrBrianKeating

https://mathstodon.xyz/%40tao/114967652676795985

来源:官方媒体/网络新闻

排版:Atlas

编辑:深思

主编: 图灵

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄牛都不收,泡泡玛特自己砸了金饭碗

黄牛都不收,泡泡玛特自己砸了金饭碗

科技狐
2026-01-01 22:38:37
李在明访华4天3夜,韩国对中国的称呼里,用了“抗日同志”四个字

李在明访华4天3夜,韩国对中国的称呼里,用了“抗日同志”四个字

博览历史
2026-01-03 19:06:40
马杜罗后悔喊“快来抓我”了

马杜罗后悔喊“快来抓我”了

吴女士
2026-01-03 19:40:41
“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

每日经济新闻
2026-01-04 01:17:06
“美方悍然对一国总统动手,中方深表震惊、强烈谴责”

“美方悍然对一国总统动手,中方深表震惊、强烈谴责”

观察者网
2026-01-03 22:40:37
女子对年薪四五十万老公不满,全网劝离,甚至还有网友想取而代之

女子对年薪四五十万老公不满,全网劝离,甚至还有网友想取而代之

鋭娱之乐
2026-01-03 20:18:35
用力过猛!51岁林志玲打扮“日系”现身上海,网友:又老又年轻

用力过猛!51岁林志玲打扮“日系”现身上海,网友:又老又年轻

完善法
2025-12-31 11:05:31
悲催!网传江苏一注册5000万科技公司停业,结清工资,称长期亏损

悲催!网传江苏一注册5000万科技公司停业,结清工资,称长期亏损

火山詩话
2026-01-04 05:54:30
特朗普公布马杜罗被捕后照片:戴手铐 双眼被黑布蒙住

特朗普公布马杜罗被捕后照片:戴手铐 双眼被黑布蒙住

界面新闻
2026-01-04 06:55:01
这一仗彻底把中国打醒!美军的狠毒的作战方式,中国摸的很清楚了

这一仗彻底把中国打醒!美军的狠毒的作战方式,中国摸的很清楚了

史之铭
2025-12-12 19:23:56
都被骗了?马杜罗被抓,副总统接权,委反对派:是谈判达成的退出

都被骗了?马杜罗被抓,副总统接权,委反对派:是谈判达成的退出

时时有聊
2026-01-03 22:29:05
存取现金超5万元不需再登记体现对个人尊严的尊重

存取现金超5万元不需再登记体现对个人尊严的尊重

第一财经资讯
2026-01-03 15:39:18
青岛女护士续!正脸太网红,和男友经常秀恩爱,卫健委通报很直接

青岛女护士续!正脸太网红,和男友经常秀恩爱,卫健委通报很直接

奇思妙想草叶君
2026-01-03 17:51:56
司晓迪事件再升级!司晓迪爆合照、聊天记录,称鹿晗是最好的哥哥

司晓迪事件再升级!司晓迪爆合照、聊天记录,称鹿晗是最好的哥哥

娱乐圈笔娱君
2026-01-03 17:09:20
这两条新闻放一起看,讽刺至极

这两条新闻放一起看,讽刺至极

清书先生
2025-09-28 17:07:07
未来72小时至关重要:美国若掌控委内瑞拉将改写全球油价

未来72小时至关重要:美国若掌控委内瑞拉将改写全球油价

桂系007
2026-01-03 23:59:15
老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

Thurman在昆明
2026-01-03 15:59:21
湖北美术馆失火,网友们说早有预料

湖北美术馆失火,网友们说早有预料

总在茶余后
2026-01-04 03:30:53
队记:开拓者对杨瀚森信任程度极低 不迅速提升可能很快重返中国

队记:开拓者对杨瀚森信任程度极低 不迅速提升可能很快重返中国

罗说NBA
2026-01-03 20:52:55
司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

司晓迪事件最全瓜!檀健次私下是舔狗,林更新爱约,张一山最大方

萌神木木
2026-01-03 11:40:35
2026-01-04 09:12:49
AI深度研究员 incentive-icons
AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
350文章数 158关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

委内瑞拉致函联合国 提出四项具体要求

头条要闻

委内瑞拉致函联合国 提出四项具体要求

体育要闻

青岛西海岸官宣:郑智出任一线队主教练

娱乐要闻

司晓迪事件再升级 司晓迪称鹿晗最好

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

游戏
艺术
亲子
数码
公开课

曝《巫师3》新DLC要来了 堪称《巫师4》预告!

艺术要闻

央美校花,天才少女,18岁画了一张大卫,至今39年无人超越

亲子要闻

震撼!一个母亲如何改变几代人的命运?网友热议!

数码要闻

映众5060 Ti超级冰龙显卡采用8-Pin供电,预留12V-2×6焊盘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版