网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

陶哲轩亲测Claude跑崩电脑，全靠这份保姆级指令清单翻盘

2026-03-11 01:37:25　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】从电脑崩溃到半小时拿下Lean形式化证明，数学大神陶哲轩用亲身踩坑经历警告：AI越强大，人类越不能偷懒，应时刻保持「人类在环」的绝对清醒。

连跑45分钟，烧光Token，最后电脑直接死机。

你可能很难想象，这竟是全球顶尖数学家陶哲轩在实测最新AI编程工具时，遭遇的一次真实翻车现场。

九个月前，他曾在一个视频中向大家展示如何将一段复杂的数学证明形式化。

九个月后，面对被业界疯狂追捧的新一代AI助手Claude Code，他本以为这会是一场降维打击。

没想到，第一次完全放权给AI，不仅没有完成数学证明，还把自己的电脑搞崩溃了。

在接到一句宏大的指令后，AI陷入了疯狂的回溯与试错，狂跑了45分钟，不仅没写出一行可用代码，庞大的计算过载还把电脑弄死机了。

眼下整个科技圈都在狂热地讨论AI智能体。

仿佛只要随手抛出一句话，AI就能替你打理好全部工作。陶哲轩这场硬核实测，却像一剂清醒剂，终结了这种技术幻觉：

即使面对再强大的AI，人类也不能完全「关掉大脑」。

保持参与，才是最好的使用AI的方式。

「一波流」幻想破灭

AI智能体的「过载陷阱」

故事要从九个月前说起。

在当时的Equations of Theories项目里，为了证明等式1689能够推导出等式2（即singleton law），陶哲轩使用GitHub Copilot和一个名叫conical的辅助工具，靠着人类的智慧和轻度的AI辅助，一步步手动完成了证明的形式化。

如今，全面升级的智能体来了。

由于对AI的过度信任，陶哲轩在第一次尝试Claude时进入了一个极其普遍的误区，他给Claude下达了一个大而笼统的指令：「请把整个事情都做完。」

他原本以为，AI会自动拆解任务、理清逻辑、输出完美代码。

然而这句不加限制的指令，直接触发了机器的「过载陷阱」。面对复杂的逻辑链条，Claude在底层引理的证明泥潭里迷失了方向。

它花了大把时间去猜测该怎么做，接着犯错，然后疯狂回溯、推倒重做。

就这样，在烧掉大量Token之后，AI狂跑了整整45分钟仍然一无所获。而且，庞大的计算压力，也让陶哲轩的电脑崩溃了。

事实证明，当人类下达给AI的任务指令缺乏清晰边界时，AI的勤奋只会像无头苍蝇式的乱撞，最终演变成一场徒劳无益的消耗。

这次惨痛的教训，也戳破了当下人们对AI的一个幻觉：认为有了智能体，自己就可以当「甩手掌柜」了。

「保姆级」指令的胜利

真正的转折，发生在第二次和第三次尝试里。

第二次，其实已经成功了。

陶哲轩把任务拆开，不再要求Claude Code一次完成全部证明，而是先形式化引理1、引理2、引理3，再逐步把证明补进去。

最后大约用了25分钟，完整证明做出来了。

在第三次，他还摸索出了一套防AI「暴走」的干货步骤，核心秘诀，就是专门建一个Markdown文件，把所有指令按步骤写清楚，再交给Claude Code执行。

只是这次他并没这么做，而是把这些步骤直接写进Lean文件的注释里。

这套流程的精髓，不在于复杂，而在于克制。

第零步，先形式化S和F这两个记号。先把符号系统立住，别急着证明。

第一步，创建证明骨架。把引理1、引理2、引理3的陈述都形式化出来，但这个阶段严禁AI尝试证明，一律用「sorry」占位。

这一步看似保守，实际上非常高明。因为他已经从第一次失败里看明白了：

一旦让Claude Code过早进入「我要把它证出来」的状态，它就会在证明细节里疯狂打转，反复试、反复错、反复回退，最后什么都做不完。

与其让它一上来就冲刺，不如先让它把结构搭好。

然后才是第二步：把非形式化证明里的每一行，逐行转成Lean代码。

理由先不补，能用「sorry」的地方先用「sorry」。

这个动作特别像搭脚手架。先把房子的梁柱立起来，再慢慢砌墙，而不是抱着一堆砖头就想直接盖完。

也是在这里，陶哲轩点出了Claude Code一个很有意思的弱点：它在最底层、最机械的步骤上，反而容易「想太多」。

本来人类可能觉得「这一步一两行就该结束了」，它却会绕出更长的路径。

在陶哲轩的第一次尝试时，AI甚至不愿意沿用S和F这些简写，而是把式子不断展开，导致证明越来越难读。

这正是很多人今天会误判AI的地方。

你以为它最擅长的是细活，它偏偏会在最该老实执行的时候，突然开始「发挥创造力」。

而在形式化证明这类任务中，过度发挥，往往不是加分项，反而可能是事故源头。

在这套「保姆级」指令的约束下，Claude终于不再像脱缰的野马。它老老实实地跟着人类给定的证明，几秒钟就吐出了规整的代码框架。

「人机并行协作」

你做你的填空，我修我的Bug

真正让这次实践变得好看的，是中间那段非常丝滑的人机配合感。

做到一半，电脑又崩了一次。

但这一次，崩溃没有毁掉进度。

原因很简单：因为任务已经被拆成了一段一段的小步骤，所以恢复起来并不痛苦。

分步推进，不只是为了防止AI暴走，也是为了人类后期修改方便。

更精彩的戏码是在修Bug阶段。

在填补细节时，Claude卡在了某个底层步骤上。陶哲轩发现，AI把记号SA展开了两次，而实际上只需展开一次。

面对这个逻辑死结，AI试图换一种极其复杂的思路去绕过它，甚至给出了一段冗长代码。

这个时候，人类的作用显现了。

陶哲轩果断出手，他调出Info View面板，亲自接管了这行逻辑。

面对多余的展开项，他直接使用congruence（消掉同类项），瞬间清空了报错信息。连他自己都忍不住感慨：「这也太强了，居然直接就成了。」

随后，他又意识到，这里其实可以把H1抽出来，单独作为一个关键方程引理，因为后面两个地方都能复用它。

此时，全场高潮的「人机结对编程」画面出现了。

当陶哲轩在前方手动修复复杂逻辑、提取引理时，Claude Code根本没有闲着。

它在后台默默同步，聪明地把过去代码里的H1替换成了一行简练的证明，并自动给后续的引理三搭好了骨架。

这才是这次实验最舒服的一幕：不是你命令，我执行；也不是你放手，我乱跑；而是两者在同一个代码库里独立运转，互不干扰却又完美配合。

像一场真正的结对编程，只不过你的搭档，不是另一个人类，而是一个需要被约束、但又确实能干活的智能体。

拒绝「多智能体焦虑」

要把手放在方向盘上

最后，这份证明完成了。

总耗时大约半小时，里面还算上了一次系统崩溃。对比第一次45分钟空转到电脑死机，这个结果已经足够说明问题。

但在复盘阶段，这位数学大神给出的，不是某种神话式结论，而是一种很清醒的技术态度。

他显然看到了自动化的诱惑。

Claude Code足够强，大多数人很容易生出一种冲动：干脆让它全包，我少操点心。

可问题在于，一旦你真这么做，它很可能直接扔掉你原本已经很好的非形式化思路，按它自己的方式重写一遍。

结果，就是代码变得晦涩难懂，一旦跑不通，你连调试都无从下手。

他还顺手吐槽了当下很流行的一种趋势：

让多个智能体同时跑，再用另一个智能体去管理前面那几个智能体。

理论上当然可以。

可至少在这次任务里，他已经对单个、听话、受控的Agent非常满意了。再往上叠，不一定是效率提升，也可能只是另一种形式的复杂化焦虑。

此外，在这场技术洪流中，人类必须保持参与感。

最顶级的AI工作流，不是关掉大脑，而是始终把手放在方向盘上。

因为一旦完全依赖工具，出了问题，你能做的往往只剩下一遍遍重新调用，像是在对一个黑箱许愿。

而当你把「人类在环」这件事坚持到底，局面就完全不同了。

这时候，AI不是替你思考的大脑，而是你手里那把越来越锋利的剑。真正决定它往哪儿挥的人，仍然还得是你。

参考资料：

https://mathstodon.xyz/@tao/116190707979654536%20

https://github.com/teorth/analysis/blob/main/analysis/Analysis/Misc/equational.lean%20

https://www.youtube.com/watch?v=JHEO7cplfk8

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Jeff Dean新访谈：未来开发者人均50个智能体，写需求成核心技能

量子位 2026-03-10 15:12:54
0 跟贴 0
Karpathy Vibe Coding整新活：Agent版「GitHub」问世

机器之心Pro 2026-03-10 16:29:28
2 跟贴 2

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

量子位 2026-03-09 12:29:21
1 跟贴 1

17岁高中生用AI解决数学界难题，陶哲轩、Jeff Dean点赞

机器之心Pro 2026-01-26 14:24:45
0 跟贴 0
MiniMax来承包你的桌面了-4

机器之心Pro 2026-01-20 20:19:42
0 跟贴 0

陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0

剑指阿里字节！报道：腾讯秘密布局微信AI智能体，年内或向全用户开放

华尔街见闻官方 2026-03-10 23:09:43
0 跟贴 0
支持远程操控和通用GUI操作3

机器之心Pro 2026-03-02 13:36:13
0 跟贴 0

三维空间太难懂？2

机器之心Pro 2025-12-31 13:49:19
0 跟贴 0
36年卷积猜想被解决，华人唯一作者，AI或受益

机器之心Pro 2025-11-26 14:30:39
0 跟贴 0
QClaw指令发红包？微信员工紧急回应：假的！

雷科技 2026-03-10 23:03:19
0 跟贴 0
10个月完整配置经验全公开，冠军咋用Claude Code?

机器之心Pro 2026-01-22 12:34:29
0 跟贴 0
疯狂的OpenClaw：Token放量、资本热捧，大厂卡位战已打响！风险不容忽视

每日经济新闻 2026-03-10 23:38:34
0 跟贴 0
陶哲轩用Claude Code解题，两度宕机，因为token不够用

DeepTech深科技 2026-03-09 18:31:36
0 跟贴 0
深度剖析东大对萨德问题态度转变的内在逻辑，一起来听听

八极拳兑一 2026-03-10 03:48:51
2 跟贴 2
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
3B打32B？海外病毒式传播的小模型，竟然来自BOSS直聘

机器之心Pro 2026-03-09 14:09:17
1 跟贴 1
突发！微信绝密「龙虾」爆出，14亿用户体验或将颠覆

新智元 2026-03-11 01:36:21
0 跟贴 0
太疯狂了！“龙虾”红透A股，OpenClaw连更两日，32款养虾大模型集结，创始人在线打假

智东西 2026-03-10 15:03:30
1 跟贴 1
不仅卸载了QQ，还砸了电脑！

爱豆观影 2026-03-10 10:21:40
1 跟贴 1
广场舞伴日常相处，美女发出指令让大爷心急，欲擒故纵拿捏住了！

小轩搞笑街坊 2026-03-07 09:32:26
1 跟贴 1
大风315 | 游客称飞3000公里在西双版纳一景区游玩，因明星录制综艺节目被清场；景区：具体情况需由游客回应

大风新闻 2026-03-09 17:06:09
6998 跟贴 6998
德黑兰市区再遭密集轰炸有战机轰鸣

新华社 2026-03-10 10:39:14
11524 跟贴 11524
俩法国小伙辞职走路到中国:耗时2年走出新疆花了45天

新民周刊 2026-03-10 16:44:38
3362 跟贴 3362
88岁图灵奖得主，用Claude一小时破解30年数学悬案

量子位 2026-03-09 12:48:02
1 跟贴 1
陈宝国坦言不玩电脑，李静：不怕被时代淘汰？

EduStar教星派 2026-03-08 10:04:20
2 跟贴 2
学 C# 上位机的同学！按钮点击代码你看懂了吗？

华山自控编程 2026-03-08 19:30:00
0 跟贴 0
紫牛头条 | 买时宣称功能永久免费，用后却被要求付费升级！顾客投诉知名品牌电动车“言而无信”

扬子晚报 2026-03-10 07:15:24
3846 跟贴 3846
男人开车没有剐蹭过，背个电脑就有划痕，网友：这车花里胡哨的！

小妹爱搞笑呢 2026-03-09 14:22:27
1 跟贴 1
未来10年，这3个岗位一定会越来越吃香，年入20万起

李舟 2026-03-09 18:54:52
0 跟贴 0
PackingStar双智能体博弈，攻克14维难题

量子位 2026-02-16 13:12:43
0 跟贴 0
女子在杭州西湖景区把“西泠印社”认成“杜帅冷面”，网友：四个字认错五个，当事人：没有文化确实不行

扬子晚报 2026-03-06 17:44:56
996 跟贴 996
离开美国！世界知名数学家万大庆回国，加入一985高校！

凯旋学长 2026-03-10 15:11:08
0 跟贴 0
铲屎官打游戏，猫在电脑后面，一脸生无可奈的样子！

冲天的搞笑 2026-03-07 10:56:05
1 跟贴 1
Unity发布《2026游戏开发报告》，62%开发者用AI工具代码编写和优化

游娱fan 2026-03-10 16:38:18
0 跟贴 0
龙虾更新后记忆变强，如何养好AI龙虾？

机器之心Pro 2026-03-09 19:10:43
0 跟贴 0
中国成品油价迎四年来最大涨幅

环球网资讯 2026-03-10 09:34:47
5016 跟贴 5016
Claude Code之父，推特亲传使用技巧，超 500 万人关注

机器之心Pro 2026-01-05 13:26:18
0 跟贴 0
爆火！把智能体当游戏角色来玩，一个人就是一个公司

机器之心Pro 2026-02-12 18:04:44
0 跟贴 0
杭州萧山“养龙虾”十条来了，算力补贴最高2000万

新浪财经 2026-03-11 00:07:11
0 跟贴 0

夺取伊朗的高浓缩铀？这需要美国出动大量地面部队，后勤和风险都难以承受

夺取伊朗的高浓缩铀？这需要美国出动大量地面部队，后勤和风险都难以承受

互联网大观

2026-03-10 11:20:08

重磅！茅台1935正式“降维”，不是降级，是要重构次高端

重磅！茅台1935正式“降维”，不是降级，是要重构次高端

财经资本观察

2026-03-10 09:52:29

提前一年部署导弹，射程覆盖中国沿海！高市早苗的赌局开始了

提前一年部署导弹，射程覆盖中国沿海！高市早苗的赌局开始了

有牙的兔纸

2026-03-11 01:22:56

伊朗军舰在被击沉前几分钟，一水兵致电父亲，称美军两次命令弃船

伊朗军舰在被击沉前几分钟，一水兵致电父亲，称美军两次命令弃船

看尽人间百态

2026-03-09 06:54:40

明确“红线” 上海将公交站点划定为法定禁烟区域

明确“红线” 上海将公交站点划定为法定禁烟区域

看看新闻Knews

2026-03-10 20:02:42

“上午春分，暖洋洋；下午春分，冻死牛”，今年春分在几点？

“上午春分，暖洋洋；下午春分，冻死牛”，今年春分在几点？

阿龙美食记

2026-03-10 16:36:10

在医院做检查的尴尬瞬间！网友：在护士眼里那就是块肉

在医院做检查的尴尬瞬间！网友：在护士眼里那就是块肉

带你感受人间冷暖

2026-03-09 00:05:09

买超37岁官宣喜讯，张嘉倪8年婚姻终成空

买超37岁官宣喜讯，张嘉倪8年婚姻终成空

揭秘世间万象

2026-03-09 20:30:21

曼城王朝终结？瓜帅最倚重之人确定离队，巴萨成头号下家

曼城王朝终结？瓜帅最倚重之人确定离队，巴萨成头号下家

澜归序

2026-03-10 02:22:52

郭碧婷去看陈丽君演出，素颜油头陈丽君满脸震惊：你这么素可以

郭碧婷去看陈丽君演出，素颜油头陈丽君满脸震惊：你这么素可以

傲傲讲历史

2026-03-10 10:40:36

晴天霹雳！为访华，特朗普直接叫停130亿对台军售，台当局傻眼了

晴天霹雳！为访华，特朗普直接叫停130亿对台军售，台当局傻眼了

达文西看世界

2026-03-06 18:48:58

不是王思雨，也不是韩旭！宫鲁鸣任命中国女篮新队长

不是王思雨，也不是韩旭！宫鲁鸣任命中国女篮新队长

体育哲人

2026-03-10 14:37:11

网传张艺兴多个活动遭取消，疑被国家话剧院除名，本人发布声明！

网传张艺兴多个活动遭取消，疑被国家话剧院除名，本人发布声明！

小椰的奶奶

2026-03-11 03:09:04

震惊！南宁“哟西”校长登上热搜，当地已严厉批评教育，深刻检讨

震惊！南宁“哟西”校长登上热搜，当地已严厉批评教育，深刻检讨

火山詩话

2026-03-08 21:58:19

举报违建10分钟信息就泄露，各部门都说没漏，谁信？

举报违建10分钟信息就泄露，各部门都说没漏，谁信？

胡言炫语

2026-03-11 03:02:30

龙虾下载量3周超越Linux 30年成就！黄仁勋：OpenClaw是这个时代最重要的软件

龙虾下载量3周超越Linux 30年成就！黄仁勋：OpenClaw是这个时代最重要的软件

快科技

2026-03-09 12:39:13

研究发现：高血压的人没有这4种情况，可以松一口气了，问题不大

研究发现：高血压的人没有这4种情况，可以松一口气了，问题不大

岐黄传人孙大夫

2026-03-10 20:55:04

伊朗发动毁天灭地的报复，美专家情绪失控：老天爷，这下出大事了

伊朗发动毁天灭地的报复，美专家情绪失控：老天爷，这下出大事了

东极妙严

2026-03-07 16:39:53

CBA全明星太太团亮相，徐杰女友再度宣示主权大方回应网友评论

CBA全明星太太团亮相，徐杰女友再度宣示主权大方回应网友评论

阿嚼影视评论

2026-03-09 18:35:57

局势失控！俄6万吨液化天然气巨轮遭精准袭击，普京放狠话警告

局势失控！俄6万吨液化天然气巨轮遭精准袭击，普京放狠话警告

音乐时光的娱乐

2026-03-08 01:45:05

AI产业主平台领航智能+时代

14689文章数 66680关注度

往期回顾全部

科技要闻

全民"养虾"背后：大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话官方回应

体育要闻

加兰没那么差，但鲈鱼会用吗？

娱乐要闻

《逐玉》注水风波升级！315评论区沦陷

财经要闻

“龙虾补贴”密集出炉最高1000万！

汽车要闻

MG4有SUV衍生上汽乘用车多款新车规划曝光

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

房产

本地

亲子

军事航空

转头就晕的耳石症，能开车上班吗？

房产要闻

信号！千亿巨头入局，三亚开启新一轮大征拆！

本地新闻

云游中国｜候鸟高颜值亮相！沉浸式打卡青海湿地

亲子要闻

老婆怀的是女孩吗？

军事要闻

刚说完战争很快结束特朗普改口

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版