网易首页 > 网易号 > 正文 申请入驻

陶哲轩亲测Claude跑崩电脑,全靠这份保姆级指令清单翻盘

0
分享至


新智元报道

编辑:元宇

【新智元导读】从电脑崩溃到半小时拿下Lean形式化证明,数学大神陶哲轩用亲身踩坑经历警告:AI越强大,人类越不能偷懒,应时刻保持「人类在环」的绝对清醒。

连跑45分钟,烧光Token,最后电脑直接死机。

你可能很难想象,这竟是全球顶尖数学家陶哲轩在实测最新AI编程工具时,遭遇的一次真实翻车现场。

九个月前,他曾在一个视频中向大家展示如何将一段复杂的数学证明形式化。

九个月后,面对被业界疯狂追捧的新一代AI助手Claude Code,他本以为这会是一场降维打击。

没想到,第一次完全放权给AI,不仅没有完成数学证明,还把自己的电脑搞崩溃了。

在接到一句宏大的指令后,AI陷入了疯狂的回溯与试错,狂跑了45分钟,不仅没写出一行可用代码,庞大的计算过载还把电脑弄死机了。

眼下整个科技圈都在狂热地讨论AI智能体。

仿佛只要随手抛出一句话,AI就能替你打理好全部工作。陶哲轩这场硬核实测,却像一剂清醒剂,终结了这种技术幻觉:

即使面对再强大的AI,人类也不能完全「关掉大脑」。

保持参与,才是最好的使用AI的方式。

「一波流」幻想破灭

AI智能体的「过载陷阱」

故事要从九个月前说起。

在当时的Equations of Theories项目里,为了证明等式1689能够推导出等式2(即singleton law),陶哲轩使用GitHub Copilot和一个名叫conical的辅助工具,靠着人类的智慧和轻度的AI辅助,一步步手动完成了证明的形式化。

如今,全面升级的智能体来了。

由于对AI的过度信任,陶哲轩在第一次尝试Claude时进入了一个极其普遍的误区,他给Claude下达了一个大而笼统的指令:「请把整个事情都做完。」

他原本以为,AI会自动拆解任务、理清逻辑、输出完美代码。

然而这句不加限制的指令,直接触发了机器的「过载陷阱」。面对复杂的逻辑链条,Claude在底层引理的证明泥潭里迷失了方向。

它花了大把时间去猜测该怎么做,接着犯错,然后疯狂回溯、推倒重做。





就这样,在烧掉大量Token之后,AI狂跑了整整45分钟仍然一无所获。而且,庞大的计算压力,也让陶哲轩的电脑崩溃了。




事实证明,当人类下达给AI的任务指令缺乏清晰边界时,AI的勤奋只会像无头苍蝇式的乱撞,最终演变成一场徒劳无益的消耗。

这次惨痛的教训,也戳破了当下人们对AI的一个幻觉:认为有了智能体,自己就可以当「甩手掌柜」了。

「保姆级」指令的胜利

真正的转折,发生在第二次和第三次尝试里。

第二次,其实已经成功了。

陶哲轩把任务拆开,不再要求Claude Code一次完成全部证明,而是先形式化引理1、引理2、引理3,再逐步把证明补进去。

最后大约用了25分钟,完整证明做出来了。

在第三次,他还摸索出了一套防AI「暴走」的干货步骤,核心秘诀,就是专门建一个Markdown文件,把所有指令按步骤写清楚,再交给Claude Code执行。

只是这次他并没这么做,而是把这些步骤直接写进Lean文件的注释里。




这套流程的精髓,不在于复杂,而在于克制。

第零步,先形式化S和F这两个记号。先把符号系统立住,别急着证明。

第一步,创建证明骨架。把引理1、引理2、引理3的陈述都形式化出来,但这个阶段严禁AI尝试证明,一律用「sorry」占位。

这一步看似保守,实际上非常高明。因为他已经从第一次失败里看明白了:

一旦让Claude Code过早进入「我要把它证出来」的状态,它就会在证明细节里疯狂打转,反复试、反复错、反复回退,最后什么都做不完

与其让它一上来就冲刺,不如先让它把结构搭好。

然后才是第二步:把非形式化证明里的每一行,逐行转成Lean代码。

理由先不补,能用「sorry」的地方先用「sorry」。

这个动作特别像搭脚手架。先把房子的梁柱立起来,再慢慢砌墙,而不是抱着一堆砖头就想直接盖完。

也是在这里,陶哲轩点出了Claude Code一个很有意思的弱点:它在最底层、最机械的步骤上,反而容易「想太多」。

本来人类可能觉得「这一步一两行就该结束了」,它却会绕出更长的路径。

在陶哲轩的第一次尝试时,AI甚至不愿意沿用S和F这些简写,而是把式子不断展开,导致证明越来越难读。

这正是很多人今天会误判AI的地方。

你以为它最擅长的是细活,它偏偏会在最该老实执行的时候,突然开始「发挥创造力」。

而在形式化证明这类任务中,过度发挥,往往不是加分项,反而可能是事故源头。

在这套「保姆级」指令的约束下,Claude终于不再像脱缰的野马。它老老实实地跟着人类给定的证明,几秒钟就吐出了规整的代码框架。

「人机并行协作」

你做你的填空,我修我的Bug

真正让这次实践变得好看的,是中间那段非常丝滑的人机配合感。

做到一半,电脑又崩了一次。

但这一次,崩溃没有毁掉进度。

原因很简单:因为任务已经被拆成了一段一段的小步骤,所以恢复起来并不痛苦。

分步推进,不只是为了防止AI暴走,也是为了人类后期修改方便。

更精彩的戏码是在修Bug阶段。

在填补细节时,Claude卡在了某个底层步骤上。陶哲轩发现,AI把记号SA展开了两次,而实际上只需展开一次。

面对这个逻辑死结,AI试图换一种极其复杂的思路去绕过它,甚至给出了一段冗长代码。


这个时候,人类的作用显现了。

陶哲轩果断出手,他调出Info View面板,亲自接管了这行逻辑。

面对多余的展开项,他直接使用congruence(消掉同类项),瞬间清空了报错信息。连他自己都忍不住感慨:「这也太强了,居然直接就成了。」

随后,他又意识到,这里其实可以把H1抽出来,单独作为一个关键方程引理,因为后面两个地方都能复用它。

此时,全场高潮的「人机结对编程」画面出现了。

当陶哲轩在前方手动修复复杂逻辑、提取引理时,Claude Code根本没有闲着。

它在后台默默同步,聪明地把过去代码里的H1替换成了一行简练的证明,并自动给后续的引理三搭好了骨架。

这才是这次实验最舒服的一幕:不是你命令,我执行;也不是你放手,我乱跑;而是两者在同一个代码库里独立运转,互不干扰却又完美配合。

像一场真正的结对编程,只不过你的搭档,不是另一个人类,而是一个需要被约束、但又确实能干活的智能体。

拒绝「多智能体焦虑」

要把手放在方向盘上

最后,这份证明完成了。

总耗时大约半小时,里面还算上了一次系统崩溃。对比第一次45分钟空转到电脑死机,这个结果已经足够说明问题。

但在复盘阶段,这位数学大神给出的,不是某种神话式结论,而是一种很清醒的技术态度。

他显然看到了自动化的诱惑。

Claude Code足够强,大多数人很容易生出一种冲动:干脆让它全包,我少操点心。

可问题在于,一旦你真这么做,它很可能直接扔掉你原本已经很好的非形式化思路,按它自己的方式重写一遍。

结果,就是代码变得晦涩难懂,一旦跑不通,你连调试都无从下手。

他还顺手吐槽了当下很流行的一种趋势:

让多个智能体同时跑,再用另一个智能体去管理前面那几个智能体。

理论上当然可以。

可至少在这次任务里,他已经对单个、听话、受控的Agent非常满意了。再往上叠,不一定是效率提升,也可能只是另一种形式的复杂化焦虑。



此外,在这场技术洪流中,人类必须保持参与感。

最顶级的AI工作流,不是关掉大脑,而是始终把手放在方向盘上。

因为一旦完全依赖工具,出了问题,你能做的往往只剩下一遍遍重新调用,像是在对一个黑箱许愿。

而当你把「人类在环」这件事坚持到底,局面就完全不同了。

这时候,AI不是替你思考的大脑,而是你手里那把越来越锋利的剑。真正决定它往哪儿挥的人,仍然还得是你。

参考资料:

https://mathstodon.xyz/@tao/116190707979654536%20

https://github.com/teorth/analysis/blob/main/analysis/Analysis/Misc/equational.lean%20

https://www.youtube.com/watch?v=JHEO7cplfk8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
夺取伊朗的高浓缩铀?这需要美国出动大量地面部队,后勤和风险都难以承受

夺取伊朗的高浓缩铀?这需要美国出动大量地面部队,后勤和风险都难以承受

互联网大观
2026-03-10 11:20:08
重磅!茅台1935正式“降维”,不是降级,是要重构次高端

重磅!茅台1935正式“降维”,不是降级,是要重构次高端

财经资本观察
2026-03-10 09:52:29
提前一年部署导弹,射程覆盖中国沿海!高市早苗的赌局开始了

提前一年部署导弹,射程覆盖中国沿海!高市早苗的赌局开始了

有牙的兔纸
2026-03-11 01:22:56
伊朗军舰在被击沉前几分钟,一水兵致电父亲,称美军两次命令弃船

伊朗军舰在被击沉前几分钟,一水兵致电父亲,称美军两次命令弃船

看尽人间百态
2026-03-09 06:54:40
明确“红线” 上海将公交站点划定为法定禁烟区域

明确“红线” 上海将公交站点划定为法定禁烟区域

看看新闻Knews
2026-03-10 20:02:42
“上午春分,暖洋洋;下午春分,冻死牛”,今年春分在几点?

“上午春分,暖洋洋;下午春分,冻死牛”,今年春分在几点?

阿龙美食记
2026-03-10 16:36:10
在医院做检查的尴尬瞬间!网友:在护士眼里那就是块肉

在医院做检查的尴尬瞬间!网友:在护士眼里那就是块肉

带你感受人间冷暖
2026-03-09 00:05:09
买超37岁官宣喜讯,张嘉倪8年婚姻终成空

买超37岁官宣喜讯,张嘉倪8年婚姻终成空

揭秘世间万象
2026-03-09 20:30:21
曼城王朝终结?瓜帅最倚重之人确定离队,巴萨成头号下家

曼城王朝终结?瓜帅最倚重之人确定离队,巴萨成头号下家

澜归序
2026-03-10 02:22:52
郭碧婷去看陈丽君演出,素颜油头 陈丽君满脸震惊:你这么素可以

郭碧婷去看陈丽君演出,素颜油头 陈丽君满脸震惊:你这么素可以

傲傲讲历史
2026-03-10 10:40:36
晴天霹雳!为访华,特朗普直接叫停130亿对台军售,台当局傻眼了

晴天霹雳!为访华,特朗普直接叫停130亿对台军售,台当局傻眼了

达文西看世界
2026-03-06 18:48:58
不是王思雨,也不是韩旭!宫鲁鸣任命中国女篮新队长

不是王思雨,也不是韩旭!宫鲁鸣任命中国女篮新队长

体育哲人
2026-03-10 14:37:11
网传张艺兴多个活动遭取消,疑被国家话剧院除名,本人发布声明!

网传张艺兴多个活动遭取消,疑被国家话剧院除名,本人发布声明!

小椰的奶奶
2026-03-11 03:09:04
震惊!南宁“哟西”校长登上热搜,当地已严厉批评教育,深刻检讨

震惊!南宁“哟西”校长登上热搜,当地已严厉批评教育,深刻检讨

火山詩话
2026-03-08 21:58:19
举报违建10分钟信息就泄露,各部门都说没漏,谁信?

举报违建10分钟信息就泄露,各部门都说没漏,谁信?

胡言炫语
2026-03-11 03:02:30
龙虾下载量3周超越Linux 30年成就!黄仁勋:OpenClaw是这个时代最重要的软件

龙虾下载量3周超越Linux 30年成就!黄仁勋:OpenClaw是这个时代最重要的软件

快科技
2026-03-09 12:39:13
研究发现:高血压的人没有这4种情况,可以松一口气了,问题不大

研究发现:高血压的人没有这4种情况,可以松一口气了,问题不大

岐黄传人孙大夫
2026-03-10 20:55:04
伊朗发动毁天灭地的报复,美专家情绪失控:老天爷,这下出大事了

伊朗发动毁天灭地的报复,美专家情绪失控:老天爷,这下出大事了

东极妙严
2026-03-07 16:39:53
CBA全明星太太团亮相,徐杰女友再度宣示主权大方回应网友评论

CBA全明星太太团亮相,徐杰女友再度宣示主权大方回应网友评论

阿嚼影视评论
2026-03-09 18:35:57
局势失控!俄6万吨液化天然气巨轮遭精准袭击,普京放狠话警告

局势失控!俄6万吨液化天然气巨轮遭精准袭击,普京放狠话警告

音乐时光的娱乐
2026-03-08 01:45:05
2026-03-11 05:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14689文章数 66680关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

健康
房产
本地
亲子
军事航空

转头就晕的耳石症,能开车上班吗?

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

亲子要闻

老婆怀的是女孩吗?

军事要闻

刚说完战争很快结束 特朗普改口

无障碍浏览 进入关怀版