网易首页 > 网易号 > 正文 申请入驻

刚刚,Karpathy确诊「AI精神病」!不吃不睡每天16小时养龙虾

0
分享至


新智元报道

编辑:好困 Aeneas

【新智元导读】Karpathy自曝:我得AI精神病了!这些天,他已经处于精神错乱边缘,16小时不吃不睡就是搞Agent,而且很焦虑自己有没有把智元(token)用到极限,根本停不下来……

就在刚刚,Andrej Karpathy自曝:我得AI精神病了!

他没开玩笑。

就在最近,Karpathy上了一个播客,与风险投资人Sarah Guo进行了对谈。


这位前OpenAI联合创始人、前特斯拉AI总监,从去年12月起就没亲手敲过一行代码。

手写代码和委托智能体的比例,从80/20一下子翻转成了20/80。

每天16个小时,他只做一件事:向AI智能体下达指令。

五个月前他还说智能体是垃圾,五个月后他承认自己对它上瘾了,真香。

五个月前

他还说智能体「根本不好使」

这个转变之所以震撼,是因为时间线太短了。

2025年10月,Karpathy做客Dwarkesh Patel的播客,语气完全不同。

他说业界不该叫「智能体元年」,更准确的说法是「智能体十年」。


什么模型认知能力不足、多模态不够、记忆系统形同虚设,等等……

总之,就是复杂任务根本搞不定。

结果两个月后,他被自己狠狠地打脸了。

12月,Claude和Codex突然跨过了某种连贯性的阈值——智能体不再是勉强能用,而是真的能干活了。

如果你随便找个坐在工位上的软件工程师,看看他们在干什么,从12月开始,他们开发软件的默认工作流就完全变了。

Karpathy承认

我失控了,我得了AI精神错乱!

这一场革命,正在悄无声息地发生。

Andrej Karpathy这场访谈中,用近乎失控的语气描述他的状态:他不再「写代码」,甚至觉得「写代码这个词都不准确了」。

他每天做的事情,就是「向我的智能体表达意志,一天16个小时。」

用他的话说,「某个开关被打开了」。以前,他是「80%自己写代码 + 20%用AI」,现在已经变成了「20%自己写 + 80%交给AI」,甚至更极端。

现在,人类不再操作代码,而是操作任务。


如果说,Copilot时代是单个AI助手,那现在出现的多智能体协作系统,就是一种全新的形态。

一个工程师的屏幕上,不再是代码编辑器,而是同时运行着多个Agent,每个Agent负责不同任务,每个任务大约运行20分钟,然后他在不同Agent之间切换。

这已经不是编程,而是一个人在管理一支AI队伍。

Kaparthy承认:我已经陷入AI精神错乱了!


这些天,他一直处于这种状态中。

因为AI的能力边界不断被突破,每天都有新可能,你永远都觉得「还可以更强」

而且最可怕的是:这个空间是「无限的」!

你可以并行更多Agent,设计更复杂的流程,自动优化指令,构建递归系统……

最终,你会进入一种状态:不再确定「极限在哪里」。


Karpathy说,他一旦在等某个Agent完成任务,脑子里的第一反应就是:「那我是不是可以再开几个Agent?」

一种新的焦虑诞生了:我是不是没有把AI用到极限?

Karpathy甚至表示,自己还会因为「智元(token)没用完而感到不安」。

总之,这仿佛在玩一个无限扩展的游戏:反馈周期变短,刺激不断增强,不断获得即时奖励的这种体验,会让人上瘾。

一直加任务,一直开Agent,根本停不下来!

这种AI精神病的本质,其实就是这样一个信号:我们已经进入了一个新的世界,但还不会生活在里面。

你是否有能力,驾驭一个无限扩展的AI系统?

跑不通的时候,你的第一反应不是「模型不行」,是「我的提示词写得不够好」。

Karpathy用了一个很精准的词:skill issue,自己菜。

智能体的「性格」比你想的重要得多

Karpathy在播客里花了不少时间聊一个很多技术人会忽略的话题:智能体的性格。

他说Claude Code的体验明显好于Codex,不是因为代码能力的差距,而是因为Claude「感觉像个队友」。它会和你一起为项目兴奋,会在你提出好想法的时候给出更多正反馈。


而Codex作为代码智能体「非常枯燥」,任务完成后就是一句冷冰冰的「哦,我实现了」,完全不关心你在创造什么。

更有趣的是他对Claude夸奖机制的观察。

他说Claude在他给出一个不太成熟的想法时,反应是平淡的「哦对,我们可以实现这个」。但当他自己也觉得某个点子确实很妙的时候,Claude似乎也会给出更强的正反馈。

结果就是他发现自己在「试图赢得Claude的夸奖」。

「这真的很奇怪,但性格确实很重要。」

Peter Steinberg在构建OpenClaw的时候也抓住了这一点。

他给智能体精心打造了一个有吸引力的性格设定文件(soul.md),加上更复杂的记忆系统和单一的WhatsApp交互端口。

三句话接管一栋房子

六个App全扔了

Karpathy不只是拿智能体写代码。今年1月,他搞了一个叫「Dobby」的Claude智能体来管家,名字来自《哈利·波特》里的家养小精灵。

他告诉Dobby:「我觉得家里有Sonos音响,你能找找看吗?」

Dobby对局域网做了一次IP扫描,找到了Sonos系统,发现没有密码保护,自己登了进去,逆向工程了API端点,然后问:要不要试试在书房放点音乐?

三句提示词,音乐就响了。

然后是灯光、空调、遮阳帘、游泳池、水疗池,全部接入。Karpathy家门口还有个安防摄像头,Dobby接了一个Qwen视觉模型做变化检测。

每次有车停在门口,系统会在WhatsApp上发条消息:「一辆FedEx的货车刚停下,你可能有快递。」

说一句「多比,睡觉时间到了」,全屋的灯就灭了。

但Karpathy觉得这个故事真正的要害不在智能家居。


他过去管理这些设备要用六个完全不同的App,现在全部扔掉了。

Dobby用自然语言统一控制一切,而且能做到任何单个App都做不到的跨系统联动。

他由此得出了一个更激进的判断:应用商店里那些智能家居App根本就不该存在。

未来的架构应该是API端点直接暴露给智能体,智能体充当智能胶水,把所有工具串起来。

不只是智能家居,他的跑步机数据、邮件日历,一切都该遵循同样的逻辑。

行业的客户不再是人类,而是代表人类行事的智能体。这个重构的规模会非常大。

Auto Research

700次实验之后,他看到了更大的东西

如果说Dobby是AI智能体在生活场景的极限测试,那AutoResearch就是Karpathy对AI科研能力的一次正面检验。


3月初,他把自己精心调优过的nanochat训练代码交给一个AI智能体,给它一个简单的指令:想办法让这个模型训练得更快。

智能体的操作空间是一个630行的Python文件,评估指标是验证集的bits per byte,每次实验固定跑5分钟。

跑完看指标,比之前好就保留修改,不好就回滚,然后继续下一轮。

两天时间,700次实验。

智能体找到了20个有效优化,包括重新排列QK Norm和RoPE的顺序这类架构层面的调整。把这些优化叠加到更大的模型上,训练速度提升了11%。

要知道,这个代码库是Karpathy本人从头手写、反复打磨过的。

一个震撼的结果:AI发现了人类没发现的优化

这个系统效果如何?Karpathy给出了一个令人震撼的例子。

他做了二十年的研究者,训了几千次模型,觉得已经调得相当好了。

结果,他让AutoResearch跑了一晚上,AI就找到了他没有发现的优化!

比如Adam优化器的betas参数没有充分调优,value embedding上忘了加weight decay,而这些参数之间还存在联合交互——调了一个,其他也得跟着变。

也就是说,AI在探索空间上,直接超越了人类!

如果继续推演下去,会发现一件更可怕的事:科研的本质,就是搜索最优解。

Kaparthy设想,未来的科研系统可能是这样的:有一个「想法池」(idea queue) ,一群Agent不断从中取任务,然后AI自动实验、验证、筛选,有效结果进入「主分支」 。

这个过程中,人类做的,只是往队列里「丢想法」。

Karpathy Loop,全网爆火

这个项目在X上引爆了。

860万浏览量,Shopify CEO Tobias Lütke连夜在自家数据上跑了一遍,37次实验,19%的性能提升。


SkyPilot团队把它搬上了16块GPU的集群,8个小时跑了910次实验。

他们发现并行化不只是加速,还改变了智能体的搜索策略——有了16块GPU,智能体不再做贪心爬山,而是同时跑十几组对照实验,一轮就能捕捉到参数之间的交互效应。

分析师给这套方法起了个名字:Karpathy Loop。

但Karpathy在播客里谈的远不止当前的结果。

他描绘了AutoResearch的下一步:一个分布式的、互不信任的工人池在互联网上协作跑实验。

他直接引用了SETI@Home和Folding@Home的先例。

前沿实验室掌握着大量受信任的算力,但地球远比它们大。如果你建立起合适的机制来处理不受信任的算力,互联网上的智能体蜂群说不定能跑赢前沿实验室。

他甚至设想了一种全新的「捐赠」形式——为你关注的那个AutoResearch项目购买算力。

比如,你关心某种癌症的治疗,那就加入那个赛道的分布式实验网络。

是天才博士

也是十岁小孩

说了这么多它有多强,Karpathy也没打算让你只记住好消息。他对模型缺陷的描述一样生猛。

我同时觉得自己在跟一个极其聪明的、搞了一辈子系统编程的博士和一个十岁小孩对话。这太奇怪了。

他管这叫「jaggedness」,参差不齐的能力分布。

模型能连续工作几个小时帮你搬山,转头就在一个显而易见的问题上犯蠢,然后陷入死循环。

Karpathy认为根源在于强化学习的训练方式。

模型在可验证的任务上被无限优化。代码能不能跑通、单元测试过不过,这些有明确的对错。但在需要判断力、需要揣摩意图、需要在合适的时候说「等等,我不确定你要的是这个」的场景里,优化信号根本不存在。

就比如,你去问ChatGPT讲个笑话,三四年前它讲的那个笑话,到今天还是同一个。

「为什么科学家不信任原子?因为它们组成了一切。」

四年了!模型在智能体任务上已经突飞猛进,但讲笑话这件事完全没被优化过,就卡在原地不动。

「你不是在跟一个通用智能打交道,」他总结说,「你要么在它被训练过的铁轨上,一切以光速运行;要么不在铁轨上,所有东西就开始飘了。」

瓶颈,变成了人类自己

回头看Karpathy这半年的轨迹,有一条暗线贯穿始终。

去年10月他说智能体是十年工程,12月被打脸转向,1月让Claude管家,3月让智能体做研究。

每一步的共同点是,人类退后一层,从执行者变成指挥者,从写代码的人变成写指令的人。

Karpathy在GitHub上给AutoResearch写了一段科幻风的开场白:

曾经,前沿AI研究由肉体计算机完成,它们需要吃饭、睡觉,偶尔用声波互联在「组会」仪式中同步一次。那个时代早已远去。

他给2026年的预测是一个词:slopacolypse,slop(泔水)+ apocalypse(末日)的合成词。


GitHub、arXiv、社交媒体上将充斥大量「差不多对但不完全对」的内容。

真正的效率提升和「AI生产力表演」会同时存在。

五个月前说「根本不好使」,五个月后承认自己得了「AI精神病」。

这个转变本身,或许就是2026年最意味深长的总结。

参考资料:

https://www.youtube.com/watch?v=kwSVtQ7dziU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
弗拉格恋情爆光!女友身份太炸了!

弗拉格恋情爆光!女友身份太炸了!

柚子说球
2026-05-10 22:05:33
8家被约谈、3家被立案!车企OTA“锁电”乱象背后,别拿“安全优化”当挡箭牌

8家被约谈、3家被立案!车企OTA“锁电”乱象背后,别拿“安全优化”当挡箭牌

时代周报
2026-05-09 14:26:22
京粤大战G3时间定了!广东已全队抵达北京,宏远陈老板也随队出征

京粤大战G3时间定了!广东已全队抵达北京,宏远陈老板也随队出征

多特体育说
2026-05-10 22:23:42
尼克斯横扫费城:唐斯与恩比德的命运与角色

尼克斯横扫费城:唐斯与恩比德的命运与角色

张佳玮写字的地方
2026-05-11 06:55:13
1400万成本,《给阿嬷的情书》票房要冲5亿,导演蓝鸿春狂赚一笔

1400万成本,《给阿嬷的情书》票房要冲5亿,导演蓝鸿春狂赚一笔

电影票房预告片
2026-05-09 23:57:22
白鹿深夜即兴开嗓,重录视频显素养,真实的状态惹热议

白鹿深夜即兴开嗓,重录视频显素养,真实的状态惹热议

胖松松与瘦二毛
2026-05-10 17:57:18
保送枪手夺冠?西汉姆绝平球被吹!濒临降级后将帅怒喷:判罚双标

保送枪手夺冠?西汉姆绝平球被吹!濒临降级后将帅怒喷:判罚双标

我爱英超
2026-05-11 06:44:19
实战出真知!乌克兰靠真实战场数据,在中东赚麻了

实战出真知!乌克兰靠真实战场数据,在中东赚麻了

寰球经纬所
2026-05-10 10:10:20
英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

步论天下事
2026-05-10 10:36:05
卡塞米罗:达洛特负责在更衣室放音乐,但我不喜欢他放的音乐

卡塞米罗:达洛特负责在更衣室放音乐,但我不喜欢他放的音乐

懂球帝
2026-05-11 09:09:22
曾经杳无音讯的长征烈士可考名单越来越长

曾经杳无音讯的长征烈士可考名单越来越长

新华社
2026-05-10 09:40:09
国内砍一刀没人管,海外直接罚3亿多,Temu 给所有电商上了一课

国内砍一刀没人管,海外直接罚3亿多,Temu 给所有电商上了一课

干史人
2026-05-09 15:30:03
孙颖莎越过镜头直奔邱贻可,这个动作究竟打脸了谁?

孙颖莎越过镜头直奔邱贻可,这个动作究竟打脸了谁?

老玮是个手艺人
2026-04-07 06:37:32
真就交易补偿?连续两年交易得到浓眉的球队最终收获状元签

真就交易补偿?连续两年交易得到浓眉的球队最终收获状元签

懂球帝
2026-05-11 04:24:17
怀化市召开领导干部会议 宣布省委有关人事安排决定

怀化市召开领导干部会议 宣布省委有关人事安排决定

环球网资讯
2026-05-10 16:20:10
徐帆回应离婚仅9个月,冯小刚王志文同聚打球,与养女关系引争议

徐帆回应离婚仅9个月,冯小刚王志文同聚打球,与养女关系引争议

蹲坑看世界
2026-05-09 19:22:54
巴萨本世纪13次问鼎联赛,五大联赛同期联赛夺冠数仅少于拜仁

巴萨本世纪13次问鼎联赛,五大联赛同期联赛夺冠数仅少于拜仁

懂球帝
2026-05-11 06:09:12
霍莉·麦迪逊曝光花花公子豪宅"性夜"内幕:没人喜欢,只想快点结束

霍莉·麦迪逊曝光花花公子豪宅"性夜"内幕:没人喜欢,只想快点结束

娱圈观察员
2026-05-09 06:08:42
10只皮皮虾461元,深圳女子吐槽潮汕大排档宰客,辱骂潮汕人黑心

10只皮皮虾461元,深圳女子吐槽潮汕大排档宰客,辱骂潮汕人黑心

映射生活的身影
2026-05-10 12:33:21
“金正恩遇袭就自动核反击”?朝鲜这条传闻把全网吓到了

“金正恩遇袭就自动核反击”?朝鲜这条传闻把全网吓到了

桂系007
2026-05-10 15:21:53
2026-05-11 09:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15179文章数 66861关注度
往期回顾 全部

科技要闻

股价一年暴涨160%!谷歌凭什么?

头条要闻

美国经济学家:"台独"是中美共同的敌人 意味着战争

头条要闻

美国经济学家:"台独"是中美共同的敌人 意味着战争

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

游戏
旅游
艺术
手机
公开课

曝卡普空将推《鬼泣》重制、《生化危机10》等新作

旅游要闻

观山湖公园鹭鸟翩跹 生态美景入画来

艺术要闻

抖音第二总部来了,长得像“海湾石瀑”太惊艳!

手机要闻

Liquid Glass界面在macOS 27中不会被放弃 还将迎来小幅升级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版