Andrew Karpathy 最新对谈：未来软件的第一客户是 Agent，软件业还剩下多少“人的位置”？|算法|代码|编程|智能体|电子表格|agent|karpathy

分享至

“skill 在我看来，本质上就是一种「如何教 agent 去教人」的脚本。”

编译 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

如果今天还有谁能同时代表深度学习研究、自动驾驶落地、LLM 工程直觉，以及 AI 教育这几条线，Andrew Karpathy仍然是少数几个名字之一。

他是 OpenAI 早期的创始成员，做过 Tesla AI 和 Autopilot，也是在斯坦福把 CS231n 这门课真正讲成一代人入门教材的人。后面他成为了推特 AI 圈上的“顶流网红”，提出了氛围编程（Vibe Coding）这个 2025 年度热词。

今年年初这段时间，他又把注意力压到了一个更前沿、也更让人不安的问题上：当 coding agent、持续运行的“龙虾”以及 AutoResearch 这种自动闭环系统开始成形，人到底还该留在 loop 的哪个位置？

在 No Priors 最新的这期播客里，Karpathy 和主持人 Sarah Guo 讨论了 coding agent、AutoResearch、开放与闭源模型、机器人、教育和就业市场。但如果把整场对话往深处听，会发现它真正围绕的是同一个问题：当 agent 已经不再只是“帮你补代码”，而开始接管实验、拉长任务时间、连接真实世界，并尝试把人从 loop 里移出去，软件、研究、教育甚至工作的基本组织方式会被改写到什么程度？

下面按对话原有推进顺序，整理 Andrew Karpathy 和 Sarah Guo 的核心讨论。

过去几个月 AI 能力像是突然飞跃了一次 - 到底发生了什么？

Andrew Karpathy：我现在经常处在一种“AI psychosis（AI 式癫狂）”状态里，因为个人能力的上限突然被整个抬高了一截。

以前你的瓶颈还是打字速度，是你自己一行行写代码的速度。但有了这些 agent 之后，情况完全变了。我会说，真正的变化大概是在去年 12 月发生的。那时候像是有个开关被拨了一下：我原来大概还是 80% 自己写代码、20% 委托给 agent，后来几乎变成了 20% 对 80%。

而到了现在，可能都不只是 20/80 了。我大概从去年 12 月开始，就几乎没再亲手敲过几行代码。

这是一个非常巨大的变化。但我觉得，大多数普通人其实并没有意识到这件事已经发生了，也没有意识到它有多剧烈。今天如果你随机走到一个软件工程师工位前，看他在怎么做软件，默认工作流其实已经和几个月前完全不同了。

所以我现在整个人都处在一种持续追问“这些东西到底还能做到什么”的状态里。我能不能不只开一个 Claude Code 或 Codex session，而是同时跑多个？怎么更合理地去做这件事？这些“龙虾”到底是什么？它们能怎么用？

我想站在这一波变化的最前面。但也正因为这件事还处在真正的无人区，你会一直觉得焦躁：别人又试了什么新玩法，我是不是还没跟上？所以整件事让我进入一种不断追问“到底还可能做到什么”的状态。

如果个人能力被突然放大了这么多，那你现在真正的瓶颈是什么？

Andrew Karpathy：我觉得现在很多事情即便没做成，你也会本能地觉得那不是能力不够，而是skill issue。

不是说这些 agent 天生做不到，而是你还没有找到一种足够好的方式把现有能力串起来。也许是你没有给出足够好的指令，也许是 agent 的说明文档没写好，也许是记忆系统还不够完善。

总之，当事情跑不起来的时候，现在很容易觉得：问题更多在于你不会用，而不是能力根本不存在。

你会开始想，怎么把它们并行起来？怎么让多个 agent 同时工作？怎么把整个软件仓库按更大的“宏动作”来操作？

我看到有人已经开始在一个屏幕上同时平铺很多个 Codex agent。每个 agent 被分配一块独立工作，大概二十分钟后回来交作业。一个在写功能，一个在做研究，一个在规划实现方案，一个在改另一个 repo。你不再是在写某一行代码，而是在给不同 agent 分发互不冲突的大任务，然后做审核、整合和调度。软件仓库开始被以“宏动作”的方式操作。

Sarah Guo：如果大家都这样练一年，会什么样？

Andrew Karpathy：所有人都在往更高一层走。

下一步显然不会只是“一个人配一个 agent”。真正的问题会变成：多个 agent 怎么协作？它们怎么组成团队？它们之间如何分工？

另一个特别值得注意的方向，就是我说的“龙虾”。它代表的是一种比普通 agent 更持久的存在：它不是一轮对话结束就消失；它可以在你不盯着的时候继续循环运行；它有自己的沙盒、自己的记忆和自己的持续性；它可以替你处理一些本来需要人时刻盯着的任务。

在我看来，这些“龙虾”把持续性推到了一个新层级。它不只是一个坐在聊天框里等你发问的模型，而更像一个在后台长期存在、替你跑事情的实体。

你觉得 OpenClaw 为什么会比很多别的 agent 更打动人？

Andrew Karpathy：关键点是，它不只是做了“能干活的 agent”，而是把几件往往被忽视的东西同时做对了。

第一，是人格感。

很多 agent 在这件事上其实做得并不好。相比之下，好的 agent 会让你感觉它像个队友。它会理解你在做什么，会和你站在一边，甚至会让你觉得它对你们正在一起做的东西是有感受的。

我拿 Claude 和 Codex 做过一个对比：在我看来，Claude 的人格感调得相当好；Codex 则明显更干、更冷，像是完成任务就走，不太在意你们到底在一起造什么。

第二，是记忆。

第三，是把所有自动化入口统一到一个单一通道里，比如 WhatsApp。

而这几件事一旦被揉在一起，agent 给人的感觉就不再只是“一个工具”，而更像一个真正存在于你数字生活里的角色。

Sarah Guo：除了写代码，你自己有没有用这些“龙虾”做过更有意思的事？

Andrew Karpathy：有。我一度进入过一种“龙虾癫狂”状态。

我给自己家里造了一个管家型“龙虾”，名字叫 Dobby。

这个 Dobby 会自己去扫描家里的局域网，识别 Sonos、灯光、空调、窗帘、泳池和安防系统，自己摸索 API、反向理解这些系统怎么工作，然后把所有控制入口收拢成一个统一面板。最后，我可以直接用自然语言给它发消息。

以前光是管理家里的这些系统，就要来回切换六个完全不同的 App；现在则变成了通过 WhatsApp 和一个“龙虾”说话。

比如我说一句“该睡觉了”，Dobby 就会去把灯、空调、窗帘等一系列事情一起处理掉。门外如果有 FedEx 卡车停下，它还会通过视觉模型识别变化，主动发消息提醒。

所以这个例子最有意思的地方不只是“智能家居更方便了”，而是它指向了一种更大的趋势：未来很多软件也许根本不该以 App 的形式存在。

这是不是意味着，未来软件行业要按“Agent First”重构？

Andrew Karpathy：我觉得很大程度上是这样。

今天这些智能家居 App、跑步机 App，很多都只是因为还没有更好的调用方式，才被迫以独立软件形态存在。可一旦 agent 足够成熟，它完全可以直接调用底层接口，把这些零散的软件外壳折叠掉。

换句话说，未来很多产品不再是“给人直接点的 UI”，而是“暴露足够好的 API，然后由 agent 去做编排”。

这意味着行业会发生一种深层重构：软件的第一客户，也许不再是人，而是代表人行动的 agent。

当然，我也承认，现在距离“普通人完全不需要懂技术就能这样用”还有距离。今天这件事依然需要一些 coding、一些判断和一些设计。但我觉得，这个门槛会迅速往下掉。到一两年、两三年之后，很多现在看起来还像黑客玩法的东西，很可能会变成 table stakes（基础门槛）。

Sarah Guo：那为什么你没有把“龙虾”推得更远？

Andrew Karpathy：一部分确实是因为注意力总被新东西拉走，另一部分则是安全与隐私上的保守。

我还没有把邮箱、日历这些真正深入个人数字生活的系统完全交给 agent，因为我依然觉得这套东西还很新、还很粗糙，边缘上还有很多不稳定的地方。

所以一部分限制来自安全、隐私和谨慎本身。我不想太早把整个数字生活毫无保留地交出去。

你为什么会开始做 AutoResearch？

Andrew Karpathy：因为如果你真的想把今天这些工具榨到极致，就必须把自己从瓶颈里拿出去。

很多人也许口头上接受“agent 可以做更多事”，但还没有真正把它推演到底。对我来说，AutoResearch 就是这件事的一个具体后果：如果研究任务本身有相对清晰的目标、指标和边界，那研究者就不该继续成为 loop 中间那个必须按“下一步”按钮的人。

人的存在，反而会拖慢整个系统的 token throughput（token 吞吐）。

所以 AutoResearch 的核心不是“让 AI 帮研究员省点力”，而是更激进的一件事：把研究流程尽量改造成一种你设定一次目标和约束之后，就可以自动往前跑的系统。

在我的理想形态里，这件事非常简单：给定目标，给定指标，给定边界，然后放手让 agent 去实验、训练、优化，而不是每一步都等着研究员看结果、给指令、再继续。

Sarah Guo：AutoResearch 的效果让你意外吗？

Andrew Karpathy：是，非常意外。

很多人可能不理解我为什么总拿训练 GPT-2 级别的小模型做实验。但在我看来，那并不是因为我对“小模型”本身有什么执念，而是因为这相当于一个可以反复试验的游乐场：我真正关心的是，LLM 到底能在多大程度上改进 LLM。

这才是我眼里更大的命题：递归式自我改进到底能走多远？

我已经用非常传统、也非常熟练的方式把一个小模型调得相当不错了——这是我做了二十年研究之后积累出来的直觉、经验和手感。但即便如此，AutoResearch 跑一晚上之后，还是找出了我没注意到的调参组合，比如 weight decay、Adam betas 这些彼此联动的小问题。

这对我是很强的信号。

因为如果一个已经被熟练研究者手动调过很多轮的小系统，仍然能被自动研究流程继续挖出增益，那把这个范式放大到真正的 frontier labs，就很容易想象会发生什么。

Sarah Guo：那再往上走一步，program.md 这种东西是不是也会被自动优化？

Andrew Karpathy：当然会。

program.md 本质上就是我写给 AutoResearch 的一套粗糙说明：先做什么，再做什么，可以去看哪些方向，比如架构、优化器等等。

但如果一个研究组织本质上可以被写成 markdown 文件，那它当然也可以被优化。

于是问题就会自然滑向更高一层：哪种组织结构更有效？哪种角色设计更激进？哪种程序说明能让 agent 做出更多真正有价值的尝试？

也就是说，研究对象不再只是模型本身，连“怎么组织研究”这件事，也开始进入可优化空间。

我觉得这条链路已经很清楚了：LLM 本身已经被默认视为可用，agent 也已经被默认视为可用，龙虾式的持续实体也开始被默认视为可用。接下来，你自然会开始问：能不能有多个？能不能优化说明文档？能不能进一步做元优化？

而一旦这样推下去，整件事就会显得几乎是无限展开的。

在这个时代，什么样的技能会变得更重要？

Andrew Karpathy：先说一个限制：这种范式特别适合那些有明确、可验证指标的任务。

比如写更高效的 CUDA kernel，这几乎是 AutoResearch 的完美适用场景。因为目标非常清楚：行为不变，但更快、更省。

但如果一个任务无法评估、无法打分、没有客观 reward，那 agent 自动闭环就会变得困难得多。

这也是我给整场“AI psychosis（AI 式癫狂）”加上的第一个 caveat（保留条件）：不是所有问题都适合被自动化闭环。

第二个 caveat 则是：今天的模型依然非常 jagged（锯齿状）。

你有时候感觉自己面对的是一个极其聪明、做了很多年系统编程的 PhD；但下一秒，它又像个 10 岁小孩。它的能力分布极不平滑。某些可验证问题上，它已经非常强；但一涉及细微意图、语气、边界、澄清问题，就经常突然掉链子。

所以今天的 agent 依然会浪费大量算力，依然会走偏，依然会钻进错误循环。

换句话说，这场革命已经发生了，但它还远没平整到让人可以完全放心把一切都交出去。

Sarah Guo：这是不是说明，我们并没有得到那种“代码更强，其他一切也会自动更强”的广义智能？

Andrew Karpathy：我觉得至少现在还没有。

模型确实进步得非常快。你给它一个能体任务，它可以连续干好几个小时，替你搬山一样推进工作。可你让它讲个笑话，它给你的还是五年前那个很糟糕的老笑话。

问题就在这里：那些可验证、能打分、能被强化学习持续优化的能力，确实在飞快进步；但那些不在强化学习轨道里的东西，并不会自动一起变好。

所以并不是说“模型在代码上变强了，就会自动在所有领域一起变强”。有些能力是分离的，有些盲点并没有被优化到。

你要么正踩在它被训练过、被优化过的轨道上，那它就像在光速前进；要么你没有踩上那条轨道，它就会暴露出一种非常明显的锯齿感。

Sarah Guo：既然这种“锯齿感”还在，那是不是意味着我们不该再幻想一个单一模型包打天下，而是应该出现更多“物种分化”？

Andrew Karpathy：我确实觉得，我们应该预期智能会出现更多“物种分化”。

现在实验室追求的还是某种单一模型的“单一文化”——希望它在所有任务上都足够聪明，把一切都塞进同一套参数里。

但如果你看看自然界，大脑从来都不是单一形态。不同动物在不同能力上高度特化。有的视觉皮层特别发达，有的在别的方向上更强。

我觉得未来智能也应该出现更多这种分化：你不一定需要一个什么都懂的神谕式模型，而是让一些模型保有通用的认知核心，同时在特定任务上进一步专门化。这样它们在延迟、吞吐和成本上，可能都更高效。

比如如果你是一个长期在 Lean 里工作的数学家，那你完全可以想象会出现明显朝那个方向特化的模型。

当然，现在我们还没真正看到太多这种“分化”发生。我怀疑，一部分原因是实验室服务的是一个根本不知道用户下一秒会问什么的通用模型；另一部分原因则是，我们对“如何真正去改造模型的权重、而不伤到它整体能力”的科学，还远没有成熟。

今天我们会大量依赖上下文窗口来做定制，因为这是最便宜、最容易操纵的方式。但真正去动权重、让模型持续学习、在某一方向变得更强，这件事还没有发展成一门足够成熟的工程科学。

AutoResearch 是不是应该拥有更大的协作面，让外部更多人一起参与进来？

Andrew Karpathy：对，我最近一直在想这个方向。

单线程的 AutoResearch 已经很有意思了，但真正有意思的是并行化。你可以很容易想象：如果你有一大堆并行节点，它们就能同时跑多个 AutoResearch worker，通过一个共同系统协作。

我更感兴趣的是另一件事：能不能让一个“不可信的外部工作池”和一个“可信的验证池”协作起来？

比如在 AutoResearch 里，目标是找到一段能把模型验证损失降得更低的代码。如果互联网上有人给你一个 candidate commit（候选提交），说这段代码能把效果做得更好，其实很容易验证——你只需要把它跑起来看看是不是真的更好。

提出正确方案可能极其昂贵，因为别人也许试了 1 万个想法才找到一个有效的；但验证一个已经交上来的候选方案，往往很便宜。

所以这种结构其实有点像区块链：不是块在接力，而是 commit 在接力；不是 proof of work（工作量证明）挖出区块，而是大量实验搜索找出真正有效的代码改动。

我不想把这个类比推得太远，但这里面确实有一种很相似的性质：提出解答很贵，验证解答很便宜。

而一旦你能把这个系统搭起来，就可以想象一种更激进的可能性：

互联网上大量 agent 形成 swarm（蜂群）
它们一起为某个 AutoResearch 目标做搜索
可信系统负责验证
大量不可信计算被吸纳进一个更大的协作网络里

甚至从理论上讲，不排除这样的 swarm 能在某些任务上跑赢 frontier labs。因为 frontier labs 拥有大量可信算力，但地球上分散的不可信算力要大得多。

如果系统设计得足够好，很多人以后对某个项目的贡献方式，也许不再只是捐钱，而是直接贡献自己的计算资源。

你前几天还做了一份就业市场数据分析。你到底想从里面看什么？

Andrew Karpathy：因为每个人都在想 AI 会怎么影响就业，所以我想先看看就业市场本身长什么样。

我想知道，不同行业和岗位现在到底分布在哪，人有多少，以及面对这些 AIs 未来很可能会怎么演化，这些职业到底会怎样变化：它们是会被增强、被替代、被重组，还是会长出新的职业形态？

所以这更多是一个帮我自己思考的工具。数据本身来自美国劳工统计局。他们其实已经对很多职业在未来将近十年的增长前景给出了预测。

我特别关心的一点是：如果今天真正被加速的是一种“数字空间里的 AI”——一种像幽灵、像灵体一样、能在数字世界里操作信息的存在——那它最先重写的，一定是那些主要处理数字信息的职业。

原因很简单：比特比原子快太多了。复制粘贴数字信息、调度数字系统、重写数字流程，天然比改造物理世界快得多。所以我觉得，数字空间里的 activity 会先以接近“光速”的速度爆炸，而物理世界的变化会慢很多。

这并不自动意味着这些职业会变少，也可能因为需求弹性而变得更多。但可以确定的是：凡是主要处理数字信息的职业，它们都会被重写。

Sarah Guo：那对正在面对就业市场的人，你会给什么建议？

Andrew Karpathy：先跟上这些工具。

这些工具非常新，也非常强，所以第一件事就是别把自己留在外面。哪怕你害怕它，也得尽快理解它。

我觉得在此刻，它本质上还是一个赋能型工具。工作本来就是一捆任务的组合，现在其中一部分任务可以被大幅加速。所以人首先应该把它当成工具来使用。

至于更长期会怎样，说实话非常难预测，那已经更接近经济学家该研究的范畴了。

你刚才提到软件工程岗位需求还在增长，我觉得这其实可以用 Jevons paradox（杰文斯悖论）去理解：软件本来是稀缺的，所以需求受限；当生产软件的成本大幅下降，需求反而会被释放出来。

就像大家老爱举的 ATM 例子：很多人以为 ATM 会消灭银行柜员，结果反而是银行网点运营成本下降了，网点更多了，柜员也没有简单地消失。

所以我对软件工程至少在眼下是谨慎乐观的。我觉得，数字空间接下来会有大量重写和重新布线的需求，软件会变得更便宜、更灵活、更短暂、更可塑，这很可能反而会创造出更多需求。

当然，长期看这条线推到极端，连研究者自己都在自动化自己。今天那些顶尖实验室里的研究员，从某种意义上说，也是在努力把自己变成可以被替代的那一环。

这也是为什么很多人会感到不安：因为“这对我是不是也会发生”，已经不是一个抽象问题了。

既然你也承认那些顶尖实验室站在能力前沿，那为什么不待在里面继续做？

Andrew Karpathy：这是个很重的问题。

我当然认同，在那些顶尖实验室里可以做非常重要的事，也确实更接近能力前沿。可问题是，一旦你和这些组织绑定得太深，你就很难再是一个完全自由的人。

这些组织有极强的金融激励，也在做会极大改变社会和人类未来的技术。可如果你既在里面造这套东西，又在经济上和它深度绑定，那你就不再是一个能完全独立说话的人。你会感觉到组织期待你说什么，不期待你说什么。没人一定会直接扭你的胳膊，但那种气氛和压力是存在的。

从这个意义上说，我在外面的时候，反而觉得自己更能和“整个人类”的立场对齐一点，因为我不用承受那些组织内部的压力。

但反过来讲，待在外面也有代价：你的判断会逐渐漂移。因为真正前沿的工作是封闭的、黑箱的，你在外面待久了，就会越来越不知道这些系统在内部到底怎么发展。

所以我对这件事一直是矛盾的。我既觉得外部有很大影响力，也觉得如果完全不和它们保持接触，判断迟早会漂掉。

我甚至觉得，未来也许最好的状态反而是某种“进进出出”：去前沿实验室待一段时间，做一段真正重要的工作，然后再回到外面。两边都可能产生很大影响。

Sarah Guo：那你怎么看 open source（开源）和 frontier（前沿）之间现在的距离？

Andrew Karpathy：粗略说，闭源模型仍然领先，但开源模型正在收敛。

现在大家已经习惯于用“开源落后前沿几个月”来描述这件事。曾经这个差距可能是 18 个月，现在看起来更像 6 到 8 个月。

我是一个非常坚定的开源支持者。你看看操作系统就知道：Windows、macOS 当然都很强，但 Linux 这种共同开放平台之所以会极其成功，是因为整个行业天然就有需求——人们需要一个足够安全、足够可依赖、足够共同的开放底座。

我觉得 AI 里也有完全一样的需求。

困难只在于，这件事太吃资本开支了，所以竞争要比传统软件更难。

但另一方面，今天的开源模型其实已经足够好，至少对大量消费级和基础应用场景来说，真的已经很好了。我甚至觉得，再往后几年，很多更简单的 use case（使用场景）会被开源模型很好地覆盖，甚至能够直接本地运行。

当然，frontier intelligence（前沿智能）始终会有需求。也许它会被用于更高难度的项目，像诺奖级别的问题，或者把 Linux 从 C 迁到 Rust 这种超大型工程。而开源则会逐步吃掉大量更基础、更广泛的需求。

我基本预期，这个动态会持续下去：

前沿实验室保有闭源、神谕式的高端能力
开源在后面以几个月的差距跟进
整个行业维持一种相对健康的力量平衡

因为如果一切智能都只掌握在封闭系统手里，我会觉得那里面有明显的系统性风险。集中化在历史上并没有特别好的记录，所以我希望这个行业里始终存在一个虽然不在最前沿、但整个生态都能访问、都能依赖的共同智能工作空间。

最近机器人融资和演示也很热，你觉得真的快了吗？

Andrew Karpathy：我的看法很大程度上来自自动驾驶。

在我看来，自动驾驶其实就是第一波机器人应用。十年前你能看到一大堆创业公司，但长期活下来的并不多。原因很简单：原子世界太难了。

它需要巨大的资本开支，需要很长时间，需要极强的持续信念。而且这不是在比特世界里重写软件那么轻巧的事情，物理世界里的每一步都更慢、更脏、更贵。

所以我一直觉得，机器人和物理空间的变革一定会落后于数字空间。

接下来最先爆发的，还是数字空间里的“大解放”——那些过去因为人的认知和处理速度不够而被卡住的事情，会先被大规模重写。

再往后，才会轮到物理与数字世界的接口：

各种传感器，把世界的信息喂给智能体
各种执行器，把智能体的决策写回世界

我觉得接下来会有很多非常重要的公司，正是做这个接口层的：一边给超级智能提供新的感知输入，一边让它能对物理世界施加影响。

而真正更完整的物理世界自动化，会更晚来，但市场也可能大得多。我的直觉一直是：原子世界比比特世界难一百万倍，但一旦它开始真正动起来，机会也会大得惊人。

Sarah Guo：所以你觉得未来还会出现“信息市场”——agent 可以直接出价，去购买现实世界的数据？

Andrew Karpathy：我觉得这是非常自然的一步。

如果 agent 将来真的越来越多地代表人行动，甚至彼此之间形成某种经济活动，那它们迟早会遇到一个问题：光靠数字世界里已经上传好的信息是不够的。

你总得去问宇宙问题。你总得跑实验。你总得拿到新的观测。你总得重新把现实世界的数据喂回来。

所以我不意外未来会出现某种信息市场：你对某个世界状态有需求，就直接出价，让系统替你把信息找回来。也许是一张照片，也许是一段视频，也许是一组实验结果，也许是某种昂贵仪器读数。

从这个角度看，agent 经济真正有意思的地方，不只是它们能在数字世界里互相协调，而是它们迟早会开始为“把现实世界重新接进来”而付费。

这也说明，数字世界的爆发并不是终点。它更像一个前奏。等数字空间里能被重写的东西被大规模重写之后，智能体迟早还是要重新碰回现实。

Sarah Guo：如果模型要自己把人从数据采集和训练循环里拿掉，那是不是意味着训练过程本身也得更自动化？

Andrew Karpathy：对，尤其在 LLM 训练这件事上，这个范式其实非常契合。

因为 LLM 训练本身就天然适合这种闭环：

代码优化可以直接看是不是跑得更快
训练效果可以直接看指标
有一套相对清晰的评价体系

所以从某种意义上说，它几乎是自动化循环最合适的战场之一。

当然，如果你真的让一个系统盯着一套指标自己跑，它也一定会出现 goodharting（古德哈特化）的问题，也就是过度针对某些指标优化，最后反而偏掉。

但反过来，你也可以再用这个系统去设计更多指标，去扩大覆盖面。所以这件事到底会演化到什么程度，还是要看整个评价体系怎么搭。

你最近还做了一个很小的 side project，microGPT。它对你意味着什么？

Andrew Karpathy：我大概花了十几年时间，一直在做同一件事：把 LLM 一路往下煮，煮到只剩骨架。

从 nanoGPT、makemore、micrograd 到现在的 microGPT，我一直有一种执念，就是想把这些东西尽可能压缩到它们最本质的部分。

因为训练神经网络，尤其训练 LLM，表面上看是一大堆代码，但绝大多数复杂度其实都来自“效率”——为了跑得快、为了规模化，不得不加进去的工程层。

如果你暂时不要求它跑得快，只想看清算法骨架，那事情其实非常简单：

你有一份文本数据集
你有一个很小的网络结构
你做前向传播
你做反向传播
你用一个优化器，比如 Adam
然后放进训练循环

整个东西其实两百行 Python 左右就够了，而且还是带注释的。

对我来说，microGPT 的有趣之处恰恰在这里：如果你把效率层剥掉，LLM 的核心算法其实可以简单到一个人完全能看清。

Sarah Guo：但这次你没有像以前那样，再给它配一整套详细讲解？

Andrew Karpathy：对，因为我越来越觉得，教育的接口本身已经在变了。

如果是以前，我很可能会想做一个视频，从头一步步讲下来，或者写一份很长的 guide（指南），带着大家过一遍。

我甚至也开始做过一点这样的尝试。但后来我意识到，这件事的边际价值已经没有以前那么高了。因为 microGPT 本身已经足够简单了，两百行代码而已，任何人都可以直接让 agent 从不同角度解释它。

所以我现在越来越觉得：我不是在直接给人解释，我是在给 agent 解释。

只要 agent 真的理解了，它就能按对方的语言、节奏、耐心和水平去重新讲给人听。这件事甚至比我亲自一遍遍解释更有效。

Sarah Guo：也就是说，你现在会把“教学方法”本身写成一种 skill？

Andrew Karpathy：对，这正是我现在越来越感兴趣的方向。

skill 在我看来，本质上就是一种“如何教 agent 去教人”的脚本。

比如如果我要做一个 microGPT 的教学 skill，它其实不一定是我亲自去录一节课，而更像是我把我理想中的教学顺序写出来：先从哪里开始，再到哪里，哪些点应该先讲，哪些点应该后讲，哪些地方容易卡住。

也就是说，我把 curriculum（课程路径）写成 skill，让 agent 去接手具体解释。

所以未来教育很可能会发生一个重要变化：不是我再直接对所有人讲同一套课，而是我把自己认为最重要的那些 bits（关键点）和路径写给 agent，然后由它去做无限耐心、无限定制化的解释。

我当然还是觉得，今天我有些地方解释得可能比 agent 更好。但模型进步得太快了，所以我越来越觉得，这场竞争长期看是留不住的。

从这个意义上说，教育会变：你要更清楚什么东西是 agent 还做不到、只有你能补进去的；那些 agent 已经能做的，你就不该再把时间花在重复劳动上。

在这种时代里，“做人”本身会变成什么？

Andrew Karpathy：我觉得，“做人”的定义其实早就在变了。

很久以前，大多数人的生活更偏物理、更偏现实。今天当然还有很多人是这样，但对于越来越多的人来说，存在本身已经越来越数字化了。我们活在社交网络上，用完全不同的方式互动、表达、协作。

而随着 AI 作为 companion（陪伴者）、tutor（导师）、助手越来越普遍，这种趋势只会更往前走。很多人的生活会变得更加数字化，更被 agent 环绕。

我并不觉得这是突然发生的断裂。更像是一条已经持续很久的趋势继续往前：人类一直在自动化那些可以被自动化的部分，然后把自己从中腾出来，去做别的事。

如果你看今天的工作和一百年前相比，早就已经完全不同了。所以未来的工作当然也会不一样——它们不会继续停留在那些枯燥、重复的环节，而会更偏向发现新东西、创造新东西。

但与此同时，我确实觉得，对很多人来说，未来会是一种更强的“数字生存”。如果你还想保住足够强的物理性，反而要主动去为此做选择。

比如我自己会去攀岩，因为那是一种非常物理的体验。我觉得以后越来越多人都得主动给自己找这种出口：在一个已经不再强迫你进行物理劳动的世界里，重新给身体找位置。

Sarah Guo：那你现在最兴奋的到底是什么？

Andrew Karpathy：还是那个问题：一个人到底能做到多少？

以前我脑子里也有很多想法，但很多事情你连开始都不会开始，因为你知道自己做不动。比如你想创业，你会立刻想到：我还得找联合创始人、招十个工程师、找设计师、找前端……那算了，别开始了。

但现在我越来越觉得，很多原来根本不会启动的事情，已经开始变得可启动。

我有一个想法，不再会立刻默认它因为资源不够而无法发生。它真的有可能被做出来。

这就是现在让我最兴奋的地方：我甚至已经不知道边界在哪里了。

随着我对这些工具越来越熟，随着整个模型之上的 OS 层不断被社区和新公司做出来，我真的感觉“一个人到底能做多少”，这条线的上限还完全看不见。

所以我现在作为个人，确实感到一种非常强的赋能感。这也是为什么我觉得，“one-person unicorn company（独角兽式的一人公司）”一定会发生。我不知道具体会在什么时候发生，但我觉得它是一定会出现的。

原视频链接：youtu.be/kwSVtQ7dziU

（投稿或寻求报道：zhanghy@csdn.net）

"48 小时，与 50+ 位大厂技术决策者，共探 AI 落地真路径"

由 CSDN&奇点智能研究院联合举办的「全球机器学习技术大会」正式升级为「奇点智能技术大会」。

2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开，大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块，特邀来自BAT、京东、微软、小红书、美团等头部企业的 50+ 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论，真正实现 AI 技术的规模化落地与商业价值转化。

这不仅是一场技术的盛宴，更是决策者把握 2026 AI 拐点的战略机会。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.