全文3,000字 | 阅读约8分钟
中文互联网上最火的 AI 新物种,叫 OpenClaw,也叫“小龙虾”。
热度有多真实?小红书、知乎、B 站满是安装教程,从 Mac 到旧手机都能部署。有人做付费课程,有人提供上门安装服务,甚至出现了专门的知识星球。
这说明中国用户不只是围观,已经在真实使用。
但装上容易,用好难。
3月5日,LangChain 创始人 Harrison Chase(LangChain 是目前最主流的 AI Agent 开发框架)在访谈里提到:做一个能在推特上演示的 Agent 很容易,但要让它每天稳定干活,非常难。
其实 AI Agent (智能体)的想法不新鲜。AutoGPT 两年前就在做:让模型循环运行,自己调用工具,自己完成任务。但 AutoGPT 沉寂了,OpenClaw 却火了。
为什么 AutoGPT 沉寂了,OpenClaw 却火了?
为什么演示容易,运行难?一个真正能干活的 Agent 需要什么?
企业怎么才能看清 Agent 在做什么?
这些问题的答案,Harrison Chase 在这次访谈里讲得很清楚。
第一节 |为什么突然所有公司都在装龙虾
OpenClaw 的爆火看起来很突然。但在 Harrison Chase 看来,这件事其实准备了很久。
时间往前倒两年,开发者圈出现过一个类似项目叫 AutoGPT。它一度成为GitHub 增长最快的开源仓库,很多人第一次看到:原来 AI 可以不断循环运行,自己调用工具,自己继续完成任务。它的做法就是:模型思考,调用工具,根据结果继续行动。
但 AutoGPT 很快就不火了。
为什么?那时候的模型还不够稳定。任务一长,模型做着做着就乱了,或者在同一个步骤里反复打转。演示很惊艳,实际用起来经常出问题。
Harrison Chase 后来总结过:想法很美好,但要让它可靠地运行,其实很难。
过去一年,这个难题开始有解了。
模型能力明显提升。Claude、GPT 以及新一代大模型,处理长任务时更稳定,调用工具也更准确。
但更关键的变化是:Agent 开始有了管理自己工作环境的能力。
最明显的是文件系统。它们可以把信息存到文件里,需要的时候再读取。它可以像人在电脑上工作一样,有地方放资料,有地方写草稿,任务做到一半可以保存,然后继续往下走。
模型变聪明,加上有了文件系统,就让 OpenClaw 这样的 Agent 真正能用起来了。
技术不是突然诞生的,只是慢慢跨过了某个临界点。
所以你会看到,越来越多公司开始把龙虾装进自己的系统。
第二节 |演示容易,干活难在哪
装上龙虾之后,很多公司很快会发现:Agent 看到的信息和人类不一样。
人在工作时,可以自己决定要看哪些资料,要跳过哪些细节。但 Agent不行。它只能看到你给它的信息。给多了处理不过来;给少了又会乱套。
Harrison Chase 提到 AutoGPT 当年的做法:如果调用一个 API,返回了40000个 token 的数据,它就直接把这40000个 token 全部塞给模型,作为下一步的输入。
结果就是:信息量太大,模型根本处理不过来。
到了OpenClaw 这一代,思路变了:把这40000个 token 存到文件里,只告诉模型前面1000个 token 的内容。如果 Agent 判断需要更多信息,可以自己用工具去读完整版。
这个改变看起来很小,但本质上是把控制权交给了 Agent 本身。它可以决定自己要看什么、什么时候看。
Harrison Chase 管这个叫上下文工程:在正确的时间、以正确的格式、把正确的信息给到模型。
任务一长,Agent 需要的信息就会越来越多。你要决定哪些信息应该一直保留,哪些可以暂时放一边,哪些应该压缩,哪些需要详细展开。
这就是让 Agent 真正干活的关键所在。
第三节 | 能干活的 Agent 需要什么
第二节说的上下文管理问题,怎么解决?
Harrison Chase 在访谈里提到,需要一整套结构。这套结构现在已经相对清晰了。
首先是规划
让 Agent 在动手之前先想清楚:这件事需要哪些步骤,每一步应该做什么。具体做法是给它一个待办事项列表工具,让它自己记录任务进度。这样 Agent 就不会做着做着忘了目标。
然后是子 Agent
当任务太复杂时,可以把它拆成几个小任务,每个小任务交给一个专门的子 Agent 去做。比如一个负责查资料,一个负责写代码,一个负责整理结果。
为什么要这样做?因为每个子 Agent 有一个清晰的上下文窗口,只关注自己的小任务,不会被其他信息干扰,可以真正深入把事情做好。做完之后,把结果交回给主 Agent。
接下来是文件系统
它的作用远不止“有地方存文件”。真正重要的是:文件系统让 Agent 可以管理自己的上下文。
Agent 可以把暂时用不到的信息存到文件里,需要的时候再读取。它可以把大块的工具返回结果先存起来,只看摘要,要深入了解时再打开完整版。这就解决了第二节说的信息过载问题。
最后是提示
很多人以为模型变聪明了,提示就不重要了。事实正好相反。Claude Code 的系统提示词,如果把工具定义也算进去,大约有2000行长。
提示仍然极其重要,因为它决定了模型会怎么推理、Agent 会怎么行动。
有了这套结构,Agent 就有了干活的基础。
第四节 |企业的难题:你根本不知道 Agent 在做什么
规划、子 Agent、文件系统,这些都有了。但 Agent 还是会出问题。这时候,一个新的难题又来了:
它们到底在系统内部做什么?
传统软件出了问题,开发者可以很快定位。因为程序是按固定流程走的,每一步都有记录。
但 Agent 不一样。它根据任务内容不断生成新的行动:调用工具、修改文件、重新规划。从外面看,任务在继续,但如果中途出错,很多团队根本不知道它之前做过什么,也不知道在哪一步开始出问题。
不知道 Agent 在做什么,带来两个麻烦:
一个是调试困难。任务失败了,不知道哪里出错。
另一个是安全风险。Agent 有权限调用工具、修改文件、访问数据。以OpenClaw 为例,它权限很高,能做很多事,但缺乏护栏。LangChain 现在直接禁止员工在工作电脑上装,就是担心不可控的风险。
OpenClaw 的高权限正是它威力所在,问题是现阶段的版本缺乏企业级的安全控制。企业需要的是一个既强大又可控的版本。
怎么做到可控?要知道 Agent 在做什么,就得先把每一步行动都记录下来。这叫执行轨迹。
但记录只是开始,真正的挑战是:当 Agent 大规模运行时,这些轨迹会变成海量数据。
Harrison Chase 在访谈里讲到两个真实案例:一家叫 Clay 的公司在用 Agent 做客户数据自动化,每月运行数百万甚至数十亿次,他们不可能用肉眼去看这些轨迹。还有代码开发平台 Replit,他们的轨迹可以长达数千步,你需要在单一轨迹内部搜索,找到某个具体时间点发生了什么。
面对这种规模,只能用 LLM 去分析这些执行记录,自动寻找问题。比如找出用户可能困惑的地方,或者连续调用同一个工具三次但得到不同错误的地方。LLM 可以对轨迹进行分类、聚类,告诉你用户在怎么使用这个系统。
Harrison Chase 的判断是:这件事可能比模型能力更重要。执行轨迹和可观测性,是让 Agent 真正发挥作用的核心要素,也是 LangChain 真正的护城河所在。
因为当 Agent 开始承担越来越多工作时,企业需要的不只是一个聪明的模型,更需要一套能看清它在做什么的工具。
有了结构,再加上可观测性,Agent 才能从偶尔成功的演示,真正变成每天稳定干活的工具。
结语|装上只是第一步
OpenClaw 的流行,让很多公司开始把 Agent 接入实际工作。
但装上只是第一步。
让它稳定运行,需要解决上下文管理问题。
让它从演示走向生产,需要规划、子Agent、文件系统这套结构。
让它真正安全可靠,还需要可观测性。
这些,就是 Harrison Chase 说的答案。
装龙虾不难,难的是这些。
识自AI
本文由AI深度研究院出品,内容整理自LangChain创始人Harrison Chase在Venture Beat 2026年3月4日访谈等网上公开素材,属评论分析性质。内容为观点提炼与合理引述,未逐字复制原访谈材料。未经授权,不得转载。
星标公众号, 点这里1. 点击右上角2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
https://www.youtube.com/watch?v=53gPwkcIsXQ&t=16s
https://blog.langchain.com/doubling-down-on-deepagents
https://x.com/VentureBeat/status/2029302123221881076
https://www.21jingji.com/article/20260305/herald/8cef512858916f7779420a15600575a8.html
来源:官方媒体/网络新闻,
排版:Atlas
编辑:深思
主编:图灵
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.