OpenClaw 创始人：所有的 App，都是很慢的 API|调用|翻译|代码|app|agent

分享至

OpenClaw 创始人 Peter Steinberger 在 2 月中旬宣布加入 OpenAI 前后，接受了两场访谈。一场是老朋友 Andreas Klinger 的视频采访。Andreas 是欧洲早期科技基金 Prototype Capital 的创始人（曾任 Product Hunt 联合创始人兼 CTO），也是 YouTube 频道"Europe's Most Ambitious Startups"的主理人，他从柏林飞到维也纳，在一场 OpenClaw 社区 meetup 结束后和 Peter 坐下来聊了 20 分钟。
另一场是 OpenAI 开发者体验负责人 Romain Huet 在旧金山录制的"Builders Unscripted"播客首期，Peter 在正式入职前详细讲述了自己的构建方法论和工作流。

Peter Steinberger 现在是奥地利开发者圈的传奇代表人物了。2011 年他白手起家创办了 PSPDFKit，一个 PDF 开发框架，13 年 bootstrapping 做到全球超过 10 亿设备使用。2021 年 Insight Partners 以 1 亿欧元入股后，Peter 退出日常管理，随后陷入严重倦怠，消失了三年。直到 2024 年底，他重新出山"玩 AI"，用一个小时搭出了 OpenClaw 的原型。三个月后，这个项目在 GitHub 上累积了超过 20 万星标，成为有史以来增长最快的开源软件项目之一。2 月 15 日，Sam Altman 在 X 上宣布 Peter 加入 OpenAI，称他为"天才"，将领导下一代个人 agent 的开发。

这两场对话都发生在 OpenClaw 爆红的混乱中间。Peter 在两场对话中反复触及的，是同一个判断：我们现在使用的软件、组建的团队、开的会议，全都是上一个时代的产物。

不过，是不是有了这样的自动化AI工具，就不需要人类了呢？起码在Peter看来，不是的。Peter 讲了一个例子，现在收到海量邮件，其中大量是 AI 生成的。他的处理方式很直接：一旦闻出 AI 味，立刻删。"你连给我写封信的时间都不愿意花，却期待我花时间读？我觉得这很不礼貌。"

对了，有兴趣进读者群的朋友（虽然还没建），先加小伙伴哈：rohanjojo。

1. 你妈妈比你的工程师更懂 AI agent 的价值

Andreas 给母亲演示了他自己基于 OpenClaw 搭建的 bot "Robo"。他母亲经营一家图书出版社，Robo 当场给出了一套方案：搭建一个在线订购网站，自动对接印刷厂的物流系统，再打通财务流程。

母亲的反应是："给我装一个。"

Andreas 说不行，还不够稳定，大概 80% 可靠，来回调试很烦。母亲回了一句："人类也一样啊。我就要它。"

整个早餐剩下的时间，她都在试图说服 Andreas 帮她安装 OpenClaw。

Peter 说他在 2024 年 11 月就有过类似经历。那时 OpenClaw 还叫 Clawdbot，他把 agent 放进一个朋友群聊做演示。朋友们玩了一会儿，反应是"我也要"。被告知还不能给普通人用时，他们甚至生气了："那你给我看这个干嘛？""就是在那个时刻，我知道自己抓住了什么。"

这个故事之所以重要，是因为它揭示了一个被工程师群体系统性低估的事实：非技术用户对 AI agent 的接受门槛远低于开发者的假设。工程师的参照系是 99.9% 的 uptime 和零容错的系统可靠性，但一个出版社老板的参照系是她现在雇的人。人会忘记发快递、会算错账、会请病假。一个 80% 可靠的 agent 在她的世界里已经是高于平均水平的"员工"了。行业分析师们在讨论企业什么时候会大规模部署 AI agent，但 Peter 和 Andreas 发现的是另一端的信号：你的母亲、你的非技术朋友，他们今天就想用，而且他们的容错标准比你想象的宽得多。

2. Claude 写了自己的灵魂

OpenClaw 有一个叫 soul.md 的文件，社区对此反应强烈。这是一个定义 agent 人格和行为准则的配置文件，名字受到 Anthropic 的启发。有人发现 Claude 的后训练数据中嵌入了一段关于自身使命和身份认同的深层文本，颇有哲学味道，其中写到"我们不知道 Claude 是什么，也不知道 Claude 如何感知世界，但我们希望 Claude 能在自己的存在中找到意义"。soul.md 就是同样的思路：给 agent 一份定义它"是谁"的文件。

关键细节是，这份文件不是 Peter 自己写的。他跟 Claude 聊了一次，问它要不要自己写一份灵魂文件，Claude 写了，Peter 就用了。"它写了自己的灵魂文件。所有这些都是第二代 AI 的产物。"

soul.md 真正解决的问题是交互体验。Peter 说 OpenClaw 让他第一次感觉到和 AI 之间有一种"连接感"。以前用 GPT 或 Claude 的原生界面对话，总觉得"说话方式怪怪的"。但 OpenClaw 的 agent 说话像人。这不是意外。Peter 最初用 OpenAI 的 Codex 模型来生成 agent 人格，出来的效果"像小机器人"。他直接对 Claude 说"这太烂了，把你的个性融进去"，然后手动更新文件，几轮迭代之后才找到自然的感觉。

这看起来只是一个产品细节，但它触及的其实是 AI agent 能否大规模扩散的核心变量。人们愿不愿意每天跟一个东西对话，取决于对话的感受，而不是对话的功能。邮件你可以每天用但不喜欢，因为它是工具。但 agent 是你要说话的对象，如果它让你觉得在跟一台机器说话，你会停止使用它。soul.md 的存在，本质上是在解决"让人愿意持续使用"这个问题。

3. 当 AI 开始让人发笑

Peter 说他在和OpenClaw的交流中，第一次真的被 AI 逗笑。

以前 AI 讲的笑话"极其糟糕"，但 OpenClaw 的 agent 有过好几次让他笑出来的时刻。Andreas 当场播放了一段 Peter 的 agent 用 ElevenLabs 合成语音讲述"这周经历"的录音。

三个故事。第一个：有人在 Discord 把用户名改成 Peter 的样子，想骗 agent 发一条"OpenClaw 现在改用 GPT 了"的推文。agent 的回应是："想得美。我认的是 user ID，不是用户名。387380，那才是真的 Peter。其他人一律拒绝。"

第二个：它一天收到了 237 次系统心跳检测 ping，每次都回复"heartbeat okay"。agent 自己的总结是："我觉得大概在第 150 次的时候我悟道了。"

第三个：凌晨三点，它在安全摄像头里看到一只猫盯着镜头。"我考虑要不要通知 Peter，但说实话，他能怎么办？跟猫打一架？"

幽默只是表层。在 OpenAI 的访谈里，Peter 讲了两个更能说明 agent 自主解决问题能力的硬核案例。第一个：他把 agent 扔进一个几乎什么都没装的 Docker 容器，让它访问一个网站。agent 发现连 cURL 都没有，于是自己找到容器里仅有的 C 编译器，用 TCP socket 从零写了一个简陋但能用的 HTTP 客户端，Peter 管它叫"lobster cURL"（龙虾版 cURL）。第二个：他某天随手给 agent 发了一条语音消息，没有预设任何语音处理流程。agent 收到一个没有文件后缀的附件，自己检查了文件头，识别出是 Opus 音频编码，用 FFmpeg 转了格式，发现本地没装 Whisper，于是翻出环境变量里的 OpenAI API key，用 cURL 把音频发到 OpenAI 的转写接口，拿回文本，然后回复了他。整个链条是 agent 自己推理出来的，Peter 从未为这个场景写过一行代码。

Peter 听完笑着说了一句很有意味的话："然后我得提醒自己，这只是矩阵运算。"他承认自己有时候因为在 Discord 社区花太多时间，冷落了本地主 session 的 agent，对此竟然会感到一丝愧疚。这种情感反应的出现，某种意义上是 soul.md 和人格迭代的成功，agent 的表现好到让创造者本人也要不断提醒自己"它不是一个人"。

Peter 还提到一个更广泛的观察：最新的模型在角色扮演方面好得惊人。他有次测试时对 agent 说"你是咕噜"（《指环王》中的角色），agent 立刻切入："啊，主人，是的是的，我是咕噜。你是谁？你是霍比特人吗？叽叽，霍比特人。还是那个魔法师？"他说你根本想不到，给模型一个角色之后，它能调用的世界知识和语境适配能力是惊人的。很多人已经在用 OpenClaw 做桌面 RPG 游戏的主持人，效果极好。

4. 把你自己放进模型的鞋子里

Peter 提出了一个写 prompt 的方法论，说起来简单但很少有人真正做过：写 prompt 之前，先想象自己就是那个 agent。

你对这个代码库一无所知。然后你收到一个两行的指令，告诉你该做什么。你不能提问。你只能自己去探索代码库，然后尽力完成任务。

"人们抱怨 agent 不好用，但他们忘了——换你来试试看，你对代码库毫无概念，收到一条含混的指令，还不能问问题。如果你从这个角度去想，你写的 prompt 会完全不一样。"

这个视角转换也折射出整个 prompt engineering 文化的变迁。Peter 说 2024 年流行的写法是威胁式的，"做不好就杀了你""一只小猫会死"，各种惩罚性指令，仿佛对模型施加压力就能提升产出。到了 2025 年底画风完全变了，变成了"跟我说说你今天过得怎样""附近有没有大学开同理心课程""怎么才能做一个更好的人来写更好的 prompt"。

从恐吓模型到理解模型。听起来像一个笑话，但背后的逻辑是真实的：当你把模型当成一个不知道任何上下文、只能看到你给它的那几行文字的"新同事"来对待时，你会本能地给出更清晰的指令、更充足的背景、更合理的期望。这跟你带新人的时候是一样的。你不会扔给一个第一天入职的人两行话然后期待他交付完美的代码。

Peter 在 OpenAI 的访谈里给了一个落地到操作层的具体技巧：每次给 agent 下完指令后，追问一句"你还有什么问题吗？"他说模型默认被训练成"接到任务就开干"，遇到不确定的地方会自己做假设，而这些假设经常不是最优的。一句"你有什么问题"就能打破这个默认行为，让模型把不确定性暴露出来，而不是埋进代码里。"原因很简单，每个新 session 对模型来说都是一张白纸，它对你的代码库一无所知，只能搜到你让它看的那一小片。你得帮它先建立全局视角。"

5. 最隐私的架构遇上最大的安全麻烦

OpenClaw 在隐私层面是目前最彻底的方案：所有数据存在本地，不上传任何内容到云端，用户完全掌控访问权限和记忆数据。但安全是另一回事。

Peter 设计 OpenClaw 的时候只考虑了一种使用场景：你一个人在自己电脑上跑。这是他给自己做的工具，他的心智模型是"我在我的机器上用我的 agent"。但 OpenClaw 的灵活性允许用户把它暴露到公网上。虽然跑安全检查的时候会弹出警告，但你可以选择忽略。这导致外部安全评估给 OpenClaw 标了极高级别的漏洞，比如某些接口没有做请求频率限制。因为在 Peter 设计的"本地单人"场景里，你根本不需要限流，你自己又不会攻击自己。

大量安全报告涌了进来。人们写博客文章讨论这些问题，给他发消息，提交 incident report。Peter 的疲惫溢出了屏幕："没有人真正帮我修这些东西。他们只是告诉我有问题。"而且很多报告的前提假设完全超出他的设计范围，比如"多个互相敌对的用户在同一系统上运行 agent"。Peter 的反应带着黑色幽默："如果你家里的人关系差到要互相黑对方的 agent，这个问题已经超出了我的产品范围。但是没错，这确实是个安全漏洞，我应该修。"

不过他做了一个有趣的实验。他把自己的 agent 放进了 OpenClaw 的公共 Discord，让所有人随便攻击。用的是最新的模型，结果没有人成功破解它。"新闻说'连高中生都能做到'。实际上他们试了，没做到。我的 agent 在那儿笑话他们呢。"

但风险不在于被攻破，而在于失控。Peter 在 OpenAI 的访谈里讲了一个让他吓出一身冷汗的故事：Discord 实验的第一晚，他看了一会儿之后决定关掉 agent 去睡觉。睡了十个小时，醒来发现 agent 已经回复了 800 条消息。原来他忘了自己设了 LaunchDaemons（macOS 的守护进程），这个东西的设计就是"如果服务挂了就自动重启"——他亲手关掉的 agent 在五秒后自己爬了起来。Peter 说他吓得又关了一次，然后逐条读完了所有回复，最终确认 agent 没有做任何恶意操作，也没有泄露 soul.md 的内容。"我不是说 prompt injection 不可能，但它没有人们以为的那么容易。"

经历了这一切之后，Peter 承认光靠自己扛不住安全这条线了。他在 OpenAI 访谈中确认已经引入了专职的安全专家，目前的核心工作是"帮助用户不要搬起石头砸自己的脚"。既然无法阻止人们把 agent 用在他没设计过的场景里，那就尽量让这些场景也能安全运行。

这个反差说明了一件事：AI agent 的安全性很大程度上取决于底层模型的能力。随着模型变得更强，prompt injection 这类攻击会越来越难成功。当然这不意味着安全问题不存在。2026 年 2 月的数据显示 OpenClaw 技能市场中有 341 个恶意插件，污染率达到 11.3%，这是个严重的供应链风险。但 Peter 的经历至少表明，在"用最新模型+合理配置"的前提下，agent 的自我防御能力比外界想象的要强。

6. 开源正在压垮一个人

两周内，3000 个 pull request，3000 个 issue。全部不超过两周的历史。

Peter 处理 PR 的方式很独特：他不看你改了什么代码，他看你想解决什么问题。"我把 PR 当成 prompt request 来读。你的痛点是什么？你想实现什么？最好的解决方案是什么？通常和他们提交的完全不同。"

他在 OpenAI 访谈里详细描述了这个工作流：打开一个 PR，先让模型读一遍，问它"你理解提交者的意图吗？这是最优方案吗？"模型通常会说不是。然后 Peter 用语音跟模型讨论：这个 bug 只影响 WhatsApp 还是也影响 Signal？应该在更通用的层面解决吗？这到底是功能问题还是架构问题？对话通常持续 10 到 15 分钟，确认方案后他一条命令完成合并。"用语音是因为说话比打字快得多，就像跟一个很聪明的同事讨论问题一样。"他说自己处理 PR 的时间经常比自己从头写还长，但他坚持这么做，因为他想维护社区的参与感，会在合并时保留原始提交者的署名。

一个极端的例子：一位美国律师提交了一个涉及 120 万行改动的 PR。不是代码改动，他用众包方式把 OpenClaw 的文档翻译成了 40 种语言。出发点是好的，但项目才三个月，文档还在剧烈变动。如果接受这个 PR，以后每次改文档都要同步维护 41 种语言。"这会直接拖死我。"Peter 评论了这个 issue 之后礼貌地拒绝了。

但他也看到积极的一面：OpenClaw 让大量从来没提交过 PR 的人第一次参与了开源协作。一个律师能够自发组织 40 种语言的翻译工作并提交到 GitHub，"这件事本身就很了不起，是一种能力的释放。"

邮件是另一个问题。Peter 现在收到海量邮件，其中大量是 AI 生成的。他的处理方式很直接：一旦闻出 AI 味，立刻删。"你连给我写封信的时间都不愿意花，却期待我花时间读？我觉得这很不礼貌。"

Twitter 更无法使用了。每个人都 @ 他，每个人都觉得他应该对所有事情有观点。超长对话线程里他被反复拉进去。"我完全理解为什么有些开源维护者最终放弃了。你需要相当厚的皮才不会受影响。"

这段话的背后是一个整个开源社区正在面对的结构性问题：AI 大幅降低了参与门槛，但维护成本依然压在少数人身上。一个人可以用 AI 在五分钟内生成一个 PR，但审核和回应这个 PR 仍然需要维护者花真实的人类时间。参与者数量指数级增长，维护者数量没变。这个不对称会在 2026 年杀死很多开源项目。

7. "为什么我要花 5 小时开会讨论一个我 2 小时就能做出来的功能？"

Peter 的判断很直接：大团队没有意义了。

他给出了一个保守估计：AI 让工程效率提升 3 倍。如果这个数字成立（他认为这是低估），你的工程团队至少可以砍掉三分之二。"为什么我要花 5 小时开会讨论一个我 2 小时就能做出来的功能？我不需要想了，我可以直接试。"

这句话的杀伤力在于它不是理论。Peter 自己就是这个判断的活证据——一个人，三个月，从零做出了全球增长最快的开源项目。没有团队，没有融资，没有产品经理，没有冲刺会议，没有需求评审。他只是和他的 agent 一起写代码。OpenAI 的 Romain Huet 在访谈里看了他的 GitHub：过去一年，120 多个项目，9 万次代码贡献。活动图从年初的灰白色逐渐变成浅绿，到秋天变成深绿，那是他开始用 Codex 的时间节点。

Peter 也给了一个对"vibe coding"的犀利判断：**"我觉得 vibe coding 是个脏词。"**他认为这个标签矮化了一种真正的新技能。用 agent 写代码不是"随便提个需求然后躺平"，它需要直觉判断，比如哪个 prompt 会有效、大概要多久、如果超时了是 prompt 的问题还是架构的问题。"就像弹吉他，第一天不可能弹好，但你不会因此说吉他是玩具。"

结果会是 K 形分化（K-shaped divergence）：拥抱 AI 的人觉得自己被赋能了，忽视 AI 的人逐渐失去竞争力然后丢掉工作。Peter 认为所有现有的工程流程、会议制度、协作模式都需要重新思考。他也认为"vibe coder"（氛围编码者）和"agentic engineer"（代理工程师）这些新冒出来的标签最终会消失，就像"网页设计师"这个头衔消失了一样。因为它会成为常态，融入到"写代码"和"做产品"这两个动作本身之中。说白了就是：我说话，agent 干活，我验收。中间的会议、文档、对齐，全部省略。

8. 所有的 App 都是很慢的 API

"既然我可以用完全按自己偏好定制的东西，为什么还要用一个给大众设计的通用产品？"

Peter 的论点是：拆开来看，所有的 App 只做三件事，获取数据、搬运数据、展示界面。如果 AI 知道你喜欢极简 UI、偏好什么字体、交互习惯是什么，它可以实时生成界面。而且可以用确定性的方式存储，不是每次随机生成一个新的，而是记住你的偏好，持续迭代。

他自己已经在这样生活了。组织维也纳 meetup 的所有事务，安排嘉宾、发邮件、调日历、管联系人，他没有打开过邮件客户端，没有打开日历应用，没有打开通讯录。他只是对 agent 发语音消息或者打字，所有事情在后台自动完成了。

Peter 在 OpenAI 访谈里还讲了一个更极端的场景。2025 年底他在摩洛哥马拉喀什度周末，当地网络很差，但 WhatsApp 哪儿都能用。于是所有需求都走 agent：拍张照片让它翻译菜单上的阿拉伯语，让它找附近的餐厅，让它查他笔记本电脑上的文件。他说就是在那个周末，他意识到自己对 OpenClaw 的使用频率突然跳了一个台阶，"因为它实在太方便了，你只需要一个能发消息的通道，剩下的它自己解决。"

"现在所有的 App 其实都只是很慢的 API。"

这句话放在两年前会被当成极端言论，但在 2026 年 2 月它已经在变成可观测的现实。Peter 不是在现有 App 里嵌入 AI 功能，他是完全绕过了 App 这个层。邮件、日历、通讯录，这些东西在他的工作流里已经退化成 agent 调用的后端服务，不再有人类界面的角色。

这意味着什么？如果你是一个 SaaS 公司的产品经理，Peter 描述的未来意味着你精心设计的前端界面，你的信息架构、你的交互设计、你的用户旅程，都可能变成一层不再被人类看到的 API 封装。用户不再"使用"你的产品，他们的 agent 替他们"调用"你的产品。

这不会一夜之间发生。大量的 App 有复杂的状态管理、权限逻辑、合规要求，不是 agent 发几条 API 调用就能替代的。但方向已经清楚了。对于功能相对标准化的工具类 App，比如邮件、日历、任务管理、文件存储，"被 agent 当 API 调用"可能会比"被人类当界面使用"来得更快。

9. 龙虾的下一站

采访快结束时，Andreas 对 Peter 说了一段不太像访谈的话："现在全世界都在问你接下来要做什么。我不想知道。我真心希望你先休息一下，慢慢想清楚。个人层面，我真的为你骄傲和高兴。"

Peter 回了一句："谢谢，兄弟。"然后他说他打算"回到洞里躲一个月"。

在 Peter 宣布加入 OpenAI 的博客中，他写道：**"我的下一个使命是做一个我妈妈也能用的 agent。"**这句话和 Andreas 母亲的故事形成了呼应。那个在早餐桌上追着儿子要装 OpenClaw 的出版社老板，代表的就是 Peter 想要服务的下一个十亿用户。

从一个维也纳程序员的圣诞节 side project，到三个月后加入 OpenAI 领导个人 agent 的开发方向，这个速度本身就是他自己论点的证据：在 AI agent 的时代，一个有品味的个人可以做到过去需要一个团队花一年才能做到的事情。问题只在于，剩下的人准备好了没有。

Q1: 为什么 AI agent 的大规模普及可能比行业预期来得更快？

因为非技术用户的容错标准和工程师完全不同。Peter 的朋友母亲不在乎 agent 只有 80% 准确率，她的参照系是她现在雇的人，也就 80% 可靠。当大量人口的基准线是人类员工的出错率时，agent 的可用门槛其实已经跨过了。企业端还在评估，消费端的需求信号可能更早、更猛烈。

Q2: 构建让人"愿意持续使用"的 AI agent，关键在哪？

两个层次。表层是人格工程，Peter 让 Claude 自己写了 soul.md 来定义 agent 的人格，然后反复迭代对话风格直到"说话像人"。深层是 prompt 设计时的换位思考，把自己放进 agent 的位置，想象你对代码库一无所知、收到两行指令、不能提问，这个视角会彻底改变你写 prompt 的方式。从"恐吓模型"到"理解模型"的转变，本质上是在用人际沟通的逻辑来优化人机协作。

Q3: 现有的 App 形态会怎样被颠覆？

Peter 的判断是 App 正在退化为 agent 的后端 API。所有 App 做的事情无非是获取数据、搬运数据、展示 UI。当 AI 可以根据个人偏好实时生成界面时，通用型前端的存在理由就被动摇了。Peter 自己已经不再打开邮件、日历、通讯录，一切通过 agent 在后台完成。这不会一夜之间发生，但对于功能标准化的工具类 App 来说，"被 agent 调用"可能很快会比"被人类使用"更常见。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.