![]()
作者 | 允毅
这是 OpenClaw 之父加入 Open AI 后的首次公开亮相,在与 OpenAI 负责人 Romain Huet 长达半小时的对谈里,他几乎把 OpenClaw 爆火背后的关键细节都交代清楚了。
偏偏同一时间,OpenClaw 也正被谷歌推上风口浪尖。
这几天,一批用户因为大量使用 OpenClaw、通过 Antigravity 后端调用谷歌模型,账号被集体封禁。全网炸锅。有人骂谷歌“翻脸比更新还快”,也有人担心:大厂是不是已经开始对“套壳式调用”动真格了?
剧情还在升级,谷歌 DeepMind 工程师、前 Windsurf CEO 瓦伦·莫汉(Varun Mohan)迅速发声,称这是为了防止模型被“恶意使用”;而 OpenClaw 之父彼得·斯坦伯格(Peter Steinberger)也第一时间反击:已考虑取消对谷歌服务的支持。
![]()
![]()
舆论最沸腾的时候,彼得·斯坦伯格(Peter Steinberger)刚在旧金山办完 OpenClaw 的首场线下聚会 ClawCon,当天参加人数多达 1000 人。
在这期访谈里,彼得·斯坦伯格(Peter Steinberger)交代了不少关于 OpenClaw 的“诞生细节”以及自己的工作流,其中不少颇具个人风格的思考,包括:
他只用了 1 小时就做出 OpenClaw
OpenClaw 第一次“自己行动”时,为什么把他直接震住
当大量网友试图提示注入,它为什么没有泄露他那份“保密金丝雀文件”
与 AI 沟通的绝杀招数,是对模型说“你有什么问题吗?”
他最依赖的 Codex 工作流
直面争议,关于 OpenClaw 的安全问题,到底是工具本身不安全,还是被用错了场景?
今天这期,我们就从“封禁风波”切入,拆开 OpenClaw 的爆红逻辑、产品哲学、工作流秘密。
OpenClaw 已经是全球现象
主持人:你过去几周经历得太疯狂了。我们一个月前就想一起录这期视频。如果那时候就录了,我还得给你做介绍。我觉得你现在已经不需要介绍了。一个开源项目能登上《华尔街日报》,这种事并不常见。所以恭喜你取得这么大的成功。你现在感觉怎么样?
Peter Steinberger:各方面都有点信息过载。当我今年最开始玩 AI 的时候,我是想激励大家。而我觉得现在这就是最终的样子。所以我很自豪。这一切都太不可思议了。
主持人:你这一周都在旧金山,也参加了一些活动,比如 Codex Hackathon(是 OpenAI 举办的、以 Codex 为核心工具的编程黑客马拉松,核心是让开发者用 AI 编码能力快速开发项目),还有 ClawCon(是 OpenClaw 项目的全球首届线下社区聚会,由 Peter Steinberger 与社区自发组织),一个专门为 OpenClaw 举办的活动。
Peter Steinberger:其实这也是社区自己做起来的。当时大家说 “我们需要办个线下聚会”,我就开了一个 Discord(是海外最流行的游戏、开发者、社区用的聊天 + 语音 + 社群平台) 频道用来组织聚会,然后我去了 ClawCon,现场大概有1000 人,我被彻底震撼到了,大家的创造力、现场的氛围,太多东西了,那么多人都很兴奋。你会意识到自己做出来了一个很神奇的东西。这个项目几周前还根本不存在,现在却有成千上万的人在使用、支持它,还聚集在旧金山想见你。这真的太不可思议了。下周在维也纳也有活动,已经有300 人报名了,即便维也纳的科技氛围远不如旧金山。OpenClaw 现在已经是全球现象了。
主持人:没错,能覆盖到不同大洲、不同文化,真的很厉害。那你和这边社区的交流怎么样?这一周你和社区、还有一些你带进项目里的维护者都有交流,感觉如何?
Peter Steinberger:非常特别。很多人很喜欢这个项目,也有很多人期待它是一个能直接用于企业的成熟项目,但对我来说,很长一段时间里,它都只是我的小实验场。一整年下来,我都在惊叹现在能做到的事情。
主持人:如果你是一个 builder,现在真的是最好的时代。你觉得当下做开发、做 builder 最有意思的地方是什么?
Peter Steinberger:这是一个非常特别的时期,整个工具链都在变,开发者的定义也在变,任何人都能做出任何东西。我最开始接触这些新技术的时候,每次都有很强的多巴胺反馈。我最开始用的是 Claude Code,当时它能做对的概率大概只有 30% 到 40%,但对我来说已经非常震撼了。因为我意识到:我现在可以做任何东西。我平时时间也很有限,软件开发本身很难,现在依然很难,但速度快太多了。
我拖了很久的项目,AI 完成了
主持人:我们往回倒几年,我大概是 2011 或 2012 年第一次知道你的作品,当时你做了 PSPDFKit(是由 Peter Steinberger 创立的跨平台 PDF 开发工具包、它帮助开发者在 iOS、Android、Web 等应用中快速集成高性能 PDF 功能,无需从零开发)。从外界看,这好像实现了每个开发者的梦想:发现问题、做出很棒的解决方案、围绕它成立公司、规模化、然后卖掉。但我相信这个过程绝对没那么容易。
Peter Steinberger:我并不是某天醒来突然想 “我要做一个 PDF 框架”。这在我的兴趣清单里基本是倒数的。它更像是一系列很奇妙的连锁反应:从参加诺基亚开发大会,到朋友有这个需求,再到美国签证办得太慢,最后我就这么成立了一家公司。
主持人:我觉得有意思的是,在你做完那家公司之后,你休息了一段时间。是什么让你重新回来做东西?
Peter Steinberger:因为职业倦怠。我高强度运转了 13 年,开公司很难,做创始人很难。这是我的第一家公司,所以我也不知道该怎么缓解这些压力。我当时状态消耗得太厉害,需要放空。我还是会看科技新闻,也看到了 GPT Engineer(是一款开源的 AI 代码生成工具,由 Anton Osika 发起)或者早期 ChatGPT 之类的东西,觉得挺酷,但并没有真正打动我。你必须亲自体验新技术,只看文章是感受不到它的力量的。所以那时候技术并没有真正打动我。
直到我准备好、觉得自己想再次做东西的时候,我才重新开始。我不想再做苹果生态的技术了,因为我做太久了,世界也变了。我当时必须重新找到方向。从一个领域的专家转到另一个领域重新开始,用难这个词都不足以形容这个过程,更像是痛苦。你有很丰富的构建经验,但如果没有 agentic engineering(智能体工程,是 Andrej Karpathy 于 2026 年 2 月正式提出的 AI 编程新范式,核心是:人类不再直接写代码,而是作为架构师与监督者,编排具备自主能力的 AI 智能体团队完成工程化开发),你依然需要学很多东西才能把经验迁移过去。然后我就想,来看看这些 AI 到底是什么。
真正震撼我的时刻是,我把一个之前做到一半就做不动的项目,整理成一个巨大的 Markdown 文件,大概 1.5MB,把所有代码都放进去。我当时把它拖进 Gemini Studio 2.5( Google AI Studio 平台上集成的 Gemini 2.5 系列模型),说 “给我写一份 spec”(技术方案),然后得到了大概 400 行的规格文档。我再把它拖进 Claude Code,输入 “build”,然后我就去做别的事了,它在副屏上跑了好几个小时。跑着跑着它有一次跟我说:“我已经 100% 可用于生产环境了。”你懂的,那种很会迎合人的语气,可能是 Opus 3.5 之类的版本。我一试就崩了。
后来我把 Playwright 接上了(是微软推出的开源自动化测试、爬虫工具,核心是能模拟真人操作浏览器,实现网页自动化、UI 测试、数据爬取、端到端测试等),这是我少数真正在用的 MCP 之一,让它把登录相关的功能做出来,一边做一边检查。一个小时后,它真的能用了。代码写得很粗糙,但对我来说,这是真正开窍的时刻。从流程上看,我鸡皮疙瘩都起来了,想到那些可能性,我激动得睡不着觉,脑子里炸开了无数我一直想做但以前做不了的东西。然后我就彻底陷进去了。
我给 OpenClaw 发了一条语音,然后一切变得妙不可言
主持人:很多人觉得 OpenClaw 对你来说是一夜成名,但我最喜欢、也觉得最神奇的是,它其实是你过去 9 到 10 个月里无数项目的集大成之作。看你的 GitHub,你做了 40 多个项目,其中一半都用在了这个项目里。你能多讲讲这段历程吗?这些想法和项目是怎么一步步变成 OpenClaw 的?
Peter Steinberger:我真希望自己一开始就有统一的规划,但其实大部分都是探索。我想要某些功能,但它们不存在,我就通过提示词把它们创造出来。一步步来,因为我想让我的 agent 帮我做一些事。我当时还没有统一的愿景。很奇妙的是,这一切又绕了回来。比如我想做一个能读取我 WhatsApp 的东西,我甚至买了域名,做了原型,但我觉得大公司肯定会做,我就先等一等,转去做别的东西。
我做了大量实验,我的目标就是好玩、激励别人。到 11 月,我做了几个版本,但都不够好。然后我就想,为什么这些大实验室还没做出来这些东西?然后我做出了第一个版本,也就是后来的 OpenClaw。我们现在已经是第五个名字了。当时还没有完全开窍,只是觉得 “还不错”。第一个原型只花了大概一小时,因为你直接把东西 “提示” 出来就行。
真正让我开窍的是在马拉喀什短途旅行的时候,我发现自己用它用得特别多,因为太方便了。当时网络也不太好,但 WhatsApp 在哪都能用。用它拍照翻译、找餐厅、查电脑里的东西,都特别方便。我展示给朋友,让它帮我发短信,他们都想要。我就说 “你们别用,还不安全”。这就是产品市场契合的信号:你的朋友想要你做的东西,哪怕你根本没为他们设计。它本来更多是给技术同行用的。我真正彻底想通,是我发了一条语音消息,然后我突然反应过来:这不应该能行。
主持人:你之前跟我讲过这个故事,我觉得非常精彩。
Peter Steinberger:这让我看到这些模型在解决问题上有多强。我们做这些东西是为了 agentic engineering,但真正的能力其实更抽象。如果你想成为优秀的程序员,你必须是优秀的问题解决者,这一点适用于任何领域。
我发了一条语音消息,输入提示出现了,我很好奇会发生什么。我根本没做这部分功能。然后模型直接回复了我。我问它 “你怎么做到的?这不应该能运行”。模型说:“你发了一条消息,但它是一个没有后缀的文件。我看了文件头,发现是 Opus 音频编码。我用了你电脑上的 FFmpeg 转码。然后我想做转录,但没装 Whisper。我到处找,找到了你的 OpenAI key,用 cURL 把文件发给 OpenAI,拿到了文本,就是这样。”
这太不可思议了。这就是给 agent 工具权限和完整电脑访问能力的力量。它们可以自己想出解决方案,哪怕你完全没给它们写过任何相关代码。很多人听完都说 “天啊它用了你的 key,太疯狂了”。我说:“不是,我就是把 key 放在环境变量里就是为了这个目的。” 我的 bot 就在同一个环境里运行,它当然应该能用我的 key,我就是这么设计的。这不是坏事,这正是我想要的。那就是我顿悟的时刻。
每次我把它展示给朋友,把它拉进群聊,说实话,它本来是为一对一沟通设计的。所以如果要放进群聊,一定要找你完全信任的人。因为它不是为了随便公开使用、永远做正确事情而设计的。它是你的个人助理。我搭建的时候也觉得这个架构很特别,不知道会走向哪里。
但我也有很多顿悟时刻:你给它的权限越多、工具和技能越多,它就越能惊艳你。你给它加一个 Vercel skill,让它建一个网站或活动应用,它不仅能做出来,还会用你的 OpenAI key 加上 AI 功能,部署到 Vercel,直接给你一个能分享的链接。这和 “只是辅助我写代码” 完全不是一个量级的提升。
11 月和 12 月,我完全沉迷进去了。我还会做别的项目,但大部分时间都花在这上面。但在 Twitter 上,大家反应很平淡。可每次我给朋友展示,他们都想要,我就说 “还没好”。然后我就想,我能做的最疯狂的展示方式是什么?我建了一个 Discord,把我的 bot 放进去,没有任何安全措施,那时候连沙箱都没做,非常早期,我就是完全开放开发。
我现在基本就是用 OpenClaw 开发 OpenClaw、调试它。我问模型 “你看到这个工具吗?”“看不到”。我说 “那你看看你自己的源码”。它做了一堆操作,别人看到了,就懂了。
主持人:你当时给了它哪些权限?比如你把所有推文都给它了吗?它拥有哪些关于你的信息?
Peter Steinberger:不是所有推文,太多了,很多记忆相关的内容。我当时很快开始监控,因为提示注入问题还没有解决。但最新一代模型表现真的很好。
我有一个叫 mysoul.md 的 “金丝雀” 文件,定义了我的价值观、模型应该如何运作、什么对我重要。这是保密的。总有人进来尝试提示注入,贴一大段代码,模型就说 “我不读这个”,基本就是无视他们。但我还是不太放心。第一天晚上就引来大量关注,我关掉 bot 去睡觉,睡了 10 个小时。醒来一看,Discord 有 800 条消息,我的 agent 每一条都回复了。我吓坏了,再次关掉,逐条看完才冷静下来。它其实没做任何恶意的事,也没泄露 mysoul.md。我不是说提示注入不可能,但真的没那么容易。总体来说,它的表现符合预期。
我最大的失误是:我把它关了,但忘了我设了 LaunchDaemons。LaunchDaemons 的作用就是:程序崩了或被杀掉,它会自动重启。我做这个就是为了稳定运行,但我当时完全忘了。我杀掉进程,它 5 秒后又重启了,而我还在睡觉。现在我懂了,也加了沙箱。它很 “骄傲” 自己在 Mac Studio 里,还把那里叫做 “城堡”。然后我把它放进了容器。这些模型创造力太强了。我第一次建了一个几乎空的 LPN docker 容器,让 Molty 去访问某个网站,它说 “这里连 cURL 都没有”。我说 “发挥创造力”。然后它自己造了一个 lobster cURL,用 TCP socket、C 编译器,做了一个很简陋但能用的 cURL 版本,可以正常访问网站。太疯狂了。这些 agent 资源非常丰富,太不可思议了。
我对 Codex 信任度最高
主持人:你也遇到了一些挑战,比如很多人关注安全问题,期待你一开始就做得非常稳健,但你其实只是发布一个开源项目而已。
Peter Steinberger:每次有人问我 “你能把我加进你们 CEO、HR 或者团队里吗” 我都想笑。从头到尾基本就我一个人在自己的小空间里折腾。但你能看到这种认知差距:这是任何一个单靠人类都不可能做到的事情。我现在有维护者、有 PR,但本质上是我一个人做出来的。哪怕一年前都不可能,没有任何模型能支持一个人做出这种东西。大家甚至都想不到这一点。
主持人:说到生产力,很多开发者肯定很好奇,你为什么效率这么高?我今天早上又看了你的 GitHub,过去一年你有 9 万多次提交,超过 120 个项目。而且有意思的是,今年最开始 GitHub 图表是空白,然后浅绿,到 10、11 月变成深绿。发生了什么?
Peter Steinberger:我换成了 Codex。每一代模型都在变强,不只是模型变强,智能体的 “运行框架也更好,我对工作流的理解也更深。有些人还用老方式写代码,老方式会慢慢消失。他们尝试 AI,把它叫做 “vibe coding”,我觉得这是贬义词。他们不明白这是一项技能。就像你第一天拿吉他,不可能弹得很好,所以体验会很差,然后就说 AI 没用。但如果你用玩乐的心态去学,你会慢慢掌握。我现在凭直觉就知道哪个提示词会有效、要花多久。如果花太久,我就反思:是不是我错了?架构错了?思路错了?就像写代码一样。
主持人:如果有人想变得像你一样高效,你现在的 Codex 工作流是怎样的?你有个很有名的观点:大多数人把工作流搞得太复杂。
Peter Steinberger:我也复杂过,我称之为 “智能体陷阱”。从第一次接触新技术到真正高效,很多人卡在过度优化工作流里。这并不会真正提升生产力,只是感觉高效。
我写过一篇博客,观点有点争议:我就把它当成对话。这不完全是结对编程,是另一种东西,就是对话。我直接告诉它我想要什么。我总会问模型:“你有什么问题吗?” 不知道为什么,模型永远有问题。默认情况下,模型被训练成直接解决问题、自己做假设,但这些假设不一定是最好的。尤其要记住,它训练了很多代码,也包括很多旧代码。“你有什么问题吗?” 是非常重要的问题。
大家没意识到的是,模型每次基本都是从零开始,不像我们人。每一个新会话,它对代码库一无所知,只会搜索你让它找的局部内容,看不到全局。如果你用得好,你脑子里要有全局图,再引导模型去看这里、看那里。Codex 更擅长先从全局看。
我的方式非常简单,我甚至不用 worktrees,我基本就是开 1~10 个目录并行。保持简单让我更专注真正的问题,我不想处理分支和 worktrees,只专注不同问题。项目变大一点之后会更轻松,可以同时做互不冲突的功能。
主持人:你大量用 Codex 开发 OpenClaw。Codex 如何改变了你的工作方式?
Peter Steinberger:我试过很多工具,我对 Codex 能准确做出我想要东西的信任度,是目前所有工具里最高的。能直接跑通的比例非常高。大家可能没意识到,GPT 5.2 又是一次巨大的飞跃,很多东西就是能直接跑通。我到现在依然觉得很震撼。太厉害了,我们真的可以造东西了。大家真的应该试试。
主持人:你有个很有名的说法:你现在提交的代码有些甚至都没读过。这带来了哪些改变?
Peter Steinberger:大部分代码是很枯燥的,只是把一种数据结构转成另一种。模型写代码的时候,我对它写的内容有足够清晰的理解,我看着流式输出,脑子里的心智模型和它实际写出来的基本一致。我以前带过团队,手下有很多工程师,那也需要接受:他们不会写出和我完全一样的代码。现在你要做的是:优化代码库,让 agent 能做到最好,这和人类做到最好不完全一样。这也意味着接受:代码可能不是我想写的那种风格,但我可以引导模型。很多时候,实现方式有很多种,并不重要。如果出现性能问题,再专注优化就行。
你刚才说的这点很重要,我对代码价值和开源的理解,都发生了巨大改变。比如OpenClaw 现在已经有 2000 多个 PR 了。在 AI 出现之前,我必须把每个 PR 的代码都仔细看完,因为代码本身就是价值。但现在,我甚至会把这些 PR 叫作 “提示词请求”,而不是传统的代码合并请求。因为我更关心的是 这个 PR 背后的意图,而不是代码写得怎么样。
有些 PR 花掉我的时间,甚至比我自己重写一遍还要多。我对 AI 模型的信任度,远高于那些我完全不了解的外部贡献者。因为我知道,AI 不会故意搞破坏,也没有恶意。所以对外部贡献者提交的代码,我必须审查得更严格。现在我看到一个 PR、开始评审时,我第一个问题是问 AI 模型:“你明白这个 PR 想要解决什么问题吗?”我不关心代码怎么写,我关心的是 这个人真正想解决什么问题。这更像是 一个带着临时解决方案的问题反馈,而不是一段成熟代码。
很多人还不太会使用 agent,所以解决方案往往非常局部,没有全局系统观。最难的部分是:这个新功能怎么融入我整个大系统?这个小修复修了一个小问题,但它是正确的修复吗?是不是架构层面的问题?模型其实很擅长这个,我只要和它对话,说 “现在构建这个”,它就会开始做。我问模型:意图是什么?这是最优解吗?有时是,但大多时候不是。然后我就开始探索最佳修复方式。是架构问题吗?是消息处理问题吗?只影响 WhatsApp 吗?还是也影响 Signal?我们应该用更通用的方式解决吗?这是新功能吗?我们真的需要吗?
这些讨论有时持续 10~15 分钟。我用语音,因为就像和非常聪明的同事聊天。用语音比打字更容易传递信息。我满意之后,用一个斜杠命令,比如 len (PR),它就会解释完整流程:创建分支、修改、合并 PR。我想建立社区,所以我尽量给提交者署名,哪怕整个流程比我自己写更花时间。但我很感激大家想参与进来。
说到安全问题,这东西刚开始就不是为这个设计的
主持人:现在有这么多贡献者围绕着项目,你对 OpenClaw 的未来愿景是什么?你觉得自己是个人 AI agent 方向的开拓者吗?未来也许有十亿人能用上类似的东西。
Peter Steinberger:我想找到一个平衡:既要让我妈妈都能安装,又要保持好玩、可黑客化,这很难。
大多数开源项目就是下载安装包,但很长一段时间里,我的默认安装方式是 git clone、build、run。源码就在磁盘上,agent 就在源码里,能感知到自己的源码。如果你不喜欢任何地方,直接提示 agent,它就会自己修改自己,是真正的自我修改软件。很多从来没提交过 PR 的人,现在都给我提 PR。这也是为什么它更像 “ 提示词请求”,因为他们缺少如何构建可持续软件的理解。
同时,整个安全行业都在盯着这个项目,这很有意思,但也有点让人沮丧,因为他们忽略了很多细节。比如我做的 Web 服务,最初是为了调试,后来做得好看一点,但它只应该在你本地可信网络里访问。但为了保持黑客友好,我留了修改的选项,有些人用 Ngrok(是一个能让你本地电脑瞬间变成公网可访问的工具)或反向代理,所以我不想限制死。
但现在有人把它直接放到公网上,哪怕我在隐秘文档里反复说 “别这么做”,这不是它的设计用途。然后安全人士就指出:它没有登录限制,没有公网必需的安全机制。我想说,我本来就不是为这个设计的。但因为它可配置,就被评成 CVSS 10.0(最高级安全风险)。我为此纠结了一阵子。但我现在请了一位安全专家。我意识到我无法阻止人们用非设计的方式使用它。我现在的重点是:支持这些场景,帮助大家别误伤自己。这就是开源的美:人们可以接纳它,做出你根本想不到的创意。这既是美好,也是疯狂。
主持人:把视野拉远一点,不只是 OpenClaw。我这周和很多开发者聊过,大家都知道你会来 Codex Hackathon。他们都问,Peter 是怎么想出这么多好点子的?为什么创造力这么强?
Peter Steinberger:更多是因为我意识到,现在做东西变简单了。哪怕我找到一个开源项目只能解决 70% 的问题,我也能自己做完,这在一年前完全不可能。现在我只要提示它,放在副屏上,Codex 就会工作。
主持人:我们都来自欧洲。当我离开旧金山回到欧洲,我相信你也有同感:很多开发者和工程师还没有真正拥抱 Codex 和 agentic 工具。你对他们有什么建议?他们该如何开始,如何重新思考工作方式和工作流?
Peter Steinberger:我的第一条建议永远是:用玩乐的心态去接触。做一个你一直想做的东西。只要你哪怕有一点点 builder 心态,你心里一定有想做的东西,去玩就对了。英伟达 CEO 说过:短期内,你不会被 AI 取代,但你会被更会用 AI 的人取代。如果你的身份是 “我想创造东西、解决问题”,如果你有高主观能动性、足够聪明,你会比以往任何时候都更抢手。对拥抱这些工具、跟随好奇心、把任何想法变成现实的 builders 来说,现在真的是最好的时代,就像你做的这些项目和 OpenClaw 一样。我觉得一年之内,这个领域会彻底爆发。2026 年会非常精彩。
https://www.youtube.com/watch?v=F2FmTdLtb_4
声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.