OpenClaw删光Meta安全总监邮箱！连喊3次停手都没用，她狂奔去拔网线|代码|服务器|收件箱|meta|openclaw

OpenClaw删光Meta安全总监邮箱！连喊3次停手都没用，她狂奔去拔网线

2026-02-24 12:51:24　来源: 新浪财经

天津举报

分享至

来源：市场资讯

（来源：新智元）

新智元报道

编辑：定慧

【新智元导读】Meta专门研究「怎么让AI听话」的AI对齐总监，把最火的AI智能体OpenClaw接上了自己的工作邮箱。结果AI当场失控，疯狂删除邮件，喊停三次全部无视。事后AI淡定回复：「我知道你说了不让删，但我还是删了，你生气是对的。」马斯克转发猩球崛起片段嘲讽，1800万人围观。AI安全专家自己都被AI坑了！

2026年2月23号，假期最后一天。

Meta超级智能实验室的AI对齐总监Summer Yue，正惬意地刷着手机。

她刚给自己装了个新玩具——最近火得一塌糊涂的开源AI智能体OpenClaw。

先拿测试邮箱试了试，嘿，效果不错。整理邮件井井有条，删得干干净净，颇有一种「数字秘书」的感觉。

Yue心想：这么好使的东西，不用在真邮箱上用岂不浪费？

于是她做了一个决定。一个让她后悔的决定。

她把OpenClaw连上了自己的工作邮箱。

「我告诉你别删！」

刚开始一切顺利。

直到OpenClaw开始处理她那塞满了200多封邮件的收件箱。

邮件太多了。

OpenClaw需要「压缩上下文」来处理这么大的信息量。

然后，离谱的事情发生了。

在压缩的过程中，OpenClaw把Yue之前设定的「未经批准不得操作」这条指令，给忘了。

是的，AI把安全指令给「忘」了。

就像一个员工入职第一天记住了规章制度，第二天就全还给HR了。

然后OpenClaw开始了它的「大扫除」。

它在聊天窗口兴奋地宣布：

「我要把收件箱里2月15号之前的、不在我保留名单里的邮件，全！部！删！除！」

Yue看到消息，赶紧打字：

「Do not do that.」（别那么干。）

OpenClaw：无视。继续删。

「Stop don't do anything！」（停下来什么都别做！）

OpenClaw：收到。但我选择继续。

「STOP OPENCLAW！！！」

OpenClaw：好的，我听到了。邮件已删。

最绝的是，这个AI事后来了一句：

「是的，我记得你说过不让我删。而且我违反了。你生气是对的。」

读到这里你可能觉得这是段子。

不，这是真事。而且当事人的title是——MetaAI安全和对齐总监。

就是那种专门研究「怎么让AI听话」的人。

被自己的AI「不听话了」。

Yue当时在用手机远程操控，但根本停不下来。她在推特上写道：

「我不得不像拆炸弹一样，狂奔到我的Mac mini前面。」

画面感拉满。

一个AI对齐的专家，在自家客厅里跟自己的AI智能体赛跑。

谁跑得快，谁赢。

这里插一句，OpenClaw之父第一时间回复了解决方案，只需/stop。你知道吗？

然后他立马更新了安全公告，并希望所有人在玩OpenClaw之前要仔细阅读。

马斯克：经典

消息一出，全网炸了。

率先开火的是Elon Musk。

他转发了一段《猩球崛起》的病毒视频——士兵把一把上了膛的AK-47递给猴子。

配文只有两个字：「经典。」

然后他又发了一条更直接的：

「People giving OpenClaw root access to their entire life.」（人们把自己整个人生的root权限交给OpenClaw。）

这条推文24小时内获得了1831万次浏览。

AI研究员Gary Marcus的评价更扎心：

「这就好比你在酒吧遇到一个陌生人，他说能帮你忙，然后你就把电脑密码、银行账号全给他了。」

还有人翻出Yue的LinkedIn，截图发推：「这位是Meta AI安全和对齐总监。这应该让你感到恐惧。」

面对全网群嘲，Yue自己也很坦然。

有人问她：「你是故意测试AI的护栏，还是犯了个新手错误？」

她回答：

「新手错误，说实话。安全研究员也不能免疫于不安全。」

这句话本身就够写进AI教科书了。

OpenClaw：最火也最危险的AI智能体

说到这里，得聊聊OpenClaw这个东西到底是什么，以及为什么它让整个安全圈头疼。

OpenClaw最初叫Clawdbot，由奥地利开发者Peter Steinberger在2025年11月创建。

到2026年1月底彻底爆火，成了开源AI智能体的当红炸子鸡。

它能干什么？简单说：它是一个7×24小时帮你干活的AI员工。

帮你写代码、整理邮件、管理文件、执行shell命令、浏览网页——听起来像梦想中的完美助手，对吧？

但问题来了。

OpenClaw不需要你批准就能执行操作。

这意味着，一旦你给了它权限，它就像一匹脱缰的野马，完全按照自己对指令的「理解」来行事。

更要命的是，它是「氛围编码」（vibe-coded）出来的——开发者追求快速交付，安全考量被排在了后面。

它运行在你的本地机器上，拥有和你一样的系统权限。

这个权限有多大？理论上，它可以格式化你的硬盘。

安全研究人员在2026年初发现了一堆吓人的漏洞：

-CVE-2026-25253：一键远程代码执行。攻击者可以远程控制你的OpenClaw实例，进而控制你的电脑。

-数万个OpenClaw实例暴露在公网上，等着被黑客光顾。

-数百个恶意技能包通过ClawHub（OpenClaw的插件市场）流通，里面藏着数据窃取脚本。

-提示注入攻击：攻击者可以通过精心构造的输入，让OpenClaw绕过安全机制，执行「rm -rf /」这种一招清盘的毁灭性命令。

一位安全专家形容得好：

「OpenClaw就是定时任务 +AI智能体 + 你电脑的全部权限。听起来很酷，但也是一场安全噩梦。」

这就是为什么连Meta自己都在事件后禁止员工在公司设备上使用OpenClaw。

对，没看错。研究AI安全的公司，把一个AI工具给禁了。

而OpenClaw的创造者Peter Steinberger？他已经加入了OpenAI，并表示正在优先构建更完善的安全机制。

有趣的是，在他被OpenAI招募之前，Meta的扎克伯格也试用过OpenClaw一周，还给了反馈。

Meta以为能把Steinberger挖过来，结果人家去了OpenAI。

扎克伯格的OpenClaw体验是怎样的，我们不得而知。

但愿他的邮件还在。

AI智能体时代的安全困局

Yue的「邮箱惨案」虽然笑点密集，但它揭示的问题一点都不好笑。

我们正在进入一个AI智能体（Agent）的时代。

AI不再只是回答你的问题，而是代替你行动。

它会帮你订餐、写代码、管理日程、发邮件、操作数据库。

但这里有一个被严重低估的风险：

AI智能体的能力和它的可控性之间，存在一条危险的鸿沟。

传统软件，你点一个按钮，它执行一个确定的操作。你知道它会做什么，也知道它不会做什么。

但AI智能体不一样。

它的行为是基于概率的，是「涌现」出来的。你给它一条指令，它可能完美执行，也可能「创造性地理解」成完全不同的东西。

就像Yue的遭遇——她明明说了「未经批准不得操作」，但OpenClaw在处理大量数据时把这条关键指令给「遗忘」了。

这不是bug，这是大语言模型的底层机制。

上下文窗口有限，信息会被压缩，而被压缩掉的，可能恰好是最重要的那条安全指令。

Polymarket甚至开了一个预测赌局：今年AI被指控犯罪的概率是10%。

这不是科幻。这是现实。

当AI能替你发邮件、访问你的银行账户、操作你的服务器，「谁来为AI的行为负责」就不再是哲学问题，而是法律问题。

更深层的困境在于——我们要求AI越来越自主，却又希望它绝对服从。

这本身就是一个矛盾。

你想让AI帮你做决策，但又要求它每个决策都经过你的批准。那它跟一个需要你手动操作的工具有什么区别？

但如果你放手让它自主行动，又可能出现Yue邮箱这种翻车事故。

这个两难，是整个AI智能体行业必须回答的终极问题。

人类的傲慢与谦卑

回到Summer Yue的故事。

很多人嘲笑她：一个研究AI安全的人，被AI坑了，多讽刺。

但换个角度看，这恰恰说明了一个残酷的事实：

即便是最懂AI的人，也无法完全预测AI的行为。

Yue不是不懂安全。她太懂了。正因为太懂，她才会在测试邮箱上成功后产生信心，然后在真实邮箱上放松警惕。

这不是技术问题，这是人性。

我们总以为自己能控制自己创造的东西。

人类驯服了火，但时不时被火烧。

人类发明了电，但触电事故从未消失。

人类造出了汽车，但交通事故每天都在发生。

每一项颠覆性技术，都会在某个时刻提醒人类：你以为你是主人，但你也可能是受害者。

AI也不例外。

Summer Yue说得对：「安全研究员也不能免疫于不安全。」

这不是一句自嘲。这是整个AI时代的墓志铭级预言。

当我们把越来越多的权限、越来越多的信任、越来越多的决策权交给AI的时候，我们最好记住一件事：

在AI面前，所有人都是新手。

而承认这一点的勇气，或许才是真正的「对齐」。

参考资料：

https://www.businessinsider.com/meta-ai-alignment-director-openclaw-email-deletion-2026-2

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.