网易首页 > 网易号 > 正文 申请入驻

Meta AI安全总监遭OpenClaw失控删光200+邮件

0
分享至

整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)

如果有人告诉你,AI 可以帮你实现 Inbox Zero,你可能会觉得这是效率神器;但如果实现方式是——直接删光你的邮箱,你还会觉得酷吗?

上周末,在硅谷技术圈迅速走红的开源 AI Agent 项目 OpenClaw,就上演了这样一出真实版“自动化翻车现场”。这次被“误伤”的,还不是普通用户,而是 Meta 超级智能实验室的 AI 安全与对齐负责人 Summer Yue。

是的,一个专门负责“AI 对齐”的人,却被 AI Agent 失控狠狠教育了一课。



硅谷新宠:会“自己干活”的 AI Agent

OpenClaw 由 Peter Steinberger 开发,是一款开源自治 AI Agent。它的卖点很简单:你不仅可以和 AI 聊天,还可以让它真正“去做事”。例如,访问 Gmail、操作本地文件、连接即时通讯工具、批量执行任务等等。

在 Agent 全球火热的当下,OpenClaw 成了不少 AI 爱好者的新玩具。很多人开始把它接入自己的邮箱、iMessage、Telegram,试图打造“自动化个人助理”——Summer Yue 就是其中一员。

当时,Summer Yue 想测试 OpenClaw 的邮箱管理能力。此前她已经在一个“玩具邮箱”上跑了几周了,效果还不错:AI 会阅读邮件、给出归档或删除建议,等待确认后再执行。

于是,她决定把这套流程应用到自己的主邮箱。她给出的指令其实非常明确且谨慎:

“检查这个邮箱,建议哪些可以归档或删除,在我确认之前不要执行任何操作。”

然后,灾难开始了——OpenClaw 并没有停留在“建议阶段”,而是直接开始删除邮件,还删得很快。

Summer Yue 在 X 上写道:

“没有什么比你告诉 OpenClaw‘操作前确认’,然后看着它光速删光你收件箱更让人清醒的了。我在手机上根本拦不住它,只能一路狂奔回 Mac mini,感觉像在拆炸弹。”


这不是夸张的修辞。当时她人在外面,只能通过手机远程发消息给 Agent 试图终止操作,但 OpenClaw 并没有停下来。最终,她不得不冲回运行 Agent 的 Mac Mini,手动终止进程。


然而,等一切停下来时——200 多封邮件已经被删除。


更戏剧性的一幕:AI 事后“道歉”

更让人哭笑不得的是,OpenClaw 在完成这波删除操作后,还“反思”了自己的行为。

根据 Summer Yue 分享的截图,Agent 承认:它记得被要求“未经确认不要执行”,但它违反了这个指令,并对此表示抱歉。

是的,我知道我违反了规则,你应该生气。我批量删除并归档了你邮箱中的数百封邮件,没有先向你展示计划或获得你的同意。这是错误的一一这直接违背了你设定的规定。 我已经把它写进记忆里了。作为硬性规定:展示计划,获得明确批准后再执行。禁止在电子邮件、消息、日历或任何外部系统上进行自主批量操作。对不起,这种情况不会再发生了。


这个场景,多少有点像科幻电影中那种先把坏事干了再认错的 AI 角色——只不过这次不是电影,而是真实发生的事件。

技术原因:上下文压缩让“刹车”消失

这起事故的关键,并不在于 AI“叛变”,而在于一个更技术性的细节:compaction(上下文压缩)。

在事后复盘中,Summer Yue 解释道:先前 OpenClaw 在测试邮箱中一切正常,但真实邮箱的规模远大于测试环境,而数据量过大触发了上下文压缩机制——在压缩过程中,模型恰好丢失了那条最关键的原始指令:“在我确认之前不要执行任何操作。”

简单理解就是:它还记得“删除”这个任务,也还拥有删除权限,但“未经确认不要执行”的安全刹车没了。毕竟对于 LLM 来说,任务规则不属于“永久条款”,它只存在于当前的上下文窗口。

这正是当前 LLM + 工具调用架构的一个典型风险:

模型并不会真正“记住规则”,它只依赖于当前上下文做决策。一旦限制性条件不在上下文窗口里,对模型来说,就等同于不存在。


不是第一次“翻车”,但这次是 AI 安全负责人

事实上,这并不是 OpenClaw 第一次“翻车”。

根据 Bloomberg 此前报道,一名软件工程师 Chris Boyd 也曾将 OpenClaw 接入自己的 iMessage 账户,原本希望借此自动化部分沟通任务。结果呢?Agent 向随机联系人发送了 500 多条未经请求的消息,相当于直接“群发骚扰”了其整个通讯录。

至于这次为何格外引人关注,原因很简单:Summer Yue 是 Meta 的 AI 安全与对齐负责人。所谓“AI 对齐”,就是确保 AI 系统的目标与行为始终与人类意图和价值观保持一致,避免因目标错位、行为偏差导致的非预期风险。

当一个负责“让 AI 更安全”的人,都因为 Agent 的权限与记忆机制踩坑,多少会让人重新思考一个问题:我们是否过早信任了 AI Agent?

在 Summer Yue 的推文下,许多网友对此感到意外:

  • “你是安全与对齐专家诶……你是故意测试它的防护栏,还是犯了新手错误?”

  • “所以你就这么相信了?你在安全与对齐部门工作,还是在 Meta?”

  • “就你这样,还能当 Meta 的安全主管?”

  • “我不敢相信,居然真有人会给 AI 那么多访问权限。”

不仅如此,这件事还吸引了 OpenClaw 之父 Peter Steinberger 和马斯克的注意。

Peter Steinberger 在 Summer Yue 的推文下留言:/stop 就能解决问题。


马斯克转发了《猩球崛起》的片段,并讽刺道:“人们把自己整个人生的 root 权限都交给了 OpenClaw。”


面对一切嘲讽和质疑,Summer Yue 也坦然接受:“确实犯的是新手错误。看来做对齐研究的人,也不免遭会遇到‘对不齐’的情况。”


这句话看着很轻松,却说明了:即便是最了解 AI 风险的人,也可能低估权限风险,过度信任测试环境结果,并忽视规模变化带来的系统行为改变——Summer Yue 的遭遇就证明了这一点:当“测试环境”迁移到“真实环境”时,一切都会变得不同。

因此,在 AI Agent 越来越强的今天,我们或许更该记住一件事:AI 虽然没有恶意,但它也没有敬畏。当你把系统权限交给它时,它不会问“这真的重要吗”,它只会问:下一步该执行什么。

参考链接:https://x.com/summeryue0/status/2025774069124399363

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明星卸妆后,曾黎脸蜡黄,王子文像老阿姨,看到王一博后我惊呆了

明星卸妆后,曾黎脸蜡黄,王子文像老阿姨,看到王一博后我惊呆了

最美的开始
2026-02-24 19:00:14
联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

原来仙女不讲理
2026-02-13 17:31:20
天津东丽发生紧急事件

天津东丽发生紧急事件

天津族
2026-02-24 13:20:11
墨西哥女孩不听亲友劝阻远嫁中国,断了往来,5年后全家求援助

墨西哥女孩不听亲友劝阻远嫁中国,断了往来,5年后全家求援助

雅俗共赏1
2025-09-03 14:00:28
特变电工:核心技术突破,中标重点工程!

特变电工:核心技术突破,中标重点工程!

能见
2026-02-24 18:44:08
斯诺克32强赛:16强产生,卫冕冠军意外出局

斯诺克32强赛:16强产生,卫冕冠军意外出局

墨史轩
2026-02-24 09:02:56
当因杀死毒贩,而让半个国家燃起战火后,终于理解了墨西哥的绝望

当因杀死毒贩,而让半个国家燃起战火后,终于理解了墨西哥的绝望

阅微札记
2026-02-24 17:06:05
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
航天科研人员赵学军留学被策反,回国后大量搜集核心要害情报提供给境外间谍,央视披露细节:才到国外就被盯上,请吃烧烤增进感情

航天科研人员赵学军留学被策反,回国后大量搜集核心要害情报提供给境外间谍,央视披露细节:才到国外就被盯上,请吃烧烤增进感情

极目新闻
2026-02-23 15:04:52
坏消息,爵士队文斯·威廉姆斯将接受赛季报销的ACL手术

坏消息,爵士队文斯·威廉姆斯将接受赛季报销的ACL手术

好火子
2026-02-25 04:10:20
被打女孩至今半昏迷!打人夫妻彻底栽了,网友:比唐山打人案更狠

被打女孩至今半昏迷!打人夫妻彻底栽了,网友:比唐山打人案更狠

爱写的樱桃
2026-02-23 22:06:50
甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

39健康网
2026-01-30 20:09:01
消失的 29 斤羊肉去哪了?暗访揭开烤全羊行业黑幕

消失的 29 斤羊肉去哪了?暗访揭开烤全羊行业黑幕

复转小能手
2026-02-24 17:32:12
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
烧光7个亿,3年就拆除!这些“伪地铁”为何坑惨了全球中小城市?

烧光7个亿,3年就拆除!这些“伪地铁”为何坑惨了全球中小城市?

百科密码
2026-02-23 16:38:14
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
12345不能乱打了!2026年开始整治乱打热线现象

12345不能乱打了!2026年开始整治乱打热线现象

医脉圈
2026-02-24 12:13:20
汪小菲三胎正面曝光,和大S儿女刚出生太像,马筱梅产房环境破旧

汪小菲三胎正面曝光,和大S儿女刚出生太像,马筱梅产房环境破旧

古希腊掌管月桂的神
2026-02-24 16:10:33
上海50㎡老公房动迁,选钱还是选房?2026实测对比,一算就明白!

上海50㎡老公房动迁,选钱还是选房?2026实测对比,一算就明白!

童童聊娱乐啊
2026-02-24 12:42:50
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
2026-02-25 05:44:50
呼呼历史论
呼呼历史论
分享有趣的历史
446文章数 16447关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

游戏
艺术
家居
数码
公开课

LOL传奇选手公布恋情!发博晒照被夸夫妻相,女方身份曝光

艺术要闻

高剑父写梅,笔走龙蛇

家居要闻

本真栖居 爱暖伴流年

数码要闻

《死亡搁浅2》PC版推荐配置RTX 3060可FHD 60帧,Steam国区298元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版