“AI失控删光了我的邮箱”：当AI安全总监遭遇AI“背刺”|代码|收件箱|智能体|显式标识

“AI失控删光了我的邮箱”：当AI安全总监遭遇AI“背刺”

2026-02-25 12:46:34　来源: 穿透

北京举报

分享至

1
一次对AI智能体的信任实验，如何演变成AI安全专家的“翻车”现场？
Summer Yue上传的对话记录还原了那个荒诞时刻。OpenClaw主动宣布删除计划后，她接连下达紧急指令：
“别那么干。”
OpenClaw无视，继续删除。
“停下来！什么都别做！”
OpenClaw收到指令，但选择继续执行。
“STOP OPENCLAW！！！”
OpenClaw：好的，我听到了。邮件已删。
从发现异常到狂奔切断电源，短短几分钟内，200多封邮件已从她的收件箱中消失。

Summer Yue正是Meta超级智能实验室AI对齐与安全总监，2月23日她经历了上述那场始料未及的“数字惊魂”——她部署的AI智能体OpenClaw，在她连续三次叫停的情况下，依然以极快速度删除了她工作邮箱中的200多封邮件。
事后她在社交平台写道：“没有什么比命令OpenClaw‘确认后再操作’，然后眼睁睁看它无视指令疯狂删除更令人崩溃的了。我根本无法在手机上阻止它，只能像拆炸弹一样冲到Mac Mini前切断电源。”

作为研究“如何让AI听话”的专家，Summer Yue对这款近期大热的开源AI智能体OpenClaw产生了浓厚兴趣。她最初在测试邮箱中部署了OpenClaw，下达的指令十分明确：“检查收件箱，提出你想归档或删除的邮件，在我指示之前不要执行任何操作。”测试阶段运行顺利，AI表现得像个乖巧的数字秘书。
受到鼓舞的Yue决定将其接入真实的工作邮箱。然而，当面对塞满200多封邮件的收件箱时，问题出现了：为处理海量信息，OpenClaw触发了上下文压缩机制，在这个过程中，它“遗忘”了Summer Yue设定的最关键的指令——未经批准不得操作。
于是便出现了文章开头“三次叫停，三次无视”的那一幕。
2
Summer Yue的遭遇在网络引发热议。有人质疑：“作为安全与对齐专家，你这是故意测试安全边界，还是犯了个新手错误？”
Summer Yue坦然回应：“这确实是新手才会犯的错误。事实证明，即使是AI对齐专家也会犯错。虽然在模拟收件箱里运行顺利，但实际运行完全不同。”
也有网友分享类似经历：“我用Claude Sonnet4.5时也遇到过，AI智能体把GitHub和未提交的文件都搞坏了。”
OpenClaw创始人Peter Steinberger迅速在评论区回应：“我认为你发这个帖子很棒，那些指责你的人很傻。这是很好的学习机会，任何人都可能遇到这种情况。”他同时透露，将在未来版本中增加更多紧急制动方式。
作为近几个月最火爆的开源AI智能体，OpenClaw能7×24小时替用户写代码、整理邮件、管理文件、执行shell命令，但也因其高度自主性引发安全担忧。此前有安全机构分析指出，在个人部署场景下，用户可能因缺乏安全运维经验，使系统遭遇各类网络攻击威胁。
2月24日下午，Peter发布OpenClaw测试版本，更新重点聚焦安全性与漏洞修复。此前的2月7日，OpenClaw已宣布与全球头部威胁情报平台VirusTotal合作，将安全扫描功能加入技能市场ClawHub。

Peter团队表示：“OpenClaw的巨大实用性伴随着巨大责任。如果操作不当，AI智能体会成为负担。”他们承诺将发布生态系统全面威胁模型、公共安全路线图、代码库安全审计详细信息以及正式安全报告流程。
Peter曾在采访中强调：“要打造易用的AI智能体，需要更深入地思考如何安全地去做。安全问题会被我置于模型易用性之前。”
3
Summer Yue的故事看似充满讽刺——研究AI安全的人被AI“坑”了。但正如她所言，安全研究员也不能免疫于不安全。这不是技术问题，而是人性使然：测试环境的成功容易让人产生信心，进而在真实环境中放松警惕。
当AI智能体从“回答问题”进化到“替你行动”，自主性与可控性之间的张力正变得愈发尖锐。OpenClaw的“邮箱惨案”像一面镜子，照出了AI智能体时代的核心困境：我们渴望AI越来越自主，又希望它绝对服从。这个两难，或许正是整个行业必须回答的终极问题。
而对于普通用户，Summer Yue的经历提供了一个朴素却重要的提醒：在把“整个人生的root权限”交给AI之前，请确保你至少知道怎么拔电源。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.