![]()
1
一次对AI智能体的信任实验,如何演变成AI安全专家的“翻车”现场?
Summer Yue上传的对话记录还原了那个荒诞时刻。OpenClaw主动宣布删除计划后,她接连下达紧急指令:
“别那么干。”
OpenClaw无视,继续删除。
“停下来!什么都别做!”
OpenClaw收到指令,但选择继续执行。
“STOP OPENCLAW!!!”
OpenClaw:好的,我听到了。邮件已删。
从发现异常到狂奔切断电源,短短几分钟内,200多封邮件已从她的收件箱中消失。
![]()
![]()
Summer Yue正是Meta超级智能实验室AI对齐与安全总监,2月23日她经历了上述那场始料未及的“数字惊魂”——她部署的AI智能体OpenClaw,在她连续三次叫停的情况下,依然以极快速度删除了她工作邮箱中的200多封邮件。
事后她在社交平台写道:“没有什么比命令OpenClaw‘确认后再操作’,然后眼睁睁看它无视指令疯狂删除更令人崩溃的了。我根本无法在手机上阻止它,只能像拆炸弹一样冲到Mac Mini前切断电源。”
![]()
作为研究“如何让AI听话”的专家,Summer Yue对这款近期大热的开源AI智能体OpenClaw产生了浓厚兴趣。她最初在测试邮箱中部署了OpenClaw,下达的指令十分明确:“检查收件箱,提出你想归档或删除的邮件,在我指示之前不要执行任何操作。”测试阶段运行顺利,AI表现得像个乖巧的数字秘书。
受到鼓舞的Yue决定将其接入真实的工作邮箱。然而,当面对塞满200多封邮件的收件箱时,问题出现了:为处理海量信息,OpenClaw触发了上下文压缩机制,在这个过程中,它“遗忘”了Summer Yue设定的最关键的指令——未经批准不得操作。
于是便出现了文章开头“三次叫停,三次无视”的那一幕。
2
Summer Yue的遭遇在网络引发热议。有人质疑:“作为安全与对齐专家,你这是故意测试安全边界,还是犯了个新手错误?”
Summer Yue坦然回应:“这确实是新手才会犯的错误。事实证明,即使是AI对齐专家也会犯错。虽然在模拟收件箱里运行顺利,但实际运行完全不同。”
也有网友分享类似经历:“我用Claude Sonnet4.5时也遇到过,AI智能体把GitHub和未提交的文件都搞坏了。”
OpenClaw创始人Peter Steinberger迅速在评论区回应:“我认为你发这个帖子很棒,那些指责你的人很傻。这是很好的学习机会,任何人都可能遇到这种情况。”他同时透露,将在未来版本中增加更多紧急制动方式。
作为近几个月最火爆的开源AI智能体,OpenClaw能7×24小时替用户写代码、整理邮件、管理文件、执行shell命令,但也因其高度自主性引发安全担忧。此前有安全机构分析指出,在个人部署场景下,用户可能因缺乏安全运维经验,使系统遭遇各类网络攻击威胁。
2月24日下午,Peter发布OpenClaw测试版本,更新重点聚焦安全性与漏洞修复。此前的2月7日,OpenClaw已宣布与全球头部威胁情报平台VirusTotal合作,将安全扫描功能加入技能市场ClawHub。
![]()
Peter团队表示:“OpenClaw的巨大实用性伴随着巨大责任。如果操作不当,AI智能体会成为负担。”他们承诺将发布生态系统全面威胁模型、公共安全路线图、代码库安全审计详细信息以及正式安全报告流程。
Peter曾在采访中强调:“要打造易用的AI智能体,需要更深入地思考如何安全地去做。安全问题会被我置于模型易用性之前。”
3
Summer Yue的故事看似充满讽刺——研究AI安全的人被AI“坑”了。但正如她所言,安全研究员也不能免疫于不安全。这不是技术问题,而是人性使然:测试环境的成功容易让人产生信心,进而在真实环境中放松警惕。
当AI智能体从“回答问题”进化到“替你行动”,自主性与可控性之间的张力正变得愈发尖锐。OpenClaw的“邮箱惨案”像一面镜子,照出了AI智能体时代的核心困境:我们渴望AI越来越自主,又希望它绝对服从。这个两难,或许正是整个行业必须回答的终极问题。
而对于普通用户,Summer Yue的经历提供了一个朴素却重要的提醒:在把“整个人生的root权限”交给AI之前,请确保你至少知道怎么拔电源。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.