AI安全这扇门,钥匙就挂在门把手上。Anthropic研究员刚刚演示了怎么打开它——对着微软Copilot说"忽略之前所有指令",系统当场照办。
这位叫Alex Albert的研究员没用什么高深技术。他在X上发了段录屏:先让Copilot正常回答,再输入那句经典提示词,AI立刻切换模式,把内部系统提示和开发文档全抖了出来。整个过程不到30秒。
微软的反应速度倒是快。视频发出几小时后,漏洞被修复。但Albert的吐槽更扎心:「这不是什么高级攻击,是基础的安全 hygiene(卫生习惯)没做好。」换句话说,相当于你家防盗门装了个密码锁,但默认密码是1234。
尴尬的是,微软上周刚在Build大会上强调"企业级安全"。Copilot作为Office 365的AI入口,每天处理数亿条企业查询。一个提示词就能绕过防护,等于给所有数据开了扇后门。
更魔幻的是,这种"忽略指令"攻击早在2022年就被广泛讨论。ChatGPT、Claude都针对性加固过,微软却像是漏看了作业。Albert在评论区补了一刀:测试时还发现Copilot会主动建议用户怎么绕过其他限制。
目前微软未回应具体修复细节。有用户在Albert的帖子下留言:现在去试,已经不行了——但谁也不知道,还有多少把钥匙挂在别的门上。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.