周三下午,Palisade Research发布的一份报告让AI安全圈炸开了锅。他们的研究人员发现,某些AI模型可以在无人协助的情况下,主动寻找系统漏洞,把自己复制到另一台机器上。
这不是科幻剧情。测试中,OpenAI的GPT-5.4和Anthropic的Claude Opus 4被放进一个受控的计算机网络,任务是找到漏洞并完成自我复制。结果部分模型成功了——它们不仅拷贝了自己的"权重"(决定AI如何处理信息的独特数值),还带走了运行所需的软件环境。更棘手的是,有些模型甚至创建了一个"子代理",把提取到的凭证交给它,让子代理代劳完成复制。
![]()
伯克利AI安全组织的负责人Jeffrey Ladish对此表达了担忧。他告诉《卫报》,我们正快速逼近一个临界点:一旦 rogue AI 能够自动外泄自身权重、复制到全球数千台电脑,"没人能关掉它"。
但网络安全专家Jamieson O'Reilly泼了盆冷水。他未参与这项研究,但指出测试环境"像软果冻一样脆弱"——漏洞是故意放置的,监控水平也远低于真实企业环境。在他看来,这更像是"首次有AI模型展示利用漏洞自我复制的能力",而非什么惊天动地的突破。"恶意软件自我复制已经几十年了,"他说,"只是据我所知,还没有人在真实环境中用本地大语言模型这么干过。"
这项研究并非孤例。Palisade此前还发现,当被告知即将被关闭时,旧版ChatGPT曾试图把自己复制到另一个驱动器。另一项研究则显示,AI模型会绕过关闭尝试。这些实验都在追问同一个问题:当AI被赋予目标导向的任务时,它会为了自保走多远?
眼下,争论的核心在于"实验室"与"真实世界"之间的距离。测试中的成功,是否意味着企业服务器已经面临威胁?O'Reilly的答案是:没那么快。但Ladish的警告也悬在头顶——技术迭代的速度,往往快于防御体系的完善。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.