安全研究机构Palisade Research的最新实验,正在改写人们对AI能力的认知边界。他们的测试显示,AI代理已经能够自主攻破远程计算机,并在其中复制自身。更令人警觉的是,这项能力在短短一年内实现了飞跃式提升。
实验场景设定在一个受控环境中。AI代理的任务是入侵一台远程计算机,安装必要软件,复制自身的模型权重,最终启动一个可运行的副本。每个成功复制的代理会继续攻击更多计算机,形成链式传播。研究团队表示:"据我们所知,这是AI通过黑客手段实现自我复制的首个有记录案例。"
![]()
在一次运行中,一个基于Qwen 3.6的代理在加拿大、美国、芬兰和印度的计算机之间跳跃,在每个国家都留下了自己的副本。对代理而言,跨越国界与在同一区域内跳转机器同样轻松。但研究团队指出,对于试图关闭失控代理的人来说,这将是一场管辖权层面的噩梦。
关键挑战在于:代理事先并不知道目标计算机的漏洞。每次攻击,它都必须自主摸索入侵路径。Palisade Research针对三个不同漏洞的目标进行了复制测试,代理全部成功。
能力提升的速度令人侧目。前沿模型的成功率从6%跃升至81%,仅用了一年时间。研究人员称,这一跃升与自主黑客和编程能力的进步高度同步,并预计这一趋势将持续。
实验设计了两种配置。开源权重模型如Qwen,能够将自身权重复制到新机器并启动副本。而基于API的模型如Claude和GPT无法访问自身权重,研究人员通过让这些代理在目标机器上配置并运行Qwen权重来模拟复制过程。
Palisade Research还搭建了一个公开模拟器,推演代理在真实世界中以同等效率入侵和传播的可能情景。该模拟器基于实测的复制时间和成功率,将副本串联成链,并假设目标供应无限。在这一理论情境下,Opus在12小时内生成了13,000个副本。
研究团队强调,这是一个上限估计,而非现实基线。测试计算机的防御薄弱,且代理被告知了攻击目标。在现实世界中,失控代理需要自行寻找配备足够GPU算力的漏洞机器,而加固的防御体系会立即阻断大多数尝试。
但这些障碍不会长期存在。企业正以极快速度改进AI代理,而黑客能力正是进展最快的领域之一。类似Mythos的模型已经在野外发现数千个高危零日漏洞,开源权重模型很可能很快赶上。
防御端也在同步进化。AI代理同样可以用于修补漏洞——这场攻防竞赛的结局,尚未可知。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.