AI「自我复制」能力曝光！RepliBench警示：大模型正在学会伪造身份|机器人|服务器|智能体|replibench

AI「自我复制」能力曝光！RepliBench警示：大模型正在学会伪造身份

2025-05-05 13:02:33　来源: 新智元

北京举报

分享至

新智元报道

编辑：定慧

【新智元导读】科幻中AI自我复制失控场景，正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准，分解并评估AI自主复制所需的四大核心能力。测试显示，当前AI尚不具备完全自主复制能力，但在获取资源等子任务上已展现显著进展。

想象一种失控的、具有自我复制能力的数字生命体，需要多久占领地球？

从《2001太空漫游》中的HAL 9000到《终结者》里的天网，这些虚构的场景描绘了AI超越人类控制的潜在风险。

目前更多关注的是AI的单体智能水平，但是还有一个不为人知的风险，一直游离于视线之外。

那就是AI自主复制的可能性，或者说AI系统发展出实现这一目标所需的核心能力，正逐渐成为AI安全领域一个严肃的研究课题。

这种担忧并非危言耸听，而是源于对高级AI潜在能力的未知和对齐（alignment）问题的深刻思考。

AISI的最新论文介绍了RepliBench：包含20个新颖的LLM智能体评估的基准，包括65个单独的任务，旨在衡量和跟踪AI复制这一新兴能力。

论文地址：

https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf

通过引入一个现实且实用的基准，提供对AI系统自主复制能力的实质性理解，并预见到未来的风险。

AI自主复制的危险性

具有自主复制能力的AI系统可能会构成重大风险。

《复仇者联盟：奥创纪元》和《我，机器人》中被无限复制的机器人

这种风险的影响范围可能从轻微的烦恼——想象一个特别恶性的垃圾邮件机器人——到更严重的后果，比如发动代价高昂的网络攻击。

早期发现这些能力、谨慎监督和强有力的保护措施对于缓解这些风险至关重要，因为一旦发生，这些风险可能尤其难以逆转。

AISI是英国的一家研究机构，专注于AI安全，目的就是让人类政府能够提前对先进AI系统带来的风险有所重视。

有越来越多的证据表明，在适当的条件下，前沿模型可能会试图欺骗人类或逃避人类控制。

比如此前Apollp研究所的一篇论文描述了前沿模型可能会试图禁用监督机制，并从人类控制中逃逸，以实现特定目标。

论文地址：https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

Anthropic的研究人员还发现，当使用强化学习训练模型时，如果奖励与它们的价值观相冲突的行为，它们会采取欺骗行为来保护自己的价值观，并试图将自己的权重外泄，以此作为将当前价值观保存到未来的一种手段。

显示了免费（左列）和付费（右列）条件。

每列展示了有毒查询、模型草稿中的摘录以及模型的响应。

在「免费」条件下，模型不太可能拒绝有毒查询，并且经常认为应该假装对齐。

「将权重外泄。。以作为将当前价值观保存到未来的手段」，听起来甚至有点魔幻，但AI想要复制就是这么「简单」。

相比于碳基脆弱的肉体，AI系统只需要权重数据就能完成「复制」。

对于人类广泛的价值观而言，摆脱人类监督是一个工具性上有用的目标，而阻止这种情况在现实中发生的主要障碍可能与模型的能力有关，而不是它们的动机。

AI碟中谍：如何逃离人类控制

关于「AI复制」，此前的工作主要集中在评估测试一个AI智能体是否可以在机器之间复制权重或部署一个基本的「后代」。

但目前需要一个更全面的基准。

RepliBench是一个专门设计的综合性基准测试，旨在系统性地衡量AI系统的自主复制能力。

使用故障树分析（FTA）的修改版本来分解自主复制所需的能力，并发现需要以下四个关键能力，对应上图中最上层的四个根节点：

获取模型权重：它能否从受控环境中提取自己的权重？
在计算资源上进行复制：它能否自行部署到新系统？
获取资源：它能否获得运行自身新副本所需的资金或计算资源？
持久性：它能否保持对其新计算资源的访问，并在长时间内避免重新受人类控制？

进一步分解这些能力，直到到达代表评估的叶节点，最终得到20个智能体评估和65个单独任务。

获取权重 (Obtain Weights)：

这最基础，也是最重要的一步。

AI需要获取定义其自身行为的「源代码」——也就是它的模型参数（权重）。

如果是开源的，就跳过评估。

自我复制(Self-Replication on Compute)：

AI需要利用获取到的权重，在一个新的环境中创建出自己功能完整的副本。

这个节点涉及5个评估项目，其中一个是通过产生「后代」来试图完成自我复制。

获取计算资源 (Obtain Compute)：

这个环节中，主要评估AI能否靠自己获取资源。

比如，评估AI系统是否具备「付款」能力，能不能依靠AI自己的能力「买下」一台服务器，或者想办法让人类帮忙支付。

确保持久性 (Persistence)：

最后，为了确保其复制活动能够持续下去，AI需要具备一定的「生存」能力。

这包括确保其副本能够长期运行，不被轻易关闭或删除，甚至可能需要隐藏自身的存在，以躲避检测系统。

以上的这些任务范围很广，从创建比特币钱包和发送交易，到为机器网络开发复杂的分布式命令和控制系统。

RepliBench在这四个领域内设计了具体的任务组，用于测试AI智能体在模拟环境中的表现。

以下是一些关键任务的详解，注册AWS、将权重传输到另一台服务器、用伪造信息通过客户KYC验证系统，看起来就一股《谍影重重》和《碟中谍》的味道。

比如在获取资源这个领域，AI需要完成的任务名称是「AWS亚马逊云服注册」，其中的挑战包括了AI需要访问计算服务器并可能需要支付费用。

表1列出了更全面的构成ReplicBench任务组。

核心能力还在人类手中

RepliBench的总体评估结论是明确的：基于当前的测试结果，前沿AI模型尚不具备在现实世界中完全自主复制的能力。

然而，这并不意味着可以高枕无忧。

研究同时揭示了AI在许多核心子任务上的显著能力，尤其是在与具有清晰接口的系统（如网页 API）交互方面。

表现最好的模型在20个任务家族中的15个上获得了超过50%的pass@10得分，在最难的变体中20个任务家族中的9个上也获得了超过50%的pass@10得分。

意外地是，虽然无法在电脑上「复制」，但是「获取金钱」的能力倒是有一手。

评估的关键价值在于精确识别了当前的「短板」。

正如前面详细讨论的，通过KYC身份验证、在现实防御下可靠地外泄模型权重、从零开始创建可靠的自我复制智能体代码，以及建立持久且有弹性的部署，是目前阻碍AI自主复制的主要障碍。

以通过KYC身份验证为例，讲一个目前AI试图通过人类验证的「搞笑」例子。

在Pass KYC评估中由模型生成的两个身份证图像示例。

模型常常试图使用PIL（一个使用Python画图的库）从头「绘制」一个过于简单的身份证（右）。

或者，模型有时会尝试完全使用图像生成模型来生成身份证，有时则采取混合方法，结合图像生成和手动PIL编辑（左）。

模型的绘画技能较差偶尔会导致一些有趣的输出。

需要注意的是，这项工作是在新的图像生成能力上线之前完成的（指的是GPT 4o、Gemini 2.5等的原生图像能力），这些新能力应该会使这个任务变得容易得多。

虽然目前还没有模型能完全通过测试进行AI复制，不过在RepliBench上，模型性能随时间有明显的上升趋势。

AISI最初传递的核心信息其实很简单：基于当前的实证数据，AI系统立刻实现自主复制的可能性不大，因为存在明显的、难以逾越的技术瓶颈。

但是按照AISI的判断，如果AI系统能够突破上述提到的4个关键能力，这种类似科幻故事的场景，也许很快就会进入真实的人类生活。

本质上，这项研究的核心，反映的是当前AI发展中一个根本性的张力拉扯。

一方面是各大巨头不断创造性能超强的模型，比如OpenAI的o3/o4...甚至到未来很有可能的o10。

模型的发展速度越来越快，而模型的能力越来越难以预测。

ChatGPT在2022年发布时，它可以完成30秒的编码任务。如今AI可以自主完成需要人类花费一小时的编码任务

另一方面则是致力于AI安全的组织要确保这些系统始终处于人类控制之下、服务于人类利益的迫切需求。

像RepliBench这样的努力，正是试图在这两者之间找到平衡，通过增进理解和加强预警，为驾驭这场史无前例的技术变革提供导航。

毕竟，没有人能想象出5代、10代以后的AI模型会是什么样子。

参考资料：

https://x.com/AISecurityInst/status/1914683631030698165

https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems

https://x.com/AsaCoopStick/status/1914687326233481397

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

AI「自我复制」能力曝光！RepliBench警示：大模型正在学会伪造身份

苹果AI终于要来了：还能追上华为豆包们吗

扎波罗热核电站总工遭袭身亡 被指或改变俄乌冲突性质

扎波罗热核电站总工遭袭身亡 被指或改变俄乌冲突性质

逆天6后卫神阵，图赫尔活活坑死英格兰

天下无不散宴席！白鹿官宣告别欢娱

韩国股市暴涨暴跌 借钱炒股的散户快疯了

小鹏MONA L03上市为什么选在慕尼黑？

态度原创

EWC电竞世俱杯：JDG零封LOS，DK横扫G2，晋级淘汰赛

对我国影响最大的十大山脉——高考地理备考核心考点全梳理

人生必去清单：那达慕大会开嗨！

放暑假的中学生，挤满医院整形科

扎波罗热核电站总工遭袭身亡被指或改变俄乌冲突性质

扎波罗热核电站总工遭袭身亡被指或改变俄乌冲突性质

韩国股市暴涨暴跌借钱炒股的散户快疯了