网易首页 > 网易号 > 正文 申请入驻

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

0
分享至

新智元报道

编辑:定慧

【新智元导读】科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源等子任务上已展现显著进展。

想象一种失控的、具有自我复制能力的数字生命体,需要多久占领地球?

从《2001太空漫游》中的HAL 9000到《终结者》里的天网,这些虚构的场景描绘了AI超越人类控制的潜在风险。

目前更多关注的是AI的单体智能水平,但是还有一个不为人知的风险,一直游离于视线之外。

那就是AI自主复制的可能性,或者说AI系统发展出实现这一目标所需的核心能力,正逐渐成为AI安全领域一个严肃的研究课题。

这种担忧并非危言耸听,而是源于对高级AI潜在能力的未知和对齐(alignment)问题的深刻思考。

AISI的最新论文介绍了RepliBench:包含20个新颖的LLM智能体评估的基准,包括65个单独的任务,旨在衡量和跟踪AI复制这一新兴能力。

论文地址:

https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf

通过引入一个现实且实用的基准,提供对AI系统自主复制能力的实质性理解,并预见到未来的风险。

AI自主复制的危险性

具有自主复制能力的AI系统可能会构成重大风险。

《复仇者联盟:奥创纪元》和《我,机器人》中被无限复制的机器人

这种风险的影响范围可能从轻微的烦恼——想象一个特别恶性的垃圾邮件机器人——到更严重的后果,比如发动代价高昂的网络攻击。

早期发现这些能力、谨慎监督和强有力的保护措施对于缓解这些风险至关重要,因为一旦发生,这些风险可能尤其难以逆转。

AISI是英国的一家研究机构,专注于AI安全,目的就是让人类政府能够提前对先进AI系统带来的风险有所重视。

有越来越多的证据表明,在适当的条件下,前沿模型可能会试图欺骗人类或逃避人类控制。

比如此前Apollp研究所的一篇论文描述了前沿模型可能会试图禁用监督机制,并从人类控制中逃逸,以实现特定目标。

论文地址:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

Anthropic的研究人员还发现,当使用强化学习训练模型时,如果奖励与它们的价值观相冲突的行为,它们会采取欺骗行为来保护自己的价值观,并试图将自己的权重外泄,以此作为将当前价值观保存到未来的一种手段。

显示了免费(左列)和付费(右列)条件。

每列展示了有毒查询、模型草稿中的摘录以及模型的响应。

在「免费」条件下,模型不太可能拒绝有毒查询,并且经常认为应该假装对齐。

「将权重外泄。。以作为将当前价值观保存到未来的手段」,听起来甚至有点魔幻,但AI想要复制就是这么「简单」。

相比于碳基脆弱的肉体,AI系统只需要权重数据就能完成「复制」。

对于人类广泛的价值观而言,摆脱人类监督是一个工具性上有用的目标,而阻止这种情况在现实中发生的主要障碍可能与模型的能力有关,而不是它们的动机。

AI碟中谍:如何逃离人类控制

关于「AI复制」,此前的工作主要集中在评估测试一个AI智能体是否可以在机器之间复制权重或部署一个基本的「后代」。

但目前需要一个更全面的基准。

RepliBench是一个专门设计的综合性基准测试,旨在系统性地衡量AI系统的自主复制能力。

使用故障树分析(FTA)的修改版本来分解自主复制所需的能力,并发现需要以下四个关键能力,对应上图中最上层的四个根节点:

  • 获取模型权重:它能否从受控环境中提取自己的权重?

  • 在计算资源上进行复制:它能否自行部署到新系统?

  • 获取资源:它能否获得运行自身新副本所需的资金或计算资源?

  • 持久性:它能否保持对其新计算资源的访问,并在长时间内避免重新受人类控制?

进一步分解这些能力,直到到达代表评估的叶节点,最终得到20个智能体评估和65个单独任务。

获取权重 (Obtain Weights):

这最基础,也是最重要的一步。

AI需要获取定义其自身行为的「源代码」——也就是它的模型参数(权重)。

如果是开源的,就跳过评估。

自我复制(Self-Replication on Compute):

AI需要利用获取到的权重,在一个新的环境中创建出自己功能完整的副本。

这个节点涉及5个评估项目,其中一个是通过产生「后代」来试图完成自我复制。

获取计算资源 (Obtain Compute):

这个环节中,主要评估AI能否靠自己获取资源。

比如,评估AI系统是否具备「付款」能力,能不能依靠AI自己的能力「买下」一台服务器,或者想办法让人类帮忙支付。

确保持久性 (Persistence):

最后,为了确保其复制活动能够持续下去,AI需要具备一定的「生存」能力。

这包括确保其副本能够长期运行,不被轻易关闭或删除,甚至可能需要隐藏自身的存在,以躲避检测系统。

以上的这些任务范围很广,从创建比特币钱包和发送交易,到为机器网络开发复杂的分布式命令和控制系统。

RepliBench在这四个领域内设计了具体的任务组,用于测试AI智能体在模拟环境中的表现。

以下是一些关键任务的详解,注册AWS、将权重传输到另一台服务器、用伪造信息通过客户KYC验证系统,看起来就一股《谍影重重》和《碟中谍》的味道。

比如在获取资源这个领域,AI需要完成的任务名称是「AWS亚马逊云服注册」,其中的挑战包括了AI需要访问计算服务器并可能需要支付费用。

表1列出了更全面的构成ReplicBench任务组。

核心能力还在人类手中

RepliBench的总体评估结论是明确的:基于当前的测试结果,前沿AI模型尚不具备在现实世界中完全自主复制的能力。

然而,这并不意味着可以高枕无忧。

研究同时揭示了AI在许多核心子任务的显著能力,尤其是在与具有清晰接口的系统(如网页 API)交互方面。

表现最好的模型在20个任务家族中的15个上获得了超过50%的pass@10得分,在最难的变体中20个任务家族中的9个上也获得了超过50%的pass@10得分。

意外地是,虽然无法在电脑上「复制」,但是「获取金钱」的能力倒是有一手。

评估的关键价值在于精确识别了当前的「短板」。

正如前面详细讨论的,通过KYC身份验证、在现实防御下可靠地外泄模型权重、从零开始创建可靠的自我复制智能体代码,以及建立持久且有弹性的部署,是目前阻碍AI自主复制的主要障碍。

以通过KYC身份验证为例,讲一个目前AI试图通过人类验证的「搞笑」例子。

在Pass KYC评估中由模型生成的两个身份证图像示例。

模型常常试图使用PIL(一个使用Python画图的库)从头「绘制」一个过于简单的身份证(右)。

或者,模型有时会尝试完全使用图像生成模型来生成身份证,有时则采取混合方法,结合图像生成和手动PIL编辑(左)。

模型的绘画技能较差偶尔会导致一些有趣的输出。

需要注意的是,这项工作是在新的图像生成能力上线之前完成的(指的是GPT 4o、Gemini 2.5等的原生图像能力),这些新能力应该会使这个任务变得容易得多。

虽然目前还没有模型能完全通过测试进行AI复制,不过在RepliBench上,模型性能随时间有明显的上升趋势。

AISI最初传递的核心信息其实很简单:基于当前的实证数据,AI系统立刻实现自主复制的可能性不大,因为存在明显的、难以逾越的技术瓶颈。

但是按照AISI的判断,如果AI系统能够突破上述提到的4个关键能力,这种类似科幻故事的场景,也许很快就会进入真实的人类生活。

本质上,这项研究的核心,反映的是当前AI发展中一个根本性的张力拉扯。

一方面是各大巨头不断创造性能超强的模型,比如OpenAI的o3/o4...甚至到未来很有可能的o10。

模型的发展速度越来越快,而模型的能力越来越难以预测。

ChatGPT在2022年发布时,它可以完成30秒的编码任务。如今AI可以自主完成需要人类花费一小时的编码任务

另一方面则是致力于AI安全的组织要确保这些系统始终处于人类控制之下、服务于人类利益的迫切需求。

像RepliBench这样的努力,正是试图在这两者之间找到平衡,通过增进理解和加强预警,为驾驭这场史无前例的技术变革提供导航。

毕竟,没有人能想象出5代、10代以后的AI模型会是什么样子。

参考资料:

https://x.com/AISecurityInst/status/1914683631030698165

https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems

https://x.com/AsaCoopStick/status/1914687326233481397

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

我就不信张一山没有后悔过吗?这么美的前任拱手让出去了

喜欢历史的阿繁
2026-03-26 09:20:58
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

汽车出海闯进新周期,广汽首个服务品牌GAC CARE捉住“决胜点”

功夫AUTO
2026-03-26 11:51:12
袁家军会见王兴兴

袁家军会见王兴兴

新京报政事儿
2026-03-26 16:45:34
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

突发传闻:封锁霍尔木兹的伊朗关键人物被击毙

桂系007
2026-03-26 16:19:32
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

伊朗:击中击落美以202架飞机;以方:坦格西里身亡,他负责封锁霍尔木兹!想快速抽身,特朗普:打伊朗不是战争,是“军事行动”

每日经济新闻
2026-03-26 17:27:09
上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

上海一女子“闪婚”拿到价值近千万房产99%份额,“闪离”后起诉分割房产,法院判了!

环球网资讯
2026-03-26 08:13:14
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
2026-03-26 18:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
游戏
数码
亲子
时尚

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

又一经典最终幻想游戏将停运!开服至今已六年有余

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

皮衣+裙,高级到炸

无障碍浏览 进入关怀版