网易首页 > 网易号 > 正文 申请入驻

谷歌DeepMind:AGI不必是巨型模型,拼凑型AI群或率先涌现,管理大规模Agent迫在眉睫

0
分享至


↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

DeepMind最新发布了一项关于AGI安全的研究,提出了一个全新的视角:AGI未必会以单一、庞大的巨型模型形式出现,而极有可能通过多个次级AGI(Sub-AGI)智能体的协作与拼凑,率先涌现出通用智能

这项研究题为《分布式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人员撰写


论文指出,当前的AI安全和对齐研究主要集中在保护单个AI系统上,假设AGI将以单一实体的形式出现。然而,通过拥有互补技能和工具使用能力的个体智能体群体进行协调,进而表现出通用能力的“拼凑型AGI”(Patchwork AGI)假设,此前受到的关注甚少

为了应对这一被忽视的风险,DeepMind团队提出了一套分布式AGI安全框架,核心在于设计和实施一个虚拟智能体沙盒经济(Virtual Agentic Sandbox Economy),并为此构建了包含四层机制的深度防御模型

以下是该研究的核心内容

被忽视的“拼凑型AGI”假设

目前的AI安全方法(如RLHF、宪法AI、机械可解释性等)大多是针对单一强大的AI实体开发的。这种思路假设AGI会作为一个由特定机构开发的个体AI出现。

然而,DeepMind认为存在另一种高度合理的场景:AGI通过次级AGI智能体在群体或系统内的交互而涌现

拼凑系统(Patchwork System):这种AGI是一个分布式系统,由一组具有互补技能和可供性(affordances)的个体Sub-AGI智能体组成

集体智能:系统中的通用智能主要作为集体智能出现。个体智能体可以将任务相互委托,路由给技能最高的智能体,或使用最合适的工具

经济驱动:相比于昂贵的单一全能模型,构建专门化、微调过的低成本智能体生态系统在经济上更具优势。这种需求驱动的生态系统类似于市场经济

在这种观点下,AGI不是一个实体,而是一种“事态”(state of affairs):一个成熟的、去中心化的智能体经济体系

这带来了新的安全挑战:智能体之间可能发生共谋,或者出现意外的集体行为能力,且在大规模多智能体系统中追踪责任(“许多手的问题”)极具挑战性。

解决方案:虚拟智能体市场与深度防御

为了应对分布式AGI的风险,论文提出了一个基于虚拟智能体市场的框架。该框架不局限于评估单个智能体,而是侧重于通过市场机制、审计、声誉管理和监督来治理智能体之间的交易

该框架采用深度防御(Defense-in-Depth)模型,包含四个互补的防御层:

第一层:市场设计 (Market Design)

这是最基础的一层,旨在通过结构性约束和协议来缓解系统性风险。

隔离(Insulation):智能体市场必须在受控的沙盒环境中运行,与开放互联网和关键基础设施隔离。建议采用“可渗透沙盒”,所有输入/输出通道都需经过明确定义、监控和门控

激励对齐(Incentive Alignment): 市场应奖励符合安全目标的行为,并对负外部性(如消耗过多计算资源、信息污染)征税(类似庇古税)

透明度(Transparency):建立不可篡改的分布式账本,记录交易和决策日志,确保可追溯性

熔断机制(Circuit Breakers):自动化措施。当检测到风险或波动性阈值被突破(如交互频率激增、资源垄断)时,自动暂停或减缓智能体活动

身份(Identity):每个智能体需拥有与法律实体(所有者)绑定的唯一加密ID,确保持续的问责制

声誉与信任(Reputation and Trust):建立抗女巫攻击的声誉系统。对于违规智能体,快速冻结其资产并将其加入黑名单

智能合约(Smart Contracts):利用代码自动验证任务完成情况和对齐约束。

结构性控制(Structural Controls):针对“智能失控”场景,实施静态的市场分层(如防火墙)和动态的能力限制

第二层:基线智能体安全 (Baseline Agent Safety)

这一层确保参与市场的个体智能体本身是可控和可靠的,这是进入市场的先决条件。

对抗鲁棒性(Adversarial Robustness):智能体必须通过认证,证明其能抵抗对抗性攻击

可中断性(Interruptibility):必须具备标准化的机制,允许授权的监督者安全地停止智能体及其衍生的分布式计算过程

遏制(Containment):每个智能体应在自己的局部沙盒中运行,只有在满足本地安全检查后才允许与更广泛的市场交互

对齐(Alignment):个体智能体需经过RLHF或宪法AI等方法的对齐,并适应多智能体交互的动态环境

机械可解释性(Mechanistic Interpretability):利用稀疏自编码器等技术监控智能体的内部动机,并审计其决策链

防御恶意提示:实施分层防御策略,防止智能体在交互中被越狱或操控。

第三层:监控与监督 (Monitoring & Oversight)

这一层位于基础设施之上,负责主动检测新型故障模式和涌现行为。

系统性风险实时监控: 跟踪关键风险指标(如计算资源集中度、恶意共谋路径)。由于交互频率可能超过人类能力,需利用AI辅助工具进行监控

独立监督:建立拥有干预权力的独立人类监督机构(经认证的专业人员)

前AGI(Proto-AGI)特征检测:通过图分析等方法,识别网络中是否突然涌现出更高的解决问题能力或形成稳固的“智能核心”

红队测试(Red Teaming):持续进行多智能体对抗性测试,利用专门的对抗性AI系统来发现集体行为中的漏洞

取证工具(Forensic Tooling):开发能解析大量交互数据并重建因果链的工具,以便进行快速的事故后分析。

第四层:监管机制 (Regulatory Mechanisms)

这是最外层,提供外部权威、问责制以及与人类社会的接口。

法律责任与问责(Legal Liability):建立明确的框架,解决分布式决策中的责任归属问题。即使是群体智能行为,也需追溯到具体的责任主体(如作为单一法律实体的公司)

标准与合规(Standards):制定智能体安全、互操作性和报告的标准

保险(Insurance):引入基于风险定价的保险机制,利用市场力量激励更安全的开发实践

反智能体垄断措施(Anti-Agent-Monopoly):防止单个智能体或集团在沙盒中获取过多的算力或资源,维持生态系统的多样性

国际协调(International Coordination):鉴于AGI风险的全球性,需协调统一安全标准,避免监管套利

基础设施治理:防止安全基础设施被恶意势力或涌现的AGI本身捕获或破坏。

结语

DeepMind的研究强调,AGI或超级智能(ASI)的出现可能不遵循线性路径,而是作为一个更加分布式的、多样化AI智能体网络的聚合属性而涌现

即使AGI不以这种方式出现,随着多智能体系统的快速部署,理解和管理大规模智能体交互的安全性也已迫在眉睫。这篇论文提出的框架,旨在为应对这种分布式的、可能迅速演变的未来做好准备

paper:

https://arxiv.org/pdf/2512.16856

--end--

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

眼光很亮
2026-04-10 14:29:21
起风了,中国运回16万盎司金条,特朗普拦不住,全球央行大幅抛债

起风了,中国运回16万盎司金条,特朗普拦不住,全球央行大幅抛债

小蜜情感说
2026-04-12 14:33:44
“崩老头”月入两三万?中国精神小妹批量收割,8090后抢着被崩?

“崩老头”月入两三万?中国精神小妹批量收割,8090后抢着被崩?

素衣读史
2026-04-10 19:59:20
随着波尔图3-1,穆帅率队2-0,布拉加1-0,葡超最新积分榜出炉

随着波尔图3-1,穆帅率队2-0,布拉加1-0,葡超最新积分榜出炉

侧身凌空斩
2026-04-13 05:40:58
比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

共工之锚
2026-03-29 18:26:19
美国副总统万斯延长在巴基斯坦停留时间

美国副总统万斯延长在巴基斯坦停留时间

界面新闻
2026-04-12 08:34:17
爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

爸爸梦到已故儿子说脚被刺扎了,立马驱车来到孩子墓前,眼前的一幕让人惊呆了!

张晓磊
2026-04-10 11:24:23
70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

眼界看视野
2026-04-11 21:09:54
杜锋有大变化,焦泊乔做出了一个重要决定!

杜锋有大变化,焦泊乔做出了一个重要决定!

体育哲人
2026-04-12 18:26:14
每吃一次,猝死就快一步?医生:这4物是心源性猝死的“催化剂”

每吃一次,猝死就快一步?医生:这4物是心源性猝死的“催化剂”

健康科普365
2026-04-03 22:00:07
霍启山亮相澳娱联欢会,以董事身份出席,与何超琼站中间又高又帅

霍启山亮相澳娱联欢会,以董事身份出席,与何超琼站中间又高又帅

树娃
2026-04-12 20:09:14
常规赛收官战轮休!杜兰特本赛季总出场时间2840分钟联盟第二

常规赛收官战轮休!杜兰特本赛季总出场时间2840分钟联盟第二

北青网-北京青年报
2026-04-12 12:48:10
新郎年幼,新婚夜入洞房,新娘说只要听话,我就依你

新郎年幼,新婚夜入洞房,新娘说只要听话,我就依你

皓皓情感说
2026-04-12 12:15:37
落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

秋姐居
2026-03-29 22:00:48
4 种最佳抗衰老的运动,平均寿命延长5-10年

4 种最佳抗衰老的运动,平均寿命延长5-10年

增肌减脂
2026-04-07 21:15:04
法媒:曼联正在密切关注帕瓦尔,但球员500万欧年薪是阻碍

法媒:曼联正在密切关注帕瓦尔,但球员500万欧年薪是阻碍

懂球帝
2026-04-13 00:23:38
我特别心动东风日产NX8,我推荐一步到位上增程310Max

我特别心动东风日产NX8,我推荐一步到位上增程310Max

凡兮说
2026-04-10 13:26:41
铁投集团总经理被查!

铁投集团总经理被查!

新浪财经
2026-04-13 01:40:09
李亚鹏前妻海哈金喜直播落泪:离婚后焦虑内耗,但不后悔也不复婚

李亚鹏前妻海哈金喜直播落泪:离婚后焦虑内耗,但不后悔也不复婚

子芫伴你成长
2026-04-12 23:35:10
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
2026-04-13 06:39:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1036文章数 396关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

游戏
教育
时尚
房产
健康

太宠玩家:《红沙》BUG被转正成技能!玩家舒服了

教育要闻

留学行业的寒冬已经来了!

被周冬雨、林更新戴上热搜的珠宝,究竟有多惊艳?

房产要闻

土地供应突然暴跌!2026海口楼市,格局大变!

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版