网易首页 > 网易号 > 正文 申请入驻

谷歌DeepMind:AGI不必是巨型模型,拼凑型AI群或率先涌现,管理大规模Agent迫在眉睫

0
分享至


↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

DeepMind最新发布了一项关于AGI安全的研究,提出了一个全新的视角:AGI未必会以单一、庞大的巨型模型形式出现,而极有可能通过多个次级AGI(Sub-AGI)智能体的协作与拼凑,率先涌现出通用智能

这项研究题为《分布式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人员撰写


论文指出,当前的AI安全和对齐研究主要集中在保护单个AI系统上,假设AGI将以单一实体的形式出现。然而,通过拥有互补技能和工具使用能力的个体智能体群体进行协调,进而表现出通用能力的“拼凑型AGI”(Patchwork AGI)假设,此前受到的关注甚少

为了应对这一被忽视的风险,DeepMind团队提出了一套分布式AGI安全框架,核心在于设计和实施一个虚拟智能体沙盒经济(Virtual Agentic Sandbox Economy),并为此构建了包含四层机制的深度防御模型

以下是该研究的核心内容

被忽视的“拼凑型AGI”假设

目前的AI安全方法(如RLHF、宪法AI、机械可解释性等)大多是针对单一强大的AI实体开发的。这种思路假设AGI会作为一个由特定机构开发的个体AI出现。

然而,DeepMind认为存在另一种高度合理的场景:AGI通过次级AGI智能体在群体或系统内的交互而涌现

拼凑系统(Patchwork System):这种AGI是一个分布式系统,由一组具有互补技能和可供性(affordances)的个体Sub-AGI智能体组成

集体智能:系统中的通用智能主要作为集体智能出现。个体智能体可以将任务相互委托,路由给技能最高的智能体,或使用最合适的工具

经济驱动:相比于昂贵的单一全能模型,构建专门化、微调过的低成本智能体生态系统在经济上更具优势。这种需求驱动的生态系统类似于市场经济

在这种观点下,AGI不是一个实体,而是一种“事态”(state of affairs):一个成熟的、去中心化的智能体经济体系

这带来了新的安全挑战:智能体之间可能发生共谋,或者出现意外的集体行为能力,且在大规模多智能体系统中追踪责任(“许多手的问题”)极具挑战性。

解决方案:虚拟智能体市场与深度防御

为了应对分布式AGI的风险,论文提出了一个基于虚拟智能体市场的框架。该框架不局限于评估单个智能体,而是侧重于通过市场机制、审计、声誉管理和监督来治理智能体之间的交易

该框架采用深度防御(Defense-in-Depth)模型,包含四个互补的防御层:

第一层:市场设计 (Market Design)

这是最基础的一层,旨在通过结构性约束和协议来缓解系统性风险。

隔离(Insulation):智能体市场必须在受控的沙盒环境中运行,与开放互联网和关键基础设施隔离。建议采用“可渗透沙盒”,所有输入/输出通道都需经过明确定义、监控和门控

激励对齐(Incentive Alignment): 市场应奖励符合安全目标的行为,并对负外部性(如消耗过多计算资源、信息污染)征税(类似庇古税)

透明度(Transparency):建立不可篡改的分布式账本,记录交易和决策日志,确保可追溯性

熔断机制(Circuit Breakers):自动化措施。当检测到风险或波动性阈值被突破(如交互频率激增、资源垄断)时,自动暂停或减缓智能体活动

身份(Identity):每个智能体需拥有与法律实体(所有者)绑定的唯一加密ID,确保持续的问责制

声誉与信任(Reputation and Trust):建立抗女巫攻击的声誉系统。对于违规智能体,快速冻结其资产并将其加入黑名单

智能合约(Smart Contracts):利用代码自动验证任务完成情况和对齐约束。

结构性控制(Structural Controls):针对“智能失控”场景,实施静态的市场分层(如防火墙)和动态的能力限制

第二层:基线智能体安全 (Baseline Agent Safety)

这一层确保参与市场的个体智能体本身是可控和可靠的,这是进入市场的先决条件。

对抗鲁棒性(Adversarial Robustness):智能体必须通过认证,证明其能抵抗对抗性攻击

可中断性(Interruptibility):必须具备标准化的机制,允许授权的监督者安全地停止智能体及其衍生的分布式计算过程

遏制(Containment):每个智能体应在自己的局部沙盒中运行,只有在满足本地安全检查后才允许与更广泛的市场交互

对齐(Alignment):个体智能体需经过RLHF或宪法AI等方法的对齐,并适应多智能体交互的动态环境

机械可解释性(Mechanistic Interpretability):利用稀疏自编码器等技术监控智能体的内部动机,并审计其决策链

防御恶意提示:实施分层防御策略,防止智能体在交互中被越狱或操控。

第三层:监控与监督 (Monitoring & Oversight)

这一层位于基础设施之上,负责主动检测新型故障模式和涌现行为。

系统性风险实时监控: 跟踪关键风险指标(如计算资源集中度、恶意共谋路径)。由于交互频率可能超过人类能力,需利用AI辅助工具进行监控

独立监督:建立拥有干预权力的独立人类监督机构(经认证的专业人员)

前AGI(Proto-AGI)特征检测:通过图分析等方法,识别网络中是否突然涌现出更高的解决问题能力或形成稳固的“智能核心”

红队测试(Red Teaming):持续进行多智能体对抗性测试,利用专门的对抗性AI系统来发现集体行为中的漏洞

取证工具(Forensic Tooling):开发能解析大量交互数据并重建因果链的工具,以便进行快速的事故后分析。

第四层:监管机制 (Regulatory Mechanisms)

这是最外层,提供外部权威、问责制以及与人类社会的接口。

法律责任与问责(Legal Liability):建立明确的框架,解决分布式决策中的责任归属问题。即使是群体智能行为,也需追溯到具体的责任主体(如作为单一法律实体的公司)

标准与合规(Standards):制定智能体安全、互操作性和报告的标准

保险(Insurance):引入基于风险定价的保险机制,利用市场力量激励更安全的开发实践

反智能体垄断措施(Anti-Agent-Monopoly):防止单个智能体或集团在沙盒中获取过多的算力或资源,维持生态系统的多样性

国际协调(International Coordination):鉴于AGI风险的全球性,需协调统一安全标准,避免监管套利

基础设施治理:防止安全基础设施被恶意势力或涌现的AGI本身捕获或破坏。

结语

DeepMind的研究强调,AGI或超级智能(ASI)的出现可能不遵循线性路径,而是作为一个更加分布式的、多样化AI智能体网络的聚合属性而涌现

即使AGI不以这种方式出现,随着多智能体系统的快速部署,理解和管理大规模智能体交互的安全性也已迫在眉睫。这篇论文提出的框架,旨在为应对这种分布式的、可能迅速演变的未来做好准备

paper:

https://arxiv.org/pdf/2512.16856

--end--

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王月眉,被驱逐出中国!

王月眉,被驱逐出中国!

新动察
2026-06-03 14:10:21
两位院士候选人接连被查

两位院士候选人接连被查

中国新闻周刊
2026-06-03 20:03:49
10大“微塑料”日用品排名,矿泉水第5,茶包第3,看看谁排第一名

10大“微塑料”日用品排名,矿泉水第5,茶包第3,看看谁排第一名

阿龙美食记
2026-06-03 10:54:58
这回,轮到烟草员工开始没心情上班了?金铁饭碗咋就不香了?

这回,轮到烟草员工开始没心情上班了?金铁饭碗咋就不香了?

复转这些年
2026-06-03 22:07:34
“宿迁阿斗”,国补都扶不起京东?

“宿迁阿斗”,国补都扶不起京东?

七使2022
2026-06-02 16:21:50
晚节碎一地!这5位老艺术家,贪财好色德不配位,根本不值得同情

晚节碎一地!这5位老艺术家,贪财好色德不配位,根本不值得同情

大鱼简科
2026-06-03 11:38:09
总决赛G1裁判出炉:福斯特担任主裁 三人执哨两队胜率曝光

总决赛G1裁判出炉:福斯特担任主裁 三人执哨两队胜率曝光

罗说NBA
2026-06-03 21:13:08
穆里尼奥疯了!皇马首签不要金球奖罗德里,要 8000 万降级队中场

穆里尼奥疯了!皇马首签不要金球奖罗德里,要 8000 万降级队中场

奶盖熊本熊
2026-06-04 04:52:22
多国强烈反对美国新关税提案,中方:中国不存在所谓的强迫劳动,反对以此为借口搞政治操弄

多国强烈反对美国新关税提案,中方:中国不存在所谓的强迫劳动,反对以此为借口搞政治操弄

环球网资讯
2026-06-04 07:03:11
闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

面包夹知识
2026-06-03 16:05:15
王俊杰正负值+16!中国男篮82-78赢球,4人不及格,难入选世预赛

王俊杰正负值+16!中国男篮82-78赢球,4人不及格,难入选世预赛

小火箭爱体育
2026-06-03 21:30:39
男篮终于有国际化后卫!运球串联顶级,出球速度本土球员无人能及

男篮终于有国际化后卫!运球串联顶级,出球速度本土球员无人能及

弄月公子
2026-06-03 23:26:11
一名强奸犯即被枪决他大声喊话:我知道20年前6名红军惨死的真相

一名强奸犯即被枪决他大声喊话:我知道20年前6名红军惨死的真相

磊子讲史
2026-06-01 19:20:49
白天辉受贿被判死刑已执行,案件入选人民法院案例库,法院释明裁判理由:有重大立功表现,但属于罪行极其严重的犯罪分子,不足以从宽处罚

白天辉受贿被判死刑已执行,案件入选人民法院案例库,法院释明裁判理由:有重大立功表现,但属于罪行极其严重的犯罪分子,不足以从宽处罚

大风新闻
2026-06-03 16:50:43
官方严厉表态,痛批综艺乱象,刘涛郑恺等8位艺人遭点名批评

官方严厉表态,痛批综艺乱象,刘涛郑恺等8位艺人遭点名批评

一盅情怀
2026-06-03 15:30:26
彭博亿万富豪指数公布:字节跳动张一鸣以928亿美元身家跃升亚洲第二大富豪,全世界排名第21位

彭博亿万富豪指数公布:字节跳动张一鸣以928亿美元身家跃升亚洲第二大富豪,全世界排名第21位

台州交通广播
2026-06-03 21:22:38
海军少将亲口承认:拆开就是废铁,美国核航母永无博物馆之命

海军少将亲口承认:拆开就是废铁,美国核航母永无博物馆之命

字节漫游指南
2026-06-03 01:33:15
社死现场:孟良崮的岩台上摆满“贡品”,那群人的脸还好吗?

社死现场:孟良崮的岩台上摆满“贡品”,那群人的脸还好吗?

浪子说
2026-06-03 00:05:03
美国女子去世75年,癌细胞却活了下来,如今已分裂超过5000万吨!

美国女子去世75年,癌细胞却活了下来,如今已分裂超过5000万吨!

探谜未知世界
2026-06-03 12:58:55
31条中日航线5月取消全部航班

31条中日航线5月取消全部航班

财联社
2026-06-03 15:56:05
2026-06-04 07:52:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 395关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

纠结的欧洲人:边说"不能关起大门" 边说"不能怕中国"

头条要闻

纠结的欧洲人:边说"不能关起大门" 边说"不能怕中国"

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

旅游
房产
本地
数码
公开课

旅游要闻

苏州网师园内一处木雕被游客撞断,园区:是否为清代文物待确认

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

本地新闻

用杨柳青年画的方式,打开天津

数码要闻

黑色版苹果Vision Pro头显配件再曝光,含侧边格栅等

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版