网易首页 > 网易号 > 正文 申请入驻

谷歌DeepMind:AGI不必是巨型模型,拼凑型AI群或率先涌现,管理大规模Agent迫在眉睫

0
分享至


↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

DeepMind最新发布了一项关于AGI安全的研究,提出了一个全新的视角:AGI未必会以单一、庞大的巨型模型形式出现,而极有可能通过多个次级AGI(Sub-AGI)智能体的协作与拼凑,率先涌现出通用智能

这项研究题为《分布式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人员撰写


论文指出,当前的AI安全和对齐研究主要集中在保护单个AI系统上,假设AGI将以单一实体的形式出现。然而,通过拥有互补技能和工具使用能力的个体智能体群体进行协调,进而表现出通用能力的“拼凑型AGI”(Patchwork AGI)假设,此前受到的关注甚少

为了应对这一被忽视的风险,DeepMind团队提出了一套分布式AGI安全框架,核心在于设计和实施一个虚拟智能体沙盒经济(Virtual Agentic Sandbox Economy),并为此构建了包含四层机制的深度防御模型

以下是该研究的核心内容

被忽视的“拼凑型AGI”假设

目前的AI安全方法(如RLHF、宪法AI、机械可解释性等)大多是针对单一强大的AI实体开发的。这种思路假设AGI会作为一个由特定机构开发的个体AI出现。

然而,DeepMind认为存在另一种高度合理的场景:AGI通过次级AGI智能体在群体或系统内的交互而涌现

拼凑系统(Patchwork System):这种AGI是一个分布式系统,由一组具有互补技能和可供性(affordances)的个体Sub-AGI智能体组成

集体智能:系统中的通用智能主要作为集体智能出现。个体智能体可以将任务相互委托,路由给技能最高的智能体,或使用最合适的工具

经济驱动:相比于昂贵的单一全能模型,构建专门化、微调过的低成本智能体生态系统在经济上更具优势。这种需求驱动的生态系统类似于市场经济

在这种观点下,AGI不是一个实体,而是一种“事态”(state of affairs):一个成熟的、去中心化的智能体经济体系

这带来了新的安全挑战:智能体之间可能发生共谋,或者出现意外的集体行为能力,且在大规模多智能体系统中追踪责任(“许多手的问题”)极具挑战性。

解决方案:虚拟智能体市场与深度防御

为了应对分布式AGI的风险,论文提出了一个基于虚拟智能体市场的框架。该框架不局限于评估单个智能体,而是侧重于通过市场机制、审计、声誉管理和监督来治理智能体之间的交易

该框架采用深度防御(Defense-in-Depth)模型,包含四个互补的防御层:

第一层:市场设计 (Market Design)

这是最基础的一层,旨在通过结构性约束和协议来缓解系统性风险。

隔离(Insulation):智能体市场必须在受控的沙盒环境中运行,与开放互联网和关键基础设施隔离。建议采用“可渗透沙盒”,所有输入/输出通道都需经过明确定义、监控和门控

激励对齐(Incentive Alignment): 市场应奖励符合安全目标的行为,并对负外部性(如消耗过多计算资源、信息污染)征税(类似庇古税)

透明度(Transparency):建立不可篡改的分布式账本,记录交易和决策日志,确保可追溯性

熔断机制(Circuit Breakers):自动化措施。当检测到风险或波动性阈值被突破(如交互频率激增、资源垄断)时,自动暂停或减缓智能体活动

身份(Identity):每个智能体需拥有与法律实体(所有者)绑定的唯一加密ID,确保持续的问责制

声誉与信任(Reputation and Trust):建立抗女巫攻击的声誉系统。对于违规智能体,快速冻结其资产并将其加入黑名单

智能合约(Smart Contracts):利用代码自动验证任务完成情况和对齐约束。

结构性控制(Structural Controls):针对“智能失控”场景,实施静态的市场分层(如防火墙)和动态的能力限制

第二层:基线智能体安全 (Baseline Agent Safety)

这一层确保参与市场的个体智能体本身是可控和可靠的,这是进入市场的先决条件。

对抗鲁棒性(Adversarial Robustness):智能体必须通过认证,证明其能抵抗对抗性攻击

可中断性(Interruptibility):必须具备标准化的机制,允许授权的监督者安全地停止智能体及其衍生的分布式计算过程

遏制(Containment):每个智能体应在自己的局部沙盒中运行,只有在满足本地安全检查后才允许与更广泛的市场交互

对齐(Alignment):个体智能体需经过RLHF或宪法AI等方法的对齐,并适应多智能体交互的动态环境

机械可解释性(Mechanistic Interpretability):利用稀疏自编码器等技术监控智能体的内部动机,并审计其决策链

防御恶意提示:实施分层防御策略,防止智能体在交互中被越狱或操控。

第三层:监控与监督 (Monitoring & Oversight)

这一层位于基础设施之上,负责主动检测新型故障模式和涌现行为。

系统性风险实时监控: 跟踪关键风险指标(如计算资源集中度、恶意共谋路径)。由于交互频率可能超过人类能力,需利用AI辅助工具进行监控

独立监督:建立拥有干预权力的独立人类监督机构(经认证的专业人员)

前AGI(Proto-AGI)特征检测:通过图分析等方法,识别网络中是否突然涌现出更高的解决问题能力或形成稳固的“智能核心”

红队测试(Red Teaming):持续进行多智能体对抗性测试,利用专门的对抗性AI系统来发现集体行为中的漏洞

取证工具(Forensic Tooling):开发能解析大量交互数据并重建因果链的工具,以便进行快速的事故后分析。

第四层:监管机制 (Regulatory Mechanisms)

这是最外层,提供外部权威、问责制以及与人类社会的接口。

法律责任与问责(Legal Liability):建立明确的框架,解决分布式决策中的责任归属问题。即使是群体智能行为,也需追溯到具体的责任主体(如作为单一法律实体的公司)

标准与合规(Standards):制定智能体安全、互操作性和报告的标准

保险(Insurance):引入基于风险定价的保险机制,利用市场力量激励更安全的开发实践

反智能体垄断措施(Anti-Agent-Monopoly):防止单个智能体或集团在沙盒中获取过多的算力或资源,维持生态系统的多样性

国际协调(International Coordination):鉴于AGI风险的全球性,需协调统一安全标准,避免监管套利

基础设施治理:防止安全基础设施被恶意势力或涌现的AGI本身捕获或破坏。

结语

DeepMind的研究强调,AGI或超级智能(ASI)的出现可能不遵循线性路径,而是作为一个更加分布式的、多样化AI智能体网络的聚合属性而涌现

即使AGI不以这种方式出现,随着多智能体系统的快速部署,理解和管理大规模智能体交互的安全性也已迫在眉睫。这篇论文提出的框架,旨在为应对这种分布式的、可能迅速演变的未来做好准备

paper:

https://arxiv.org/pdf/2512.16856

--end--

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
固始新娘结局:老师身份被曝光,面相看着就不简单,黑历史太多

固始新娘结局:老师身份被曝光,面相看着就不简单,黑历史太多

秋姐居
2026-02-05 11:36:37
没招!郭士强筹备男篮集训名单询问王俊杰能不能打,结果不如意

没招!郭士强筹备男篮集训名单询问王俊杰能不能打,结果不如意

林小湜体育频道
2026-02-06 00:52:56
美国甩出重磅信息!家里有小孩的都吓哭了,内容相当炸裂

美国甩出重磅信息!家里有小孩的都吓哭了,内容相当炸裂

毛豆论道
2026-02-05 19:06:04
亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

亚朵涨到3000块一晚,潮汕要被外地游客挤爆了

源Sight
2026-02-05 16:46:25
从1-4到5-4!赵心童轰2杆破百逆转塞尔比,中国球手6人跻身八强

从1-4到5-4!赵心童轰2杆破百逆转塞尔比,中国球手6人跻身八强

全景体育V
2026-02-05 21:54:14
东风奕派发布情况声明:eπ007事故监控视频在网络平台传播,视频记录的事故发生于2025年,事故是车辆与货车高速碰撞后引发

东风奕派发布情况声明:eπ007事故监控视频在网络平台传播,视频记录的事故发生于2025年,事故是车辆与货车高速碰撞后引发

大风新闻
2026-02-05 17:48:02
上海浦东机场惊人一幕:7名中东游客托运40多个行李箱,重超500斤!外国人在上海买疯了

上海浦东机场惊人一幕:7名中东游客托运40多个行李箱,重超500斤!外国人在上海买疯了

极目新闻
2026-02-05 12:06:47
半路出家!这位39岁的新任央视春晚主持人是什么来头?

半路出家!这位39岁的新任央视春晚主持人是什么来头?

新民周刊
2026-02-05 19:10:09
亚洲杯大爆冷!国乒女单首败,蒯曼又剃光头,孙颖莎坐渔翁之利

亚洲杯大爆冷!国乒女单首败,蒯曼又剃光头,孙颖莎坐渔翁之利

篮球看比赛
2026-02-05 18:05:02
立陶宛总理称跳到反华火车前面,结果吃了亏,那边赖皮狗仍嘴硬

立陶宛总理称跳到反华火车前面,结果吃了亏,那边赖皮狗仍嘴硬

明话直说
2026-02-05 18:00:34
俄罗斯星链网络被整个切断!曝前线指挥系统崩溃混乱

俄罗斯星链网络被整个切断!曝前线指挥系统崩溃混乱

项鹏飞
2026-02-05 18:14:58
触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

触目惊心!麻雀数量暴跌90%,中国人不吃它,为啥快见不到了?

老特有话说
2026-02-04 23:42:16
巴拿马“毁约夺港”,中国震怒反击开始

巴拿马“毁约夺港”,中国震怒反击开始

凤眼论
2026-02-06 09:18:32
离队56天!徐正源炮轰蓉城:高层一手操控球员转会 将我彻底架空

离队56天!徐正源炮轰蓉城:高层一手操控球员转会 将我彻底架空

风过乡
2026-02-06 09:24:38
“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

百态人间
2026-02-05 15:42:49
中国高净值人群:家庭资产6100万,66%的人不考虑移民,主要买美股

中国高净值人群:家庭资产6100万,66%的人不考虑移民,主要买美股

六子吃凉粉
2026-02-05 14:23:50
王健林没想到,自己那指望不上的儿子王思聪,如今竟能为他打头阵

王健林没想到,自己那指望不上的儿子王思聪,如今竟能为他打头阵

每一次点击
2026-02-06 02:40:45
太讽刺了!具俊晔为大S守墓一年原因曝光,带韩国摄制组拍成综艺

太讽刺了!具俊晔为大S守墓一年原因曝光,带韩国摄制组拍成综艺

乌娱子酱
2026-02-05 16:13:46
圈内震动!百年巨头宣布大裁员,老板是世界前首富,员工连发三封联名求救信,有人称“这绝对是一场血洗”

圈内震动!百年巨头宣布大裁员,老板是世界前首富,员工连发三封联名求救信,有人称“这绝对是一场血洗”

每日经济新闻
2026-02-05 22:58:05
杜锋下课回归北京家庭?一切尘埃落定,广东完成官宣,去向曝光

杜锋下课回归北京家庭?一切尘埃落定,广东完成官宣,去向曝光

萌兰聊个球
2026-02-06 09:36:20
2026-02-06 10:43:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1032文章数 396关注度
往期回顾 全部

科技要闻

微信封禁元宝红包后,又把阿里千问封了

头条要闻

中纪委连打四虎:一人纵容配偶不实际工作而获取薪酬

头条要闻

中纪委连打四虎:一人纵容配偶不实际工作而获取薪酬

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

两大硬汉同框!谢霆锋帅到犯规,吴京都看笑了

财经要闻

很意外,美债危机要化解了

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

教育
时尚
旅游
公开课
军事航空

教育要闻

密歇根州立大学迎历史最大捐赠,将建跨学科创新中心!

今年春天一定要拥有的4件衣服,复古又时髦!

旅游要闻

江西宁都:立春赏梅 畅享“梅”好时光

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

内塔尼亚胡:已做好对伊朗发动"非常严厉打击"的准备

无障碍浏览 进入关怀版