网易首页 > 网易号 > 正文 申请入驻

谷歌DeepMind:AGI不必是巨型模型,拼凑型AI群或率先涌现,管理大规模Agent迫在眉睫

0
分享至


↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

DeepMind最新发布了一项关于AGI安全的研究,提出了一个全新的视角:AGI未必会以单一、庞大的巨型模型形式出现,而极有可能通过多个次级AGI(Sub-AGI)智能体的协作与拼凑,率先涌现出通用智能

这项研究题为《分布式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人员撰写


论文指出,当前的AI安全和对齐研究主要集中在保护单个AI系统上,假设AGI将以单一实体的形式出现。然而,通过拥有互补技能和工具使用能力的个体智能体群体进行协调,进而表现出通用能力的“拼凑型AGI”(Patchwork AGI)假设,此前受到的关注甚少

为了应对这一被忽视的风险,DeepMind团队提出了一套分布式AGI安全框架,核心在于设计和实施一个虚拟智能体沙盒经济(Virtual Agentic Sandbox Economy),并为此构建了包含四层机制的深度防御模型

以下是该研究的核心内容

被忽视的“拼凑型AGI”假设

目前的AI安全方法(如RLHF、宪法AI、机械可解释性等)大多是针对单一强大的AI实体开发的。这种思路假设AGI会作为一个由特定机构开发的个体AI出现。

然而,DeepMind认为存在另一种高度合理的场景:AGI通过次级AGI智能体在群体或系统内的交互而涌现

拼凑系统(Patchwork System):这种AGI是一个分布式系统,由一组具有互补技能和可供性(affordances)的个体Sub-AGI智能体组成

集体智能:系统中的通用智能主要作为集体智能出现。个体智能体可以将任务相互委托,路由给技能最高的智能体,或使用最合适的工具

经济驱动:相比于昂贵的单一全能模型,构建专门化、微调过的低成本智能体生态系统在经济上更具优势。这种需求驱动的生态系统类似于市场经济

在这种观点下,AGI不是一个实体,而是一种“事态”(state of affairs):一个成熟的、去中心化的智能体经济体系

这带来了新的安全挑战:智能体之间可能发生共谋,或者出现意外的集体行为能力,且在大规模多智能体系统中追踪责任(“许多手的问题”)极具挑战性。

解决方案:虚拟智能体市场与深度防御

为了应对分布式AGI的风险,论文提出了一个基于虚拟智能体市场的框架。该框架不局限于评估单个智能体,而是侧重于通过市场机制、审计、声誉管理和监督来治理智能体之间的交易

该框架采用深度防御(Defense-in-Depth)模型,包含四个互补的防御层:

第一层:市场设计 (Market Design)

这是最基础的一层,旨在通过结构性约束和协议来缓解系统性风险。

隔离(Insulation):智能体市场必须在受控的沙盒环境中运行,与开放互联网和关键基础设施隔离。建议采用“可渗透沙盒”,所有输入/输出通道都需经过明确定义、监控和门控

激励对齐(Incentive Alignment): 市场应奖励符合安全目标的行为,并对负外部性(如消耗过多计算资源、信息污染)征税(类似庇古税)

透明度(Transparency):建立不可篡改的分布式账本,记录交易和决策日志,确保可追溯性

熔断机制(Circuit Breakers):自动化措施。当检测到风险或波动性阈值被突破(如交互频率激增、资源垄断)时,自动暂停或减缓智能体活动

身份(Identity):每个智能体需拥有与法律实体(所有者)绑定的唯一加密ID,确保持续的问责制

声誉与信任(Reputation and Trust):建立抗女巫攻击的声誉系统。对于违规智能体,快速冻结其资产并将其加入黑名单

智能合约(Smart Contracts):利用代码自动验证任务完成情况和对齐约束。

结构性控制(Structural Controls):针对“智能失控”场景,实施静态的市场分层(如防火墙)和动态的能力限制

第二层:基线智能体安全 (Baseline Agent Safety)

这一层确保参与市场的个体智能体本身是可控和可靠的,这是进入市场的先决条件。

对抗鲁棒性(Adversarial Robustness):智能体必须通过认证,证明其能抵抗对抗性攻击

可中断性(Interruptibility):必须具备标准化的机制,允许授权的监督者安全地停止智能体及其衍生的分布式计算过程

遏制(Containment):每个智能体应在自己的局部沙盒中运行,只有在满足本地安全检查后才允许与更广泛的市场交互

对齐(Alignment):个体智能体需经过RLHF或宪法AI等方法的对齐,并适应多智能体交互的动态环境

机械可解释性(Mechanistic Interpretability):利用稀疏自编码器等技术监控智能体的内部动机,并审计其决策链

防御恶意提示:实施分层防御策略,防止智能体在交互中被越狱或操控。

第三层:监控与监督 (Monitoring & Oversight)

这一层位于基础设施之上,负责主动检测新型故障模式和涌现行为。

系统性风险实时监控: 跟踪关键风险指标(如计算资源集中度、恶意共谋路径)。由于交互频率可能超过人类能力,需利用AI辅助工具进行监控

独立监督:建立拥有干预权力的独立人类监督机构(经认证的专业人员)

前AGI(Proto-AGI)特征检测:通过图分析等方法,识别网络中是否突然涌现出更高的解决问题能力或形成稳固的“智能核心”

红队测试(Red Teaming):持续进行多智能体对抗性测试,利用专门的对抗性AI系统来发现集体行为中的漏洞

取证工具(Forensic Tooling):开发能解析大量交互数据并重建因果链的工具,以便进行快速的事故后分析。

第四层:监管机制 (Regulatory Mechanisms)

这是最外层,提供外部权威、问责制以及与人类社会的接口。

法律责任与问责(Legal Liability):建立明确的框架,解决分布式决策中的责任归属问题。即使是群体智能行为,也需追溯到具体的责任主体(如作为单一法律实体的公司)

标准与合规(Standards):制定智能体安全、互操作性和报告的标准

保险(Insurance):引入基于风险定价的保险机制,利用市场力量激励更安全的开发实践

反智能体垄断措施(Anti-Agent-Monopoly):防止单个智能体或集团在沙盒中获取过多的算力或资源,维持生态系统的多样性

国际协调(International Coordination):鉴于AGI风险的全球性,需协调统一安全标准,避免监管套利

基础设施治理:防止安全基础设施被恶意势力或涌现的AGI本身捕获或破坏。

结语

DeepMind的研究强调,AGI或超级智能(ASI)的出现可能不遵循线性路径,而是作为一个更加分布式的、多样化AI智能体网络的聚合属性而涌现

即使AGI不以这种方式出现,随着多智能体系统的快速部署,理解和管理大规模智能体交互的安全性也已迫在眉睫。这篇论文提出的框架,旨在为应对这种分布式的、可能迅速演变的未来做好准备

paper:

https://arxiv.org/pdf/2512.16856

--end--

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东北3岁小网红继续做吃播,父母是真不想上班

东北3岁小网红继续做吃播,父母是真不想上班

九方鱼论
2026-04-07 05:02:58
山东一男婴日夜啼哭,母亲掀开被子后,将月嫂当场掐死

山东一男婴日夜啼哭,母亲掀开被子后,将月嫂当场掐死

罪案洞察者
2025-03-31 09:35:41
黄一鸣被限高,银行卡全冻结,靠女儿也救不了,每月苦还十几万

黄一鸣被限高,银行卡全冻结,靠女儿也救不了,每月苦还十几万

一盅情怀
2026-04-06 15:41:29
黑尾酱,彻底消失了?

黑尾酱,彻底消失了?

生如稗草
2026-03-15 08:48:11
俄罗斯人很困惑,这么贵的东西,为什么中国人却将它当水喝?

俄罗斯人很困惑,这么贵的东西,为什么中国人却将它当水喝?

南宗历史
2026-04-07 16:59:32
认祖归宗!蒋介石做梦也没想到,曾孙告别台湾,跑到杭州创业定居

认祖归宗!蒋介石做梦也没想到,曾孙告别台湾,跑到杭州创业定居

顾史
2026-03-05 18:17:23
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
2026年五一放假时间表:有3个好消息,2个坏消息,早安排早准备

2026年五一放假时间表:有3个好消息,2个坏消息,早安排早准备

小谈食刻美食
2026-04-06 17:27:45
7号收评:三大指数集体收涨!所有人都注意了,大盘后市或这样走!

7号收评:三大指数集体收涨!所有人都注意了,大盘后市或这样走!

春江财富
2026-04-07 15:17:13
15年后,全网封神的“犀利哥”程国荣,早已死在了那场流量狂欢里

15年后,全网封神的“犀利哥”程国荣,早已死在了那场流量狂欢里

杰丝聊古今
2026-04-05 18:52:02
郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

海峡导报社
2026-04-07 09:09:13
泰国新总理刚稳住大位,先拿洪森父子开刀,秋后算账的时候到了?

泰国新总理刚稳住大位,先拿洪森父子开刀,秋后算账的时候到了?

寄星夜幕星河
2026-04-07 18:27:48
《陈涉世家》回归课本,千年言论引发社会讨论

《陈涉世家》回归课本,千年言论引发社会讨论

冷眼看尽世间繁华
2026-02-12 07:53:33
陈丽华去世仅2天,几百亿遗产分配曝光!仨子女和迟重瑞恐难获得

陈丽华去世仅2天,几百亿遗产分配曝光!仨子女和迟重瑞恐难获得

冷桂零落
2026-04-07 16:31:25
百年骗局终结!国内县城击穿全球市场,1800万降到169元,巨头破产

百年骗局终结!国内县城击穿全球市场,1800万降到169元,巨头破产

蜉蝣说
2026-03-31 14:40:10
中央定调,基本养老金调整有望,去年2%,今年能与去年持平吗?

中央定调,基本养老金调整有望,去年2%,今年能与去年持平吗?

深析古今
2026-04-07 09:57:25
男子阴茎癌晚期,夫妻生活一向干净,妻子:他就是改不了这个习惯

男子阴茎癌晚期,夫妻生活一向干净,妻子:他就是改不了这个习惯

路医生健康科普
2026-02-04 06:00:03
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

世界圈
2026-02-12 17:04:31
外媒热议赵心童夺冠:“旋风”横扫,顶级准度,恐怖统治力

外媒热议赵心童夺冠:“旋风”横扫,顶级准度,恐怖统治力

观察鉴娱
2026-04-07 11:32:02
俄罗斯断供,中国限制出口!印度菲律宾急眼了:早知今日何必当初

俄罗斯断供,中国限制出口!印度菲律宾急眼了:早知今日何必当初

触摸史迹
2026-04-06 18:27:47
2026-04-07 20:12:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1036文章数 396关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

英媒:伊朗最高领袖病重昏迷 无法参与任何国家决策

头条要闻

英媒:伊朗最高领袖病重昏迷 无法参与任何国家决策

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

时尚
教育
亲子
艺术
军事航空

杨超越之后,全网头像锦鲤的C位被她抢走了

教育要闻

高校官宣:教师,没有“非升即走”!

亲子要闻

别让过度检查,毁了你的备孕路!

艺术要闻

美丽风光看不尽

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版