网易首页 > 网易号 > 正文 申请入驻

Multi-Agent系统为何常“翻车”?伯克利指出其具有人类合作所有坏毛病!

0
分享至

来源:深度学习自然语言处理

论文:Why Do Multi-Agent LLM Systems Fail? 链接:https://arxiv.org/pdf/2503.13657
多智能体系统为何“翻车”?

14种失败模式与3大致命陷阱

研究者分析了150多个任务对话记录(总文本量超15万行),发现失败根源可归结为三大类:

① 规则崩坏(Specification Failures)

  • AI员工擅自篡改需求(如把象棋输入从“Kc8”改成坐标)

② 团队内耗(Inter-Agent Misalignment)

  • 程序员和架构师“鸡同鸭讲”7轮对话毫无进展

  • 明知API文档有误却隐瞒不报

③ 验收摆烂(Verification Failures)

真实案例:象棋游戏为何变成坐标输入器?

论文披露了一个经典翻车现场:用户要求开发支持国际象棋标准记谱法(如Qd4)的游戏,结果Agent团队交付的版本只能用(x1,y1)坐标输入。

更离谱的是,测试环节只检查代码能否编译,完全忽略规则验证。这就好比验收新房时,监理只数门窗数量,却不管厕所有没有下水道。

数据显示,47%的失败可追溯至验证环节。但论文强调:“不能全怪质检员”。就像建筑坍塌不能只怪验收,钢筋偷工减料、图纸错误等前期问题才是根源。

研究者发现,即便给验证AI开外挂(用GPT-4o审核),仍有23%的失败无法避免。这说明多智能体系统的崩溃,往往是系统性设计缺陷的集中爆发。

人类组织学的启示

令人震惊的是,这些Agent团队的失败模式,竟与人类组织的经典崩溃案例高度吻合:

  • 越级指挥(CTO抢CEO的决策权)

  • 专家沉默(明知流程错误却不敢质疑)

论文提出可借鉴核电站、航空管制等高可靠性组织(HRO)的经验,比如:

  • 严格分级授权(禁止AI角色越权)

  • 构建心理安全感(鼓励AI质疑上级决策)

咋办?

当前主流解决方案就像“打补丁”:

  • 战术级修复:把提示词写得更详细(+14%成功率)

  • 换座位实验:调整AI对话流程(效果忽高忽低)

但根本性解决方案需要重构系统DNA

  • 给AI安装“风险雷达”(量化决策置信度)

  • 开发组织记忆库(避免重复踩坑)

  • 建立标准化通信协议(消灭“方言式对话”)

Agent团队协作的终极形态是什么?

研究者预言,未来的多智能体系统将更像特种部队

  • 突击手(快速响应)

  • 侦察兵(实时验证)

  • 指挥官(动态协调)
    通过强化学习训练团队默契,最终实现“1+1>10”的智能涌现。


阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巨亏850亿!百年光学巨头走下神坛?从巅峰到陨落只用了二十年

巨亏850亿!百年光学巨头走下神坛?从巅峰到陨落只用了二十年

涵豆说娱
2026-03-20 19:54:18
门口放三样东西,再穷也能翻身!不是迷信,是老祖宗传下的理儿

门口放三样东西,再穷也能翻身!不是迷信,是老祖宗传下的理儿

千秋文化
2026-03-19 21:08:53
“被摧毁”的伊朗防空体系如何击中F-35?专家分析

“被摧毁”的伊朗防空体系如何击中F-35?专家分析

新京报
2026-03-21 11:41:21
黄和院士再获提拔重用,或将成江苏省属高校首位院士校长

黄和院士再获提拔重用,或将成江苏省属高校首位院士校长

百家论大学
2026-03-21 09:05:07
美国防官员已为向伊朗部署地面部队制定详尽方案

美国防官员已为向伊朗部署地面部队制定详尽方案

大象新闻
2026-03-21 06:57:04
一图看懂|为何美军害怕伊朗布设水雷?

一图看懂|为何美军害怕伊朗布设水雷?

澎湃新闻
2026-03-14 07:32:27
中俄印彻底崩盘!普京紧急推动新三角,中方摊牌:不解决死穴免谈

中俄印彻底崩盘!普京紧急推动新三角,中方摊牌:不解决死穴免谈

一家说
2026-03-20 13:12:03
击落3架美军F-15E的科威特飞行员,因多项罪名已被逮捕

击落3架美军F-15E的科威特飞行员,因多项罪名已被逮捕

碳基生物关怀组织
2026-03-17 22:35:07
已明确!2026年养老金确定上涨,涨幅控制在3.2%——3.8%,看看有你吗?

已明确!2026年养老金确定上涨,涨幅控制在3.2%——3.8%,看看有你吗?

CG说科技
2026-03-20 12:28:24
根本打不完,搞半天原来伊朗前面发射的700枚导弹都是去库存!

根本打不完,搞半天原来伊朗前面发射的700枚导弹都是去库存!

阿龙聊军事
2026-03-18 06:10:58
比白发更可怕的是“中国式大爷发型”,自以为时髦,实际油腻土气

比白发更可怕的是“中国式大爷发型”,自以为时髦,实际油腻土气

淡淡稻花香s
2026-03-19 03:53:49
贾国龙新品牌现场擀面焖面 工序透明可围观 店员称菜品均为现做

贾国龙新品牌现场擀面焖面 工序透明可围观 店员称菜品均为现做

快科技
2026-03-20 19:13:50
汪家反击了!张兰律师曝攻击汪家幕后黑手是许雅钧 S妈一直在卖惨

汪家反击了!张兰律师曝攻击汪家幕后黑手是许雅钧 S妈一直在卖惨

漫婷侃娱乐
2026-03-21 08:47:34
绵阳一母亲带1岁儿子看病 途中如厕时交人照看后儿子失踪 36年后终团聚

绵阳一母亲带1岁儿子看病 途中如厕时交人照看后儿子失踪 36年后终团聚

红星新闻
2026-03-20 15:21:56
我的山与海大结局:方婉之收养妙妙,倩倩培养大虎成才,李娟意外

我的山与海大结局:方婉之收养妙妙,倩倩培养大虎成才,李娟意外

东方不败然多多
2026-03-21 10:25:21
香港老字号被网红轰炮,怒斥其“饮食界之耻”,网友:一物降一物

香港老字号被网红轰炮,怒斥其“饮食界之耻”,网友:一物降一物

探源历史
2026-03-21 06:25:13
放进去就是做了,不放进去就是没做

放进去就是做了,不放进去就是没做

桉予
2026-03-20 13:54:20
张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

青杉依旧啊啊
2026-03-19 22:10:26
中国真正的“最高权力机构”竟然不是国务院?99%的人都搞错了!

中国真正的“最高权力机构”竟然不是国务院?99%的人都搞错了!

兴史兴谈
2026-03-19 20:14:58
广东被绝杀仅一夜,杜锋独自返粤参加活动!留助教带队备战引热议

广东被绝杀仅一夜,杜锋独自返粤参加活动!留助教带队备战引热议

多特体育说
2026-03-21 11:17:34
2026-03-21 12:07:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4594文章数 37434关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

环球:对华关系上 高市欲表现"弱势"形象博取美国同情

头条要闻

环球:对华关系上 高市欲表现"弱势"形象博取美国同情

体育要闻

谁在决定字母哥未来?

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

教育
手机
健康
公开课
军事航空

教育要闻

5月15日印刷毕业证!高三云平台5月8日截止

手机要闻

OPPO K15 Pro真机亮相,4月即将登场!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版