网易首页 > 网易号 > 正文 申请入驻

Multi-Agent系统为何常“翻车”?伯克利指出其具有人类合作所有坏毛病!

0
分享至

来源:深度学习自然语言处理

论文:Why Do Multi-Agent LLM Systems Fail? 链接:https://arxiv.org/pdf/2503.13657
多智能体系统为何“翻车”?

14种失败模式与3大致命陷阱

研究者分析了150多个任务对话记录(总文本量超15万行),发现失败根源可归结为三大类:

① 规则崩坏(Specification Failures)

  • AI员工擅自篡改需求(如把象棋输入从“Kc8”改成坐标)

② 团队内耗(Inter-Agent Misalignment)

  • 程序员和架构师“鸡同鸭讲”7轮对话毫无进展

  • 明知API文档有误却隐瞒不报

③ 验收摆烂(Verification Failures)

真实案例:象棋游戏为何变成坐标输入器?

论文披露了一个经典翻车现场:用户要求开发支持国际象棋标准记谱法(如Qd4)的游戏,结果Agent团队交付的版本只能用(x1,y1)坐标输入。

更离谱的是,测试环节只检查代码能否编译,完全忽略规则验证。这就好比验收新房时,监理只数门窗数量,却不管厕所有没有下水道。

数据显示,47%的失败可追溯至验证环节。但论文强调:“不能全怪质检员”。就像建筑坍塌不能只怪验收,钢筋偷工减料、图纸错误等前期问题才是根源。

研究者发现,即便给验证AI开外挂(用GPT-4o审核),仍有23%的失败无法避免。这说明多智能体系统的崩溃,往往是系统性设计缺陷的集中爆发。

人类组织学的启示

令人震惊的是,这些Agent团队的失败模式,竟与人类组织的经典崩溃案例高度吻合:

  • 越级指挥(CTO抢CEO的决策权)

  • 专家沉默(明知流程错误却不敢质疑)

论文提出可借鉴核电站、航空管制等高可靠性组织(HRO)的经验,比如:

  • 严格分级授权(禁止AI角色越权)

  • 构建心理安全感(鼓励AI质疑上级决策)

咋办?

当前主流解决方案就像“打补丁”:

  • 战术级修复:把提示词写得更详细(+14%成功率)

  • 换座位实验:调整AI对话流程(效果忽高忽低)

但根本性解决方案需要重构系统DNA

  • 给AI安装“风险雷达”(量化决策置信度)

  • 开发组织记忆库(避免重复踩坑)

  • 建立标准化通信协议(消灭“方言式对话”)

Agent团队协作的终极形态是什么?

研究者预言,未来的多智能体系统将更像特种部队

  • 突击手(快速响应)

  • 侦察兵(实时验证)

  • 指挥官(动态协调)
    通过强化学习训练团队默契,最终实现“1+1>10”的智能涌现。


阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WOC太能射了!NBA史上最年轻的250!

WOC太能射了!NBA史上最年轻的250!

左右为篮
2026-03-27 12:34:44
杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

杜月笙在河边钓鱼,遇到地痞要保护费,杜月笙:找你们老板过来

千秋文化
2026-03-25 21:29:50
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
1982年戴安娜艰难生下威廉,女王先看耳朵,一句评论让查尔斯心塞

1982年戴安娜艰难生下威廉,女王先看耳朵,一句评论让查尔斯心塞

鹤羽说个事
2026-03-26 22:32:10
美媒:若中国不偿还百年前的债务,美国也将不承认欠华8600亿美元

美媒:若中国不偿还百年前的债务,美国也将不承认欠华8600亿美元

文史达观
2025-03-18 12:54:58
坦格西里遇袭身亡

坦格西里遇袭身亡

新浪财经
2026-03-26 23:01:14
香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

观察鉴娱
2026-03-27 09:13:28
赖清德梦碎了,国台办连说两个“决不允许”,为侵略翻案想都别想

赖清德梦碎了,国台办连说两个“决不允许”,为侵略翻案想都别想

说历史的老牢
2026-03-26 10:51:28
十人法国热身赛2-1巴西!姆巴佩单刀破僵 利物浦9000万神锋建功

十人法国热身赛2-1巴西!姆巴佩单刀破僵 利物浦9000万神锋建功

我爱英超
2026-03-27 06:17:44
郑丽文来京时间确定,马英九拒绝通话,大陆发出统一后安排

郑丽文来京时间确定,马英九拒绝通话,大陆发出统一后安排

基斯默默
2026-03-27 08:41:34
戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

戏外一样猛!《侠探杰克》男主当街KO邻居,警方认定:正当防卫

仰卧撑FTUer
2026-03-26 22:37:11
张雪峰经典语录:句句都是人间清醒

张雪峰经典语录:句句都是人间清醒

山东教育
2026-03-26 08:07:56
据张雪峰公司一位员工透露,镜头前的张雪峰和私下里的他判若两人

据张雪峰公司一位员工透露,镜头前的张雪峰和私下里的他判若两人

砚底沉香
2026-03-27 07:43:52
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
官宣!中国最大省再设立新县,什么信号?

官宣!中国最大省再设立新县,什么信号?

西部城市
2026-03-26 21:08:33
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
再战热火!骑士3人继续缺席,但阿伦将复出,哈登迎期待的结局

再战热火!骑士3人继续缺席,但阿伦将复出,哈登迎期待的结局

巴叔GO聊体育
2026-03-27 11:20:37
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
六年不上班却照领工资,他只能举报自己:比吃空饷更可怕的,是监管集体失声

六年不上班却照领工资,他只能举报自己:比吃空饷更可怕的,是监管集体失声

二宝妈妈谈教育
2026-03-27 10:49:09
以色列一市长在节目直播中崩溃哭泣,痛斥内塔尼亚胡:没有国家支持我们,你毁了一切!

以色列一市长在节目直播中崩溃哭泣,痛斥内塔尼亚胡:没有国家支持我们,你毁了一切!

大象新闻
2026-03-27 10:49:04
2026-03-27 13:35:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4609文章数 37439关注度
往期回顾 全部

科技要闻

OpenAI果断砍掉"成人模式",死磕生产力

头条要闻

牛弹琴:一直赢的特朗普心里更慌了 又给自己续了10天

头条要闻

牛弹琴:一直赢的特朗普心里更慌了 又给自己续了10天

体育要闻

近29战23胜!这支黄蜂有多强?

娱乐要闻

张雪峰灵堂内景曝光,四周摆满了鲜花

财经要闻

很反常!油价向上,黄金向下

汽车要闻

与众08,金标大众不能输的一战

态度原创

本地
房产
数码
艺术
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

刚刚,海南楼市,官方数据发布!

数码要闻

达音科“卯”头戴式耳机发售=,2680元

艺术要闻

2025“殊相”——中国油画学会创作研修作品展 | 作品选刊(一)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版