每个智能体框架的路演PPT里都有同一页。专业智能体协作:一个负责规划,一个负责编码,一个负责审查。网状结构涌现智能。交付更快,思考更深,扩展更广。
研究数据给出了相反的结论。
![]()
加州大学伯克利分校的研究人员分析了7个主流多智能体框架,覆盖200多项任务。6名专业人工标注员参与评估,每项任务产生超过1.5万行对话记录。结果显示:ChatDev——最先进的多智能体编程框架之一——正确率低至25%。
他们识别出14种不同的失败模式。不是边缘案例,而是随着智能体数量增加而恶化的结构性问题。
谷歌研究与麻省理工媒体实验室的另一项研究在PlanCraft任务上测试了180种智能体配置。所有多智能体变体相比单智能体均出现性能下降:集中式架构下降50.4%,去中心化架构下降41.4%,混合架构下降39.0%,独立架构下降70.0%。
斯坦福大学的第三项研究表明,当思考token预算相等时,单智能体在多跳推理任务上达到或超过多智能体系统。多智能体系统在基准测试中的"优势"来自消耗更多token,而非更聪明的协调机制。
伯克利团队建立的MAST分类法将失败归纳为三类:
第一类是规范与系统设计失败。智能体不遵守任务规范,不遵守角色规范,重复执行步骤,丢失对话历史,不知道何时终止。
第二类是智能体间错位。对话意外重置,智能体未能请求澄清,任务偏离轨道,智能体相互隐瞒信息,忽视其他智能体的输入,推理与行动不匹配。
第三类是任务验证与终止。智能体过早终止,验证不完整或错误。
三类失败的分布大致均衡,没有单一类型占主导。这意味着无法通过解决某个单一问题来修复智能体网络——失败面本身就是架构问题。
每次智能体交接都是一次有损转换。智能体A的输出成为智能体B的提示词,上下文在每一跳衰减。4个智能体组成的链条中,序列化损失的信息已超过专业化带来的收益。
伯克利论文引用组织理论解释这一现象。他们参考了Roberts与Rousseau 1989年关于高可靠性组织的研究:即使由复杂个体组成的组织,若组织结构存在缺陷,也会发生灾难性失败。
智能体网络中的失败模式直接违反了高可靠性组织的定义特征。智能体越权(违反层级分化),未能寻求澄清(违反专业尊重)。这些是协调失败,而非大语言模型的能力局限。
研究人员尝试通过优化提示词和重新设计智能体拓扑来解决这些问题。结果:14%的改善。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.