网易首页 > 网易号 > 正文 申请入驻

突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research

0
分享至

港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。

该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。

  • 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation
  • 论文地址:https://arxiv.org/abs/2505.23885
  • 项目代码:https://github.com/camel-ai/owl

背景与挑战:多智能体系统的「领域壁垒」

随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智能体协作完成复杂任务,显著提升了系统的整体性能。然而,当前的多智能体系统普遍面临一个核心问题:跨领域迁移能力严重不足。现有系统往往针对特定领域深度定制,这种设计模式带来了两大弊端:

  1. 推理层面的限制:部署到新领域往往需要重新设计整个系统架构。例如,专为软件工程设计的MetaGPT框架依赖于特定的标准操作程序,难以直接应用到其他领域。
  2. 训练层面的挑战:现有方法通常需要对所有智能体进行全量训练。以 MALT 为例,其固定的生成器 - 验证器 - 改进器流水线要求对每个组件分别进行训练,迁移成本极高。

这些局限性制约了多智能体系统的灵活性和可扩展性,迫切需要一种更加通用、模块化的解决方案。

创新突破:Workforce 架构的「解耦设计」

研究团队提出的 Workforce 框架通过创新的「解耦设计」理念,解决了跨领域迁移难题。该框架将系统分解为三个核心组件:

  1. 领域无关的规划器(Planner Agent),其负责分析输入任务并将其分解为若干子任务,基于高层目标生成抽象的任务分解策略。这个组件是整个系统的「大脑」,其设计完全独立于具体应用领域。
  2. 智能协调器(Coordinator Agent),作为中央协调机制,负责将子任务分配给最适合的工作节点,同时管理任务依赖关系并整合中间结果。协调器通过共享的「任务通道」实现高效的通信管理。
  3. 专业工作节点(Worker Nodes),由一个或多个专门化智能体组成,配备特定的能力和工具包来执行分配的子任务。工作节点可以根据应用需求灵活替换或添加,无需修改核心规划机制。

这种模块化架构的最大优势在于实现了「稳定核心,可变外围」的设计哲学。当需要适应新领域时,只需更换或添加相应的工作节点,而规划器和协调器可以保持不变,大大降低了系统迁移的复杂度和成本。

技术创新:OWL 训练方法的「精准优化」

在 Workforce 架构基础上,研究团队进一步提出了 OWL(Optimized Workforce Learning)训练方法,专注于优化核心规划器的能力,而非对整个系统进行全量训练。整体采用两阶段训练策略:

  1. 第一阶段:监督微调(SFT),使用专家演示数据对规划器进行初始化训练,让其掌握基础的任务分解技能。研究团队精心构建了包含 1599 个高质量轨迹的训练数据集,涵盖在线信息搜索、推理、多模态处理等多个能力维度。
  2. 第二阶段:强化学习优化,采用直接偏好优化(DPO)算法进一步提升规划器的决策质量,使其能够发展出超越简单模仿的复杂决策能力。

这种精心设计的课程确保了规划器能够处理现实世界中的各种复杂任务类型。

实验验证:全面超越现有基准

研究团队在 GAIA 基准测试上进行了全面的实验验证。GAIA 是评估通用 AI 助手的权威基准,要求系统具备多模态理解、网络搜索、代码执行和复杂推理等综合能力。

在多智能体推理方面,Workforce 展现出了显著优势,在 GAIA 的 validation 集上 pass@1 达到了 69.70% 的准确率,大幅超越此前最好的开源系统,并超越了 OpenAI Deep Research(67.36%)等强大的商业系统。

在 OWL 训练方法效果验证方面,OWL 的训练设计使 Qwen2.5-32B-Instruct 模型在 GAIA 上的性能从 36.36% 提升到了 52.73%,超越了未训练的 72B 模型(49.09%),并在 Level 3 任务上达到了与 GPT-4o 相当的性能(26.92%)。

深入的分析实验揭示了 Workforce 框架的多项优势:

  1. 跨能力维度维持稳定:Workforce 框架在各个能力维度都展现出优势,无论任务需要 1 种、2 种还是 3 种以上的能力,Workforce 都能保持稳定的性能表现,而单智能体方法在多能力任务上出现显著性能下降。
  2. 测试时自我纠错:通过 Workforce 设计的任务失败时触发的自我反思与重新规划机制,系统能够在测试时动态调整策略,随着重新规划次数增加,性能持续提升,展现出强大的自我纠错和进化能力。
  3. 模块化训练优势:对比实验显示,仅训练规划器就能达到与训练全部组件相近的性能,同时大幅降低计算成本,验证了「规划器优先」设计理念的正确性。

实际应用:真实环境下的诸多挑战

由于真实世界任务的复杂性和不稳定性,在真实环境中解决问题会面临诸多挑战。对此,研究团队进行了深入分析,将挑战主要分为以下几类:

  1. 信息源差异:同一查询在不同信息源可能得到不同答案。
  2. 信息时效性:网络信息的动态变化可能导致预期答案失效。
  3. 语言歧义性:用户查询中的模糊表达需要系统进行智能推理和消歧。
  4. 网络环境限制:网络不稳定、访问权限限制等现实问题都需要系统妥善处理。

结论:通向通用人工智能的新路径

OWL 的成功为构建真正通用的人工智能系统开辟了一种新的路径。其中,Workforce 的模块化设计和跨领域迁移能力,带来了以下优势:

  1. 架构层面:通过解耦设计实现系统的高度模块化,既保证了核心能力的稳定性,又提供了外围功能的灵活性。
  2. 训练层面:专注于核心组件的优化而非全系统训练,显著提高了训练效率和迁移能力。
  3. 应用层面:为各种实际应用场景提供了即插即用的解决方案,大大降低了部署门槛。

通过将即插即用的工作节点与可泛化的规划核心相结合,该方法能够为通用 AI 助手提供可扩展的基础,加速通用 AI 助手的研究进程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员郝蕾年轻时旧照曝光,无美颜无滤镜,绝对的纯天然大美妞

演员郝蕾年轻时旧照曝光,无美颜无滤镜,绝对的纯天然大美妞

草莓解说体育
2026-01-20 11:57:09
明道晒出上海新家:看完明道家的沙发,腰不好的我 emo 了:好贵但真的好想要!

明道晒出上海新家:看完明道家的沙发,腰不好的我 emo 了:好贵但真的好想要!

空间设计
2026-01-19 12:10:02
五常站队落定!中国开始争取第二个帮手,高市军事算盘或打不响了

五常站队落定!中国开始争取第二个帮手,高市军事算盘或打不响了

梁讯
2026-01-19 15:52:44
全球数亿部iPhone需紧急升级iOS 26,这些机型例外

全球数亿部iPhone需紧急升级iOS 26,这些机型例外

环球网资讯
2026-01-19 10:19:34
中方:收到美方邀请

中方:收到美方邀请

环球时报国际
2026-01-20 16:19:27
女子以“丈夫长期微信招嫖、购买涉黄视频”为由起诉离婚,法院调解后离婚,房产归男方

女子以“丈夫长期微信招嫖、购买涉黄视频”为由起诉离婚,法院调解后离婚,房产归男方

红星新闻
2026-01-20 15:01:13
西贝官微两度转发“人民日报再评西贝关店事件”,还加了15个感叹号:西贝贾国龙一定对照反思,学习改进

西贝官微两度转发“人民日报再评西贝关店事件”,还加了15个感叹号:西贝贾国龙一定对照反思,学习改进

极目新闻
2026-01-19 20:36:40
到底有事没?巴特勒膝盖疑似扭伤痛苦倒地,离场时却做鬼脸+咧嘴笑

到底有事没?巴特勒膝盖疑似扭伤痛苦倒地,离场时却做鬼脸+咧嘴笑

懂球帝
2026-01-20 13:33:11
90死伤6失联!包钢爆炸内部画面流出,原因曝光,大量隐情披露

90死伤6失联!包钢爆炸内部画面流出,原因曝光,大量隐情披露

博士观察
2026-01-19 21:20:43
车企懵圈!没了补贴“救济粮”,1月份新能源车销量狂跌了67%!

车企懵圈!没了补贴“救济粮”,1月份新能源车销量狂跌了67%!

言车有徐
2026-01-19 19:20:28
李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

牛牛叨史
2025-12-10 22:19:51
曲婉婷跌入斩杀线:贪腐阴影下的全面崩塌!

曲婉婷跌入斩杀线:贪腐阴影下的全面崩塌!

达文西看世界
2026-01-19 18:25:35
今日赛事!1月20日19:30!中央5套CCTV5、CCTV5+直播节目表

今日赛事!1月20日19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-01-20 11:16:19
基辅守不住了

基辅守不住了

陆弃
2026-01-20 08:20:03
A股:今天,1月20日,突然跳水,原因是这两点!

A股:今天,1月20日,突然跳水,原因是这两点!

明心
2026-01-20 11:30:54
新生人口跌至792万背后:龙年透支效应显现,今年新生数将反弹?

新生人口跌至792万背后:龙年透支效应显现,今年新生数将反弹?

王五说说看
2026-01-20 11:28:35
四九天里要多吃,1通便,2增免疫,3护血管,现正当季,别错过 !

四九天里要多吃,1通便,2增免疫,3护血管,现正当季,别错过 !

江江食研社
2026-01-18 08:30:11
中山警方通报货车连撞多车致2伤,司机被控制后行为异常 目击者:现场有人大喊快跑

中山警方通报货车连撞多车致2伤,司机被控制后行为异常 目击者:现场有人大喊快跑

红星新闻
2026-01-20 00:22:14
收评:全体股民做好准备!A股转折点来了,不出意外明天将这样走

收评:全体股民做好准备!A股转折点来了,不出意外明天将这样走

财经大拿
2026-01-20 12:36:46
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
2026-01-20 16:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12150文章数 142547关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

李亚鹏的嫣然医院收到千万捐款可否交房租 律师发声

头条要闻

李亚鹏的嫣然医院收到千万捐款可否交房租 律师发声

体育要闻

新的时代!东契奇首夺全明星票王 詹姆斯落选首发

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

健康
数码
游戏
家居
公开课

血常规3项异常,是身体警报!

数码要闻

石头G30S Pro自清洁扫拖机器人发售,首发价5499元起

魔兽世界首席制作人离开暴雪!加入拳头MMO项目

家居要闻

隽永之章 清雅无尘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版