网易首页 > 网易号 > 正文 申请入驻

告别昂贵账单,Token直降68%,多智能体动态协作编程来了

0
分享至



本文的主要作者来自上海交通大学自动化与感知学院 i-WiN 中心团队,团队负责人是上海交通大学讲席教授关新平。本文的通讯作者为 i-WiN 中心陈彩莲教授和关新平教授,指导老师还包括中心的许齐敏副研究员、徐磊和张延洲助理研究员。本文的第一作者为上海交通大学博士生王思宇,研究方向涉及多模态大模型、CAD 生成、多智能体、Agentic RL 等。

在当下 Vibe Coding 火热的背景下,软件开发正迅速从 “人写代码” 转向 “人指挥智能体写代码”。以 Claude Code、OpenClaw 为代表的系统,让智能体能够自主完成编码、调试乃至完整任务流程。然而,面对系统级开发或竞赛级算法等复杂问题,单一模型的能力边界依然明显,多智能体协作逐渐成为主流范式

但现有方法大多仍停留在两种典型路径。一类如 Claude Code 的Agent Teams,通过并行调用多个模型来提升能力上限,但也带来了极高的 Token 成本;另一类则以当下热门的 OpenClaw 为代表,通过技能组合与流程编排实现多智能体管理,在工程上更可控。

然而,这类方法的协作结构大多仍依赖预定义规则或静态流程,本质上解决的是 “如何组织调用”,而非 “如何根据任务动态调整协作方式”。这就像不论修自行车还是造火箭,都派同一个十人专家组开三天会,导致智能体冗余通讯与大量的 Token 消耗,最终给用户带来了极高的自主编程成本

上海交通大学 i-WiN 团队最新提出多智能体框架AgentConductor,通过引入一个经过强化学习训练后的3B 参数指挥智能体,从根本上解决了这个问题。它会先评估任务难度,并生成一张以 YAML 表示的交互拓扑图:简单任务使用轻量团队,复杂任务则使用更复杂的交互图,实现能力与成本的自适应匹配。



图 1.(a) 拓扑结构的 YAML 表示与实际图结构的映射;(b) AgentConductor 拓扑生成与演化过程展示

更关键的是,AgentConductor 并非一次性规划:当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合记忆中的历史轨迹,对拓扑进行端到端重新生成,从而探索新的协作形式。实验结果表明,该方法在显著提升编码准确率(+14.6%)的同时,将 Token 成本降低了 68%。这说明真正高效的 AI 编程团队需要的是一种面向任务、可随执行反馈动态演化的协作结构,而非僵化的一刀切工作流。相关论文已经公开,代码将于近期开源。



  • 论文名称:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
  • 论文链接:https://arxiv.org/abs/2602.17100

社区影响力

图 2 展示了 AgentConductor 工作在国际 AI 社区 (X, 前身 Twitter) 引发的广泛关注与认可。这项工作被知名 AI 分享博主 DAIR.AI 当日置顶宣传并评为 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并获得新锐 AI 科技博主 Rohan Paul 对 i-WiN 团队和论文的高度评价。



图 2.AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐

核心特色与方法介绍

1. 基于 YAML 的新型多智能体交互图结构

相比传统多智能体拓扑,我们在表示形式与交互机制两个层面进行了设计与优化。

1.1 表示形式

传统方法多采用连接矩阵等数学形式来描述交互图,不仅可读性差,也难以直接编辑与校验,更无法由大模型端到端生成;近期工作尝试使用自然语言描述,但存在拓扑不严格、难以结构化约束等问题。我们使用 YAML 结构化表示交互图 (图 1 (a)),使其既具备可读性,又支持程序化校验与约束,并可由 LLM 直接生成。这种形式在设计上与当前流行的Skill 配置文件具有一致性,便于理解与落地。



图 3. 本文交互拓扑结构与传统方法的对比

1.2 交互形式

如图 3 所示,传统链式、树状拓扑分别限制并行性、通信范围或连接灵活性,而全连接结构又过于复杂。我们融合多种拓扑优势,支持层内并行和跨层通讯且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销

2. 训练范式

2.1 SFT + GRPO 的两阶段训练范式

AgentConductor 采用两阶段训练策略,只训练一个指挥智能体:

监督微调(SFT):基于 GPT-4o 生成的 4,500 个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验;

基于 GRPO 的多轮端到端 Agentic 强化学习训练:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹 (Trajectory) 来用于智能体的强化学习训练,基于 GRPO 算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低 Token 成本的高质量代码生成。



图 4. AgentConductor 的总体框架

2.2 拓扑密度评估函数

为实现任务自适应,我们将问题分成三档难度,并根据从 Token 成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分。综合刻画节点数、边密度与图深度对通信成本的影响。

我们在论文中证明,多智能体系统的平均通信成本可形式化为:



其中 d 为图深度, m 为提示词最大长度。相比之下,传统方法大多简单的通过矩阵的秩来衡量交互密度,丢失了多智能体交互的数学含义

实验结果展示

我们在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估 AgentConductor(基于 Qwen-2.5-3B-Instruct):



表 1. AgentConductor 的 pass@1 准确率对比



表 2. AgentConductor 在性能、成本及平均拓扑密度方面的比较结果

表 1 说明,AgentConductor 以仅 3B 参数量,在 APPS 上显著超越最强基线,同时减少了最多 68% 的 completion token 消耗,并实现最高拓扑稀疏度。更重要的是,系统展现出细粒度难度适配能力:在 easy 任务上使用极简拓扑(平均 3–4 节点),在 hard 任务上自动扩展至 8–10 节点,而多数基线无论难度均维持固定密度。(* 更多结果详见论文)

结语:多智能体系统正在学会组织自己

过去,多智能体系统常被视为“堆人力”的暴力解法:越多AI越好。但AgentConductor 证明,智能协作的关键不在于数量,更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化,更代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程。 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,我们实现了准确率与效率的协同提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国防科技大学历任校长

国防科技大学历任校长

祁州校尉
2026-04-05 17:30:05
上海二胎家庭真相:不是多双筷子,是全家资源被掏空的一场硬仗

上海二胎家庭真相:不是多双筷子,是全家资源被掏空的一场硬仗

复转这些年
2026-04-07 12:25:34
要来了,苹果即将发布 iOS 26.4.1 正式版!

要来了,苹果即将发布 iOS 26.4.1 正式版!

花果科技
2026-04-07 12:40:07
太浪漫了!成都东站,小伙包下多个大屏,苦寻18次偶遇的短发女孩

太浪漫了!成都东站,小伙包下多个大屏,苦寻18次偶遇的短发女孩

奇思妙想生活家
2026-04-07 12:10:49
603122,“地天板”后,尾盘跳水

603122,“地天板”后,尾盘跳水

新浪财经
2026-04-07 15:31:15
郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

郑丽文今率团访陆,两岸和平出现曙光,谢寒冰:宣扬“武统”多是绿营的人

海峡导报社
2026-04-07 09:09:13
2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

大鱼简科
2026-04-06 11:33:07
这个男士是郭延军,他的鼻子的宽度、面积、体积为普通人2倍以上

这个男士是郭延军,他的鼻子的宽度、面积、体积为普通人2倍以上

岁月有情1314
2026-04-01 11:25:58
Nature头条报道:用精液制成抗癌眼药水,实现无创治疗癌症!

Nature头条报道:用精液制成抗癌眼药水,实现无创治疗癌症!

梅斯医学
2026-04-03 07:54:42
朱亚文一家四口逛乐园,和沈佳妮穿得比路人还朴素,俩女儿都好瘦

朱亚文一家四口逛乐园,和沈佳妮穿得比路人还朴素,俩女儿都好瘦

柒佰娱
2026-04-07 09:42:50
官媒为张雪鸣不平!他赢了全世界,却要栽在关系户这?

官媒为张雪鸣不平!他赢了全世界,却要栽在关系户这?

娱乐故事
2026-04-06 20:01:36
密歇根大学NCAA夺冠!四大主力都将会是今年NBA首轮秀?

密歇根大学NCAA夺冠!四大主力都将会是今年NBA首轮秀?

仰卧撑FTUer
2026-04-07 12:22:05
美伊停火协议细节公布!黄金直线拉升,国际油价大跳水,股市巨震

美伊停火协议细节公布!黄金直线拉升,国际油价大跳水,股市巨震

鲁中晨报
2026-04-07 07:21:14
最新数据公布!美军中央司令部:373名美军在对伊朗行动中受伤,5人伤势严重

最新数据公布!美军中央司令部:373名美军在对伊朗行动中受伤,5人伤势严重

环球网资讯
2026-04-07 10:39:10
陈丽华最后露面曝光:着红衣精神矍铄,迟重瑞或将分得多份额遗产

陈丽华最后露面曝光:着红衣精神矍铄,迟重瑞或将分得多份额遗产

老寓杂谈
2026-04-07 15:28:37
千万善款到账,一句"鬼话"为何成了最大败笔?

千万善款到账,一句"鬼话"为何成了最大败笔?

渡自己
2026-04-07 08:20:31
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
特朗普再发威胁: 7日20时是“最后期限” 国际油价基准双双跳涨

特朗普再发威胁: 7日20时是“最后期限” 国际油价基准双双跳涨

每日经济新闻
2026-04-07 08:12:39
一定要大量读书:只要你还一直读书,你就能够一直理解自己的痛苦

一定要大量读书:只要你还一直读书,你就能够一直理解自己的痛苦

欣辰读书
2026-04-06 23:06:40
高明没想到,儿子去世一年后,没有带娃改嫁的儿媳,成了他的救赎

高明没想到,儿子去世一年后,没有带娃改嫁的儿媳,成了他的救赎

米果说识
2026-04-07 14:43:21
2026-04-07 17:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12700文章数 142616关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

媒体:特朗普底牌暴露 伊朗知道自己无需取胜只需生存

头条要闻

媒体:特朗普底牌暴露 伊朗知道自己无需取胜只需生存

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

艺术
教育
本地
房产
军事航空

艺术要闻

美丽风光看不尽

教育要闻

孩子厌学喊累:最好的办法不是物质奖励、不是去补习班,而是……

本地新闻

跟着歌声游安徽,听古村回响

房产要闻

猛料!又有世界500强级巨头,低调买入海棠湾!

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版