网易首页 > 网易号 > 正文 申请入驻

开源赶上商业的那一天,MiroFlow用一张图说清楚了

0
分享至

这是一篇来自清华大学与MiroMind AI联合发布的技术报告。研究团队提出了一个名为MiroFlow的开源智能体框架,目标直指当前AI Agent领域最棘手的三个问题:不灵活、不稳定、成本高。

时间节点选得很微妙。就在OpenAI、Google相继推出各自的Deep Research产品、Manus横空出世引发广泛讨论的当口,这篇论文在GAIA、BrowseComp、HLE等多个权威基准测试上给出了让人难以忽视的数据——MiroFlow以开源身份,在几乎所有榜单上压过了商业竞品。FutureX榜单上,MiroFlow拿到42.5分,第二名ChatGPT-Agent只有21.9分,差距超过一倍。


这不是一个玩具级别的实验室演示。

大模型的天花板,其实是"单打独斗"的天花板

论文开篇点出了一个被很多人忽视的结构性问题:现在的大模型,几乎都在"自给自足"地工作。它不调用外部工具,不与环境交互,所有能力全靠训练时压进参数里的知识。这种方式在短问答任务上表现不错,但面对真实世界的复杂需求——查最新数据、操作文件、多步推理、跨工具协作——就开始力不从心了。

作者用"performance has begun to plateau"来描述这种瓶颈。这不是模型不聪明,而是架构本身的天花板。就像一个再厉害的独行侠,也比不过一个组织良好的团队——不是智力问题,是协作结构的问题。

解法因此不是"把模型做得更大",而是"把模型变成一个系统"。

三层架构:从"一个脑子"到"一套组织"

MiroFlow的核心设计是一个三层架构,从下往上分别是基础层、智能体层、控制层。


基础层(Foundation Tier)提供所有智能体共用的底层能力:语言模型后端、工具集、输入输出处理器。支持的模型覆盖了GPT系列、Claude、Qwen等主流选手,工具则通过MCP协议接入,包括网络搜索、代码执行、图像理解、视频分析、音频转写等七类。

智能体层(Agent Tier)是整个系统的核心。每个智能体节点都是独立的工作单元,拥有自己的上下文、提示词、工具集和I/O处理器,节点之间通过结构化消息通信。这种设计让智能体层与控制层彻底解耦——你可以像搭积木一样增减、替换任意节点,而不需要动整个系统的骨架。

控制层(Control Tier)负责全局调度:根据用户输入和预定义的智能体图配置,编排整个任务流程,同时维护日志和检查点,确保结果可复现。

论文用一个深度研究的例子说明这套流水线如何运转:主智能体收到用户问题后,先做查询增强(理解意图、补全约束),再制定执行计划,然后把专项子任务(比如网页浏览、代码执行)分派给对应的子智能体,子智能体独立完成后把结果汇总回主智能体,最后输出格式化的答案。整个过程有条不紊,每一步都有明确的责任边界。

智能体图:比"链"和"树"更自由的拓扑

传统的多智能体系统,要么是线性的调用链,要么是主从树状结构。MiroFlow引入了有向图(Agent Graph)来描述智能体之间的协作关系。

用论文自己的说法,这叫"先声明,再定义"——主智能体是入口节点,形成拓扑结构,负责发起任务并调用其他智能体和工具;每个智能体还可以定义自己的子智能体和工具,形成层级式的拓扑嵌套。

这套图结构的好处是灵活性和可扩展性。节点之间的依赖关系可以精确定义:哪些任务必须串行,哪些可以并行。需要扩展功能时,只需加入新节点或调整图结构,不必重新设计整个框架。

论文在附录中给出了三个具体例子,展示了同一套框架如何分别用于短视频生成、复杂旅行规划和求职材料制作——三个场景的图结构完全不同,但底层调用的是同一套基础设施。这种"配置即产品"的思路,让MiroFlow不只是一个研究工具,更像是一个通用的Agent开发平台。

"重推理模式":算力换精度的系统级实现

单靠架构灵活还不够,复杂任务需要更深的推理。MiroFlow引入了一个可选的重推理模式(Heavy-Reasoning Mode),本质上是通过扩展计算资源和推理时间来提高答案的可靠性。


这个模式有两种策略。集成策略:同时启动多个智能体并行处理同一子任务,最后用多数投票或加权投票合并输出——可以是同质集成(多个GPT-5),也可以是异质集成(GPT-5加Claude 3.7),还可以用不同提示词驱动同一模型产生多样化输出。验证策略:让生成器提出答案,验证器给出反馈,形成迭代循环,满足条件或达到轮数上限时停止。

实验数据说明了效果:默认配置(单个GPT-5)在GAIA-Val上得71.9分;四个GPT-5集成后升至74.6;四个GPT-5搭配不同提示词则达到75.0;10轮迭代验证拿到73.0。提升幅度虽然不算惊人,但在这个精度区间里,每一分都需要付出相当的工程代价。

重要的是,重推理模式只对被激活的子图生效,其余部分保持轻量运行。这避免了"全局加速"带来的资源浪费,让计算预算能精准投放到真正需要的地方。

稳定性才是真正的工程难题

论文花了相当篇幅讨论稳定性,这在AI研究论文里并不常见,但恰恰是Agent系统最难啃的骨头。

附录里给出了大量失败案例。智能体忽略了"房屋后方"这个空间约束,把方向搞反了;明明要求使用原始拼写,智能体却把"fresh basil"改成了"basil";代码执行时JSON解析出错,智能体不去修复格式,反而认定是系统故障并直接编造了一个数字答案;搜索到的是28条引用的论文版本,而正确答案需要第29条引用,两次搜索返回的是不同版本的文档,导致结果完全不同。

这些失败都指向同一个本质问题:智能体对错误的解读能力太弱。它们把工具调用失败误判为数据不存在,把格式错误误判为系统限制,然后用幻觉填补空缺。

MiroFlow的应对方案是三套机制的组合。消息规范化:在推理前把用户任务改写成清晰、无歧义的目标,补全缺失的约束(比如单位、范围),输出结果放入结构化字段(最终答案、证据、警告),让下游系统与稳定接口交互而不是原始文本。重试机制:对所有模型和工具调用采用"重试-降级-重放"策略,超时和限速都能平滑处理,重试失败则自动切换到冗余工具。故障隔离:三层架构本身就划定了清晰的故障边界,错误被捕获后转化为语义明确的失败信息传递给上层,而不是让一个模糊的报错消息迷惑整个系统。

消融实验证明了这套机制的价值。去掉消息规范化后,GAIA-Val分数从71.9跌到68.5,标准差从1.21%上升到2.43%;去掉重试机制后,分数降到69.0,标准差升至1.70%。两项改动都让系统变得更差,也更不稳定。

单智能体与多智能体:没有万能答案

"用多个专业智能体协作肯定比一个智能体更好"——这个直觉在实验里被部分推翻了。

在BrowseComp-200和HLE-200上,多智能体确实更好(68.3 vs 63.9,42.0 vs 40.6)。但在GAIA-Val上,单智能体反而胜出(74.8 vs 71.9)。


论文给出的解释有说服力:GAIA的任务高度串行,每一步的结论都依赖前一步的完整上下文。多智能体拆分后,子智能体的上下文相互隔离,一旦某个子智能体出错,错误信息无法被后续的单智能体及时识别并修正,只能被动接收并继续错下去。附录里有一个具体案例:询问1949年某邮轮早餐菜单的水果,子智能体拿到的是低分辨率图片,提取出的菜单有误,主智能体因无法直接访问原图而接受了这个错误结果;而单智能体在同一步骤发现图片分辨率不够后,主动寻找了文字版菜单,最终给出了正确答案。

这个结论的实践意义是:选择单智能体还是多智能体,要看任务的拓扑结构。强串行依赖的任务,单智能体的全局上下文优势更明显;需要并行处理或专业化分工的任务,多智能体才真正发挥优势。没有放之四海而皆准的答案。

论文地址:

https://arxiv.org/pdf/2602.22808v1

END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:MiroFlow凭什么在开源框架里脱颖而出?

两个关键词:稳定性和通用性。很多开源框架在特定任务上能刷出高分,但换个场景就垮掉,或者换个人复现就失败。MiroFlow的所有报告结果都是avg@3(三次运行取均值),且代码完全开源。论文还专门验证了OWL和AgentOrchestra的可复现性,结果这两个框架的实际得分远低于论文声称的数字——OWL相差15.8分,AgentOrchestra相差27.8分。MiroFlow把可复现性当成了硬指标而不是附注。

Q2:重推理模式会大幅增加成本吗?

会,但有上限控制。重推理模式通过预算约束(生成智能体数量、验证轮数、墙钟时间)来限制资源消耗,且只对激活的子图生效。论文给出的数据显示,从单个GPT-5到四个GPT-5并行,GAIA-Val得分从71.9提升到74.6,提升了约3.7分,代价是四倍的推理成本。这个权衡是否值得,取决于具体场景对精度的要求。

Q3:上下文长度对Agent性能的影响有多大?

影响显著,但有边际效应。实验显示,上下文从8k增加到24k–48k时,GAIA-Val各难度级别的准确率都有明显提升;超过这个范围后,收益开始递减,到400k时和64k相比几乎没有差异。难度最高的L3任务对上下文长度最敏感,说明复杂的长链推理任务确实需要更大的记忆空间,但"更大"不是没有尽头的——工程上把上下文窗口控制在32k到64k之间,是性价比最高的选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沈逸“美国不敢打伊朗”遭群嘲:国内某些专家,为何总是制造笑柄

沈逸“美国不敢打伊朗”遭群嘲:国内某些专家,为何总是制造笑柄

影像温度
2026-03-01 15:26:25
惊心动魄!广州一名怀抱婴儿的女子跳江意欲轻生!女子昏迷水中,婴儿也呛水…

惊心动魄!广州一名怀抱婴儿的女子跳江意欲轻生!女子昏迷水中,婴儿也呛水…

广东活动
2026-03-01 12:11:29
今日激战!3月1日晚19:30!中央5套CCTV5、CCTV5+直播节目表

今日激战!3月1日晚19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-03-01 15:58:01
学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

学费太贵!一家长哭诉缴费11000多,网友:上私立高中就不要抱怨

火山詩话
2026-03-01 12:06:34
世预赛-日本男篮力克韩国稳居小组第一 霍金森24+7李贤重28+11

世预赛-日本男篮力克韩国稳居小组第一 霍金森24+7李贤重28+11

醉卧浮生
2026-03-01 14:54:49
1公斤15元! 2020年陕西男子在胶土厂挖十多个洞,被查出1300公斤

1公斤15元! 2020年陕西男子在胶土厂挖十多个洞,被查出1300公斤

万象硬核本尊
2026-02-28 19:01:09
真的天塌!拔乳牙竟把孩子2颗恒牙拔掉,盐城一口腔医生整出事故

真的天塌!拔乳牙竟把孩子2颗恒牙拔掉,盐城一口腔医生整出事故

火山詩话
2026-03-01 18:08:52
以军称首次打击伊朗首都中心地带目标

以军称首次打击伊朗首都中心地带目标

新华社
2026-03-01 16:42:04
女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

云景侃记
2026-02-28 14:23:19
外媒披露细节:美以等来“难得机会”,哈梅内伊住所被投掷约30枚炸弹

外媒披露细节:美以等来“难得机会”,哈梅内伊住所被投掷约30枚炸弹

环球网资讯
2026-03-01 13:30:44
新加坡大满贯赛:太遗憾!国乒男单3:4惜败,无缘冲击男单冠军

新加坡大满贯赛:太遗憾!国乒男单3:4惜败,无缘冲击男单冠军

国乒二三事
2026-03-01 11:56:32
哈梅内伊死后,有伊朗人分析:现在还没到庆祝的时候

哈梅内伊死后,有伊朗人分析:现在还没到庆祝的时候

小萝卜丝
2026-03-01 09:56:11
伊朗最高领袖哈梅内伊将很快发表讲话

伊朗最高领袖哈梅内伊将很快发表讲话

新华社
2026-02-28 23:06:25
最新名单:截止目前已遭斩首的伊朗领导人

最新名单:截止目前已遭斩首的伊朗领导人

西楼饮月
2026-03-01 15:34:58
哈梅内伊的最后一课:给所有掌权者的八条警示

哈梅内伊的最后一课:给所有掌权者的八条警示

迷世书童H9527
2026-03-01 16:03:12
外媒称哈梅内伊在其工作场所遇害,为何没躲避?为何能精准定位?

外媒称哈梅内伊在其工作场所遇害,为何没躲避?为何能精准定位?

之乎者也小鱼儿
2026-03-01 11:44:00
哈梅内伊之死和伊朗性史

哈梅内伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
美国2个月内悍然对两国领导人发动袭击,继委内瑞拉、伊朗之后,下一个会是谁?专家:有可能是古巴

美国2个月内悍然对两国领导人发动袭击,继委内瑞拉、伊朗之后,下一个会是谁?专家:有可能是古巴

极目新闻
2026-03-01 15:07:54
河北“二婚黄花大闺女”的瓜

河北“二婚黄花大闺女”的瓜

皮蛋儿电影
2026-02-28 13:45:08
迪拜多地发生爆炸起火,当地停工停课,要求市民居家,当地华人:凌晨被手机警报吵醒,每小时都会听到爆炸声,担心后续生活物价上涨

迪拜多地发生爆炸起火,当地停工停课,要求市民居家,当地华人:凌晨被手机警报吵醒,每小时都会听到爆炸声,担心后续生活物价上涨

极目新闻
2026-03-01 15:29:37
2026-03-01 18:43:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1970文章数 162关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

普京就哈梅内伊遇害表示哀悼:一次无耻杀害

头条要闻

普京就哈梅内伊遇害表示哀悼:一次无耻杀害

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

时尚
本地
数码
房产
健康

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

本地新闻

津南好·四时总相宜

数码要闻

小米首款追踪器!小米Tag海外正式发布 兼容iOS 120元起

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版