开源赶上商业的那一天，MiroFlow用一张图说清楚了|调用|拓扑|智能体|上下文|新论文|agent

开源赶上商业的那一天，MiroFlow用一张图说清楚了

2026-03-01 00:07:36　来源: 至顶AI实验室

北京举报

分享至

这是一篇来自清华大学与MiroMind AI联合发布的技术报告。研究团队提出了一个名为MiroFlow的开源智能体框架，目标直指当前AI Agent领域最棘手的三个问题：不灵活、不稳定、成本高。

时间节点选得很微妙。就在OpenAI、Google相继推出各自的Deep Research产品、Manus横空出世引发广泛讨论的当口，这篇论文在GAIA、BrowseComp、HLE等多个权威基准测试上给出了让人难以忽视的数据——MiroFlow以开源身份，在几乎所有榜单上压过了商业竞品。FutureX榜单上，MiroFlow拿到42.5分，第二名ChatGPT-Agent只有21.9分，差距超过一倍。

这不是一个玩具级别的实验室演示。

大模型的天花板，其实是"单打独斗"的天花板

论文开篇点出了一个被很多人忽视的结构性问题：现在的大模型，几乎都在"自给自足"地工作。它不调用外部工具，不与环境交互，所有能力全靠训练时压进参数里的知识。这种方式在短问答任务上表现不错，但面对真实世界的复杂需求——查最新数据、操作文件、多步推理、跨工具协作——就开始力不从心了。

作者用"performance has begun to plateau"来描述这种瓶颈。这不是模型不聪明，而是架构本身的天花板。就像一个再厉害的独行侠，也比不过一个组织良好的团队——不是智力问题，是协作结构的问题。

解法因此不是"把模型做得更大"，而是"把模型变成一个系统"。

三层架构：从"一个脑子"到"一套组织"

MiroFlow的核心设计是一个三层架构，从下往上分别是基础层、智能体层、控制层。

基础层（Foundation Tier）提供所有智能体共用的底层能力：语言模型后端、工具集、输入输出处理器。支持的模型覆盖了GPT系列、Claude、Qwen等主流选手，工具则通过MCP协议接入，包括网络搜索、代码执行、图像理解、视频分析、音频转写等七类。

智能体层（Agent Tier）是整个系统的核心。每个智能体节点都是独立的工作单元，拥有自己的上下文、提示词、工具集和I/O处理器，节点之间通过结构化消息通信。这种设计让智能体层与控制层彻底解耦——你可以像搭积木一样增减、替换任意节点，而不需要动整个系统的骨架。

控制层（Control Tier）负责全局调度：根据用户输入和预定义的智能体图配置，编排整个任务流程，同时维护日志和检查点，确保结果可复现。

论文用一个深度研究的例子说明这套流水线如何运转：主智能体收到用户问题后，先做查询增强（理解意图、补全约束），再制定执行计划，然后把专项子任务（比如网页浏览、代码执行）分派给对应的子智能体，子智能体独立完成后把结果汇总回主智能体，最后输出格式化的答案。整个过程有条不紊，每一步都有明确的责任边界。

智能体图：比"链"和"树"更自由的拓扑

传统的多智能体系统，要么是线性的调用链，要么是主从树状结构。MiroFlow引入了有向图（Agent Graph）来描述智能体之间的协作关系。

用论文自己的说法，这叫"先声明，再定义"——主智能体是入口节点，形成拓扑结构，负责发起任务并调用其他智能体和工具；每个智能体还可以定义自己的子智能体和工具，形成层级式的拓扑嵌套。

这套图结构的好处是灵活性和可扩展性。节点之间的依赖关系可以精确定义：哪些任务必须串行，哪些可以并行。需要扩展功能时，只需加入新节点或调整图结构，不必重新设计整个框架。

论文在附录中给出了三个具体例子，展示了同一套框架如何分别用于短视频生成、复杂旅行规划和求职材料制作——三个场景的图结构完全不同，但底层调用的是同一套基础设施。这种"配置即产品"的思路，让MiroFlow不只是一个研究工具，更像是一个通用的Agent开发平台。

"重推理模式"：算力换精度的系统级实现

单靠架构灵活还不够，复杂任务需要更深的推理。MiroFlow引入了一个可选的重推理模式（Heavy-Reasoning Mode），本质上是通过扩展计算资源和推理时间来提高答案的可靠性。

这个模式有两种策略。集成策略：同时启动多个智能体并行处理同一子任务，最后用多数投票或加权投票合并输出——可以是同质集成（多个GPT-5），也可以是异质集成（GPT-5加Claude 3.7），还可以用不同提示词驱动同一模型产生多样化输出。验证策略：让生成器提出答案，验证器给出反馈，形成迭代循环，满足条件或达到轮数上限时停止。

实验数据说明了效果：默认配置（单个GPT-5）在GAIA-Val上得71.9分；四个GPT-5集成后升至74.6；四个GPT-5搭配不同提示词则达到75.0；10轮迭代验证拿到73.0。提升幅度虽然不算惊人，但在这个精度区间里，每一分都需要付出相当的工程代价。

重要的是，重推理模式只对被激活的子图生效，其余部分保持轻量运行。这避免了"全局加速"带来的资源浪费，让计算预算能精准投放到真正需要的地方。

稳定性才是真正的工程难题

论文花了相当篇幅讨论稳定性，这在AI研究论文里并不常见，但恰恰是Agent系统最难啃的骨头。

附录里给出了大量失败案例。智能体忽略了"房屋后方"这个空间约束，把方向搞反了；明明要求使用原始拼写，智能体却把"fresh basil"改成了"basil"；代码执行时JSON解析出错，智能体不去修复格式，反而认定是系统故障并直接编造了一个数字答案；搜索到的是28条引用的论文版本，而正确答案需要第29条引用，两次搜索返回的是不同版本的文档，导致结果完全不同。

这些失败都指向同一个本质问题：智能体对错误的解读能力太弱。它们把工具调用失败误判为数据不存在，把格式错误误判为系统限制，然后用幻觉填补空缺。

MiroFlow的应对方案是三套机制的组合。消息规范化：在推理前把用户任务改写成清晰、无歧义的目标，补全缺失的约束（比如单位、范围），输出结果放入结构化字段（最终答案、证据、警告），让下游系统与稳定接口交互而不是原始文本。重试机制：对所有模型和工具调用采用"重试-降级-重放"策略，超时和限速都能平滑处理，重试失败则自动切换到冗余工具。故障隔离：三层架构本身就划定了清晰的故障边界，错误被捕获后转化为语义明确的失败信息传递给上层，而不是让一个模糊的报错消息迷惑整个系统。

消融实验证明了这套机制的价值。去掉消息规范化后，GAIA-Val分数从71.9跌到68.5，标准差从1.21%上升到2.43%；去掉重试机制后，分数降到69.0，标准差升至1.70%。两项改动都让系统变得更差，也更不稳定。

单智能体与多智能体：没有万能答案

"用多个专业智能体协作肯定比一个智能体更好"——这个直觉在实验里被部分推翻了。

在BrowseComp-200和HLE-200上，多智能体确实更好（68.3 vs 63.9，42.0 vs 40.6）。但在GAIA-Val上，单智能体反而胜出（74.8 vs 71.9）。

论文给出的解释有说服力：GAIA的任务高度串行，每一步的结论都依赖前一步的完整上下文。多智能体拆分后，子智能体的上下文相互隔离，一旦某个子智能体出错，错误信息无法被后续的单智能体及时识别并修正，只能被动接收并继续错下去。附录里有一个具体案例：询问1949年某邮轮早餐菜单的水果，子智能体拿到的是低分辨率图片，提取出的菜单有误，主智能体因无法直接访问原图而接受了这个错误结果；而单智能体在同一步骤发现图片分辨率不够后，主动寻找了文字版菜单，最终给出了正确答案。

这个结论的实践意义是：选择单智能体还是多智能体，要看任务的拓扑结构。强串行依赖的任务，单智能体的全局上下文优势更明显；需要并行处理或专业化分工的任务，多智能体才真正发挥优势。没有放之四海而皆准的答案。

论文地址：

https://arxiv.org/pdf/2602.22808v1

END本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：MiroFlow凭什么在开源框架里脱颖而出？

两个关键词：稳定性和通用性。很多开源框架在特定任务上能刷出高分，但换个场景就垮掉，或者换个人复现就失败。MiroFlow的所有报告结果都是avg@3（三次运行取均值），且代码完全开源。论文还专门验证了OWL和AgentOrchestra的可复现性，结果这两个框架的实际得分远低于论文声称的数字——OWL相差15.8分，AgentOrchestra相差27.8分。MiroFlow把可复现性当成了硬指标而不是附注。

Q2：重推理模式会大幅增加成本吗？

会，但有上限控制。重推理模式通过预算约束（生成智能体数量、验证轮数、墙钟时间）来限制资源消耗，且只对激活的子图生效。论文给出的数据显示，从单个GPT-5到四个GPT-5并行，GAIA-Val得分从71.9提升到74.6，提升了约3.7分，代价是四倍的推理成本。这个权衡是否值得，取决于具体场景对精度的要求。

Q3：上下文长度对Agent性能的影响有多大？

影响显著，但有边际效应。实验显示，上下文从8k增加到24k–48k时，GAIA-Val各难度级别的准确率都有明显提升；超过这个范围后，收益开始递减，到400k时和64k相比几乎没有差异。难度最高的L3任务对上下文长度最敏感，说明复杂的长链推理任务确实需要更大的记忆空间，但"更大"不是没有尽头的——工程上把上下文窗口控制在32k到64k之间，是性价比最高的选择。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.