网易首页 > 网易号 > 正文 申请入驻

可验证的Agentic Workflow?MermaidFlow开启安全、稳健的新范式

0
分享至

随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作,多智能体系统(Multi-Agent Systems, MAS)成为学术和产业界聚焦的新前沿。在这一背景下,「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的探索热点。

为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了Meta-GPT、ADAS、AFlow等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。

尽管这些系统能够灵活的表达工作流,但在自动化搜索工作流的过程中,存在合理性难以保证、可验证性不足、 难以直观表达等突出挑战,严重制约了多智能体系统的可靠落地与规模化部署。

近日,来自新加坡 A*STAR 的 Centre for Frontier AI Research (CFAR) 研究所与南洋理工大学的研究团队联合发布了创新性工作流框架「MermaidFlow」,推动智能体系统迈向结构化进化与安全可验证的新范式。

  • 论文链接:https://arxiv.org/pdf/2505.22967
  • GitHub 开源代码:https://github.com/chengqiArchy/MermaidFlow

Mermaid 破局:

让结构式工作流表达取代脚本混战

传统瓶颈:命令式脚本使工作流频频 「翻车」

在现有多智能体系统中,大模型生成的工作流往往以 Python 脚本或 JSON 树等命令式(imperative)代码直接输出,ADAS, AFlow 等主流系统也普遍采用了这种表达范式。这种低层次、混杂的生成方式,将流程规划与具体实现深度耦合,结构信息隐含在复杂代码中,直接导致了以下三大核心瓶颈:

  • 结构不透明:工作流整体架构深藏在杂乱代码里,流程关系难以一目了然,协作全局难以把控。
  • 合理性难验证:流程逻辑与实现细节高度耦合,缺乏静态检查和自动验证机制,容易隐藏致命漏洞。
  • 调试与优化困难:错误往往只有在实际运行时才暴露,流程复现、问题定位和后续优化极为低效。

MermaidFlow: 引领结构化与可验证工作流表达

MermaidFlow 以结构化图语言 Mermaid 为基础,提出了一种全新的工作流表达机制。不同于直接输出可执行脚本的方式,MermaidFlow 强调将智能体行为规划过程显式建模为结构化流程图谱,并引入形式化语义,确保流程清晰、可查、可验证。

相比传统的 Python/JSON 脚本,基于 Mermaid 的工作流表达具有以下核心特点:

  • 图式结构清晰可见:每一个智能体定义、依赖关系、数据流都被结构化地表达成图中的节点与连边,使整个工作流一目了然、可交互、可审查.
  • 流程验证内嵌其中:MermaidFlow 引入了多类语义约束(如依赖闭环、角色一致性、输入输出类型匹配等),支持静态结构验证与生成时一致性检查,避免生成不符合规则的图。
  • 天然支持演化与调试:结构化工作流图更易于进行片段级替换、增量修复与版本比较,支持可控的演化式优化(见后节)。

图1 MermaidFlow:从结构化图到可验证执行的一站式工作流表达闭环 。左侧部分展示了基于 Mermaid 的声明式工作流表达,结构清晰、依赖显式,具备良好的人类可读性。人们可以清晰得知道, 在该工作流中存在什么节点, 他们之间的连接情况是怎么样的。

借助 MermaidFlow 所提出的结构化图式表达,多智能体协作的工作流规划过程不再是脆弱难控的黑盒编排,而是具备清晰结构、可视节点与可验证语义的 「白盒流程」。这种方式极大地提升了Agentic Workflow 的可解释性、可验证性与后续演化的可操作性,为大规模部署打下坚实基础。

作者研究发现大语言模型对Mermaid 语言具备天然的生成优势。这也让MermaidFlow 与 LLM 的结合变得格外丝滑又强大✨

MermaidFlow 中的安全演化策略:

工作流的自我升级之道

MermaidFlow 基于Mermaid 语言对智能体工作流进行显式建模,使每个任务节点、数据依赖与执行顺序都成为可视、可解析、可操作的语义单元。相比传统的命令式脚本,结构化表达更具模块化特性,支持按节点插入、删除与替换,天然适配图级别的优化操作。每一次结构调整都具备清晰的语义边界,显著降低了修改的不确定性与调试复杂度

得益于 MermaidFlow 引入的静态验证机制(如节点类型匹配、输入输出闭环、角色一致性等约束),每一代演化生成的工作流候选都能在生成阶段就进行结构合规性检查,过滤掉语义不完整或存在潜在风险的 「劣质图」。这种 「先验校验 + 后验优化」 的策略,显著提高了搜索空间的质量和鲁棒性,避免了大量无效或不合法的探索路径

图 2 MermaidFlow 的安全演化式优化流程概览。 本系统以结构化的 Mermaid 图表达作为工作流起点,通过安全约束的进化算法(Safety-Aware Evolutionary Programming)在类型保持(typed)、结构可感知(structure-aware)、静态可验证(static verifiable)等维度上持续优化工作流结构。

实验性能

MermaidFlow 不再依赖具备强编程能力的大语言模型,也能生成高质量的工作流。在 GSM8K、MATH、HumanEval、MBPP 等多个主流任务数据集上,MermaidFlow 均展现出优秀的性能,体现出较强的实用价值。更关键的是,得益于结构化表达与静态可验证机制,MermaidFlow 在进化流程中生成可执行且结构合理工作流的成功率超过 90%,相比于传统基于脚本拼接的方法,极大提升了智能体系统的可控性和鲁棒性,为智能体系统的稳健部署提供了坚实的支撑。

图 3 MermaidFlow 在主流任务上的评测结果。

下图展示了 MermaidFlow 在结构化表示下的进化过程示例。得益于每个节点及其连接关系均具备明确的语义边界,系统能够便捷且安全地进行局部片段的替换、重组与演化操作(如 crossover、节点替换、连边调整等)。图中演示了系统如何通过对 Workflow 5 和 Workflow 4 进行 crossover 操作,生成结构更健壮的 Workflow 8,引入了更优的 ensemble 与 test 模块。这一结构可控的演化机制,有效提升了工作流生成过程的安全性、可控性与可维护性。

图 4 MermaidFlow 灵活的工作流进化合成过程。

结语

随着多智能体系统和大模型 AI 持续演进,如何实现结构化、可验证与高效进化的工作流,已成为智能体研究的重要命题。MermaidFlow 提出的结构化可验证工作流表达方式,为智能体系统实现高效、可控的协作流程提供了基础支撑。未来的 AI 协作,也许正需要这样一套「看得见、查得清、能进化」的流程底座。随着应用领域的不断拓展与工程落地,这一框架有望为智能体生态的持续进步提供有益参考。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8死2伤!江苏突发烟花爆燃事故:死伤者身份披露,事发详细过程

8死2伤!江苏突发烟花爆燃事故:死伤者身份披露,事发详细过程

博士观察
2026-02-15 22:54:51
大年初一千万别穿这三件衣,穿错瘦穷一年,全家跟着倒霉!

大年初一千万别穿这三件衣,穿错瘦穷一年,全家跟着倒霉!

凉湫瑾言
2026-02-15 11:55:10
演员白百何让孩子随地小便,冲上热搜!网友:我带小孩出门会随身配备塑料袋

演员白百何让孩子随地小便,冲上热搜!网友:我带小孩出门会随身配备塑料袋

台州交通广播
2026-02-15 18:00:57
seedance2.0太恐怖了,随手生成电影级别短片,业内人士惊呼:我们完蛋了

seedance2.0太恐怖了,随手生成电影级别短片,业内人士惊呼:我们完蛋了

风向观察
2026-02-15 22:35:48
“歌词一个字也不要改”,这首歌一下子打动了王菲;原唱回应王菲春晚歌曲创作初衷

“歌词一个字也不要改”,这首歌一下子打动了王菲;原唱回应王菲春晚歌曲创作初衷

扬子晚报
2026-02-15 23:09:01
20岁大学生寒假为妈妈店铺当中老年服装模特,撞脸明星20天涨粉31万,当事人:受到关注很意外,学的就是模特专业,不会签约MCN,开学后将返校读书

20岁大学生寒假为妈妈店铺当中老年服装模特,撞脸明星20天涨粉31万,当事人:受到关注很意外,学的就是模特专业,不会签约MCN,开学后将返校读书

极目新闻
2026-02-15 22:30:02
颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

医诺维
2026-02-14 16:34:57
爆大冷!马竞耻辱惨败,西蒙尼不敢相信,5.8亿欧豪阵也没用

爆大冷!马竞耻辱惨败,西蒙尼不敢相信,5.8亿欧豪阵也没用

足球狗说
2026-02-16 01:10:43
编造谎言的“牢A”:到底是在揭露美国,还是在愚弄国人?

编造谎言的“牢A”:到底是在揭露美国,还是在愚弄国人?

涛哥锐评
2026-02-15 21:34:08
外交部:中方决定自2月17日起,对加拿大英国持普通护照人员免签

外交部:中方决定自2月17日起,对加拿大英国持普通护照人员免签

每日经济新闻
2026-02-15 21:41:12
认输了?俄罗斯做出危险决定:重返美元结算体系!

认输了?俄罗斯做出危险决定:重返美元结算体系!

华语智库
2026-02-15 08:04:46
湖北高速突封20余个收费站?官方:原因是突发团雾,现已全部恢复通行

湖北高速突封20余个收费站?官方:原因是突发团雾,现已全部恢复通行

上游新闻
2026-02-15 14:08:19
刚刚! 中国当局已抵澳, 与澳洲联手, 全力追捕这个让全球震怒的中国留学生!

刚刚! 中国当局已抵澳, 与澳洲联手, 全力追捕这个让全球震怒的中国留学生!

澳洲红领巾
2026-02-15 11:58:23
刚刚,辽宁春晚登上全国第一!

刚刚,辽宁春晚登上全国第一!

沈阳公交网小林
2026-02-16 00:10:36
女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

新民晚报
2026-02-15 12:54:21
高岗49岁逝世,他的五虎上将是哪5个人,各自结局如何?

高岗49岁逝世,他的五虎上将是哪5个人,各自结局如何?

搜史君
2026-02-15 12:00:13
发春节红包的大厂都被约谈了

发春节红包的大厂都被约谈了

经济观察报
2026-02-15 08:10:04
后怕!幸好当年没听许小年的建议,否则中国可能倒退整整20年

后怕!幸好当年没听许小年的建议,否则中国可能倒退整整20年

财经保探长
2026-02-15 21:45:55
奥巴马:“外星人确实存在,但……”

奥巴马:“外星人确实存在,但……”

环球时报国际
2026-02-15 22:35:39
中国反制巴拿马之际又一地“起火”,美想把中国赶走,绝无可能!

中国反制巴拿马之际又一地“起火”,美想把中国赶走,绝无可能!

梁讯
2026-02-14 11:20:43
2026-02-16 07:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

教育
时尚
艺术
数码
房产

教育要闻

小孩,请你毫无顾虑地向前跑吧

多巴胺失宠了?过年这样穿彩色时髦又减龄

艺术要闻

入选作品选刊 | 2026年“新生活·新风尚·新年画”美术作品展

数码要闻

盲测显示:音频发烧友无法分辨铜线、香蕉与湿泥传输的音频信号

房产要闻

三亚新机场,又传出新消息!

无障碍浏览 进入关怀版