【技术随谈】第14篇
随着大模型技术的发展,AI 智能体(Agent)的架构正从早期的固定工作流模式演进到更加自主灵活的“Agentic”模式。本文将通过通俗的语言和比喻,探讨这两种架构的差异和演进,并展望未来智能体的发展方向,帮助读者理解其中的架构理念与落地价值。
1. 基于工作流的智能体架构简介
工作流式的智能体架构指的是通过预定义的步骤和流程来 orchestrate(编排)LLM 调用和工具使用的系统[1]。简单来说,在这种架构中,开发者事先设计好处理任务的固定流程:每一步做什么,由代码或规则明确规定。例如,一个简单的问答系统的工作流可能是: 1. 检索:根据用户问题从知识库检索相关信息; 2. 回答:将检索结果交给 LLM,让模型生成答案; 3. 反馈校验(可选):检查模型答案是否充分,如果不充分则修改问题或提供更多信息再让模型回答。
这种模式下,LLM 和工具的调用顺序是确定的,就像在流水线上完成工作一样——每个步骤都按既定顺序执行,缺一不可。对于明确且易于分解的任务,这种预定义流程很有效。例如 Anthropic 总结道,当任务可以干净地拆解成固定子任务时,工作流方式往往能够以可预测的方式提高准确性[2]。典型用例包括:营销文案生成再翻译、先生成提纲再写文章等场景[3]。此时我们用多步调用来换取更高质量的结果,每步都相对简单且可控。
代表项目方面,LangChain 框架中的 “Chain”(链)就是工作流式架构的代表[4]。一个 Chain 就是按固定顺序链接的一系列操作。例如,我们可以用 LangChain 定义一个 LLMChain 实现“总结文本->翻译总结”的两步链条,每次调用依次执行[5]。这种链式调用非常适合线性流程和快速原型:开发者明确地串联步骤,调试也比较容易。在产品实现上,它类似于把AI能力封装进流程图:先做A再做B,每一步输出喂给下一步。一旦流程设计完毕,智能体每次都会严格按照这个剧本行动,可控性很强。
图一:工作流 vs Agent 架构的对比示意:左侧是基于固定流程的工作流,开发者预先定义了各步骤的顺序和分支;右侧是自主 Agent,LLM 智能体根据需要动态决定调用工具的顺序,自主规划流程[1]
工作流式架构的设计思路强调在代码中显式定义控制流程[1]。开发者扮演了“导演”的角色,把任务拆解成多个子任务,然后让模型按这个剧本执行。这样做的优点是可预测、易调试:每个环节都在掌控之中,很适合规则明确的场景[6]。不过,它的局限也很明显——如果任务在运行过程中出现了未考虑到的情况,工作流缺乏灵活性去应对。就像一条铺好的铁路,列车只能沿轨道前进,无法偏离既定路线。因此,当遇到更复杂、多变的问题时,我们需要考虑更灵活的智能体架构。
2. 自主型 Agent(Agentic Agent)的概念与特性
与工作流式架构相对的是自主型 Agent架构,它赋予智能体更高的自主性和适应性。Anthropic 将“Agent”定义为:由 LLM 来动态决定自身流程和工具使用方式的系统[1]。换句话说,智能体不再严格依赖开发者预先写好的固定流程,而是可以在运行时自行决策下一步做什么。这种 Agentic 架构的智能体通常具备以下核心特性:
目标感:Agentic Agent 通常被赋予一个高层目标或任务,它会围绕这个目标展开行动。不同于一次性回答问题就结束的模式,自主 Agent 会尝试“想办法把事办成”。比如,用户让 Agent 安排一次旅行计划,一个自主 Agent 会把“制定完整旅行方案”视为目标,并可能细分为订机票、订酒店、规划行程等子目标逐步完成。
自主性:Agent 拥有在不每一步都依赖人工指令的情况下自主行动的能力。一旦设定目标,它可以自主选择调用哪些工具、以何种顺序行动,以及遇到新情况时如何调整策略[6]。这有点像一个经验丰富的私人助理,只需要告诉TA最终想要什么,助理就会自己决定中间如何安排、协调资源去达成目标。正如有文章打趣的那样,基础的 LLM 就像“健忘的顾问”,给完建议就把上下文忘光[7];而一个 Agentic 的智能体更像贴身的智慧助理,既记得你的偏好又能主动为你分忧[8]。
计划能力:强大的自主 Agent 往往内置了规划与推理模块,能够将复杂任务拆解成一系列可执行的步骤,并在执行过程中根据需要动态调整计划[9]。例如在 ReAct 等经典 Agent 框架中,LLM 会先基于当前目标思考(Reasoning)下一步要做什么,然后决定执行一个动作(Action)[9]。这个循环反复进行,从而实现多步推理与行动。可以把这种机制类比为人类解题时的心路历程:先想“我下一步该查资料还是直接回答?”,然后付诸行动。如果一步不够,还会接着规划下一步,直到完成任务。
上下文记忆:自主Agent通常具备比简单 Chain 更强的记忆力。它不仅可以利用 LLM 对话上下文作为短期记忆,还常结合外部存储作为长期记忆来保留关键信息。比如一个对话式 Agent 会把用户早先提供的资料保存到向量数据库中,需要时再检索出来参考。这种记忆能力使 Agent 可以“记住”之前做过的决策和收集到的信息,避免重复劳动或犯相同错误[7]。拿比喻来说,这就好比给我们的智能体配备了笔记本大脑:短期笔记本记下当前对话要点,长期知识库保存重要经验,以后遇到相关问题能快速翻阅。得益于记忆,一个 Agent 可以在较长时间的任务中保持状态,不像传统 LLM 每次回答都从零开始。
综上,Agentic Agent 的特别之处在于灵活的决策和行动循环。它会在“思考-行动-观察-再思考”的环路中不断推进[9]。例如,一个自主 Agent 面对复杂问题时可能反复执行:“分析当前状况→调用工具获取信息→依据新信息调整思路→继续下一步”,直到达到目标。下图展示了一个简化的 Agent 流程架构示意:
图二:一个自主智能体(Agent)的简化架构示意:智能体首先通过 LLM 决策是否需要调用工具等外部操作;若需要则执行相应动作并获取结果,然后将结果反馈给 LLM 进入下一轮决策。这个“思考-行动-反馈”的循环反复进行,直到智能体判断任务完成,流程结束。[9]
上图中可以看到,Agent 拥有循环反馈机制而非线性单通路:LLM 负责总体决策,遇到需要外部信息或操作时,调用工具获取反馈,再由 LLM 综合新信息决定下一步。这种架构让 Agent 像自主驾驶一样,能够在复杂环境中灵活调整路线。不再完全依赖预设脚本,而是更多地依靠模型本身的推理能力和上下文,因而被称为“Agentic”(即具有主体能动性的)。
3. 工作流式 vs. 自主 Agent:可控性、扩展性与表现力对比
理解了两种架构,我们可以从可控性、扩展性和表现力三方面对比它们,各有优劣:
总的来说,工作流方式胜在确定性和稳定性,适合简单明确的任务;自主 Agent 胜在灵活度和泛化能力,能够在复杂开放的环境中完成目标[6]。Anthropic 的工程实践也表明,如果能用简单方案解决,就尽量别上复杂Agent 系统;只有当需要大规模的灵活决策时,Agent 才展现出价值[10]。这实际上体现了一种权衡:用成本换能力。自主 Agent 往往需要更多的计算步骤(多轮LLM调用、工具交互),带来延迟和开销,但换来了更强的任务完成能力和通用性。产品经理在选型时,应权衡这一差异:是要“一板一眼”的流水线,还是“举一反三”的智能助手。
4. LangChain 框架的演进:从工作流到 Agentic 的支持
为满足日益增长的复杂智能体需求,业界在架构上也不断演进。LangChain 作为流行的大模型应用开发框架,提供了从 Chain 到 Agent 的一系列支持,并在近期引入了新组件 LangGraph 来进一步增强 Agentic 能力。
LangChain Chains(链式工作流):这是 LangChain 的基础模块,用于构建线性的或树状分支的任务流程。开发者可以方便地将 prompt 模板、LLM 调用、工具使用等串联起来,形成一个固定逻辑的链条[5][4]。例如经典的 RetrievalQA Chain 先检索再问答,或者先问用户再根据回答选择不同 Chain执行等等。LangChain 为这些常规工作流提供了标准接口和大量现成组件,使开发者无需从零开始写繁杂的 glue code,就能快速构建原型[11][12]。可以说,在 LangChain 的生态中,Chains 扮演了“基础地基”的角色——解决直线型、弱状态任务非常高效,同时也为更复杂的用例提供了拼装的组件。
LangChain Agents(代理执行器):早期的 LangChain 也提供了一些 Agent 实现,例如利用 ReAct 思想的工具调用 Agent。开发者只需配置好可用工具,LangChain 内置的 AgentExecutor 会用一个预设的提示模板引导 LLM 自行决定何时用哪个工具、何时给出最终答案。这让用户初步体验到了LLM 主导流程的威力。然而,这类内置 Agent 往往是黑盒的:它的决策逻辑藏在一段长提示里(prompt),调优和定制不太直观。此外,默认 Agent 适用于通用场景,在企业复杂业务中可能显得力不从心[13]。开发者很难插手 Agent 内部的多步流程,也难以在其中加入企业特有的检查点或约束条件。
LangGraph 引入:Agentic 智能体的图式框架:为了给开发者更大的掌控力和可扩展性,LangChain 团队推出了 LangGraph[14][15]。它并非替代 LangChain,而是基于 LangChain 之上的一个有状态任务编排框架[16]。用简单的话说,LangGraph 允许开发者用“图”来描绘智能体的决策流程,把之前隐藏在 LLM 内部的决策链路显式地表示为节点和边[17]。每个节点可以是一次 LLM 调用、一个工具执行,甚至是另一个 Agent 或子图;而边则表示节点之间的控制流转移关系,可以是顺序的或条件分支的[18][19]。同时 LangGraph 内置了状态管理,整个图共享一个可更新的中央状态对象,用于在节点间传递信息和记录上下文[17]。
举个例子,过去我们用 AgentExecutor 实现一个网络问答 Agent,LLM 会决定是否需要检索。如果需要,就调用搜索工具,然后拿结果回答。如果不用就直接回答。这在 LangChain 里大致看不到中间逻辑,只看到最终结果。而在 LangGraph 中,我们可以搭建这样的图:Node1 是 LLM 判断要不要搜索;Node2 是搜索工具;然后根据 Node1 输出的决策,有一条条件边连接到 Node2(需要搜索时)或跳过 Node2 直接到 Node3(直接回答)[19]。这样整个过程的分支逻辑由我们掌控,而且还能监控每个节点的输入输出,甚至在运行中干预。LangChain 官方将 LangGraph 的出现形容为“把原先基于 AgentExecutor 的黑盒过程,用状态图的方式重构,使之透明化”[17][20]。开发者终于可以对 Agent 内部的细节流程进行定制和调优,例如插入自定义检查、强行设置某步必须执行等,从而满足复杂企业场景下的需求。
值得注意的是,LangGraph 加强了对长期运行和复杂控制流的支持。它天生支持循环、并行、嵌套子图、多Agent协作等高级用法[15][21]。同时由于有中央状态,可以方便地接入记忆模块,实现智能体的长对话或长任务状态持久化[22]。一个智能体可以在 LangGraph 中运行较长时间,不断更新自己的 state(例如累计的知识、已完成的子任务等),从而实现类似长对话不遗忘、多轮推理的能力。这种持续状态在传统Chain里很难实现,因为链式流程通常在一次调用结束后状态就释放了。通过 LangGraph,LangChain 实际上提供了从工作流走向 Agentic 系统的桥梁:开发者可先用 LangChain 提供的组件拼出雏形,然后用 LangGraph 精雕细琢复杂逻辑[23]。二者并非冲突,而是优势互补:LangChain 侧重简洁和快速集成模型、工具等基础要素,而 LangGraph 赋能复杂任务以精细的控制和可靠性[24][25]。
综上,LangChain 加 LangGraph 的组合,让我们既能快速起步构建原型,又能针对复杂场景演进架构。正如一篇技术博客所言,这其实并非“二选一”,而是一个组合拳:LangChain 提供大模型应用开发的基础设施,LangGraph则提供了打造复杂 Agentic 工作流的“发动机”[26][14]。借助它们,开发者可以逐步将应用从简单链式流程升级为多 Agent 协同、长时对话持续、决策可控可监控的高级智能体。
5. 面向未来:Agentic Agent 的发展方向
展望未来,Agentic Agent 还有许多令人兴奋的演进方向。一些当前的研究和实践已经初步展示了这些可能性:
多智能体协作:如果说单个 Agent 像一个智能助手,那么多 Agent 系统就如同一个AI团队。未来的应用可能由多个专长各异的 Agent 组成,各司其职协作完成复杂任务[27][28]。例如,一个AI产品研发团队可以有“规划者Agent”、“代码编写Agent”、“测试Agent”等分工;又或者在一个对话系统中,不同Agent扮演不同角色,彼此对话完成剧情模拟[29][30]。多Agent协作带来的好处是模块化和专业化[31]:每个 Agent 负责自己擅长的领域,组合起来解决单 Agent 难以覆盖的大问题。这有点类似微服务架构,将复杂任务拆分给多个服务处理。LangGraph 等框架已经开始支持多 Agent 网络的构建,例如提供 Supervisor-Worker(监督者 Agent 协调工人Agent)或去中心网络等模式[32]。未来我们可能看到 Agent 组成的团队在营销、客服、内容创作等领域大放异彩。
自我反思与自我改进:让 Agent 具备自我反省能力是提升可靠性的一大方向。所谓自我反思,即智能体在执行任务后,能够评估自己的成果是否达成目标,有何不足,并将此作为反馈融入下一步行动中[33]。近期有研究提出了 Reflexion 机制,将LLM的输出和结果再输入给 LLM 自身,让它以“评论者”的身份找出错误并改进策略[34][35]。这种循环有点类似人类写完答案自己检查:发现错了再改。实践证明,在代码生成等场景下,引入反思循环可以显著提升正确率[33]。未来 Agent 或许能够在更广泛任务上用自我反馈不断学习。例如,一个对话 Agent 回答完用户问题后,可反思“我的回答是否充分?有没有遗漏?”然后再给出补充;又比如智能体规划路线后反思“有没有更优路线”。自我反思使 Agent 从“一次性执行者”进化为“持续学习者”,可以从错误中学习,变得越来越聪明[36]。
长期记忆与知识积累:目前多数 Agent 的记忆还局限于向量数据库等形式的“片段式记忆”,而真正类似人类的长期记忆尚未完全实现。未来的发展方向之一,是让 Agent 能够像人一样逐渐积累知识和经验,形成自己的“知识库”并在需要时检索利用[37]。这可能涉及结合数据库、知识图谱等,让Agent 将重要信息固化下来,哪怕重启后仍能访问。这方面的初步尝试有:让 Agent 在任务执行完毕后,把有价值的新信息保存到外部存储,作为下次启动时的先验知识;或者Agent定期梳理对话内容,生成摘要存档,从而突破即时上下文窗口的限制。有了长期记忆,Agent 就能实现跨会话的连续性,甚至做到“越用越懂你”。想象一下,一个AI助手经过几个月交互,已经记得你偏好的沟通风格、历史提过的需求,这将极大提升用户体验。当然,实现这一目标也伴随挑战,包括如何防止长期记忆积累错误信息、如何高效检索等。但可以预见的是,拥有丰富长期记忆的 Agent 将在个性化助理、长期项目顾问等场景发挥关键作用。
“系统2”级推理:心理学中有System 1(快速直觉)和 System 2(深度理性)两种思考模式。现有的大语言模型更多偏向“直觉型”回答,有时会牵强附会或不严谨。未来 Agent 的发展方向之一,是引入更严谨的推理机制,让智能体具备类似“System 2”那样逐步思考、审慎决策的能力[38][39]。具体手段包括:链式思考(Chain-of-Thought)让模型显式列出推理步骤,树状探索(如Tree-of-Thought)让模型尝试不同思路并评估,或者结合符号算法(如规划算法、约束求解器)辅助决策。这些都旨在让 Agent 在面对复杂问题时,不是一股脑给出未经验证的答案,而是像人一样多角度分析、验证推理过程[39]。举个例子,一道复杂数学应用题,系统1型 Agent 可能凭直觉随便套公式算,而系统2型 Agent 则会一步步列公式、检查每步推导是否正确再得出答案。这种深度推理对于关键决策场景(如医疗诊断、法律分析)尤为重要,它能够大幅提高 Agent 的可靠性和可信度。
综上所述,未来的 Agentic Agent 很可能是集多智能体协作(像团队)、自我反思(能改进自己)、长期记忆(不断学习)、系统2推理(深度严谨思考)等能力于一身的“超级智能体”。这些特性之间也不是孤立的,而是相辅相成:比如有了长期记忆才能更有效地反思和改进,有了系统2推理才能更好地规划多 Agent 协同工作。对于产品经理而言,关注这些趋势有助于把握未来产品的潜力。例如,在客户服务产品中,我们也许会用一组协作的 Agent 共同处理工单:一个 Agent 负责理解分类问题,另一个负责检索知识库,第三个负责汇总回复,并且他们还能反思总结以改进服务质量。这样的系统将远比单一模型回答问题来得智能和可靠。
6. 结语
从固定脚本的工作流到具自主性的 Agentic 智能体,AI 架构正经历一场范式转变。这就好比从“傻瓜相机”进化到“自动驾驶仪”:过去我们为每个场景手动画好路线,现在智能体开始能够看图导航,自己决定如何到达目的地。工作流式方法依然有价值,特别是在可控性要求高的场景,但 Agentic 方法无疑为AI赋予了更高的灵活性与潜能。借助诸如 LangChain 和 LangGraph 这样的框架支撑,我们已经能初步打造出具有目标导向、上下文记忆、多步推理能力的 Agent 原型。在不远的将来,随着模型能力提升和架构创新,Agentic Agent 有望成为各行业智能应用的中坚力量:从个人助理到企业决策支持,无处不在地发挥作用。我们正站在未来的起点,迎接一个由 Agentic Agent 驱动的创新时代。让我们拭目以待。
参考文献:本文内容参考和引述了 LangChain 官方文档、Anthropic 技术博客等资料,其中包括【7】Anthropic《Building effective agents》、【13】Ashok Naik《LangGraph & LangChain: Building Agentic AI》、【18】Adnan Masood《LangChain & LangGraph: Building Dynamic Agentic Workflows》等。有关 Agent 架构、LangGraph 机制和 Agent 未来发展的更多细节,可参见这些出处提供的深入探讨。
向上滑动查看参考文献
[1] AI Workflows vs. AI Agents vs. Multi-Agentic Systems: A Comprehensive Guide
https://medium.com/@neeldevenshah/ai-workflows-vs-ai-agents-vs-multi-agentic-systems-a-comprehensive-guide-f945d5e2e991
[2] [3] [6] [10] Building Effective AI Agents \ Anthropic
https://www.anthropic.com/engineering/building-effective-agents
[4] [5] [7] [8] LangGraph & LangChain: Building Agentic AI - DEV Community
https://dev.to/a_shokn/langgraph-langchain-building-agentic-ai-k58
[9] Agentic AI Architecture: A Deep Dive
https://markovate.com/blog/agentic-ai-architecture/
[33] [34] Agent architectures
https://langchain-ai.github.io/langgraph/concepts/agentic_concepts/
[11] [12] [14] [15] [22] [23] [24] [25] [26] The Agentic Imperative Series Part 3 — LangChain & LangGraph: Building Dynamic Agentic Workflows | by Adnan Masood, PhD. | Medium
https://medium.com/@adnanmasood/the-agentic-imperative-series-part-3-langchain-langgraph-building-dynamic-agentic-workflows-7184bad6b827
[13] Foundation: Introduction to LangGraph
https://academy.langchain.com/courses/intro-to-langgraph
[16] [17] [18] [19] [20] 一文搞懂 LangChain 新利器:LangGraph-CSDN博客
https://blog.csdn.net/musicml/article/details/136441895
[21] [28] [29] [30] 彻底搞懂LangGraph〖之三〗:构建一个创作电影脚本的多智能体应用 - 文章 - 开发者社区 - 火山引擎
https://developer.volcengine.com/articles/7389518901443231781
[27] [31] [32] Overview
https://langchain-ai.github.io/langgraph/concepts/multi_agent/
[35] [36] [37] 自我反思(Reflexion) | Prompt Engineering Guide
https://www.promptingguide.ai/zh/techniques/reflexion
[38] [39] Embracing System 2 Thinking in LLMs | by Charlie Koster | Medium
https://ckoster22.medium.com/embracing-system-2-thinking-in-llms-9cd9e4fdf7e1
山石网科是中国网络安全行业的技术创新领导厂商,由一批知名网络安全技术骨干于2007年创立,并以首批网络安全企业的身份,于2019年9月登陆科创板(股票简称:山石网科,股票代码:688030)。
现阶段,山石网科掌握30项自主研发核心技术,申请570多项国内外专利。山石网科于2019年起,积极布局信创领域,致力于推动国内信息技术创新,并于2021年正式启动安全芯片战略。2023年进行自研ASIC安全芯片的技术研发,旨在通过自主创新,为用户提供更高效、更安全的网络安全保障。目前,山石网科已形成了具备“全息、量化、智能、协同”四大技术特点的涉及基础设施安全、云安全、数据安全、应用安全、安全运营、工业互联网安全、信息技术应用创新、AI安全、安全服务、安全教育等10大类产品及服务,50余个行业和场景的完整解决方案。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.