![]()
2021年那个"随机鹦鹉"的嘲讽,到现在还在刺痛大模型圈。LLM(大语言模型)被说成是高级模式匹配器——统计上 plausible 的文本生成器,没有真正的理解,只会学舌,不会推理。
我不打算掺和这场哲学辩论。但有个事实很残酷:如果你的智能体系统表现得像个随机鹦鹉——自信满满地给出听起来对、实则错的答案,撞墙了不会回头,遇到难题不会拆解——问题几乎从来不在模型本身,而在架构。
演示里看起来聪明的智能体,和 production 里保持聪明的智能体,差距就在协调与推理模式。你的智能体怎么规划?怎么自查?多个智能体怎么共享信息,又不被 JSON 淹死?
第一代"智能体"产品,本质是穿马甲的链条
你定义一个固定的 LLM 调用序列——先总结,再分类,再回复——然后管它叫 pipeline。简单、可预测的任务能跑通。现实世界一介入,立马散架。
真实任务很少是线性的。用户说"调研我们前三的竞争对手,起草一份定位文档",这没法映射成固定步骤。竞争对手可能是两个,也可能是五个。每个对手需要的调研深度不同。调研结果可能推翻整个定位策略,文档得重写。
你需要的是层级规划(Hierarchical Planning)——一个"Manager"智能体把任务当问题来拆解,而不是当脚本来执行。
模式长这样:
用户任务 → Manager Agent(规划者)→ 拆解成子任务 A/B/C → 分发给 Worker Agent 1/2/3 → 必要时继续拆解子子任务 → 结果回流 → Manager 综合评估 → 达标就交付,不达标就 replan。
Manager 拿到顶层目标,产出结构化计划:子任务列表、依赖关系、分配角色、成功标准。Worker 执行并回报。Manager 综合结果,评估目标是否达成,要么交付终稿,要么重新规划。
![]()
关键实现细节,大多数教程都跳过了:计划必须是活文档,不是冻住的 spec。如果 Worker Agent 2 带回意外结果——比如某个竞争对手已经 pivot 出你的市场了——Manager 得实时更新计划。面对新信息还 rigidly 执行原计划的 Manager,不是在规划,只是在执行一个稍微花哨点的链条。
实践里,这意味着把计划存成可版本化的结构,让 Manager 能读取、修改、重新分配。不是 prompt 工程,是状态管理。
多智能体协调:从"群聊灾难"到"分工明确"
单个智能体已经够难搞了。多个智能体协作,复杂度指数级爆炸。
最 naive 的做法是让所有智能体共享一个消息总线,像群聊一样广播一切。结果?每个智能体都被无关信息淹没,上下文窗口被 JSON 噪音塞满,关键信号被埋没。
更好的模式是结构化通信拓扑。不是全连接,是有向图。Manager 知道该把什么信息路由给谁。Worker 只接收完成任务所需的最小上下文。需要跨 Worker 协作时,通过 Manager 中转,而不是直接 P2P 轰炸。
一个被低估的细节:通信协议要显式定义"信息类型"。是最终结果?是中间产物?是阻塞请求?是置信度低的猜测?没有类型标注,接收方得猜,猜错就 cascade failure。
有些团队用"智能体议会"模式——多个 specialist 智能体各自产出,然后一个"仲裁者"智能体综合。这比单智能体更 robust,但 latency 和成本都更高。不是银弹,是 trade-off。
推理模式:让智能体"停下来想想"
LLM 的默认行为是流式生成,token by token,没有自然的"暂停点"。但复杂任务需要显式的推理步骤:先理解问题,再拆解,再搜索信息,再综合,再验证。
![]()
Chain-of-Thought(思维链) prompting 是起点,但不够。你需要的是架构层面的推理节点——显式的"思考"步骤,产出结构化中间产物,可被后续步骤消费。
一个有效模式是"验证者"智能体。主智能体产出答案后,验证者独立检查:逻辑是否自洽?事实是否可溯源?是否回答了原始问题?验证者可以访问不同工具集,比如搜索引擎或代码执行环境,形成交叉验证。
更激进的模式是"自我对弈"——同一个智能体用不同 temperature 或 prompt 多次采样,然后比较结果。一致性高的答案置信度高,分歧大的触发人工介入或深度搜索。
这些模式都增加 latency 和成本。但 production 系统的首要指标不是 demo 里的秒级响应,而是正确率。一个慢但对的答案,远快于一个快但错的答案加上后续的纠错成本。
从"能跑"到"能信":工程化的最后一公里
架构模式解决了"能不能做",但 production 还要回答"敢不敢信"。
可观测性不是可选配置。每个智能体决策都要留痕:输入上下文、使用的工具、中间推理、最终输出。不是为事后审计,是为实时干预。当置信度低于阈值,或检测到异常模式,系统要能降级到人工或简化流程。
回滚机制同样关键。智能体执行了不可逆操作(比如发送邮件、修改数据库)之前,要有"预演"步骤,让 Manager 确认。不是让用户每次点确认——那太蠢——而是让系统能识别高风险操作并自动触发校验。
一个反直觉的发现:过度聪明的智能体有时比笨的更难维护。当系统行为难以预测,调试就变成考古。好的架构要平衡能力与可解释性,让工程师能回答"它为什么做这个决定"。
2024 年,很多团队还在用 2022 年的链条思维搭智能体。他们抱怨 LLM 不够聪明,却没意识到问题在编排层。模型能力在涨,但架构债的复利效应比技术债更隐蔽,也更致命。
你的智能体系统,现在更像随机鹦鹉,还是像有分工、会反思、能协作的组织?这个问题,可能比选哪个模型更重要。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.