![]()
2024年第一季度到2025年第二季度,企业咨询多智能体系统的次数涨了1445%。
这个数字来自Gartner,不是创业公司PR稿。当一家以保守著称的分析机构用四位数百分比描述趋势时,通常意味着某件事已经从实验室噪音变成了地板震动。
震动源头是Agentic系统——不是聊天框里那个等你敲字的助手,而是拿到目标后自己拆步骤、调API、查结果、失败重试的自主体。人类只管定方向和验收,中间过程模型自己跑。
过去两年"AI助手"的默认形态是Copilot模式:你prompt,它回答,你决定下一步。写邮件、解释代码够用,但一碰到复杂流程就露馅。让它帮你上线一个功能——不是写个函数,而是规划工作、编码、测试、抓边界情况、标记处理不了的部分——你会发现 babysit 模型比自己做还累。
Agent要解决的正是这个断点。
从"副驾驶"到"同事":架构层面的代际切换
单Agent有天花板。一个模型、一个上下文窗口、一个循环, bounded task 能搞定,工作本身太大太杂就崩。企业AI的架构演进不是拼模型参数,而是拼Agent数量。
福特工作室(Fordel Studios)的描述很直白:专业化Agent的编排网络,每个Agent锁定一个领域,由编排器(orchestrator)协调,共享记忆打底,能完成单模型上下文窗口撑不住、可靠性阈值够不着的流程。
微服务架构的类比被反复引用。单体应用让位给分布式服务,全能型单Agent正在被"提线木偶"式编排器协调的专业Agent团队取代。SS&C Blue Prism的观察是,Agent increasingly managing complex workflows without needing constant human oversight——"越来越不需要人类持续盯着的复杂工作流管理"。
保险行业成了最干净的演示场。
一个典型项目部署了7个专业化Agent处理单一理赔:Planner Agent启动流程,Coverage Agent核对保单,Fraud Agent扫描异常,Payout Agent计算金额,Audit Agent汇总供人工复核。结果是处理时间砍掉80%,从行业平均的数天压缩到16分钟。
16分钟不是理论值,是生产环境跑出来的数字。
理赔是高度结构化的流程,规则明确、数据完整、容错空间小,恰好卡在Agent的甜点区。但即便如此,80%的降幅还是超出了多数保险公司的内部预期——他们原本期待的是"显著优化",不是"数量级重构"。
为什么是现在:三个被低估的基建成熟
Agent概念不新,2025-26年的结构性切换有具体支撑。
首先是工具调用能力的质变。早期模型生成"假装调用API"的幻觉文本,现在主流模型(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro)的函数调用准确率已经能进生产环境。这不是能力飞跃,是可靠性阈值跨过了"人类愿意放手"的心理线。
其次是评估体系的建立。Agent要自主运行,必须有自我检查机制。当前主流方案是"验证Agent"——一个独立模型专门审查主Agent的输出,形成内部制衡。这种架构增加了延迟和成本,但换来了人类从"每一步监督"降级为"结果验收"的可能。
第三是记忆层的工程化。单会话的上下文窗口不够支撑长流程,需要外部记忆系统(vector store、graph database、结构化日志)让Agent在跨会话、跨工具调用时保持状态一致性。2024年下半年开始,这类基础设施从Demo级进入企业级,有SLA保障、有审计日志、有合规认证。
三个条件叠加,Agent从"能跑通演示"变成"敢放进生产"。
组织冲击:谁在被替代,谁在升级
保险理赔的80%时间削减,对应的是岗位结构的重新测绘。
不是"理赔员消失"的简单叙事。观察实际部署案例,人类角色分化为三层:最底层是纯粹的数据录入和格式检查,这部分确实在收缩;中间层是例外处理——Fraud Agent标记的疑似案件、Payout Agent无法自动裁决的边界金额,需要人类判断;最上层是流程设计和Agent训练,这是新增的头寸。
一位参与前述保险项目的工程师描述变化:「以前一个理赔专员一天处理20件,现在同一个人监督Agent处理200件,同时负责那20件Agent搞不定的例外。」
工作量重构比岗位消失更真实,也更难被统计捕捉。
另一个被低估的变量是"信任建立"的隐性成本。Agent的决策链条比传统软件更长、更不透明,金融、医疗等强监管行业的合规部门需要重新设计审计流程。某大型保险公司的CTO提到,他们花了比技术部署多40%的时间在"可解释性包装"上——让每个Agent的关键决策都能生成人类可读的理由摘要,以备监管检查。
技术ready不等于组织ready,这个时差正在制造第一批踩坑案例。
下一步:从理赔到研发,边界在哪里
保险理赔的成功正在向外扩散。客服、财务对账、IT运维工单处理——这些高结构、规则明确、数据丰富的流程是Agent的舒适区。
更具野心的尝试在软件开发领域。GitHub Copilot的演进路线很说明问题:从代码补全(line completion)到函数生成(function generation),再到2024年底公开的"Agent模式"——给定一个Issue描述,模型自主规划、编码、测试、提交PR。内部测试数据显示,约30%的Issue可以被Agent端到端关闭,无需人类介入。
这个数字的解读需要谨慎。30%是"能被关闭"的比例,不是"质量达标被合并"的比例。工程师反馈显示,Agent生成的PR在代码风格、边缘测试覆盖、文档同步方面仍有明显 gap,需要人类复核或返工。
但方向是清晰的:Agent的覆盖半径在扩大,人类介入点在向上游移动——从"写每一行代码"到"定义Issue的验收标准",再到"设计Agent的决策边界"。
一个未被充分讨论的限制是"目标模糊性"。理赔有明确的"处理完毕"状态,软件开发没有。一个功能"完成"的定义随团队、随项目、随技术债状况而变,这种模糊性对需要明确目标才能启动的Agent是结构性障碍。
这也是为什么当前Agent在运维(incident response)、数据分析(固定报表生成)等目标可量化场景表现更好,而在产品定义、架构设计等需要持续协商的领域进展缓慢。
1445%之后:泡沫与实物的分界线
Gartner的1445%咨询增长背后,有相当比例是FOMO驱动的询价。企业IT部门需要向董事会证明"我们在关注Agent",于是产生大量早期对话。这些对话中,相当比例会在技术评估阶段发现自身数据基础设施、流程标准化程度、组织变革准备度不足,项目搁置。
但这不否定趋势本身。保险理赔的80%削减、GitHub的30%端到端关闭率,是已经发生的实物进展。区分泡沫与实物的一个粗糙标准:能否说出具体数字,以及数字来自生产环境还是实验室。
另一个观察角度是供应商格局的演变。2024年,Agent框架(LangChain、LlamaIndex、AutoGen)是讨论中心;2025年,企业采购决策更多指向垂直解决方案——不是买工具自己搭,而是买"理赔Agent""客服Agent"等端到端产品。这意味着技术栈正在下沉为基础设施,价值捕获向上迁移到行业know-how层。
对科技从业者而言,这个迁移有直接的技能含义。纯工程能力(调模型、写Agent框架)的溢价在下降,行业流程理解(理赔规则、客服SOP、财务合规)的溢价在上升。Agent时代的核心竞争力,可能是"能用Agent语言描述清楚一个业务问题"——这比"能写Agent代码"更稀缺。
一位在保险Agent项目中负责Planner Agent设计的工程师说,他花了两周时间才把资深理赔经理的口头决策逻辑转化为Agent可执行的步骤图。「最难的不是技术,是让业务方意识到自己平时'凭经验'做的事,其实可以被拆解成if-then规则。」
这种拆解能力,正在成为技术团队与业务团队之间的新接口。
Agent从Copilot进化到Colleague,2025-26年的结构性切换已经启动。问题是:你的流程里,有多少部分已经被拆解到可以交给Agent?还有多少部分,你其实说不清楚自己是怎么做的?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.