别再迷信Prompt了，这才是Agent的真正战场|代码|上下文|工作流|新论文|agent|prompt

别再迷信Prompt了，这才是Agent的真正战场

分享至

曾经被奉为AI魔法咒语的Prompt Engineering，如今在大模型Agent开发中的权重已大幅下降。本文探讨了Prompt权重下降的原因，以及现代Agent开发的核心挑战和替代方案，帮助从业者适应这一范式转移。

———— / BEGIN / ————

我们曾迷信Prompt Engineering是AI的魔法咒语，但随着大模型智商飙升和应用深入，Agent竞争的主战场早已转移。

大模型Agent的核心还是Prompt吗？

如果这个问题在2023年上半年提出，我会毫不犹豫地告诉你：是的，Prompt就是咒语，就是魔法，谁掌握了Prompt谁就是大法师。那时我们还在为如何让GPT-3.5不”胡说八道”而绞尽脑汁地尝试”Let’s think step by step”。

但在即将进入2026年的今天，如果仍认为Agent的核心竞争力是Prompt，那在AI落地的一线战场上，可能尚未经历真正的实战洗礼。

观点先行：Prompt权重的断崖式下跌：

在2025年的当下，Prompt在Agent开发中的权重，已从原来的90%降至最多30%。 Agent现在的核心是工作流编排、记忆管理、工具生态接口标准化，以及最关键的——自动化评估体系。Prompt现在更多充当前端交互层，是API调用的一个参数而已。

为什么Prompt不再占据主导地位？

前两年大家迷信Prompt Engineering，是因为模型本身的逻辑推理能力不足，需要通过精巧的话术引导甚至”哄着”模型工作。然而，当今的DeepSeek V3、Claude 4.5 Sonnet等先进模型，其意图理解能力已大幅提升。即使给出粗糙的Prompt，模型也能大概率领会意图。

真实案例对比：以往需数百字Prompt加少样本示例才能让Agent将混乱的会议纪要整理成JSON格式。现在，只需简单指令”转成标准JSON，字段自行判断”，结果基本可用。

当模型智商提升，Prompt这一”拐杖”的作用自然减弱。但这反而提高了Agent开发的门槛，因为现在要解决的是复杂任务。

以我们的供应链Agent为例，其任务包括：检测库存安全水位、分析历史销量、预测需求、对比供应商、生成补货单并发送审批。这种多步骤流程无法依靠单一Prompt实现，必须依赖流程工程。

技术转向：Agent开发的核心已从Prompt设计转向Flow Engineering。如LangChain团队的LangGraph和吴恩达推崇的Agentic Patterns所示，现代Agent是由大模型驱动的状态机，需要明确定义步骤、成功/失败路径和数据传递逻辑。

在我们的代码库中，逻辑控制代码的规模远超Prompt字符数。我们通过代码约束模型行为，而非依靠自然语言祈祷模型表现良好。

当前Agent开发的核心挑战

随着Prompt权重的下降，真正的挑战浮出水面，主要体现在以下三个方面，这些问题在传统Prompt优化中找不到答案：

1. 规划与执行的脱节

大模型擅长制定计划，但长链条执行中容易”迷路”。例如，供应链Agent中，模型规划”先查A数据库，再查B系统”，但当A数据库返回含特殊字符的数据，模型生成查询B系统的SQL时会失败，并陷入死循环。

解决方案：需要大量Guardrails代码校验模型输出的参数合法性，这是传统Prompt工程无法解决的鲁棒性问题。

2. 上下文污染与记忆管理难题

尽管当今模型的上下文窗口可达128K甚至1M，但存在”中间迷失”现象：上下文越长，模型性能越受影响。在Agent运行过程中，历史消息快速积累，如何动态管理上下文成为关键挑战。

我们的实践：引入”总结Agent”在关键节点对对话记录进行摘要，保留关键变量，替换原始对话。这要求精准判断哪些记忆长期有用（存向量数据库），哪些短期相关（放上下文），哪些可丢弃。

3. 评估的黑盒问题

这是大模型落地团队最头疼的问题。传统软件有单元测试（输入A，输出必为B），但Agent的输出具有不确定性：输入A，可能输出B1或B2，语义相同却形式各异。

更棘手的是隐性错误：如供应链Agent决策”补货500件”，而算法计算为520件，结果看似可接受，但若依据错误逻辑（如混淆月度数据），这种隐患难以检测。

行业现状：尚无完美解决方案，我们采用LLM-as-a-Judge方法，以更强模型评估小模型或Agent的执行过程。

从Prompt Engineering到DSPy：范式转移

既然Prompt不再是核心，那么什么是更好的替代方案？如果你仍在手动调整Prompt，如将”You are a helpful assistant”改为”You are an expert data scientist”，那么是时候了解DSPy框架了。

DSPy由斯坦福大学开发，其核心理念极为超前：Prompt不应由人工编写，而应由模型自我优化。在这一框架下，你只需定义任务逻辑（Signature）并准备高质量数据集，DSPy便会自动优化Prompt，尝试各种少样本组合，调整指令，直至在测试集上达到最优效果。

这类似于从汇编语言（手写Prompt）升级到C++（使用DSPy），编译器负责生成汇编代码。我们团队已用DSPy Module替代许多手写Prompt模块，效率显著提升。

实战案例：保险理赔核查Agent的演进

让我们通过一个保险理赔核查Agent案例，具体理解这种思维转变：

初始阶段（Prompt思维）：编写长达3000token的System Prompt，详细规定车险理赔规则。结果上线后，面对模糊照片，Agent幻觉出责任认定书并错误拒赔。原因是过长Prompt导致指令冲突，模型在信息不足时强行脑补。

进阶阶段（Agentic Flow思维）：将大Prompt拆解为三个独立Agent：材料初审Agent（检查清晰度）、规则提取Agent（RAG检索条款）、最终裁决Agent（综合判断）。Agent间通过代码逻辑连接，如if 材料初审Agent.result == “不清晰”: return “请重传”。

此案例中，各Agent的Prompt极为简单，核心竞争力在于问题拆解架构和Workflow设计能力。

给从业者的务实建议

基于实战经验，为同行提供以下建议：

放弃“通才”模型幻想，转向“专才”协同趋势是Multi-Agent System，如微软AutoGen和LangGraph所示。需要掌握的是如何让多个AI协作甚至辩论，而非单一Prompt技巧。
掌握结构化输出Agent内部数据流转必须是JSON或Pydantic对象。OpenAI的Structured Outputs和开源模型的Function Calling是接入传统IT系统的桥梁。
重视SOP（标准作业程序）的数据转化Agent所需的数据并非传统训练集，而是企业SOP。例如，开发高效HR Agent依赖员工手册和历年案例。将这些SOP转化为Agent可理解的工具或知识库，才是核心竞争力。
回归代码工程本质Agent开发不能违背软件工程原则：版本控制、单元测试、日志监控、灰度发布等缺一不可。代码错误会报错，Agent错误则会一本正经地胡说八道，危害更大。

结论：2026年高阶玩家的门票

大模型Agent的核心早已不是Prompt。当下的Prompt如同代码中的变量命名：良好的变量名增强可读性，但仅靠变量名无法构建淘宝或微信这样的系统。

真正的护城河在于系统架构设计、数据流转逻辑、异常处理以及垂直领域的行业知识，这些要素封装于Workflow和工具中。因此，不必过度纠结Prompt的雕琢，而应积极学习LangGraph、DSPy，提升RAG准确率，将业务SOP代码化。这才是应对未来挑战的关键。

Prompt是对话的起点，而智能的工作流与坚实的工程化能力，才是Agent价值持续增长的基石。

本文来自公众号：栗子作者：栗子

想要第一时间了解行业动态、面试技巧、商业知识等等等？加入产品经理进化营，跟优秀的产品人一起交流成长！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.