网易首页 > 网易号 > 正文 申请入驻

别再迷信Prompt了,这才是Agent的真正战场

0
分享至

曾经被奉为AI魔法咒语的Prompt Engineering,如今在大模型Agent开发中的权重已大幅下降。本文探讨了Prompt权重下降的原因,以及现代Agent开发的核心挑战和替代方案,帮助从业者适应这一范式转移。

———— / BEGIN / ————

我们曾迷信Prompt Engineering是AI的魔法咒语,但随着大模型智商飙升和应用深入,Agent竞争的主战场早已转移。

大模型Agent的核心还是Prompt吗?

如果这个问题在2023年上半年提出,我会毫不犹豫地告诉你:是的,Prompt就是咒语,就是魔法,谁掌握了Prompt谁就是大法师。那时我们还在为如何让GPT-3.5不”胡说八道”而绞尽脑汁地尝试”Let’s think step by step”。

但在即将进入2026年的今天,如果仍认为Agent的核心竞争力是Prompt,那在AI落地的一线战场上,可能尚未经历真正的实战洗礼。

观点先行:Prompt权重的断崖式下跌:

在2025年的当下,Prompt在Agent开发中的权重,已从原来的90%降至最多30%。 Agent现在的核心是工作流编排、记忆管理、工具生态接口标准化,以及最关键的——自动化评估体系。Prompt现在更多充当前端交互层,是API调用的一个参数而已。

为什么Prompt不再占据主导地位?

前两年大家迷信Prompt Engineering,是因为模型本身的逻辑推理能力不足,需要通过精巧的话术引导甚至”哄着”模型工作。然而,当今的DeepSeek V3、Claude 4.5 Sonnet等先进模型,其意图理解能力已大幅提升。即使给出粗糙的Prompt,模型也能大概率领会意图。

真实案例对比:以往需数百字Prompt加少样本示例才能让Agent将混乱的会议纪要整理成JSON格式。现在,只需简单指令”转成标准JSON,字段自行判断”,结果基本可用。

当模型智商提升,Prompt这一”拐杖”的作用自然减弱。但这反而提高了Agent开发的门槛,因为现在要解决的是复杂任务。

以我们的供应链Agent为例,其任务包括:检测库存安全水位、分析历史销量、预测需求、对比供应商、生成补货单并发送审批。这种多步骤流程无法依靠单一Prompt实现,必须依赖流程工程。

技术转向:Agent开发的核心已从Prompt设计转向Flow Engineering。如LangChain团队的LangGraph和吴恩达推崇的Agentic Patterns所示,现代Agent是由大模型驱动的状态机,需要明确定义步骤、成功/失败路径和数据传递逻辑。

在我们的代码库中,逻辑控制代码的规模远超Prompt字符数。我们通过代码约束模型行为,而非依靠自然语言祈祷模型表现良好。

当前Agent开发的核心挑战

随着Prompt权重的下降,真正的挑战浮出水面,主要体现在以下三个方面,这些问题在传统Prompt优化中找不到答案:

1. 规划与执行的脱节

大模型擅长制定计划,但长链条执行中容易”迷路”。例如,供应链Agent中,模型规划”先查A数据库,再查B系统”,但当A数据库返回含特殊字符的数据,模型生成查询B系统的SQL时会失败,并陷入死循环。

解决方案:需要大量Guardrails代码校验模型输出的参数合法性,这是传统Prompt工程无法解决的鲁棒性问题。

2. 上下文污染与记忆管理难题

尽管当今模型的上下文窗口可达128K甚至1M,但存在”中间迷失”现象:上下文越长,模型性能越受影响。在Agent运行过程中,历史消息快速积累,如何动态管理上下文成为关键挑战。

我们的实践:引入”总结Agent”在关键节点对对话记录进行摘要,保留关键变量,替换原始对话。这要求精准判断哪些记忆长期有用(存向量数据库),哪些短期相关(放上下文),哪些可丢弃。

3. 评估的黑盒问题

这是大模型落地团队最头疼的问题。传统软件有单元测试(输入A,输出必为B),但Agent的输出具有不确定性:输入A,可能输出B1或B2,语义相同却形式各异。

更棘手的是隐性错误:如供应链Agent决策”补货500件”,而算法计算为520件,结果看似可接受,但若依据错误逻辑(如混淆月度数据),这种隐患难以检测。

行业现状:尚无完美解决方案,我们采用LLM-as-a-Judge方法,以更强模型评估小模型或Agent的执行过程。

从Prompt Engineering到DSPy:范式转移

既然Prompt不再是核心,那么什么是更好的替代方案?如果你仍在手动调整Prompt,如将”You are a helpful assistant”改为”You are an expert data scientist”,那么是时候了解DSPy框架了。

DSPy由斯坦福大学开发,其核心理念极为超前:Prompt不应由人工编写,而应由模型自我优化。在这一框架下,你只需定义任务逻辑(Signature)并准备高质量数据集,DSPy便会自动优化Prompt,尝试各种少样本组合,调整指令,直至在测试集上达到最优效果。

这类似于从汇编语言(手写Prompt)升级到C++(使用DSPy),编译器负责生成汇编代码。我们团队已用DSPy Module替代许多手写Prompt模块,效率显著提升。

实战案例:保险理赔核查Agent的演进

让我们通过一个保险理赔核查Agent案例,具体理解这种思维转变:

初始阶段(Prompt思维):编写长达3000token的System Prompt,详细规定车险理赔规则。结果上线后,面对模糊照片,Agent幻觉出责任认定书并错误拒赔。原因是过长Prompt导致指令冲突,模型在信息不足时强行脑补。

进阶阶段(Agentic Flow思维):将大Prompt拆解为三个独立Agent:材料初审Agent(检查清晰度)、规则提取Agent(RAG检索条款)、最终裁决Agent(综合判断)。Agent间通过代码逻辑连接,如if 材料初审Agent.result == “不清晰”: return “请重传”。

此案例中,各Agent的Prompt极为简单,核心竞争力在于问题拆解架构和Workflow设计能力。

给从业者的务实建议

基于实战经验,为同行提供以下建议:


  • 放弃“通才”模型幻想,转向“专才”协同趋势是Multi-Agent System,如微软AutoGen和LangGraph所示。需要掌握的是如何让多个AI协作甚至辩论,而非单一Prompt技巧。

  • 掌握结构化输出Agent内部数据流转必须是JSON或Pydantic对象。OpenAI的Structured Outputs和开源模型的Function Calling是接入传统IT系统的桥梁。

  • 重视SOP(标准作业程序)的数据转化Agent所需的数据并非传统训练集,而是企业SOP。例如,开发高效HR Agent依赖员工手册和历年案例。将这些SOP转化为Agent可理解的工具或知识库,才是核心竞争力。

  • 回归代码工程本质Agent开发不能违背软件工程原则:版本控制、单元测试、日志监控、灰度发布等缺一不可。代码错误会报错,Agent错误则会一本正经地胡说八道,危害更大。


结论:2026年高阶玩家的门票

大模型Agent的核心早已不是Prompt。当下的Prompt如同代码中的变量命名:良好的变量名增强可读性,但仅靠变量名无法构建淘宝或微信这样的系统。

真正的护城河在于系统架构设计、数据流转逻辑、异常处理以及垂直领域的行业知识,这些要素封装于Workflow和工具中。因此,不必过度纠结Prompt的雕琢,而应积极学习LangGraph、DSPy,提升RAG准确率,将业务SOP代码化。这才是应对未来挑战的关键。

Prompt是对话的起点,而智能的工作流与坚实的工程化能力,才是Agent价值持续增长的基石。

本文来自公众号:栗子 作者:栗子

想要第一时间了解行业动态、面试技巧、商业知识等等等?加入产品经理进化营,跟优秀的产品人一起交流成长!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央媒痛批,沉寂七十年,从同志到戏子,资本的獠牙终于露出来了

央媒痛批,沉寂七十年,从同志到戏子,资本的獠牙终于露出来了

锋哥与八卦哥
2026-01-24 11:50:17
1月26日俄乌最新:普京的影子邮件

1月26日俄乌最新:普京的影子邮件

西楼饮月
2026-01-26 21:26:31
最新 | 张又侠、刘振立涉嫌严重违纪违法被立案审查调查

最新 | 张又侠、刘振立涉嫌严重违纪违法被立案审查调查

天津广播
2026-01-24 15:18:05
国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

生命之泉的奥秘
2026-01-25 06:30:36
中纪委释放强信号:对村情复杂和体量较大的村党组织重点巡察!

中纪委释放强信号:对村情复杂和体量较大的村党组织重点巡察!

乡知乡见
2026-01-26 23:51:27
所谓“斯大林屠杀30多万远东中国人”的说法,到底是真是假?

所谓“斯大林屠杀30多万远东中国人”的说法,到底是真是假?

柳絮忆史
2026-01-23 10:10:39
笑发财了,别人的朋友圈果然没让我失望!

笑发财了,别人的朋友圈果然没让我失望!

另子维爱读史
2025-12-27 18:36:46
西安经纬国债爆雷“疑”案

西安经纬国债爆雷“疑”案

水瓶纪元
2026-01-25 23:12:34
广东98-89天津 球员评价:2人优秀,3人及格,6人低迷

广东98-89天津 球员评价:2人优秀,3人及格,6人低迷

篮球资讯达人
2026-01-26 21:34:40
杨鸣辞职,辽篮一个时代结束!

杨鸣辞职,辽篮一个时代结束!

沈阳百姓一家亲
2026-01-27 00:11:25
52岁王小骞为11岁女儿痛哭!早产儿患矮小症,过度减肥又患正食症

52岁王小骞为11岁女儿痛哭!早产儿患矮小症,过度减肥又患正食症

艺能八卦局
2025-12-25 04:49:17
英国首相斯塔默本周将访华?外交部:将适时发布消息

英国首相斯塔默本周将访华?外交部:将适时发布消息

财联社
2026-01-26 15:27:50
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
特朗普现在“非常难过”

特朗普现在“非常难过”

牛弹琴
2026-01-26 08:07:39
撕裂的国土:为何伊朗国内的阿塞拜疆人,比阿塞拜疆还要多?

撕裂的国土:为何伊朗国内的阿塞拜疆人,比阿塞拜疆还要多?

卜客胡言
2026-01-24 18:36:47
被网友的“热熔胶棒”用法惊艳到了,1元1根,用处这么厉害?

被网友的“热熔胶棒”用法惊艳到了,1元1根,用处这么厉害?

室内设计师有料儿
2026-01-26 09:57:39
16战15胜,勇士找到赢球秘诀!3公式解放库里2改变弥补巴特勒报销

16战15胜,勇士找到赢球秘诀!3公式解放库里2改变弥补巴特勒报销

锅子篮球
2026-01-26 21:36:13
美国精英想不通:为什么每次要打压中国时,总有意外发生?

美国精英想不通:为什么每次要打压中国时,总有意外发生?

聚焦真实瞬间
2026-01-26 10:19:09
尹建业,被免职

尹建业,被免职

新京报政事儿
2026-01-26 12:23:24
小贷行业大逃杀开始了

小贷行业大逃杀开始了

新金融洛书
2026-01-26 09:21:26
2026-01-27 01:00:49
运营派
运营派
互联网运营学习交流平台
1566文章数 28关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

艺术
时尚
家居
教育
数码

艺术要闻

沙特急刹车,NEOM规模大缩水,线性摩天楼留小段

甜了10年,超多暧昧细节,全网求他俩原地结婚

家居要闻

流韵雅居,让复杂变纯粹

教育要闻

小学阶段的分数,从来都不是重点

数码要闻

苹果发布新一代AirTag与新款Black Unity编织表带

无障碍浏览 进入关怀版