网易首页 > 网易号 > 正文 申请入驻

别再迷信Prompt了,这才是Agent的真正战场

0
分享至

曾经被奉为AI魔法咒语的Prompt Engineering,如今在大模型Agent开发中的权重已大幅下降。本文探讨了Prompt权重下降的原因,以及现代Agent开发的核心挑战和替代方案,帮助从业者适应这一范式转移。

———— / BEGIN / ————

我们曾迷信Prompt Engineering是AI的魔法咒语,但随着大模型智商飙升和应用深入,Agent竞争的主战场早已转移。

大模型Agent的核心还是Prompt吗?

如果这个问题在2023年上半年提出,我会毫不犹豫地告诉你:是的,Prompt就是咒语,就是魔法,谁掌握了Prompt谁就是大法师。那时我们还在为如何让GPT-3.5不”胡说八道”而绞尽脑汁地尝试”Let’s think step by step”。

但在即将进入2026年的今天,如果仍认为Agent的核心竞争力是Prompt,那在AI落地的一线战场上,可能尚未经历真正的实战洗礼。

观点先行:Prompt权重的断崖式下跌:

在2025年的当下,Prompt在Agent开发中的权重,已从原来的90%降至最多30%。 Agent现在的核心是工作流编排、记忆管理、工具生态接口标准化,以及最关键的——自动化评估体系。Prompt现在更多充当前端交互层,是API调用的一个参数而已。

为什么Prompt不再占据主导地位?

前两年大家迷信Prompt Engineering,是因为模型本身的逻辑推理能力不足,需要通过精巧的话术引导甚至”哄着”模型工作。然而,当今的DeepSeek V3、Claude 4.5 Sonnet等先进模型,其意图理解能力已大幅提升。即使给出粗糙的Prompt,模型也能大概率领会意图。

真实案例对比:以往需数百字Prompt加少样本示例才能让Agent将混乱的会议纪要整理成JSON格式。现在,只需简单指令”转成标准JSON,字段自行判断”,结果基本可用。

当模型智商提升,Prompt这一”拐杖”的作用自然减弱。但这反而提高了Agent开发的门槛,因为现在要解决的是复杂任务。

以我们的供应链Agent为例,其任务包括:检测库存安全水位、分析历史销量、预测需求、对比供应商、生成补货单并发送审批。这种多步骤流程无法依靠单一Prompt实现,必须依赖流程工程。

技术转向:Agent开发的核心已从Prompt设计转向Flow Engineering。如LangChain团队的LangGraph和吴恩达推崇的Agentic Patterns所示,现代Agent是由大模型驱动的状态机,需要明确定义步骤、成功/失败路径和数据传递逻辑。

在我们的代码库中,逻辑控制代码的规模远超Prompt字符数。我们通过代码约束模型行为,而非依靠自然语言祈祷模型表现良好。

当前Agent开发的核心挑战

随着Prompt权重的下降,真正的挑战浮出水面,主要体现在以下三个方面,这些问题在传统Prompt优化中找不到答案:

1. 规划与执行的脱节

大模型擅长制定计划,但长链条执行中容易”迷路”。例如,供应链Agent中,模型规划”先查A数据库,再查B系统”,但当A数据库返回含特殊字符的数据,模型生成查询B系统的SQL时会失败,并陷入死循环。

解决方案:需要大量Guardrails代码校验模型输出的参数合法性,这是传统Prompt工程无法解决的鲁棒性问题。

2. 上下文污染与记忆管理难题

尽管当今模型的上下文窗口可达128K甚至1M,但存在”中间迷失”现象:上下文越长,模型性能越受影响。在Agent运行过程中,历史消息快速积累,如何动态管理上下文成为关键挑战。

我们的实践:引入”总结Agent”在关键节点对对话记录进行摘要,保留关键变量,替换原始对话。这要求精准判断哪些记忆长期有用(存向量数据库),哪些短期相关(放上下文),哪些可丢弃。

3. 评估的黑盒问题

这是大模型落地团队最头疼的问题。传统软件有单元测试(输入A,输出必为B),但Agent的输出具有不确定性:输入A,可能输出B1或B2,语义相同却形式各异。

更棘手的是隐性错误:如供应链Agent决策”补货500件”,而算法计算为520件,结果看似可接受,但若依据错误逻辑(如混淆月度数据),这种隐患难以检测。

行业现状:尚无完美解决方案,我们采用LLM-as-a-Judge方法,以更强模型评估小模型或Agent的执行过程。

从Prompt Engineering到DSPy:范式转移

既然Prompt不再是核心,那么什么是更好的替代方案?如果你仍在手动调整Prompt,如将”You are a helpful assistant”改为”You are an expert data scientist”,那么是时候了解DSPy框架了。

DSPy由斯坦福大学开发,其核心理念极为超前:Prompt不应由人工编写,而应由模型自我优化。在这一框架下,你只需定义任务逻辑(Signature)并准备高质量数据集,DSPy便会自动优化Prompt,尝试各种少样本组合,调整指令,直至在测试集上达到最优效果。

这类似于从汇编语言(手写Prompt)升级到C++(使用DSPy),编译器负责生成汇编代码。我们团队已用DSPy Module替代许多手写Prompt模块,效率显著提升。

实战案例:保险理赔核查Agent的演进

让我们通过一个保险理赔核查Agent案例,具体理解这种思维转变:

初始阶段(Prompt思维):编写长达3000token的System Prompt,详细规定车险理赔规则。结果上线后,面对模糊照片,Agent幻觉出责任认定书并错误拒赔。原因是过长Prompt导致指令冲突,模型在信息不足时强行脑补。

进阶阶段(Agentic Flow思维):将大Prompt拆解为三个独立Agent:材料初审Agent(检查清晰度)、规则提取Agent(RAG检索条款)、最终裁决Agent(综合判断)。Agent间通过代码逻辑连接,如if 材料初审Agent.result == “不清晰”: return “请重传”。

此案例中,各Agent的Prompt极为简单,核心竞争力在于问题拆解架构和Workflow设计能力。

给从业者的务实建议

基于实战经验,为同行提供以下建议:


  • 放弃“通才”模型幻想,转向“专才”协同趋势是Multi-Agent System,如微软AutoGen和LangGraph所示。需要掌握的是如何让多个AI协作甚至辩论,而非单一Prompt技巧。

  • 掌握结构化输出Agent内部数据流转必须是JSON或Pydantic对象。OpenAI的Structured Outputs和开源模型的Function Calling是接入传统IT系统的桥梁。

  • 重视SOP(标准作业程序)的数据转化Agent所需的数据并非传统训练集,而是企业SOP。例如,开发高效HR Agent依赖员工手册和历年案例。将这些SOP转化为Agent可理解的工具或知识库,才是核心竞争力。

  • 回归代码工程本质Agent开发不能违背软件工程原则:版本控制、单元测试、日志监控、灰度发布等缺一不可。代码错误会报错,Agent错误则会一本正经地胡说八道,危害更大。


结论:2026年高阶玩家的门票

大模型Agent的核心早已不是Prompt。当下的Prompt如同代码中的变量命名:良好的变量名增强可读性,但仅靠变量名无法构建淘宝或微信这样的系统。

真正的护城河在于系统架构设计、数据流转逻辑、异常处理以及垂直领域的行业知识,这些要素封装于Workflow和工具中。因此,不必过度纠结Prompt的雕琢,而应积极学习LangGraph、DSPy,提升RAG准确率,将业务SOP代码化。这才是应对未来挑战的关键。

Prompt是对话的起点,而智能的工作流与坚实的工程化能力,才是Agent价值持续增长的基石。

本文来自公众号:栗子 作者:栗子

想要第一时间了解行业动态、面试技巧、商业知识等等等?加入产品经理进化营,跟优秀的产品人一起交流成长!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视巨作被疯狂举报,只因这点,恨国党炸锅了!

央视巨作被疯狂举报,只因这点,恨国党炸锅了!

毛豆论道
2026-02-14 21:55:16
一场4-0,让阿尔特塔创造历史,四线狂飙,目标直指四冠王

一场4-0,让阿尔特塔创造历史,四线狂飙,目标直指四冠王

足球狗说
2026-02-16 05:19:38
卓别林在晚宴上问周总理:可以送我一瓶茅台吗?总理回答令人感动

卓别林在晚宴上问周总理:可以送我一瓶茅台吗?总理回答令人感动

柳絮忆史
2026-01-02 07:15:03
中国三大长寿食物,鱼只能排到第三,第一名很多人想不到!

中国三大长寿食物,鱼只能排到第三,第一名很多人想不到!

江江食研社
2026-02-12 12:30:10
尼泊尔:投胎还是核心竞争力

尼泊尔:投胎还是核心竞争力

茶狐看世界本尊
2026-02-14 20:26:21
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

天天热点见闻
2026-02-15 08:24:58
8死2伤!江苏突发烟花爆燃事故:死伤者身份披露,事发详细过程

8死2伤!江苏突发烟花爆燃事故:死伤者身份披露,事发详细过程

博士观察
2026-02-15 22:54:51
央视曝光黄金回收套路:不良商家在足金涂抹洗洁精等让其变黑而压价

央视曝光黄金回收套路:不良商家在足金涂抹洗洁精等让其变黑而压价

每日经济新闻
2026-02-14 21:01:20
红星独家|王菲春晚演唱《你我经历的一刻》受关注,原唱讲述被选中的过程

红星独家|王菲春晚演唱《你我经历的一刻》受关注,原唱讲述被选中的过程

红星新闻
2026-02-15 20:03:15
住建部已查清全国房子数量,过剩问题有多严重?楼市或迎来新变局

住建部已查清全国房子数量,过剩问题有多严重?楼市或迎来新变局

猫叔东山再起
2026-02-15 11:30:03
中国短道速滑王牌项目陨落,32年首次无缘冬奥决赛,2010夺冠巅峰

中国短道速滑王牌项目陨落,32年首次无缘冬奥决赛,2010夺冠巅峰

米修体育
2026-02-15 21:50:56
国铁集团:网传2026年春运绿皮车严重超员视频系历史画面拼凑翻炒的不实信息

国铁集团:网传2026年春运绿皮车严重超员视频系历史画面拼凑翻炒的不实信息

界面新闻
2026-02-15 19:54:42
辽视春晚收视率又爆表了,这么好的成绩,其它卫视为什么不抄作业

辽视春晚收视率又爆表了,这么好的成绩,其它卫视为什么不抄作业

马庆云的影音娱
2026-02-15 22:42:48
编造谎言的“牢A”:到底是在揭露美国,还是在愚弄国人?

编造谎言的“牢A”:到底是在揭露美国,还是在愚弄国人?

涛哥锐评
2026-02-15 21:34:08
0点30分,CCTV5直播!“史上最强U17国足”亚洲杯首战对手出炉!

0点30分,CCTV5直播!“史上最强U17国足”亚洲杯首战对手出炉!

大秦壁虎白话体育
2026-02-16 00:57:40
爆大冷!马竞耻辱惨败,西蒙尼不敢相信,5.8亿欧豪阵也没用

爆大冷!马竞耻辱惨败,西蒙尼不敢相信,5.8亿欧豪阵也没用

足球狗说
2026-02-16 01:10:43
大年初一千万别穿这三件衣,穿错瘦穷一年,全家跟着倒霉!

大年初一千万别穿这三件衣,穿错瘦穷一年,全家跟着倒霉!

凉湫瑾言
2026-02-15 11:55:10
清华全球第三,北大全球第七,国内11所高校跻身全球前100

清华全球第三,北大全球第七,国内11所高校跻身全球前100

史海流年号
2026-02-13 11:13:26
比特币,直线跳水,超11万人爆仓!美联储降息,又生变数?

比特币,直线跳水,超11万人爆仓!美联储降息,又生变数?

证券时报e公司
2026-02-15 21:47:59
泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

大风新闻
2026-02-15 15:23:15
2026-02-16 06:15:00
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64432文章数 311531关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

艺术
亲子
时尚
本地
教育

艺术要闻

梅花,兰花,荷花,菊花,祝你花开富贵!

亲子要闻

育儿大神都在评论区,别让物质满足毁了孩子的感知力!

多巴胺失宠了?过年这样穿彩色时髦又减龄

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

教育要闻

小孩,请你毫无顾虑地向前跑吧

无障碍浏览 进入关怀版