网易首页 > 网易号 > 正文 申请入驻

这家AI团队用3个旧工具驯服了大模型,提示词长度砍掉70%

0
分享至


去年有个数据在圈内流传:某头部AI产品的提示词迭代了47版,规则条款从12条膨胀到89条,agent的违规率反而从8%涨到了23%。规则越多,模型越聋——这不是bug,是特征。

ProjectBrain团队最近公开了他们反直觉的解法。他们没加规则,反而把提示词砍了七成,用三个老掉牙的技术重新搭建了agent的行为框架。效果?生产环境的可靠性"显著提升"——这是他们自己说的,具体数字没放,但愿意把整套方法开源出来聊。

规则清单的死亡螺旋

他们的起点很典型。早期提示词长这样:

「You are an AI assistant. You must read files before editing them. You must not create a new file when revising. You must not signal completion if tests are failing. You must always include the file_id in your response...」

读完这段的人都能预判结局。模型会"acknowledge"这些规则,然后该干嘛干嘛。长规则列表对模型不是约束,是背景噪音——当规则和流畅输出冲突时,流畅性赢了。这是训练目标的副产品,不是能靠"请严格遵守"修复的。

ProjectBrain的转向发生在第N次迭代后。他们放弃了"编程思维",转用行为科学的框架:不告诉agent该做什么,而是描述它所处的情境、期望的结果、以及成功/失败的具体样例。

设计成本更高了。每个场景要过一遍happy path、edge case、failure mode。但上线后的稳定性让他们觉得值。

Gherkin:用场景替代指令

第一个工具是Gherkin,行为驱动开发(BDD)时代的产物。结构固定:Given(前提)/When(触发)/Then(预期结果)。

他们改写的提示词长这样:

「As a user, I want to hear the plan before work begins」

没有"必须""禁止",只有用户故事和场景描述。模型从"遵守规则"切换成"扮演角色完成任务"——这更接近它的训练数据分布。

关键差异:规则是负向约束(别做X),Gherkin是正向描述(在这种情况下,做Y)。大模型对后者的对齐程度明显更高,这是RLHF(基于人类反馈的强化学习)的遗产。

信封DSL:给消息加上下文层

第二个工具是他们自研的"message envelope DSL"(领域特定语言)。简单说,每条消息包一层元数据信封,里面写清楚:这条消息从哪来、当前处于什么流程阶段、对回复的格式预期是什么。

类比的话,传统提示词像群发邮件,所有人看同一份说明书。信封DSL像给每个人发带便签的文件夹——便签上写着"你现在在第3步,下一步需要X格式的输出"。

这解决了多轮对话中的上下文漂移问题。agent不用从冗长的对话历史里推断自己该干嘛,信封上的状态字段直接告诉它。

结构化完成信号:让结束变得可验证

第三个工具最细,但最关键。他们设计了一套"structured completion signal format"——agent完成任务时,必须输出固定格式的JSON,包含:任务ID、完成状态、关键输出摘要、自检通过的字段列表。

不是让agent说"我完成了",而是让它填一张表格。下游系统可以程序化地验证:必填字段有没有?格式对不对?自检项勾了哪些?

这把"完成"从自然语言承诺变成了可校验的数据结构。幻觉型完成(agent以为自己做完了其实没有)的发生率因此下降。

三个旧工具的组合效应

Gherkin负责行为描述,信封DSL负责上下文管理,结构化信号负责输出验证。单独看都没新意,但叠加后的效果是让agent获得了一份"cleaner operating contract"——更干净的操作契约。

ProjectBrain团队的原话是:「None of these are original. But together, they give agents a much cleaner operating contract in our experience.」

他们的经验数据没全放,但提到一个细节:迁移到这套框架后,提示词的平均长度下降了约70%,而生产环境的违规率"进入可接受区间"。具体数字被模糊处理,可能是商业敏感,也可能是样本量还不够大。

这套方法的成本转移很明显:前期设计时间增加,后期调试时间减少。适合对可靠性有硬性要求的场景,不适合快速试错的原型阶段。

ProjectBrain把完整方法写进了系列博客,这是第三篇。他们还在迭代,下一步据说是把Gherkin场景和实际用户反馈闭环起来——让生产环境的失败案例自动触发新场景的编写。

如果这套框架真的泛化,我们可能会看到提示工程的一个分野:写规则的人,和写场景的人。后者的门槛更高,但产出的agent更可控。你现在的团队,prompt是谁在写?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
穆里尼奥眼中的艺术家,踢前腰也能拿欧冠铜靴,却屡次遭东家驱逐

穆里尼奥眼中的艺术家,踢前腰也能拿欧冠铜靴,却屡次遭东家驱逐

足篮大世界
2026-04-09 23:23:54
过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

夜深爱杂谈
2026-04-08 17:06:30
荷兰红灯区:在这里没有做不到,只有你想不到的大尺度

荷兰红灯区:在这里没有做不到,只有你想不到的大尺度

番外行
2026-03-21 13:03:00
特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

特朗普精力充沛,养生秘诀是吃大量阿司匹林,日常三餐吃麦当劳

南权先生
2026-04-04 05:05:03
古代皇帝为什么大都短命?有六个原因,换谁都活不久!

古代皇帝为什么大都短命?有六个原因,换谁都活不久!

冰语历史
2026-04-07 14:34:15
撒贝宁、张帅等拟获全国五一劳动奖章

撒贝宁、张帅等拟获全国五一劳动奖章

观察者网
2026-04-09 11:42:14
金莎双喜临门?穿娃娃衬衣领证,衣服宽松显肚子,小17岁老公贴心

金莎双喜临门?穿娃娃衬衣领证,衣服宽松显肚子,小17岁老公贴心

冷紫葉
2026-04-09 19:20:06
重磅利好!15万亿来了,能救2026年的楼市吗?

重磅利好!15万亿来了,能救2026年的楼市吗?

爱看剧的阿峰
2026-04-09 18:28:02
德转列自由球员身价榜:库蒂尼奥250万欧位居第三

德转列自由球员身价榜:库蒂尼奥250万欧位居第三

懂球帝
2026-04-09 20:32:45
16岁四肢瘫痪少女误买2000多元邓紫棋演唱会门票,平台不予退票,父亲急哭:女儿根本无法去看,这些钱是全家一个月的生活费

16岁四肢瘫痪少女误买2000多元邓紫棋演唱会门票,平台不予退票,父亲急哭:女儿根本无法去看,这些钱是全家一个月的生活费

大风新闻
2026-04-09 17:07:15
14万能买到2.5L中型SUV,丰田不降价马自达先扛不住了。

14万能买到2.5L中型SUV,丰田不降价马自达先扛不住了。

小怪吃美食
2026-04-09 17:42:08
薛之谦头皮灼伤起水泡、大片斑秃,硬撑一周不洗头只为不耽误演出

薛之谦头皮灼伤起水泡、大片斑秃,硬撑一周不洗头只为不耽误演出

观鱼听雨
2026-04-09 20:02:07
1950年蒋介石姐姐被判死刑,周总理求情无果:原来她还有另一身份

1950年蒋介石姐姐被判死刑,周总理求情无果:原来她还有另一身份

历史龙元阁
2026-04-08 17:50:10
伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

极目新闻
2026-04-09 01:03:19
日媒炒作赏樱地有“中文喧哗声”,不料日本人自己…

日媒炒作赏樱地有“中文喧哗声”,不料日本人自己…

观察者网
2026-04-09 15:54:18
阿斯:相比皇马6000万欧签马斯坦托诺,拜仁签奥利塞堪称捡漏

阿斯:相比皇马6000万欧签马斯坦托诺,拜仁签奥利塞堪称捡漏

懂球帝
2026-04-09 06:53:23
黄浦江一艘千吨货船失控,涨潮水流引发“漂移”,冲向十六铺码头游览船,上海警用艇果断处置,缆绳拖带避免重大水上事故

黄浦江一艘千吨货船失控,涨潮水流引发“漂移”,冲向十六铺码头游览船,上海警用艇果断处置,缆绳拖带避免重大水上事故

纵相新闻
2026-04-09 20:48:01
陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

可爱小菜
2026-04-09 22:15:26
贝林厄姆身价凭什么跌掉这么多?皇马的中场核心被高估了?

贝林厄姆身价凭什么跌掉这么多?皇马的中场核心被高估了?

体坛八点半的那些事儿
2026-04-09 20:45:01
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

古史青云啊
2026-04-07 14:52:09
2026-04-10 00:20:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
1002文章数 7关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

时尚
本地
教育
房产
旅游

越来越流行的松弛感穿搭,照着穿就很好看

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

教育要闻

终于有人把大英赛讲明白了考前1h都管用!!

房产要闻

利润暴跌44%!那个春节被骂惨了的海峡股份 正在经历什么?

旅游要闻

温州园博会来了!下高铁10分钟入园,100天免费逛

无障碍浏览 进入关怀版