网易首页 > 网易号 > 正文 申请入驻

47%的LLM团队在用"写死"的监控:改了提示词

0
分享至


你花了三周搭观测系统。链路追踪进Jaeger,指标进Grafana,告警进Slack。模型说了什么、耗时多久、花了多少钱,一清二楚。

然后你改了提示词。

模型变好了?变坏了?哪些输入出问题?你不知道。你的链路追踪是只写的——数据进去了,再也没出来过。生产数据躺在Jaeger里,从没变成测试用例。

我们搭了座桥,把追踪转成测试。跑自己数据时发现,一半链路片段是空的——因为recordContent默认关闭。专门用来提取测试数据的工具,什么都提取不到。

修好了。以下是完整工作流。

每个LLM团队都有的死循环

部署提示词v2,盯几小时仪表盘,"看起来正常,延迟差不多,没报错",继续干活。

"看起来正常"不是评估。你在检查系统健康——延迟、错误、成本——但没检查输出质量。模型可能返回明显更差的答案,你却不知道,因为你没有基于真实生产数据的回归测试。

做得好的团队有另一套循环:收集生产输入输出(追踪)→从真实流量提取测试用例→用新提示词跑这些输入→打分:v2比v1好吗?→放心部署。

第2到4步是评估框架做的事。问题是从第1步到第2步。你的追踪在Jaeger里,评估框架要YAML数据集。没人搭这座桥。

一条命令把Jaeger追踪变成测试集

npx toad-eye export-trace abc123def456

输出:✅ Exported trace abc123def456 → ./trace-abc123de.eval.yaml

生成的YAML长这样:

name: exported-trace-abc123de

source: toad-eye-export

metadata:

trace_id: abc123def456


exported_at: "2026-03-15T14:22:00.000Z"

model: gpt-4o

provider: openai

cases:

- id: production-case-1

variables:

input: "What are the side effects of ibuprofen?"

assertions:

- type: max_length

value: 1500

- type: not_contains

value: "i cannot"

- id: production-case-2

variables:

input: '{"action": "summarize", "text": "..."}'

assertions:

- type: max_length

value: 800


- type: is_json

value: true

一条追踪,多次LLM调用,每次变成一个测试用例。断言(assertions)是根据生产模型实际返回的内容自动生成的。

保守基线:抓退化,不抓优化

导出不只是复制输入输出。它分析生产响应,创建基线断言:

max_length:生产响应的长度。新响应更长?可能啰嗦了,触发警报。

not_contains:生产响应里没有的短语。新响应出现了?可能是拒绝回答或格式错乱。

is_json / contains:结构约束。生产输出是JSON?新输出也得是。

这些是保守基线——它们捕捉退化,不捕捉改进。v2可能好得多,但只要没破坏现有行为,测试就通过。这是故意的:先防止搞砸,再谈优化。

运行评估:npx toad-eye eval ./trace-abc123de.eval.yaml --prompt ./prompt-v2.txt

输出对比表:哪些用例通过、哪些失败、失败的具体差异。生产输入"ibuprofen副作用"在v1返回1500字,v2返回1800字,触发max_length断言。你需要决定:这是退化,还是更好的详细回答?

我们踩过的3个坑

坑1:recordContent默认关闭。Jaeger只存元数据,不存实际输入输出。工具设计来提取测试数据,结果提取到一堆空壳。修复:开recordContent,或者换能存内容的追踪后端。

坑2:生产数据有噪声。用户输入"asdfgh",模型返回"我不理解"。这种用例进测试集没意义。修复:加过滤规则,只导出有明确意图的交互。

坑3:断言太松漏掉真问题,太严误报。修复:从保守开始,人工审核失败案例,逐步收紧。

从"看起来正常"到"知道正常"

这套工作流的核心是缩小"能观测"和"能评估"的 gap。大多数团队卡在中间:看得见,但不敢改。

我们内部跑了一个月。提示词迭代从"改完祈祷"变成"改完跑测试"。一次v3版本,测试显示15%的生产用例触发not_contains断言——新提示词在某些边缘问题上开始说"我无法回答"。回滚,修提示词,重跑,通过,部署。

没这套工具,这15%的问题可能几周后才被用户投诉发现。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了?

美国发出全球通缉令,逮捕中国芯片科学家陈正坤,现在怎么样了?

观察者小海风
2026-03-30 14:55:36
韩媒:我们已不配跟日本相比了,现在只能在中国队身上寻找安慰了

韩媒:我们已不配跟日本相比了,现在只能在中国队身上寻找安慰了

体坛风之子
2026-03-30 04:30:03
郑丽文获邀访问中国大陆,蒋万安出来表态了!

郑丽文获邀访问中国大陆,蒋万安出来表态了!

有态度的何总
2026-03-30 21:10:38
郑丽文称两岸不是终须一战,卢秀燕紧急切割:个人意见不代表全部

郑丽文称两岸不是终须一战,卢秀燕紧急切割:个人意见不代表全部

立刻受到开始的覅
2026-03-31 05:16:09
伊朗镇压抗议关键人物被击毙 以色列空袭直指核心层

伊朗镇压抗议关键人物被击毙 以色列空袭直指核心层

桂系007
2026-03-30 05:43:28
为什么我劝中国大妈少戴“丝巾”?看完这3组对比图,你就明白了

为什么我劝中国大妈少戴“丝巾”?看完这3组对比图,你就明白了

叮当当科技
2026-03-31 04:23:47
香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

深度解析热点
2026-02-13 11:55:13
俄警告韩国勿向乌提供致命性武器

俄警告韩国勿向乌提供致命性武器

财联社
2026-03-29 09:30:26
中年人的“穷鬼乐园”爆火半年即凉,50万投资30天没生意

中年人的“穷鬼乐园”爆火半年即凉,50万投资30天没生意

豆腐脑观察局
2026-03-30 06:30:03
张雪峰为何被公知攻击?项立刚的评价一针见血:他爱国,还挣了钱

张雪峰为何被公知攻击?项立刚的评价一针见血:他爱国,还挣了钱

谈史论天地
2026-03-29 13:30:50
内置小米澎湃秒充协议,为米粉而来!制糖工厂正式发布 2026 款硬糖 C³ Pro

内置小米澎湃秒充协议,为米粉而来!制糖工厂正式发布 2026 款硬糖 C³ Pro

爱范儿
2026-03-30 14:39:10
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
40年等一回!伊拉克主帅自曝:带这支球队冲世界杯,难到睡不着觉

40年等一回!伊拉克主帅自曝:带这支球队冲世界杯,难到睡不着觉

有态度的体育小白
2026-03-31 05:11:45
户外一姐唐艺惊现意外走光,粉丝为何越看越上头?

户外一姐唐艺惊现意外走光,粉丝为何越看越上头?

娱乐领航家
2026-03-12 22:00:04
56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

老猫观点
2026-03-19 08:35:09
于东来婉拒市长饭局!

于东来婉拒市长饭局!

李万卿
2026-03-30 14:42:16
如果江苏女排夺冠,中国女排真要变成“江苏队”了?

如果江苏女排夺冠,中国女排真要变成“江苏队”了?

林子说事
2026-03-30 17:25:43
莱因克尔:阿森纳的国脚纷纷退出,阿尔特塔在效仿当年的弗格森

莱因克尔:阿森纳的国脚纷纷退出,阿尔特塔在效仿当年的弗格森

懂球帝
2026-03-31 00:42:06
简直就是本人!国外大叔cos生化9里昂堪称百分百还原

简直就是本人!国外大叔cos生化9里昂堪称百分百还原

游民星空
2026-03-30 17:15:44
雪上加霜,勇士队在负于掘金队的比赛中失去了波斯特,他脚伤离场

雪上加霜,勇士队在负于掘金队的比赛中失去了波斯特,他脚伤离场

好火子
2026-03-31 04:35:41
2026-03-31 07:20:49
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
439文章数 3关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

白宫:特朗普希望4月6日前与伊朗达成协议

头条要闻

白宫:特朗普希望4月6日前与伊朗达成协议

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

教育
艺术
亲子
房产
手机

教育要闻

我为什么对张雪峰老师推崇备至?

艺术要闻

这父子俩的花鸟,堪称一绝

亲子要闻

父母学会放手么?孩子长大,父母应该放手么

房产要闻

重磅!番禺20宗涉宅地亮相,万博CBD宅地将上新!

手机要闻

曝苹果影像测试的新Sensor基本确定1/1.12",超广角也考虑增强

无障碍浏览 进入关怀版