网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

47%的LLM团队在用"写死"的监控：改了提示词

2026-03-30 13:00:40　来源: 爬虫饲养员

北京举报

0

分享至

你花了三周搭观测系统。链路追踪进Jaeger，指标进Grafana，告警进Slack。模型说了什么、耗时多久、花了多少钱，一清二楚。

然后你改了提示词。

模型变好了？变坏了？哪些输入出问题？你不知道。你的链路追踪是只写的——数据进去了，再也没出来过。生产数据躺在Jaeger里，从没变成测试用例。

我们搭了座桥，把追踪转成测试。跑自己数据时发现，一半链路片段是空的——因为recordContent默认关闭。专门用来提取测试数据的工具，什么都提取不到。

修好了。以下是完整工作流。

每个LLM团队都有的死循环

部署提示词v2，盯几小时仪表盘，"看起来正常，延迟差不多，没报错"，继续干活。

"看起来正常"不是评估。你在检查系统健康——延迟、错误、成本——但没检查输出质量。模型可能返回明显更差的答案，你却不知道，因为你没有基于真实生产数据的回归测试。

做得好的团队有另一套循环：收集生产输入输出（追踪）→从真实流量提取测试用例→用新提示词跑这些输入→打分：v2比v1好吗？→放心部署。

第2到4步是评估框架做的事。问题是从第1步到第2步。你的追踪在Jaeger里，评估框架要YAML数据集。没人搭这座桥。

一条命令把Jaeger追踪变成测试集

npx toad-eye export-trace abc123def456

输出：✅ Exported trace abc123def456 → ./trace-abc123de.eval.yaml

生成的YAML长这样：

name: exported-trace-abc123de

source: toad-eye-export

metadata:

trace_id: abc123def456

exported_at: "2026-03-15T14:22:00.000Z"

model: gpt-4o

provider: openai

cases:

- id: production-case-1

variables:

input: "What are the side effects of ibuprofen?"

assertions:

- type: max_length

value: 1500

- type: not_contains

value: "i cannot"

- id: production-case-2

variables:

input: '{"action": "summarize", "text": "..."}'

assertions:

- type: max_length

value: 800

- type: is_json

value: true

一条追踪，多次LLM调用，每次变成一个测试用例。断言（assertions）是根据生产模型实际返回的内容自动生成的。

保守基线：抓退化，不抓优化

导出不只是复制输入输出。它分析生产响应，创建基线断言：

max_length：生产响应的长度。新响应更长？可能啰嗦了，触发警报。

not_contains：生产响应里没有的短语。新响应出现了？可能是拒绝回答或格式错乱。

is_json / contains：结构约束。生产输出是JSON？新输出也得是。

这些是保守基线——它们捕捉退化，不捕捉改进。v2可能好得多，但只要没破坏现有行为，测试就通过。这是故意的：先防止搞砸，再谈优化。

运行评估：npx toad-eye eval ./trace-abc123de.eval.yaml --prompt ./prompt-v2.txt

输出对比表：哪些用例通过、哪些失败、失败的具体差异。生产输入"ibuprofen副作用"在v1返回1500字，v2返回1800字，触发max_length断言。你需要决定：这是退化，还是更好的详细回答？

我们踩过的3个坑

坑1：recordContent默认关闭。Jaeger只存元数据，不存实际输入输出。工具设计来提取测试数据，结果提取到一堆空壳。修复：开recordContent，或者换能存内容的追踪后端。

坑2：生产数据有噪声。用户输入"asdfgh"，模型返回"我不理解"。这种用例进测试集没意义。修复：加过滤规则，只导出有明确意图的交互。

坑3：断言太松漏掉真问题，太严误报。修复：从保守开始，人工审核失败案例，逐步收紧。

从"看起来正常"到"知道正常"

这套工作流的核心是缩小"能观测"和"能评估"的 gap。大多数团队卡在中间：看得见，但不敢改。

我们内部跑了一个月。提示词迭代从"改完祈祷"变成"改完跑测试"。一次v3版本，测试显示15%的生产用例触发not_contains断言——新提示词在某些边缘问题上开始说"我无法回答"。回滚，修提示词，重跑，通过，部署。

没这套工具，这15%的问题可能几周后才被用户投诉发现。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

企微开源“养虾大杀器”！AI可接管消息、日程、文档，12个Skill一次放出

智东西 2026-03-30 15:51:28
0 跟贴 0
打破代码大模型训练瓶颈：MicroCoder将算法数据框架训练经验升级

量子位 2026-03-29 23:51:02
0 跟贴 0

QVGen让「超低比特视频生成量化」真正可用！

机器之心Pro 2026-02-25 18:07:24
0 跟贴 0

DeepSeek崩溃10小时，这是好事啊，梁文锋得为V4冲击波做好准备

钛媒体APP 2026-03-30 18:10:32
24 跟贴 24
前端大神Cheng Lou新项目火了!文字绕图玩法,Bad Apple新版火出圈

机器之心Pro 2026-03-30 15:03:58
0 跟贴 0

整个公司一起吃虾！这个开源项目，让OpenClaw实现企业级部署

量子位 2026-03-30 16:43:07
1 跟贴 1

大模型解剖图火了，30多个开源模型架构差异一目了然，还可接入AI

DeepTech深科技 2026-03-16 17:33:15
18 跟贴 18
Notion用户把待办清单玩成RPG：3天搭建一套游戏化系统

硬核玩家2哈 2026-03-30 12:29:33
0 跟贴 0

最新研究戳穿AI写代码的致命骗局：越改越烂，连人类屎山都打不过！

钛媒体APP 2026-03-30 11:05:10
375 跟贴 375
AI时代，重做ERP

钛媒体APP 2025-10-13 10:30:10
7 跟贴 7
全球OCR新王来自中国开源！GitHub狂揽73300+Star

量子位 2026-03-30 22:11:02
3 跟贴 3
Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

机器之心Pro 2025-10-20 14:17:05
0 跟贴 0
没文化真可怕，看似删除操作，实则数据存取

墨林电影 2026-03-27 10:35:59
1 跟贴 1
DeepSeek崩了一晚仍未修复官方尚未回应

第一财经 2026-03-30 08:57:19
31838 跟贴 31838
VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

机器之心Pro 2026-02-02 17:10:55
0 跟贴 0
韩国团队花3年追踪200只猫：7个数据让铲屎官集体破防

赛博兰博 2026-03-29 08:23:50
7 跟贴 7
早于DeepSeek Engram！用「查表」重置Transformer记忆 | ICLR

新智元 2026-03-30 21:26:03
0 跟贴 0
四两拨千斤，伊朗假情报抓“内鬼”

老鹰哥 2026-03-29 20:30:09
0 跟贴 0
谷歌面试官：5年经验工程师在这5道题上翻车率超60%

固件更新中 2026-03-27 10:32:58
0 跟贴 0
媒体：郑丽文受邀访大陆核心原因从当前局势看不难猜

看看新闻Knews 2026-03-30 22:31:04
1119 跟贴 1119
Excel被唱衰20年，全球87%项目经理却偷偷用它

像素与芯片 2026-03-30 14:08:50
0 跟贴 0
十字路口全装探头，美国车主行踪乱套了，一句话：你正被实时监控

阅尽天下精彩 2026-03-28 22:13:26
0 跟贴 0
72小时，前卫防空导弹双杀：2万美元成本打下F-18，美军痛心不已

军武时间线 2026-03-28 15:53:11
1 跟贴 1
打工人的重复内容清理指南：四招搞定，亲测好用

深情小崽 2026-03-30 17:36:53
0 跟贴 0
真实体验，15年油车用户换电车，哪好哪差？

闫闯说车 2026-03-26 15:12:29
0 跟贴 0
DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

机器之心Pro 2026-02-11 13:45:57
0 跟贴 0
湖人同期战绩联盟第一，多项数据前列

正经球迷 2026-03-30 19:12:36
4 跟贴 4
别再乱种地了！这5种作物才是“赚钱王”成本低好管理种上就丰收

木歌总攻大人 2026-03-30 04:29:07
0 跟贴 0
微软推出“多模协作”深度研究智能体 GPT与Claude并肩干活

财联社 2026-03-31 00:29:27
0 跟贴 0
人大林衍凯教授：OpenClaw就像早期Linux，真正的竞争才刚开始

机器之心Pro 2026-03-30 15:29:06
1 跟贴 1
跨越AI鸿沟：构建企业AI应用价值评估体系

钛媒体APP 2026-03-30 22:33:09
0 跟贴 0
他把标枪投出恐怖的104米，吓得国际田联连夜修改规则！

温柔度 2026-03-29 08:32:17
0 跟贴 0
交通运输部检查指导组在吉林检查时发现“百吨王”多发频发

界面新闻 2026-03-30 11:14:13
54 跟贴 54
孙少军：问界M6订单超预期，非华为用户占比超过50%！

风蛍月缓缓 2026-03-29 05:08:39
1 跟贴 1
汪峰章子怡抚养权终落定，探视规则引热议

随梦而飞起 2026-03-29 09:55:12
1 跟贴 1
上海男篮的难题又来了！

新民晚报 2026-03-30 10:42:17
510 跟贴 510
从“翻红”到“代言”：金典如何教科书式地接住泼天流量？

营销兵法 2026-03-30 18:51:45
1 跟贴 1
服务行业考虑用户感受，不喜欢可以不做，这样式的员工我打过3个

酷酷的小生活 2026-03-29 08:44:47
0 跟贴 0
刚谈完就变脸！中美会谈刚落幕，特朗普放话：中国将翻倍买大豆

书写传奇 2026-03-31 04:21:32
0 跟贴 0
“物理AI第一股”五一视界董事长李熠：商业模式将从仿真软件销售转型为“物理AI工厂”

每日经济新闻 2026-03-30 21:53:05
0 跟贴 0

美国发出全球通缉令，逮捕中国芯片科学家陈正坤，现在怎么样了？

美国发出全球通缉令，逮捕中国芯片科学家陈正坤，现在怎么样了？

观察者小海风

2026-03-30 14:55:36

韩媒：我们已不配跟日本相比了，现在只能在中国队身上寻找安慰了

韩媒：我们已不配跟日本相比了，现在只能在中国队身上寻找安慰了

体坛风之子

2026-03-30 04:30:03

郑丽文获邀访问中国大陆，蒋万安出来表态了！

郑丽文获邀访问中国大陆，蒋万安出来表态了！

有态度的何总

2026-03-30 21:10:38

郑丽文称两岸不是终须一战，卢秀燕紧急切割：个人意见不代表全部

郑丽文称两岸不是终须一战，卢秀燕紧急切割：个人意见不代表全部

立刻受到开始的覅

2026-03-31 05:16:09

伊朗镇压抗议关键人物被击毙以色列空袭直指核心层

伊朗镇压抗议关键人物被击毙以色列空袭直指核心层

桂系007

2026-03-30 05:43:28

为什么我劝中国大妈少戴“丝巾”？看完这3组对比图，你就明白了

为什么我劝中国大妈少戴“丝巾”？看完这3组对比图，你就明白了

叮当当科技

2026-03-31 04:23:47

香港艳星下嫁山东农村，曾不雅照满天飞，现状曝光，生了一个儿子

香港艳星下嫁山东农村，曾不雅照满天飞，现状曝光，生了一个儿子

深度解析热点

2026-02-13 11:55:13

俄警告韩国勿向乌提供致命性武器

俄警告韩国勿向乌提供致命性武器

财联社

2026-03-29 09:30:26

中年人的“穷鬼乐园”爆火半年即凉，50万投资30天没生意

中年人的“穷鬼乐园”爆火半年即凉，50万投资30天没生意

豆腐脑观察局

2026-03-30 06:30:03

张雪峰为何被公知攻击？项立刚的评价一针见血：他爱国，还挣了钱

张雪峰为何被公知攻击？项立刚的评价一针见血：他爱国，还挣了钱

谈史论天地

2026-03-29 13:30:50

内置小米澎湃秒充协议，为米粉而来！制糖工厂正式发布 2026 款硬糖 C³ Pro

内置小米澎湃秒充协议，为米粉而来！制糖工厂正式发布 2026 款硬糖 C³ Pro

爱范儿

2026-03-30 14:39:10

59岁巩俐身材引热议，外套都快撑不住丰腴身材了，却被夸少女体态

59岁巩俐身材引热议，外套都快撑不住丰腴身材了，却被夸少女体态

一盅情怀

2026-03-16 16:52:57

40年等一回！伊拉克主帅自曝：带这支球队冲世界杯，难到睡不着觉

40年等一回！伊拉克主帅自曝：带这支球队冲世界杯，难到睡不着觉

有态度的体育小白

2026-03-31 05:11:45

户外一姐唐艺惊现意外走光，粉丝为何越看越上头？

户外一姐唐艺惊现意外走光，粉丝为何越看越上头？

娱乐领航家

2026-03-12 22:00:04

56岁虞美人集团董事长与26岁男友大婚：陪嫁5000万，男方身份被扒

56岁虞美人集团董事长与26岁男友大婚：陪嫁5000万，男方身份被扒

老猫观点

2026-03-19 08:35:09

于东来婉拒市长饭局！

李万卿

2026-03-30 14:42:16

如果江苏女排夺冠，中国女排真要变成“江苏队”了？

如果江苏女排夺冠，中国女排真要变成“江苏队”了？

林子说事

2026-03-30 17:25:43

莱因克尔：阿森纳的国脚纷纷退出，阿尔特塔在效仿当年的弗格森

莱因克尔：阿森纳的国脚纷纷退出，阿尔特塔在效仿当年的弗格森

懂球帝

2026-03-31 00:42:06

简直就是本人!国外大叔cos生化9里昂堪称百分百还原

简直就是本人!国外大叔cos生化9里昂堪称百分百还原

游民星空

2026-03-30 17:15:44

雪上加霜，勇士队在负于掘金队的比赛中失去了波斯特，他脚伤离场

雪上加霜，勇士队在负于掘金队的比赛中失去了波斯特，他脚伤离场

好火子

2026-03-31 04:35:41

爬虫饲养员

业余养了只叫“龙虾”的AI爬虫，主业是给互联网打工。

439文章数 3关注度

往期回顾全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

白宫：特朗普希望4月6日前与伊朗达成协议

头条要闻

白宫：特朗普希望4月6日前与伊朗达成协议

体育要闻

想进世界杯，意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了，每天只吃一顿饭

财经要闻

本轮地缘冲突，A股凭什么走出独立行情

汽车要闻

限时12.58万起银河星耀8远航家系列上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

艺术

亲子

房产

手机

教育要闻

我为什么对张雪峰老师推崇备至？

艺术要闻

这父子俩的花鸟，堪称一绝

亲子要闻

父母学会放手么？孩子长大，父母应该放手么

房产要闻

重磅！番禺20宗涉宅地亮相，万博CBD宅地将上新！

手机要闻

曝苹果影像测试的新Sensor基本确定1/1.12"，超广角也考虑增强

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版