网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI用户花3周搭监控，改完提示词才发现数据全白存

2026-03-30 13:05:07　来源: 固件更新中

北京举报

0

分享至

你的大模型应用跑了3周，Jaeger（分布式追踪系统）里堆了上万条调用记录，Grafana（数据可视化平台）仪表盘亮着绿灯，Slack群安静得像深夜的机房。然后你改了提示词——v2上线，没人知道答案是变好了还是更糟了。

这不是监控失效，是监控只完成了一半。

原文作者团队踩过这个坑：他们用自家工具导出生产数据准备做回归测试，结果50%的span（追踪单元）是空的——因为recordContent默认关闭。设计用来提取测试数据的工具，连数据都读不到。修完这个bug，他们才意识到更深层的问题：整个行业都在"写只读"地处理LLM追踪数据。

监控仪表盘是安慰剂

几乎每个LLM团队的部署流程都一样：推v2，盯几小时仪表盘，延迟差不多，没报错，收工。作者管这叫"看起来没事"式评估——你检查的是系统健康，不是输出质量。模型可能在返回更差的答案，只是差得不够明显，不会触发告警。

真正有效的团队有另一套循环：收集生产输入输出→从中提取测试用例→新提示词跑旧数据→打分对比→有信心地部署。步骤2到4是评估框架做的事，但步骤1到2之间缺一座桥。

你的追踪存在Jaeger，评估框架要YAML数据集。没人建这座桥，所以生产数据永远躺在那里，变不成测试。

一条命令把追踪变成测试集

作者团队做的工具叫toad-eye，核心就一条CLI命令：

npx toad-eye export-trace abc123def456

输出直接是评估框架能读的YAML。一条追踪里多个LLM调用，每个变成一个测试用例。断言不是凭空写的，是分析生产响应自动生成的——长度上限、JSON格式检查、禁用词过滤，都是基于模型实际返回的内容。

这些基线是保守的：它们能抓回归，抓不了改进。但"没变坏"已经是v2上线的最低门槛，而大多数团队连这个都没做到。

为什么我们默认关掉内容记录

那个50%空span的bug很有意思。recordContent默认关闭，可能是出于成本或隐私考虑，但结果就是：你想做评估的时候，发现数据仓库是空的。

这像买了保险箱却忘了放东西进去。更讽刺的是，团队花了3周搭observability（可观测性）体系，最后能回答的只有一个问题："服务有没有挂？"至于"模型有没有变笨"，仪表盘沉默如谜。

作者的原话很扎心："You observe but never evaluate." 你观测，但从不评估。生产数据是写只读的。

现在他们每天导出生产追踪，自动转成回归测试。v2上线前跑一遍，数字说话。这流程不性感，但解决了那个最基础的焦虑：改完提示词，我怎么知道没搞砸？

你的团队是怎么处理这个问题的——有把追踪数据真正用起来，还是也在"写只读"地存着？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

UCSD 推出 AIBuildAI 智能体，斩获OpenAI MLE-Bench榜单第一

机器之心Pro 2026-03-30 13:03:41
0 跟贴 0
微软推出“多模协作”深度研究智能体 GPT与Claude并肩干活

财联社 2026-03-31 00:29:27
0 跟贴 0

DeepMind之父惊人自白：我造的AI可能灭绝人类，但已无人能停下

新智元 2026-03-30 21:26:17
0 跟贴 0

Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

机器之心Pro 2025-10-20 14:17:05
0 跟贴 0
最新研究戳穿AI写代码的致命骗局：越改越烂，连人类屎山都打不过！

钛媒体APP 2026-03-30 11:05:10
252 跟贴 252

DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

机器之心Pro 2026-02-11 13:45:57
0 跟贴 0

全球OCR新王来自中国开源！GitHub狂揽73300+Star

量子位 2026-03-30 22:11:02
0 跟贴 0
跨越AI鸿沟：构建企业AI应用价值评估体系

钛媒体APP 2026-03-30 22:33:09
0 跟贴 0

行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
99%做硬件的老方法注定是死局

虎嗅APP 2026-03-31 00:22:12
0 跟贴 0
以人为本的AI对用户而言才是最有用的AI

每日经济新闻 2026-03-14 13:16:04
0 跟贴 0
高通万卫星谈终端大模型优势：个性化与数据推理

量子位 2025-12-11 03:38:41
0 跟贴 0
韩国团队花3年追踪200只猫：7个数据让铲屎官集体破防

赛博兰博 2026-03-29 08:23:50
7 跟贴 7
外网热议JKL与Tian回归TES：2024版阵容重聚，期待与争议并存

囧王者 2026-03-29 19:22:11
1 跟贴 1
房价还会不会回到历史前高？

流苏晚晴 2026-03-30 18:12:58
22 跟贴 22
孩子过敏总不好？医生：别天天消毒，多回归大自然

看晓天下事 2026-03-30 15:25:30
0 跟贴 0
四两拨千斤，伊朗假情报抓“内鬼”

老鹰哥 2026-03-29 20:30:09
0 跟贴 0
小天回归TES，之前的言论被网友扒出，曾直言不会再回去

新游戏大妹子 2026-03-30 11:38:30
5 跟贴 5
没文化真可怕，看似删除操作，实则数据存取

墨林电影 2026-03-27 10:35:59
1 跟贴 1
中东战局惊天逆转！伊朗强势猛攻，以色列伤亡数据刷新历史纪录

夫君在哪 2026-03-29 01:57:56
8 跟贴 8
中方决定对日本国会众议员古屋圭司采取反制措施

央视新闻客户端 2026-03-30 10:43:13
2128 跟贴 2128
打破代码大模型训练瓶颈：MicroCoder将算法数据框架训练经验升级

量子位 2026-03-29 23:51:02
0 跟贴 0
“直接崩了，一天掉了一百多元！”有人疯狂抛售，国际巨头接连发布新技术……格局将被改变？

都市快报橙柿互动 2026-03-29 12:26:05
1678 跟贴 1678
保定一小店售卖咸菜丝烧饼意外爆火，排队人数太多店铺宣布暂停营业，店主：流量太大了，我们承接不住，也担心影响烧饼品质

极目新闻 2026-03-26 22:43:02
1721 跟贴 1721
媒体：郑丽文受邀访大陆核心原因从当前局势看不难猜

看看新闻Knews 2026-03-30 22:31:04
344 跟贴 344
真实体验，15年油车用户换电车，哪好哪差？

闫闯说车 2026-03-26 15:12:29
0 跟贴 0
汽车仪表盘出现乌龟标志，很多人都不懂继续往前开，是很危险的

大神修理 2026-03-28 14:20:25
1 跟贴 1
QVGen让「超低比特视频生成量化」真正可用！

机器之心Pro 2026-02-25 18:07:24
0 跟贴 0
湖人同期战绩联盟第一，多项数据前列

正经球迷 2026-03-30 19:12:36
4 跟贴 4
中国将在长江水下开高铁

环球网资讯 2026-03-30 09:38:29
1150 跟贴 1150
上海男篮的难题又来了！

新民晚报 2026-03-30 10:42:17
378 跟贴 378
山东设立中小学春秋假期:原则上每次3天，安排在每学期期中前后

齐鲁壹点 2026-03-30 20:46:10
593 跟贴 593
美国如果发动地面战本次战事军费或突破10万亿美元

都市快报橙柿互动 2026-03-30 13:49:54
1014 跟贴 1014
印度又官宣自研五代机！17年就憋出个模型，能赶超中美俄吗？

浩然简史 2026-03-28 16:39:42
0 跟贴 0
太心疼！全红婵谈体重时哽咽：“我接受不了那么胖的自己”

上观新闻 2026-03-30 13:07:07
903 跟贴 903
交通运输部检查指导组在吉林检查时发现“百吨王”多发频发

界面新闻 2026-03-30 11:14:13
42 跟贴 42
孙少军：问界M6订单超预期，非华为用户占比超过50%！

风蛍月缓缓 2026-03-29 05:08:39
1 跟贴 1
服务行业考虑用户感受，不喜欢可以不做，这样式的员工我打过3个

酷酷的小生活 2026-03-29 08:44:47
0 跟贴 0
“杭州六小龙”第一股来了！浙大校友创业，年入8亿冲刺IPO

量子位 2026-03-30 16:50:46
0 跟贴 0

逐玉最大反转：最深情的不是谢征，是藏了一辈子暗恋的混混金元宝

逐玉最大反转：最深情的不是谢征，是藏了一辈子暗恋的混混金元宝

一窥究竟

2026-03-30 10:08:12

四川省委金融工委专职副书记王岩辞拟任正厅级领导职务

四川省委金融工委专职副书记王岩辞拟任正厅级领导职务

汲古知新

2026-03-30 14:22:31

令人心碎，维拉女足球员卡恩斯不幸流产，男友是卢顿球员

令人心碎，维拉女足球员卡恩斯不幸流产，男友是卢顿球员

懂球帝

2026-03-30 15:09:07

电力被炸，伊朗红线遭美以践踏：危急时刻，两大盟友表态出兵支援

电力被炸，伊朗红线遭美以践踏：危急时刻，两大盟友表态出兵支援

乐天闲聊

2026-03-30 14:47:14

网贷行业，天塌了！

鸣金网

2026-03-30 19:19:02

KTV聚会照被疯传!郭麒麟认了是本人！严浩翔私生公开小号关注列表

KTV聚会照被疯传!郭麒麟认了是本人！严浩翔私生公开小号关注列表

观察鉴娱

2026-03-28 09:22:06

预售订单破 3.5万！全新QQ3上市价会比预售价低3000吗？

预售订单破 3.5万！全新QQ3上市价会比预售价低3000吗？

车毂轆

2026-03-30 10:18:24

红旗HS6 PHEV低调上市，17.88万起的中大型插混SUV到底值不值？

红旗HS6 PHEV低调上市，17.88万起的中大型插混SUV到底值不值？

EV世纪

2025-12-17 13:31:07

韭菜是血栓的克星?医生告诫:不想血管堵塞，少吃这4种菜

韭菜是血栓的克星?医生告诫:不想血管堵塞，少吃这4种菜

岐黄传人孙大夫

2026-03-22 14:17:08

何超莲晒与何超琼合照，同父异母姐妹情深，两人相差29岁

何超莲晒与何超琼合照，同父异母姐妹情深，两人相差29岁

小冠说娱

2026-03-28 03:02:32

中国游客到朝鲜游玩，朝鲜人充满疑问：为什么中国人是这样的？

中国游客到朝鲜游玩，朝鲜人充满疑问：为什么中国人是这样的？

蜉蝣说

2026-03-28 18:26:48

四大运营商合并，要提上议程了？

四大运营商合并，要提上议程了？

最通信

2026-03-28 20:27:43

张本智和父亲公开叫板：希望中国人别骂我儿子，他很受日本人尊重

张本智和父亲公开叫板：希望中国人别骂我儿子，他很受日本人尊重

拳击时空

2026-03-30 06:19:57

中国斩钉截铁，就是要日本赔罪，军官侵馆第4天，防卫大臣行动了

中国斩钉截铁，就是要日本赔罪，军官侵馆第4天，防卫大臣行动了

老谢谈史

2026-03-29 01:20:29

32岁生日无人问津，娱乐圈的“看人下菜碟”，在王嘉尔身上应验了

32岁生日无人问津，娱乐圈的“看人下菜碟”，在王嘉尔身上应验了

八斗小先生

2026-03-29 18:25:34

创历史！张雪机车WSBK夺冠，背后资本宏昌科技20cm涨停

创历史！张雪机车WSBK夺冠，背后资本宏昌科技20cm涨停

21世纪经济报道

2026-03-30 15:28:39

巴西一载有286人的空客A330客机起飞后发动机爆炸，飞行员随即返航并实施紧急迫降，部分碎片坠落至机场草地引发火情，机上人员无人伤亡

巴西一载有286人的空客A330客机起飞后发动机爆炸，飞行员随即返航并实施紧急迫降，部分碎片坠落至机场草地引发火情，机上人员无人伤亡

潇湘晨报

2026-03-30 21:50:13

原来他们是夫妻，《冬去春来》他又火了，其貌不扬却娶了美女老婆

原来他们是夫妻，《冬去春来》他又火了，其貌不扬却娶了美女老婆

娱君坠星河

2026-03-29 10:35:08

特朗普万万没想到！美伊大战没打垮伊朗，高市早苗的日元先崩了？

特朗普万万没想到！美伊大战没打垮伊朗，高市早苗的日元先崩了？

花小猫的美食日常

2026-03-30 17:34:15

39岁萧敬腾和老婆现身巴塞罗那街头，颜值比较一般，还没路人帅

39岁萧敬腾和老婆现身巴塞罗那街头，颜值比较一般，还没路人帅

TVB的四小花

2026-03-29 15:20:31

固件更新中

有态度网友ytd

840文章数 5关注度

往期回顾全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

特朗普：对伊朗袭击以炼油厂的回应“很快到来”

头条要闻

特朗普：对伊朗袭击以炼油厂的回应“很快到来”

体育要闻

想进世界杯，意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了，每天只吃一顿饭

财经要闻

本轮地缘冲突，A股凭什么走出独立行情

汽车要闻

限时12.58万起银河星耀8远航家系列上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

健康

房产

公开课

军事航空

教育要闻

静待花开：一位母亲与青春期儿子的“破冰”之旅——林亭亭家教好故事

干细胞抗衰4大误区,90%的人都中招

房产要闻

重磅！番禺20宗涉宅地亮相，万博CBD宅地将上新！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

第三艘航母出动数千名士兵抵达美军大举增兵中东战场

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版