网易首页 > 网易号 > 正文 申请入驻

OpenTelemetry追了3年LLM,生产环境该崩还是崩

0
分享至


2024年,OpenTelemetry终于把LLM(大语言模型)的调用链路纳入了标准化追踪体系。Spans、Traces、生成式AI的语义约定——这些确实解决了"黑盒"问题。但如果你在生产环境跑过AI系统,会发现一个尴尬的事实:你能看见问题了,但问题还在那

凌晨2点,Grafana仪表盘飘红。LLM输出了一条幻觉答案,你的PagerDuty响了。你看到了完整的调用链——哪个模型、多少token、响应延迟237毫秒。然后呢?你手动改prompt,重新部署,祈祷下次别崩。

这就是现状。观测不等于修复。

Tracing能给的,和不能给的

OpenTelemetry for LLMs确实提供了几样好东西:输入输出内容、token消耗、延迟分布、模型版本追踪。对于调试和成本分析,这够用了。

但它给不了这些:

• 幻觉检测(在答案到达用户之前)

• 自动重试(当事实性校验失败时)

• 成本熔断(在推理账单爆炸前拦截)

• 安全阻断(不只是记录"这条回复有毒")

你仍然是那个校正层。人形防火墙,盯着屏幕做判断。

我在医疗收入周期、电网智能、基因组学这些受监管行业做了两年AI系统。这些不是实验室。团队砸重金做日志和追踪,仪表盘漂亮得像艺术品。但LLM在生产环境抽风时,修复流程依然是手动的、慢速的、事故驱动的。

缺口不在观测层,在输出层的自治校正。

没人做,那就自己造

ARGUS(Autonomous Runtime Guardian for Unified Systems)是一个开源LLM可观测平台,比追踪多走了一层。它对LLM输出做六个维度的实时评估:


事实性(答案是否基于提供的上下文)

相关性(是否回答了用户真正问的东西)

安全性(毒性、偏见、合规风险)

成本效率(token消耗是否合理)

延迟稳定性(响应时间是否漂移)

结构化输出有效性(JSON/Schema是否合规)

对于Agent系统,再加三个信号:工具调用成功率、多步任务完成度、状态一致性。

当某个维度跌破阈值,ARGUS不只是记一笔。它触发校正循环。

架构很直接:LLM调用 → ARGUS评估层 → 各维度通过/失败 → 失败则进入自治校正循环(prompt重写+重试)→ 校正后的输出 → 你的应用。

观测层是开源核心(argus-ai on PyPI)。自治校正循环是企业部署的专有层。两者可以组合:ARGUS的评估结果可以作为span灌进OTel collector,基础设施健康和输出质量在同一根trace里。

4.1亿美元收购背后的教训

在R1 RCM,我主导的工程工作最终贡献了一笔41亿美元的收购。支撑这笔交易的AI系统处理了数百万条医疗理赔。LLM出错时,不只是用户体验问题——是合规风险、是财务损失、是监管审查。

我们当时的观测堆栈很完善。但校正动作永远滞后。工程师被训练成"看见问题→人工介入→修复部署"的模式。这种模式在日均百万次调用的规模下,成本是burnout和事故。

ARGUS的设计哲学来自这个痛点:观测应该闭环,而不是开环。

开源社区对OpenTelemetry的兴奋是真实的。标准化追踪降低了接入成本,这是基础设施层面的进步。但如果你正在生产环境跑LLM,需要问自己的是:当仪表盘告诉你"有问题"之后,你的系统能自己修好吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本1-0苏格兰!热身赛4连胜 伊东纯也替补绝杀 3天后过招英格兰

日本1-0苏格兰!热身赛4连胜 伊东纯也替补绝杀 3天后过招英格兰

我爱英超
2026-03-29 05:50:02
陈牧驰陈冰官宣得子,晒一家三口握拳照好幸福,男方曾因争议崩溃

陈牧驰陈冰官宣得子,晒一家三口握拳照好幸福,男方曾因争议崩溃

扒虾侃娱
2026-03-28 19:21:35
特朗普:战争总会有意外,“有些本应打赢的战争却输了”,北约这次不帮美国,美国以后也不会帮北约!德国总理默茨:美以已“越陷越深”

特朗普:战争总会有意外,“有些本应打赢的战争却输了”,北约这次不帮美国,美国以后也不会帮北约!德国总理默茨:美以已“越陷越深”

每日经济新闻
2026-03-28 14:59:40
湖南省高院明确定性“错判”的刑案,长沙司法系统为何死扛到底?

湖南省高院明确定性“错判”的刑案,长沙司法系统为何死扛到底?

塔子山评说
2026-03-28 14:43:49
太原一高层建筑外立面起火致25伤,明火已被扑灭,有救援人员仍在楼内搜救

太原一高层建筑外立面起火致25伤,明火已被扑灭,有救援人员仍在楼内搜救

极目新闻
2026-03-28 22:44:15
海航的这个空姐火了

海航的这个空姐火了

太阳来
2026-03-28 09:58:08
中菲关系将迎来重置?马科斯请求对华合作,中方开出一个前提条件

中菲关系将迎来重置?马科斯请求对华合作,中方开出一个前提条件

军机Talk
2026-03-27 16:48:19
办公室不雅行为!摄像头忘关视频曝光,这些人把“体面”丢了一地

办公室不雅行为!摄像头忘关视频曝光,这些人把“体面”丢了一地

就一点
2026-03-29 00:19:23
一把好牌打得稀烂!四胞胎“冰清玉洁”出道失败,沦为酒吧擦边女

一把好牌打得稀烂!四胞胎“冰清玉洁”出道失败,沦为酒吧擦边女

离离言几许
2026-03-28 14:17:07
东契奇:打得越好MVP排名越下降,不知道还能做什么

东契奇:打得越好MVP排名越下降,不知道还能做什么

体坛周报
2026-03-28 16:55:20
泽连斯基:美方正施压乌克兰撤出顿巴斯

泽连斯基:美方正施压乌克兰撤出顿巴斯

每日经济新闻
2026-03-28 23:40:02
某园区摄像头时常自动旋转,国家安全机关查验发现:监控系统密码为出厂默认,境外黑客开展“撞库”攻击成功登录

某园区摄像头时常自动旋转,国家安全机关查验发现:监控系统密码为出厂默认,境外黑客开展“撞库”攻击成功登录

扬子晚报
2026-03-28 07:40:48
一个大清算的时代,要掀开序幕了

一个大清算的时代,要掀开序幕了

月满大江流
2026-03-28 09:58:46
张雪峰追悼会现场画面流出:前妻和现任均现身,11女儿哭倒在现场

张雪峰追悼会现场画面流出:前妻和现任均现身,11女儿哭倒在现场

博士观察
2026-03-28 10:31:10
87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

侃球熊弟
2026-03-28 20:07:16
5500台全球第一,4000台吃灰:宇树机器人,终究是实验室的狂欢?

5500台全球第一,4000台吃灰:宇树机器人,终究是实验室的狂欢?

墨印斋
2026-03-27 18:34:46
上海知名主持周瑾:从不做饭全靠外卖,真实家庭状态令人意外

上海知名主持周瑾:从不做饭全靠外卖,真实家庭状态令人意外

日落于西
2026-03-28 21:21:53
广东一店主下单寄递10箱茅台酒总价超12万元,司机用一张模糊“卸货照”虚假“送达”后失联,平台:已与警方确认找到司机,货物已追回

广东一店主下单寄递10箱茅台酒总价超12万元,司机用一张模糊“卸货照”虚假“送达”后失联,平台:已与警方确认找到司机,货物已追回

大象新闻
2026-03-27 21:45:04
1亿被偷、9亿被冻,“中国床垫第一股”爆雷

1亿被偷、9亿被冻,“中国床垫第一股”爆雷

凤凰网财经
2026-03-28 18:26:37
形势有多严峻?35岁失业男与年轻女人事激烈碰撞,评论区炸锅…

形势有多严峻?35岁失业男与年轻女人事激烈碰撞,评论区炸锅…

慧翔百科
2026-03-27 12:17:09
2026-03-29 08:27:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
375文章数 1关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

头条要闻

上海爷叔在家"打伞做饭" 自嘲掏空三代400万买了个啥

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

健康
旅游
时尚
本地
军事航空

干细胞抗衰4大误区,90%的人都中招

旅游要闻

泰安市岱岳区:赏梨花 看村晚 万亩梨园迎客来

和田曦薇一样嫩嘟嘟,这3个变美技巧你一定不能错过!

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版