网易首页 > 网易号 > 正文 申请入驻

OpenTelemetry追了3年LLM,生产环境还是靠人工兜底

0
分享至


去年有个数据挺有意思:Grafana Labs的调研显示,78%的AI团队把"可观测性"列为2024年最高优先级投入。但同一批受访者里,63%承认他们的LLM故障响应时间仍超过15分钟。

钱花了,dashboard漂亮了,凌晨两点的告警短信也没少收。问题出在哪?

追踪能告诉你"发生了什么",但没说"怎么修"

OpenTelemetry最近标准化的LLM追踪确实是个进步。Spans、traces、生成式AI的语义约定——这些基础设施层面的统一,让跨工具调试变得可行。

作者在这块观察了很久,态度也很明确:这不是在否定OpenTelemetry的价值,是在划清能力的边界

追踪能暴露的:延迟尖峰、token用量异常、调用链路断裂。这些都有用。

追踪不能做的:在幻觉内容抵达用户前拦截它;在事实性校验失败时自动重写prompt;在推理账单失控前熔断;在有害输出流出前阻断而非仅仅记录。

你仍然是那个修正层。凌晨两点盯着Grafana的人,还是你。

监管级场景的真相:看得见,但修得慢

作者过去两年在三个高度监管的领域搭建规模化AI系统:医疗收入周期管理、电网智能、基因组学流水线。这些不是实验室环境。

他反复看到的模式:团队在日志和追踪上投入巨大,dashboard建得精美。但LLM在生产环境出问题时,修正流程仍是手动的、缓慢的、事故驱动的。

缺口不在"能不能看见",而在"输出层能否自主修正"。

没人把这个做成产品。所以他做了。

ARGUS的架构:从"记录异常"到"闭环修正"

ARGUS的核心设计分两层。开源层是实时评估引擎,对LLM输出做六维检测:

针对智能体(agentic)系统,再叠加三个信号:

关键差异在阈值触发后的行为。ARGUS不只做日志记录,它启动一个自主修正循环。

流程很直接:LLM调用 → ARGUS评估层 → 各维度通过/失败判定 → 失败则触发修正循环(prompt重写+重试)→ 修正后的输出交付应用。

开源核心(argus-ai on PyPI)承担可观测层,自主修正循环作为专有层面向企业部署。

作者特意强调这不是要替代OpenTelemetry,而是互补:"你可以把ARGUS的评估结果作为span导入OTel collector,基础设施健康和输出质量在同一trace里呈现。"

$41亿收购背后的教训

在R1 RCM期间,作者主导的工程工作最终贡献了41亿美元的收购估值。支撑这笔交易的AI系统处理了数百万医疗理赔。

LLM出错的代价不是"用户体验下降",是真实的财务和合规风险。

那段经历给他留下的印记:在高压生产环境里,"看见问题"和"解决问题"之间的时间差,才是成本的核心来源。追踪工具把这个时间差从"完全看不见"缩短到"几分钟内定位",但剩下的手动干预环节,在规模化场景下依然致命。

ARGUS试图吃掉的就是这段剩余时间。

项目刚开源不久,argus-ai的PyPI下载量和实际生产部署案例还在积累。作者放出的信号很明确:欢迎用OpenTelemetry继续追踪你的基础设施,但别让dashboard成为安慰剂——输出层的自主修正,才是从"可观测"到"可信赖"的最后一公里

你的LLM pipeline里,从告警触发到自动恢复,现在平均需要几步人工介入?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
澳门荷官:见多了赌场上的大起大落,有人一夜暴富,有人倾家荡产

澳门荷官:见多了赌场上的大起大落,有人一夜暴富,有人倾家荡产

史不语
2026-05-10 10:15:09
意甲最新积分战报:AC米兰两连败,罗马3-2奇迹绝杀,科莫1-0险胜

意甲最新积分战报:AC米兰两连败,罗马3-2奇迹绝杀,科莫1-0险胜

足球狗说
2026-05-11 06:43:54
科学家首次发现:动脉粥样斑块竟能完全消退!不过需满足4个条件

科学家首次发现:动脉粥样斑块竟能完全消退!不过需满足4个条件

39健康网
2026-05-09 21:11:38
北大天才破解1纳米芯片难题,至少领先15年,外媒:荣耀属于美国

北大天才破解1纳米芯片难题,至少领先15年,外媒:荣耀属于美国

胖福的小木屋
2026-05-10 22:54:01
加维:维尼修斯和我一样容易冲动,当时我叫他闭嘴

加维:维尼修斯和我一样容易冲动,当时我叫他闭嘴

懂球帝
2026-05-11 07:01:05
普京谈中俄关系、中美关系

普京谈中俄关系、中美关系

参考消息
2026-05-10 15:11:06
海岛文明的宿命:为什么香港近年来发展缓慢?

海岛文明的宿命:为什么香港近年来发展缓慢?

龙牙的一座山
2026-05-10 09:14:43
就算中产不装了,也不会买“保罗散步”

就算中产不装了,也不会买“保罗散步”

中国新闻周刊
2026-05-10 23:25:23
感动!61岁名帅刚丧父仍率巴萨加冕 被众将抛起致敬 夺冠创6纪录

感动!61岁名帅刚丧父仍率巴萨加冕 被众将抛起致敬 夺冠创6纪录

我爱英超
2026-05-11 07:39:57
开发者怒停更!华为被指套取合作信息,用于鸿蒙适配招标!

开发者怒停更!华为被指套取合作信息,用于鸿蒙适配招标!

云头条
2026-05-09 23:07:28
正等待开火命令!周一开盘或将掀起惊天风浪

正等待开火命令!周一开盘或将掀起惊天风浪

魏家东
2026-05-10 14:09:12
休想再回国!中国体坛两大叛徒,夺冠后不承认是国人,报应终到来

休想再回国!中国体坛两大叛徒,夺冠后不承认是国人,报应终到来

大运河时空
2026-04-27 18:40:03
马丁·肖特打破沉默:女儿凯瑟琳自杀身亡

马丁·肖特打破沉默:女儿凯瑟琳自杀身亡

热搜摘要官
2026-05-11 03:13:33
工党真正输掉的,不只是选票,而是英国底层民众的耐心

工党真正输掉的,不只是选票,而是英国底层民众的耐心

斌闻天下
2026-05-10 07:10:03
果然,印度故事讲不动了,苏杰生被撕国旗,G7没邀请,筹码见底

果然,印度故事讲不动了,苏杰生被撕国旗,G7没邀请,筹码见底

往后相濡以沫
2026-05-10 17:42:07
山姆成“欠款大户”?雨花客厅北区法拍公告披露:山姆欠租887万元

山姆成“欠款大户”?雨花客厅北区法拍公告披露:山姆欠租887万元

扬子晚报
2026-05-10 20:25:23
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
国家阶级固化完成:这世界上不可能再有国家可以取代中美了!

国家阶级固化完成:这世界上不可能再有国家可以取代中美了!

天老爷
2026-05-08 15:50:54
日媒:摆脱制裁开始反攻,华为海外恢复至七成,失去的正拿回来

日媒:摆脱制裁开始反攻,华为海外恢复至七成,失去的正拿回来

王新喜
2026-05-10 14:21:40
农村彩钢瓦大整治铺开!村干部天天连轴转,老百姓别再硬扛观望了

农村彩钢瓦大整治铺开!村干部天天连轴转,老百姓别再硬扛观望了

芳姐侃社会
2026-05-09 17:15:10
2026-05-11 07:51:02
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
2431文章数 29关注度
往期回顾 全部

科技要闻

OPPO们永远学不会的年轻化

头条要闻

特朗普:伊朗的回应“完全不可接受”

头条要闻

特朗普:伊朗的回应“完全不可接受”

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
本地
时尚
公开课
军事航空

干细胞能让人“返老还童”吗

本地新闻

用苏绣的方式,打开江西婺源

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版