网易首页 > 网易号 > 正文 申请入驻

每天替我做1000个决定的AI系统,我在哪画了红线

0
分享至

CostGuard的代理端点会对每个经过的大语言模型调用做出自主决定。它对响应打分,与阈值比较,在约1毫秒内完成接受或拒绝,全程无人参与。

起初这感觉是对的。快速、自动化、可扩展。这正是大语言模型可靠性层该有的样子。


直到我查看了它实际捕获了什么——更重要的是,它遗漏了什么——我才不得不重新思考:自动化该止于何处,人工判断又该从哪开始。

这是我在构建一个处于生产级大语言模型管道关键路径的系统时学到的东西,也是我现在认为"人在回路"设计是一项工程决策、而非仅仅是伦理决策的原因。

CostGuard实际做什么

CostGuard是一个HTTP代理,包装你的大语言模型调用。你把智能体的请求路由到它,而不是直接发给供应商。每次调用时,它会:

• 检查供应商的熔断器状态
• 发起大语言模型调用,30秒超时
• 用启发式有效性评分器给响应打分(约1毫秒)
• 若分数低于阈值则拒绝响应,回退到下一个模型
• 记录成本、延迟、有效性分数及是否使用了回退

这些决定全是自动化的。无人参与。在生产规模下这是正确的选择——你无法让人工审查实时管道中的每个大语言模型响应。

但自动化的效果取决于评分器实际能检测到什么。

我在自己README里记录的缺陷

CostGuard的/proxy端点中的启发式评分器,通过奖励统计标记——置信区间、p值、不确定性语言——并惩罚失败信号(如空输出、错误堆栈、拒绝短语)来工作。

它能可靠捕获明显的失败。返回空字符串、错误信息或"我无法帮助这个"的模型,每次都会被拦截。

它无法捕获的是:生成流畅、自信、统计上站不住脚的分析的模型。

一个用错误方法论生成听起来合理的置信区间的模型,在任何阈值下都能通过启发式过滤器。这是CostGuard README中"已知限制"部分的原话。

我在发布前就把这写进了文档。不是作为未来改进,而是作为塑造系统使用方式的硬性约束。

因为基准数据说明了问题。在RealDataAgentBench的1,412次运行中,最常见的失败模式不是模型拒绝或产生错误。而是模型在底层推理破损的情况下,生成看起来正确的输出。

一个模型计算出了正确的特征重要性。正确排序。然后停了——没有置信区间,没有跨折的稳定性检查,没有过拟合风险的提示。

正确性分数:1.0。统计有效性分数:0.25。

CostGuard关键路径中的启发式评分器无法区分这些。这不是用更好的正则表达式就能修复的bug。这是在1毫秒内、不运行完整评估的情况下,所能检查的内容的根本限制。

工程上的权衡

1毫秒的限制是真实的。生产管道不能为每次调用等待数秒。这意味着某些检查在架构上就不可能放在热路径中。

我画的红线:启发式评分器只负责它擅长的——捕获明显失败。任何需要理解方法论正确性的判断,必须移到异步的人类审查流程中。

这不是理想设计。这是承认工程约束后的务实选择。自动化处理它能处理的,人类接手其余部分。

问题在于,很多系统假装这条线不存在。它们把启发式评分包装成"质量保证",让用户误以为流畅的输出等于可靠的输出。

CostGuard的文档明确说了不能做什么。这限制了它的卖点,但定义了它能被信任的范围。

实际运作方式

现在系统有两条路径。热路径:1毫秒决策,捕获明显失败。冷路径:完整评估,标记方法论问题供人工审查。

大多数调用走热路径。可疑输出进入冷路径。人类每周审查一次批量结果,调整阈值,偶尔发现评分器遗漏的模式。

这个设计增加了复杂性。需要维护两条路径,管理队列,处理审查延迟。但替代方案更糟:要么过度拒绝(把好的输出也拦掉),要么盲目信任(让破损的推理溜过去)。

我见过太多系统选择后者,因为"准确率99%"的指标好看。它们不告诉你的是,那1%的失败在关键任务场景中可能是灾难性的。

重新思考"人在回路"

这个短语常被当作伦理装饰——"我们有监督"的 checkbox。但我的经历让它变成了一项工程原则。

人在回路不是关于道德姿态。是关于识别自动化的硬边界,并设计系统在这些边界处优雅降级。

CostGuard的评分器有已知的盲区。与其假装能修复它们,我围绕它们设计了架构。热路径快速且自动化。冷路径缓慢且有人参与。两者之间的接口是系统最关键的部分。

这影响了我们如何设定阈值。不是优化单一指标,而是平衡三个变量:延迟、覆盖率、人工审查负担。降低阈值减少漏网之鱼,但增加误报和审查工作量。提高阈值则相反。

没有全局最优解。每个部署根据使用场景选择自己的位置。医疗诊断?低阈值,高审查负担。内容摘要?可以容忍更高阈值。

我现在的判断标准

构建自主决策系统时,我问我自己三个问题:

第一,这个决策的错误成本是多少?1毫秒评分器的错误是接受破损推理,成本是下游错误。拒绝好输出的成本是延迟和额外调用。前者在某些场景下可能致命。

第二,检测需要什么信息?置信区间是否有效,需要理解生成方法。这在1毫秒内做不到。任何声称能做到的系统要么在撒谎,要么在隐藏延迟。

第三,人类审查能否改进系统?如果审查结果不反馈到评分器,人在回路就只是昂贵的保险。CostGuard的审查日志用于调整启发式规则,缩小盲区。

这三个问题的答案决定了红线画在哪。不是基于"我们能自动化多少",而是基于"我们在哪必须停止自动化"。

对构建者的建议

如果你在设计类似的可靠性层,先写下你的已知限制。不是事后,是在发布前。这会感到不舒服——它在承认你的系统不完美。但这定义了信任的基础。

区分"我们能检测的"和"我们假装能检测的"。前者进入自动化路径。后者需要人类判断或明确的不确定标记。

设计两条路径,而不是一条带有人类覆盖层的自动化路径。热路径和冷路径应该有清晰的接口,而不是模糊的"必要时升级"。

最后,把审查视为工程输入,不是合规 checkbox。人类发现的模式应该反馈到系统中,逐步缩小需要人工干预的范围。

这不是关于构建完美的自动化。是关于构建诚实的自动化——清楚知道它能做什么,不能做什么,并据此设计。

CostGuard每天做大约1000个决定。其中99%以上不需要人类。但剩下的那些,以及我们如何处理它们,定义了系统是否值得信任。

红线不是限制。它是设计的一部分。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5月25日:三部科幻神作同一天上映,改写好莱坞规则

5月25日:三部科幻神作同一天上映,改写好莱坞规则

赴一场山海啊
2026-05-27 01:39:17
上海全城预警!“无牙老虎”大规模出没,家家户户都要注意

上海全城预警!“无牙老虎”大规模出没,家家户户都要注意

爱下厨的阿酾
2026-05-27 20:36:04
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
太突然!北京一39年公立幼儿园要关了!

太突然!北京一39年公立幼儿园要关了!

大北京早知道
2026-05-27 16:07:06
割四赔五后续,夫妻俩宣布回家:不能让河南的小麦再发芽了

割四赔五后续,夫妻俩宣布回家:不能让河南的小麦再发芽了

映射生活的身影
2026-05-26 20:37:31
我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

心理观察局
2026-05-23 07:00:06
告别卡顿!微软Win11重磅更新上线:更快更跟手流畅

告别卡顿!微软Win11重磅更新上线:更快更跟手流畅

游民星空
2026-05-27 15:03:24
刘强东最新讲话:想尽一切办法保住数十万员工的饭碗,承诺“被机器人取代的一线员工,一个都不开除”

刘强东最新讲话:想尽一切办法保住数十万员工的饭碗,承诺“被机器人取代的一线员工,一个都不开除”

极目新闻
2026-05-27 18:54:57
段永平重估泡泡玛特:从“不懂不碰”到买成第二大股东,称王宁像乔布斯

段永平重估泡泡玛特:从“不懂不碰”到买成第二大股东,称王宁像乔布斯

时代周报
2026-05-27 22:34:38
杀人诛心!利物浦 1.2 亿天王一年就废!阿隆索抄底老东家

杀人诛心!利物浦 1.2 亿天王一年就废!阿隆索抄底老东家

奶盖熊本熊
2026-05-28 05:11:31
收退赛大礼!金花独苗王曦雨首进法网32强,追平大满贯最佳战绩

收退赛大礼!金花独苗王曦雨首进法网32强,追平大满贯最佳战绩

全景体育V
2026-05-28 05:20:55
无心插柳!国米门将换血意外浮现第二方案 签利物浦门将可影响尤文

无心插柳!国米门将换血意外浮现第二方案 签利物浦门将可影响尤文

国际足球冷雪
2026-05-28 07:00:34
卡里克点名!曼联砸穿 62 年双红禁忌!直接挖利物浦世界级核心

卡里克点名!曼联砸穿 62 年双红禁忌!直接挖利物浦世界级核心

澜归序
2026-05-28 06:40:19
弗爷宣布竞选连任皇马主席:掌舵世界最佳,要再带来世界最佳球星

弗爷宣布竞选连任皇马主席:掌舵世界最佳,要再带来世界最佳球星

仰卧撑FTUer
2026-05-27 10:02:15
小米,暴跌43.1%!

小米,暴跌43.1%!

车轱辘话V
2026-05-27 19:32:38
航天员黎家盈回来后还会回香港吗?还是留在北京工作?

航天员黎家盈回来后还会回香港吗?还是留在北京工作?

林子说事
2026-05-27 14:51:25
这6种水果农药最多,果农自己都少吃,别再乱买了

这6种水果农药最多,果农自己都少吃,别再乱买了

开心美食白科
2026-05-27 21:01:18
《主角》结局:封潇潇和楚嘉禾结婚,才知易青娥的贵人是跛腿的他

《主角》结局:封潇潇和楚嘉禾结婚,才知易青娥的贵人是跛腿的他

慢半拍sir
2026-05-28 00:25:12
比安卡银色比基尼险走光,透视装后她又放大招

比安卡银色比基尼险走光,透视装后她又放大招

浅遇时光
2026-05-28 01:26:21
一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

老黯谈娱
2026-05-26 12:47:27
2026-05-28 07:40:49
算力游侠
算力游侠
游走在API与报错之间,用魔法(AI)打败魔法的非硬核玩家。
4019文章数 31关注度
往期回顾 全部

科技要闻

Meta首推AI付费服务 股价应声涨超3.7%

头条要闻

媒体:日本情报体系迎来根本性重构 威胁的不止东亚

头条要闻

媒体:日本情报体系迎来根本性重构 威胁的不止东亚

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

本地
房产
数码
艺术
时尚

本地新闻

用剪纸的方式,打开江苏扬州

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

数码要闻

别盲目跟风!今年618买笔记本,认准这6款就够了

艺术要闻

于右任草书对联:标准草书天花板,爱好者如何不写成“天书”?

这几件单品太火了,今年流行的风格都离不开它

无障碍浏览 进入关怀版