心脏外科主任盯着片子看了十分钟:"两种情况症状重叠,我需要这三项检查加增强CT,没看到结果前我不下诊断。"
旁边实习医生三十秒给出答案,声音清脆,毫无犹豫。引用上周课本里的类似病例,自信满满。
![]()
你选谁给你妈主刀?
![]()
问题是,现在所有AI都是那个实习医生。快,准(看起来),从不承认"我不知道"。所以你只能让它改改README,真刀真枪的事不敢交。
今天聊怎么改——不是改算法,是改架构。
被 accuracy 毁掉的行业共识
业内有个心照不宣的灾难:用准确率衡量模型。GPT-4 MMLU 86%,Claude 88%,Gemini 90%,数字节节高。
这数字藏着陷阱。那10%-14%不是"没答",是"自信地答错"。模型没有"我不太确定"的警示灯,所有输出看起来一样笃定。
写笔记无所谓。但用于生产代码、医疗决策、法律意见、金融交易?10%的自信幻觉就是10%的当面撒谎。
生产级AI的正确指标该是:
在可接受的拒绝率下,自信错误的行动为零。
不是"正确率多少",是"错误行动多少"——零。外加拒绝率:系统诚实说"我不知道,需要数据/验证/澄清"的频率。零错误加30%拒绝,比90%准确率加10%自信幻觉靠谱十倍。
注意:我说的是"零错误行动",不是"零错误答案"。答案只是文字,可以再看一遍扔掉。行动是提交、交易、诊断、API调用、生产变更——已经发生。
"答案"和"行动"的分离,正是现代AI代理架构缺失的东西。
把"拒绝"变成一等公民
本系列第二部分提过真实记忆的七条原则,第二条是严格模式:事实进提示词之前过一道门——来源、置信度、时效性、无未解决矛盾。没事实能过门,系统返回 abstain = true,并给明确原因。
有个细节值得单独拎出来:拒绝不是故障,是设计好的输出状态。就像心脏外科主任说"我需要更多检查"——这是专业判断,不是系统崩溃。
但现在的AI代理架构把拒绝当异常处理。模型必须生成点什么,API必须返回200,前端必须展示结果。拒绝被层层过滤,最后用户看到的永远是"答案",哪怕它是幻觉。
要改的是这个管道。拒绝应该有自己的HTTP状态码,自己的UI组件,自己的工作流分支。用户问"这份合同有没有法律风险",系统可以回答"我找到了三个相关判例,但都不完全匹配你的条款结构,建议找执业律师确认X、Y两点"。
这叫诚实的能力。
从"尽量答"到"敢不答"
技术实现上,这需要三层改造:
![]()
第一层,记忆层的严格模式。前面说过,不重复。
第二层,推理层的置信度分离。不是让模型自己说"我不太确定"——它永远会说"根据我的分析"。而是用独立模块评估:检索到的事实覆盖度多少?与问题匹配度多少?历史类似查询的后续反馈如何?这些量化指标触发拒绝阈值。
第三层,行动层的执行闸门。即使模型生成了内容,提交按钮也可以灰掉,附带说明"以下结论缺少Z类验证,确认继续?"
三层都有拒绝权,任何一层触发就进入"需要更多信息"分支。不是单点故障,是冗余保险。
为什么现在没人这么做
成本。拒绝率30%意味着同样用户请求,实际调用下游服务的次数减少,但系统复杂度飙升。要多维护一套置信度评估模块,要多设计一套"待补充信息"的交互流程,要多训练客服处理"AI为什么不理我"的投诉。
更隐蔽的是商业压力。Demo场景里,"秒回"比"谨慎"好看。投资人问"你们AI能做什么",你说"它知道什么时候不该做",场面一度尴尬。
但生产环境会报复。一个自信错误的交易指令,损失够付十年工程师工资。
心脏外科主任的沉默权
回到开头那个场景。主任说"我不知道"的时候,没人觉得他无能。相反,这是专业信誉的累积——上次他这么说,查完果然是他预判的那两种可能之一。
AI代理需要同样的信誉账户。每次正确拒绝,存一笔;每次被迫回答导致后续纠错,扣一笔。账户余额决定系统可调用的行动权限范围。
这不是科幻。金融领域的风险限额系统、医疗领域的分级诊疗,都是同一逻辑:能力边界由历史表现动态划定。
问题是,现在的AI架构里没有这个账户。模型权重是静态的,API权限是固定的,用户信任是一次性买断的。
改架构,就是把这些补上。
最后一点
这篇文章是"AI代理的记忆"系列第三篇。第一部分讲记忆为什么不只是RAG,第二部分讲严格模式的七条原则。这篇讲拒绝作为一等公民。
三篇合起来,核心就一句话:让AI像专业从业者一样工作,而不是像考试拿高分的学生。
学生被训练成不能留空白。从业者被训练成空白比错填更安全。
我们的行业还在用学生的评分标准,生产从业者的工具。这个错位,比任何算法缺陷都致命。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.