网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

RAG评估别只看召回率：三个指标暴露幻觉真相

2026-05-06 02:46:14　来源: 摸鱼算法

北京举报

0

分享至

你的机器人召回率92%，为什么还在编造数字？

这是每个做检索增强生成（RAG）的团队都踩过的坑。上线一周，财务用户投诉：机器人引用的数字在检索到的文档里根本不存在。你重跑评估——召回率还是92%。那个编造的数字，依然编造。

召回率@K（Recall@K）只回答一个问题：相关文档有没有进前K？它不告诉你模型有没有用那段文本，不告诉你答案是否有依据，不告诉你换个说法结果会不会变。这三件事它全沉默，而你的用户全看得见。

这篇笔记聊三个补位指标：忠实度、覆盖度、鲁棒性。文末附100行Python代码，一次跑完四项指标，零框架绑定，依赖只有OpenAI接口、NumPy和标准库。

召回率的盲区：检索之后发生了什么

召回率是检索指标。它把系统当搜索引擎，问的是"相关片段进前五了吗"。这确实该测，但该测的不止这个。

问题是检索之后的一切，它都看不见。

一个检索器召回率@5能到0.95，你的机器人照样能：

• 把"营收增长12%"说成"营收增长120%"

• 用文档A的数据回答文档B的问题

• 用户问"Q3表现如何"，它答成"全年表现"

• 文档里有"可能上涨"，它输出"确定上涨"

这些故障召回率全不反映，客服工单全反映。

下面三个指标填这个坑。它们不是新概念——TruLens的RAG三元组把"扎根性"和答案相关性放在上下文相关性旁边，Ragas的忠实度指标把答案拆成声明逐条核对。实际缺的是接线：一个统一跑四项的框架，让某项退化能跟别的指标出现在同一块看板。

指标一：忠实度——每个声明都要有出处

忠实度只问一件事：答案里的每个声明，能不能指到支持它的片段？能，得1分；一半能一半靠模型记忆，得0.5分；答案洋洋洒洒全是检索上下文里没出现的事实，得0分——你的机器人在带引用地幻觉。

标准实现两次调用大模型。第一次，把答案拆成原子声明；第二次，对每个声明做自然语言推理（NLI）：上下文是否蕴含该声明、矛盾、还是无关？得分是"被蕴含"声明的比例。

Ragas叫这个Faithfulness。DeepEval叫FaithfulnessMetric，定位为生成端检查。TruLens叫Groundedness。区别在提示词措辞和聚合方式，形态一样。

上线阈值：评估集忠实度低于0.85算退化，低于0.75说明机器人在稳定编造。

今天就能跑的廉价版本，不拉框架：让评判模型列"答案里哪些事实声明不在检索上下文中"。列表为空则忠实，非空则标记幻觉。

指标二：覆盖度——该说的有没有漏

忠实度防编造，覆盖度防漏答。用户问三个问题，机器人只答两个，忠实度可能满分——它没说的自然没被验证为假。

覆盖度测量答案对问题的完整回应程度。实现方式：把问题拆成子查询或关键信息点，检查答案是否每个都提到。Ragas的AnswerRelevancy和DeepEval的ContextualRelevancy走这条路。

一个典型陷阱：用户问"对比A和B两款产品的价格和性能"，机器人只讲价格。忠实度检查通过——提到的价格都有出处；覆盖度检查失败——性能部分完全缺失。

覆盖度低的问题比幻觉更隐蔽。用户不会立刻投诉"你漏了"，只会觉得"这机器人不太聪明"，然后默默流失。

上线阈值：覆盖度低于0.8需要审视提示词是否过度约束长度，或检索片段是否切断了关键上下文。

指标三：鲁棒性——换个问法答案变不变

鲁棒性测的是：问题改写后，答案是否一致且仍基于检索内容。

实现方式：用LLM生成语义等价的问题变体（主动改被动、加细节、换同义词、换语言），跑完整RAG链路，检查：答案是否矛盾？引用的片段是否漂移？忠实度和覆盖度是否崩盘？

这是生产环境的噩梦场景。用户不会按你的评估集提问。销售问"Q3营收"，财务问"第三季度收入"，老板问"上个季度我们赚了多少钱"——三个问题指向同一答案，你的机器人给的是同一个吗？

鲁棒性差的系统，客服会收到大量"我问过了，再问一遍答案不一样"的投诉。更隐蔽的是引用漂移：问题改写后，机器人换了一批检索片段，新片段支持新答案，表面自洽实则来源混乱。

上线阈值：鲁棒性测试通过率低于0.9，说明检索或生成对问题表述过度敏感，需要加固查询扩展或重排序策略。

四项指标一起跑：代码骨架

核心思路：一个数据类存单次RAG调用的全链路（问题、检索片段、答案），四个评分函数各自消费这个数据类，输出0-1分数。

数据结构设计：

• 问题原文

• 检索片段列表（含内容、来源、排名）

• 生成答案

• 可选：问题改写变体列表

召回率@K：检查黄金答案的片段是否在检索结果前K位。传统指标，保留用于监控检索器本身。

忠实度：LLM提取答案声明→逐条NLI验证→计算支持比例。

覆盖度：LLM提取问题的信息需求点→检查答案提及比例。

鲁棒性：生成N个问题改写→各跑一遍RAG→答案一致性检查（NLI互证）+ 片段重叠度。

关键设计：所有LLM调用走同一客户端，prompt模板外置可替换，评分结果结构化输出便于入库。没有框架魔法，就是明牌逻辑。

依赖控制：openai（或任意OpenAI兼容接口）、numpy、标准库。评估黄金集建议50-200条，覆盖高频问题类型和已知边界案例。

为什么现在就要加这三项

召回率92%的幻觉，和召回率70%的幻觉，对用户来说没有区别——都是不可信。区别在于前者让你误以为自己测过了，后者至少知道有问题。

忠实度、覆盖度、鲁棒性不是"更高级的指标"，是召回率原本就该覆盖但没覆盖的维度。它们把评估从"检索器好不好"扩展到"整个系统能不能用"。

生产环境的诡异之处：这三项退化往往是渐进式的。某次模型升级、某次提示词优化、某次片段长度调整，不会动召回率，但会让忠实度从0.9滑到0.7。没有专项监控，这个滑坡会在客服工单里累积几周才被发现。

100行代码的.harness价值不在代码量，在强制四项同跑。回归测试时，任何一项抖动都暴露在同一视图，避免"召回率稳如狗，用户骂成狗"的盲区。

落地建议：从哪开始

已有RAG系统的团队，建议按这个顺序补指标：

第一周：加忠实度。幻觉是最痛的投诉类型，有出处检查至少能定位问题答案。

第二周：加覆盖度。复盘过去一个月的"答非所问"工单，把高频漏答模式做成测试用例。

第三周：加鲁棒性。从生产日志抽取用户问题的自然变体，或让运营同事用口语重述标准问题，跑批量对比。

黄金集构建原则：每条用例必须人工标注预期答案和关键声明，否则自动化评分无锚点。优先覆盖：数值类问题（易幻觉）、多条件问题（易漏答）、时间范围问题（易漂移）。

评分阈值不是圣经。0.85的忠实度在医疗场景可能太低，在闲聊场景可能过度。关键是建立自己数据的基线，监控相对变化而非绝对数值。

最后

RAG评估的陷阱，是用了搜索引擎的指标来测对话系统。召回率@K诞生于信息检索论文，它的假设是"列出相关文档即完成任务"。生成式AI打破了这个假设：文档列出来了，模型读没读、读对了没、记混了没、换个问法还认不认——这些才是用户实际体验。

忠实度、覆盖度、鲁棒性不是花哨的新概念，是召回率时代被搁置的老问题。现在补上，是因为生成模型让这些问题变得致命。一个带引用的幻觉，比一个赤裸裸的幻觉更难被用户识破，也更损害信任。

你的评估集里，有多少条用例同时跑了这四项？如果答案是"没统计过"或"只看了召回率"，那个92%的数字，可能正在让你睡得太香。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

吴宜泽回应斯诺克世锦赛夺冠创历史：父母是真正冠军

环球网 2026-05-05 07:45:17
6094 跟贴 6094
莫氏鸡煲上线汤料包5分钟售罄4000多份，累计卖出4万多份，总销售额破160万元，记者实测：1分钟抢到两包

极目新闻 2026-05-04 09:46:46
8264 跟贴 8264

中山大学通报“附属医院康某某相关学术论文图片及数据存疑”：已正式启动调查程序

环球网资讯 2026-05-05 14:54:11
684 跟贴 684

景区装电梯无痛爬山被质疑过度开发

极目新闻 2026-05-02 17:18:12
4162 跟贴 4162
媒体：霍尔木兹海峡一声惊雷炸响战争的引信已经点燃

国是直通车 2026-05-04 21:08:48
29 跟贴 29

俄罗斯宣布与乌克兰实施胜利日停火

财联社 2026-05-05 09:57:03
5532 跟贴 5532

32℃！雷雨、7级大风！江苏最新天气预测

江南晚报 2026-05-06 02:58:45
5 跟贴 5
我军测试某新型反导武器指挥屏全是马赛克

看看新闻Knews 2026-05-05 21:28:08
32 跟贴 32

文班：我消耗了太多体力做了一些对球队并没有太大帮助的事情

北青网-北京青年报 2026-05-05 19:44:31
74 跟贴 74
接好运！上海女子200元买刮刮乐，30元面值的喜相逢刮中100万元！

观威海 2026-05-05 10:42:12
180 跟贴 180
特谢拉伤退，客场不敌山东，斯卢茨基的申花队首次遭遇中超连败

文汇报 2026-05-06 06:33:58
2 跟贴 2
实探郑州中牟蒜地：免费抽蒜薹持续近一个月，有人从海南专程来，农户提供午餐

环球网资讯 2026-05-05 09:36:24
651 跟贴 651
张雪父子，共同亮相赛场

鲁中晨报 2026-05-05 16:58:04
37 跟贴 37
美股三大指数集体收涨多只存储概念股创新高

财联社 2026-05-06 04:02:06
1 跟贴 1
广东一景区岩石被染成五彩色，景区回应：是环保涂料

上观新闻 2026-05-05 13:44:14
101 跟贴 101
新华视点｜五一文旅消费观察：文旅融合升温消费提质升级

新华社 2026-05-05 15:37:21
96 跟贴 96
四川华蓥一瀑布秋千项目发生事故致1人死亡

新京报 2026-05-06 07:18:09
0 跟贴 0
上海迪士尼劝阻吸烟男子再发声：网传自己向对方喷辣椒水是造谣，遇到有人吸烟还会劝阻

齐鲁壹点 2026-05-06 07:17:13
0 跟贴 0
威观宁夏：银川整治摩电车辆，“人鸡大战”几时休？攻坚还是放弃？

桂临塞上聊历史 2026-05-06 07:12:42
0 跟贴 0
体坛联播｜阿森纳晋级欧冠决赛，U17国足无缘亚洲杯开门红

澎湃新闻 2026-05-06 07:24:30
0 跟贴 0

U17国足0-1印尼！比输球更难受是这两点揪出罪魁祸首下轮战日本

U17国足0-1印尼！比输球更难受是这两点揪出罪魁祸首下轮战日本

侃球熊弟

2026-05-06 02:48:18

天啦，李沁早年竟然长这样，谁看了不迷糊？

天啦，李沁早年竟然长这样，谁看了不迷糊？

动物奇奇怪怪

2026-05-06 01:05:43

五胡乱华之时，是谁拯救了濒临灭亡的汉民族？请记住这三位英雄！

五胡乱华之时，是谁拯救了濒临灭亡的汉民族？请记住这三位英雄！

老范谈史

2026-05-05 07:04:40

300069，明天停牌！拟收购商业航天资产！

300069，明天停牌！拟收购商业航天资产！

证券时报e公司

2026-05-05 19:36:23

厦门偶遇孙俪冯绍峰拍戏，两人虽然演技在线但颜值下滑状态很疲惫

厦门偶遇孙俪冯绍峰拍戏，两人虽然演技在线但颜值下滑状态很疲惫

TVB的四小花

2026-05-06 01:37:38

俄想截胡？乌总理急访华游说：图们江教训惨痛，中国不能轻易点头

俄想截胡？乌总理急访华游说：图们江教训惨痛，中国不能轻易点头

深析古今

2026-05-06 02:01:08

伦敦世乒赛：大爆冷！张本智和1:3不敌无名小卒，全队渴望金牌

伦敦世乒赛：大爆冷！张本智和1:3不敌无名小卒，全队渴望金牌

国乒二三事

2026-05-05 12:50:48

火箭离队首人？3分不稳定+防守不拔尖，“玻璃人”还要价4年1.2亿

火箭离队首人？3分不稳定+防守不拔尖，“玻璃人”还要价4年1.2亿

大卫的篮球故事

2026-05-05 17:42:46

赖清德返台获4架F-16护航，解放军或有军事大动作

赖清德返台获4架F-16护航，解放军或有军事大动作

真正能保护你的

2026-05-05 16:26:24

心理学揭秘：一个人对家人暴躁易怒，对外人却温和有礼，并非天性冷血，真正原因藏在这两点深层心理里

心理学揭秘：一个人对家人暴躁易怒，对外人却温和有礼，并非天性冷血，真正原因藏在这两点深层心理里

心理观察局

2026-05-02 06:59:03

曾被U17国足打哭！印尼三个月后翻盘，绝杀后全队疯狂庆祝

曾被U17国足打哭！印尼三个月后翻盘，绝杀后全队疯狂庆祝

奥拜尔

2026-05-06 02:44:50

官宣！2026端午连休3天不调休，打工人：这才是放假该有的样子

官宣！2026端午连休3天不调休，打工人：这才是放假该有的样子

小鹿姐姐情感说

2026-05-05 16:44:21

都叫"唐"，后唐、南唐和唐朝是什么关系？蹭热度，还是真皇族？

都叫"唐"，后唐、南唐和唐朝是什么关系？蹭热度，还是真皇族？

老范谈史

2026-05-06 00:13:29

随着山东泰山4-1大胜上海申花，纵观全场，谈以下五点个人感受！

随着山东泰山4-1大胜上海申花，纵观全场，谈以下五点个人感受！

田先生篮球

2026-05-05 22:42:56

黄仁勋直言：中国不配拥有先进芯片，美国应当主导AI！

黄仁勋直言：中国不配拥有先进芯片，美国应当主导AI！

次元君情感

2026-05-06 02:02:31

美媒：美以正在协调，或准备对伊朗发动新一轮打击

美媒：美以正在协调，或准备对伊朗发动新一轮打击

界面新闻

2026-05-05 21:01:49

心理学上有个词叫：螃蟹效应。永远要记住，和周围人搞好关系的秘诀就是，不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫：螃蟹效应。永远要记住，和周围人搞好关系的秘诀就是，不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理

2026-04-28 17:04:30

U17国足惨遭印尼绝杀！董路四字爆粗马德兴：坚决反对找日本教练

U17国足惨遭印尼绝杀！董路四字爆粗马德兴：坚决反对找日本教练

念洲

2026-05-06 06:38:27

豆包，你这么垃圾，怎么好意思收费？

豆包，你这么垃圾，怎么好意思收费？

崇晓视界

2026-05-04 17:24:53

苹果宣布 iOS 26.5 重磅新功能，此地区全面开放使用！

苹果宣布 iOS 26.5 重磅新功能，此地区全面开放使用！

XCiOS俱乐部

2026-05-05 19:46:25

致力于用最前沿的AI技术，换取更多发呆时间的三十岁青年。

2179文章数 24关注度

往期回顾全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体：中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体：中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话，他带国米拿下冠军

娱乐要闻

内娱真情谊！杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

健康

教育

房产

军事航空

亲子要闻

这个五一，带宝宝来北海看海啦～银滩细沙海浪，是小朋友最爱的天

干细胞治烧烫伤面临这些“瓶颈”

教育要闻

富人才不会把女儿养这么胖！家长晒女儿喝60元矿泉水，被网友群嘲

房产要闻

五一楼市彻底明牌！塔尖人群都在重仓凯旋新世界

军事要闻

特朗普威胁伊朗不要向美国船开火

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版