网易首页 > 网易号 > 正文 申请入驻

柳叶刀子刊:评估AI预测模型性能的几大类指标总结(区分度、校准度…)

0
分享至

2025年12月,《Lancet Digital Health》发表了一篇总结文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,对评估AI预测模型性能的几大类指标进行了评估。文章讨论了五大性能维度的32种性能指标及其图形化评估方法,这五个维度包括:

1)区分度(discrimination)

2)校准度(calibration)

3)整体性能(overall performance)

4)分类(classification)

5)临床效用(clinical utility)

其中,前四个维度反映统计性能,第五个维度则体现决策分析性能。

文章以ADNEX模型为例来讲解这些指标及其特性(该模型用于预测女性卵巢肿瘤的恶性概率)。文章建议以下指标和图表应作为AI预测模型报告中的核心内容:受试者工作特征曲线下面积(AUC-ROC)、校准图(calibration plot)、基于决策曲线分析的临床效用指标(如净收益[net benefit])、按结局类别展示的概率分布图。

五大性能维度

1、区分度(discrimination)

区分度关注模型是否能为实际发生事件的个体比未发生事件的个体分配更高的事件概率。区分度反映的是相对性能,即模型所估计的概率绝对值大小并不重要,关键在于这些概率能否有效区分有事件个体与无事件个体

2、校准度(calibration)

校准度关注模型估计的概率与实际观察到的事件发生率之间的一致性。校准度体现的是绝对性能,用于评估概率估计值是否过高或过低。因此,一个模型可能具有良好的区分度但校准度较差,反之亦然。

3、整体性能(overall performance)

整体性能综合了区分度与校准度,通过量化模型估计的概率与真实结局(0表示无事件,1表示事件)之间的接近程度,来评估模型表现。

4、分类(classification)

第四和第五个性能维度需要设定一个事件风险的阈值,将个体划分为两个互斥的组别低风险组(估计风险低于阈值)和高风险组(估计风险等于或高于阈值)。这种分组通常关联着某种干预措施(例如手术),即建议对高风险个体实施干预,对低风险个体则不建议干预。因此,该阈值可称为“决策阈值”。也可以使用多个决策阈值将个体划分为三个或更多组别,本文聚焦于常见的单阈值情形。

分类性能关注个体被正确归类为高风险或低风险的程度。该维度基于列联表(又称混淆矩阵),对分类结果(低风险 vs. 高风险)与实际结局(事件 vs. 无事件)进行交叉汇总。当所有发生事件的个体预测概率均高于决策阈值,所有未发生事件的个体预测概率均低于该阈值时,分类性能达到完美。分类性能受区分度和校准度的影响

5、临床效用(clinical utility)

临床效用更进一步,在评估个体被划分进低风险或高风险组时,明确考虑了误分类成本(misclassification costs)。"误分类成本"是一个成熟术语,泛指各类误分类(包括假阳性与假阴性)所带来的危害。

临床效用评估的是基于特定决策阈值所做决策的质量,以及使用该模型是否比不使用模型或使用其他竞争模型能带来更优的临床决策。因此,决策阈值应具有临床意义,并与误分类成本相关联。由于临床效用直接关注决策质量,它是五个性能维度中最重要的一个

“决策阈值”的定义

大多数用于医学的预测性AI模型,主要目标是支持后续的临床决策。模型得到的概率估计值可帮助改善健康结局:对低风险个体避免实施获益有限且负担较重的干预措施,为高风险个体更合理地选择干预方案。因此,决策阈值应基于医学考量而非统计学依据来确定

然而,在实践中,决策阈值常常通过某个统计指标来定(如约登指数,即灵敏度+特异度−1)。采用统计学指标来设定决策阈值,不仅违背决策理论的基本原则,也脱离了临床医生的实际使用需求

正确的做法是:一旦模型所要支持的具体临床决策被明确定义后,就应考虑使用该模型辅助决策可能产生的四种后果:

  • 真阳性(实际发生事件且被归类为高风险)
  • 真阴性(未发生事件且被归类为低风险)
  • 假阴性(实际发生事件却被归类为低风险)
  • 假阳性(未发生事件却被归类为高风险)

这些后果的重要性权重因干预措施的性质与影响、医疗体系特点,以及医生和患者的偏好而有所不同

本文中的案例涉及需要手术切除卵巢肿瘤的患者。临床使用ADNEX模型来决定应采取高级别手术还是保守手术,通常建议将恶性概率的决策阈值设为0.1(即10%)。这意味着,当ADNEX模型预测某患者的恶性风险为10%时,便建议其接受高级别手术。在此阈值下,每发现1例真正需要高级别手术的恶性肿瘤患者(真阳性),就需要对另外9名实际为良性肿瘤的患者实施了不必要的高级别手术(即最多接受9例假阳性)。换言之,采用这一阈值隐含的前提是:对恶性肿瘤患者实施高级别手术所带来的医学获益,至少是良性肿瘤患者接受不必要高级别手术所造成伤害的9倍。

本文讨论了32种性能指标(3种区分度指标、6种校准度指标、9种整体性能指标、11种分类指标、3种临床效用指标)(见表1),以及相应的可视化评估方法。

表1. 本文所讨论的性能指标以及案例研究中ADNEX模型在校准前后的结果






良好性能指标应具备的关键特征

本文定义了性能指标应具备的两项关键特征:(1)该指标应为“恰当”(proper)的指标;(2)该指标应明确聚焦于是反映统计价值还是决策分析价值。不具备第一项特征的指标不可信赖,缺乏第二项特征的指标则含义模糊、难以解释。

第三项理想特征是具有直观易懂的可解释性,但本文不详细讨论这一特征,因为可解释性具有主观性,且受使用者背景知识和熟悉程度的影响。

在医学实践中,对预测性AI模型的性能评估可清晰区分为统计性能评估决策分析性能评估两类。前四个性能维度关注统计性能的不同方面,而临床效用维度则聚焦于决策分析性能。

统计性能指标对于模型评估至关重要,但不能单独用于判断模型是否应投入临床实践。例如,仅凭良好的区分度和校准度就声称“该模型可用于辅助卵巢手术决策”是不恰当的。若某性能指标旨在超越单纯的统计价值,则必须依据决策分析原则,要纳入误分类成本。

案例研究:卵巢癌诊断模型(ADNEX模型)

本文所使用的案例是对有卵巢肿瘤的女性预期其恶性风险。ADNEX模型由国际卵巢肿瘤分析(IOTA)联盟开发,可在术前估计计划接受手术的卵巢肿瘤患者患恶性肿瘤的概率[1]。该模型可用于指导两类决策:(1)在肿瘤中心就诊的患者选择高级别手术还是保守手术;(2)在其他机构就诊的患者是否应转诊至肿瘤中心。

ADNEX模型基于1999-2012年间来自10个国家(意大利、比利时、瑞典、捷克、波兰、法国、英国、中国、西班牙、加拿大)的24家二级和三级医疗机构共5909名患者的数据开发而成。

随后,TransIOTA研究利用2015-2019年间来自4个国家(比利时、意大利、捷克和英国)的1家二级和5家三级医疗机构的894名女性数据,对ADNEX模型区分良性与恶性肿瘤的能力进行了外部验证[2]。

出于教学目的,本文使用该数据集计算了所有要讨论的性能指标及其95%CI,并展示了所有相关的可视化图表。

本文评估了原始ADNEX模型的性能,以及经逻辑校准(logistic recalibration)更新后的性能(见前表1)。更新方法为:以结局为因变量,以ADNEX输出的事件概率的logit值(线性预测因子)为自变量,拟合一个logistic回归模型。该方法类似于机器学习中的Platt缩放(Platt scaling),常用于改善预测的校准度。逻辑校准本质上是对线性预测因子进行线性变换,因此是一种保序方法(rank-preserving method),即患者按恶性概率排序的结果在校准前后保持不变。

所有R和Python代码,以及894名参与者的恶性风险估计值和实际结局数据,均已公开于GitHub代码仓库,链接如下:

https://github.com/benvancalster/PerfMeasuresOverview

参考文献:

1.BMJ. 2014; 349:g5920

2. Br J Cancer. 2024; 130:934-940

本文整理自:Lancet Digit Health. 2025 Dec 13:100916.

受篇幅限制,本篇文章先介绍到这里,在后面一篇推文中,我们再介绍这篇文章的后半部分,即针对各种性能指标的描述以及相应的可视化方法,敬请期待。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医院里的故事有多残忍?网友: 因为断腿被家人放弃生命

医院里的故事有多残忍?网友: 因为断腿被家人放弃生命

另子维爱读史
2026-01-05 22:26:15
美国网红用类固醇健身后感叹:副作用让我一年老了 10 岁

美国网红用类固醇健身后感叹:副作用让我一年老了 10 岁

下水道男孩
2026-01-05 22:39:47
韦太后被俘虏时正风韵犹存,在金国待了15年,金国士兵怎能放过她

韦太后被俘虏时正风韵犹存,在金国待了15年,金国士兵怎能放过她

铭记历史呀
2025-12-24 19:04:39
很多人好奇马杜罗的卫队干啥去了,看下下面这个地图就知道了

很多人好奇马杜罗的卫队干啥去了,看下下面这个地图就知道了

扶苏聊历史
2026-01-05 09:46:01
马杜罗之后,特朗普令拉美人人自危 | 京酿馆

马杜罗之后,特朗普令拉美人人自危 | 京酿馆

新京报评论
2026-01-05 22:01:24
中国禁枪的真正原因是啥?网友:不禁掉,中国街上天天真人cs

中国禁枪的真正原因是啥?网友:不禁掉,中国街上天天真人cs

带你感受人间冷暖
2026-01-04 00:20:04
CCTV5直播!张本美和下下签!王曼昱战大藤!蒯曼迎考验 多哈冠军赛女单签表

CCTV5直播!张本美和下下签!王曼昱战大藤!蒯曼迎考验 多哈冠军赛女单签表

好乒乓
2026-01-06 06:35:55
无惧特朗普威胁,拉美又一硬汉总统公开叫板美国:放马过来!

无惧特朗普威胁,拉美又一硬汉总统公开叫板美国:放马过来!

林子说事
2026-01-06 10:02:24
文物界第一悬案,迄今无解

文物界第一悬案,迄今无解

《中国国家历史》
2026-01-04 19:54:06
李在明年轻时很帅,他老婆不算漂亮,难怪金惠景对他不离不弃

李在明年轻时很帅,他老婆不算漂亮,难怪金惠景对他不离不弃

鱼语昱雨轩
2026-01-02 23:20:05
1945年重庆酒局,毛主席偶遇江青前夫,握手时说了3个字,让张治中冷汗直流

1945年重庆酒局,毛主席偶遇江青前夫,握手时说了3个字,让张治中冷汗直流

历史回忆室
2026-01-05 11:05:14
2胜8负!15胜12负!NBA最尴尬伪巨头,5年3.5亿美金大合同没戏了

2胜8负!15胜12负!NBA最尴尬伪巨头,5年3.5亿美金大合同没戏了

世界体育圈
2026-01-06 10:52:24
国家又出生育新政,2026年1月1日起正式实施

国家又出生育新政,2026年1月1日起正式实施

忠于法纪
2026-01-04 09:23:45
李在明没想到,落地中国不到两天,访华前一个举动让自己口碑暴增

李在明没想到,落地中国不到两天,访华前一个举动让自己口碑暴增

趣文说娱
2026-01-05 18:22:33
心理学上说:越是独来独往、没有朋友、慢慢你就知道了

心理学上说:越是独来独往、没有朋友、慢慢你就知道了

另子维爱读史
2026-01-05 21:41:38
47岁呼吸科主任猝死:前一天还在查房开玩笑,最后连自己都救不了

47岁呼吸科主任猝死:前一天还在查房开玩笑,最后连自己都救不了

鋭娱之乐
2026-01-05 08:35:42
杜兰特13+6助太阳复仇老东家,伊森10+5布克11+1

杜兰特13+6助太阳复仇老东家,伊森10+5布克11+1

小犙拍客在北漂
2026-01-06 10:37:50
太阳老板转发用里夫斯换狄龙的建议:别打电话了,狄龙不走

太阳老板转发用里夫斯换狄龙的建议:别打电话了,狄龙不走

懂球帝
2026-01-06 07:56:16
崩了,某地医院拖欠7个月工资,医生集体投诉掀桌子!

崩了,某地医院拖欠7个月工资,医生集体投诉掀桌子!

黯泉
2026-01-05 21:40:45
新晋女神,有颜又有料

新晋女神,有颜又有料

素然追光
2026-01-06 01:22:02
2026-01-06 11:24:49
医咖会
医咖会
生动有趣的形式传递医学新进展
2718文章数 10955关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

马斯克评英伟达纯视觉自动驾驶系统Alpamayo

态度原创

时尚
数码
游戏
艺术
健康

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

数码要闻

小米REDMI蓝牙音箱2“暮焰黑”配色开售,99元

Xbox媒体发索尼PS新闻?网友扎心点评"为了活下去"

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版