2025年12月,《Lancet Digital Health》发表了一篇总结文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,对评估AI预测模型性能的几大类指标进行了评估。文章讨论了五大性能维度的32种性能指标及其图形化评估方法,这五个维度包括:
1)区分度(discrimination)
2)校准度(calibration)
3)整体性能(overall performance)
4)分类(classification)
5)临床效用(clinical utility)
其中,前四个维度反映统计性能,第五个维度则体现决策分析性能。
文章以ADNEX模型为例来讲解这些指标及其特性(该模型用于预测女性卵巢肿瘤的恶性概率)。文章建议以下指标和图表应作为AI预测模型报告中的核心内容:受试者工作特征曲线下面积(AUC-ROC)、校准图(calibration plot)、基于决策曲线分析的临床效用指标(如净收益[net benefit])、按结局类别展示的概率分布图。
五大性能维度
1、区分度(discrimination)
区分度关注模型是否能为实际发生事件的个体比未发生事件的个体分配更高的事件概率。区分度反映的是相对性能,即模型所估计的概率绝对值大小并不重要,关键在于这些概率能否有效区分有事件个体与无事件个体。
2、校准度(calibration)
校准度关注模型估计的概率与实际观察到的事件发生率之间的一致性。校准度体现的是绝对性能,用于评估概率估计值是否过高或过低。因此,一个模型可能具有良好的区分度但校准度较差,反之亦然。
3、整体性能(overall performance)
整体性能综合了区分度与校准度,通过量化模型估计的概率与真实结局(0表示无事件,1表示事件)之间的接近程度,来评估模型表现。
4、分类(classification)
第四和第五个性能维度需要设定一个事件风险的阈值,将个体划分为两个互斥的组别:低风险组(估计风险低于阈值)和高风险组(估计风险等于或高于阈值)。这种分组通常关联着某种干预措施(例如手术),即建议对高风险个体实施干预,对低风险个体则不建议干预。因此,该阈值可称为“决策阈值”。也可以使用多个决策阈值将个体划分为三个或更多组别,本文聚焦于常见的单阈值情形。
分类性能关注个体被正确归类为高风险或低风险的程度。该维度基于列联表(又称混淆矩阵),对分类结果(低风险 vs. 高风险)与实际结局(事件 vs. 无事件)进行交叉汇总。当所有发生事件的个体预测概率均高于决策阈值,所有未发生事件的个体预测概率均低于该阈值时,分类性能达到完美。分类性能受区分度和校准度的影响。
5、临床效用(clinical utility)
临床效用更进一步,在评估个体被划分进低风险或高风险组时,明确考虑了误分类成本(misclassification costs)。"误分类成本"是一个成熟术语,泛指各类误分类(包括假阳性与假阴性)所带来的危害。
临床效用评估的是基于特定决策阈值所做决策的质量,以及使用该模型是否比不使用模型或使用其他竞争模型能带来更优的临床决策。因此,决策阈值应具有临床意义,并与误分类成本相关联。由于临床效用直接关注决策质量,它是五个性能维度中最重要的一个。
“决策阈值”的定义
大多数用于医学的预测性AI模型,主要目标是支持后续的临床决策。模型得到的概率估计值可帮助改善健康结局:对低风险个体避免实施获益有限且负担较重的干预措施,为高风险个体更合理地选择干预方案。因此,决策阈值应基于医学考量而非统计学依据来确定。
然而,在实践中,决策阈值常常通过某个统计指标来定(如约登指数,即灵敏度+特异度−1)。采用统计学指标来设定决策阈值,不仅违背决策理论的基本原则,也脱离了临床医生的实际使用需求。
正确的做法是:一旦模型所要支持的具体临床决策被明确定义后,就应考虑使用该模型辅助决策可能产生的四种后果:
- 真阳性(实际发生事件且被归类为高风险)
- 真阴性(未发生事件且被归类为低风险)
- 假阴性(实际发生事件却被归类为低风险)
- 假阳性(未发生事件却被归类为高风险)
这些后果的重要性权重因干预措施的性质与影响、医疗体系特点,以及医生和患者的偏好而有所不同。
本文中的案例涉及需要手术切除卵巢肿瘤的患者。临床使用ADNEX模型来决定应采取高级别手术还是保守手术,通常建议将恶性概率的决策阈值设为0.1(即10%)。这意味着,当ADNEX模型预测某患者的恶性风险为10%时,便建议其接受高级别手术。在此阈值下,每发现1例真正需要高级别手术的恶性肿瘤患者(真阳性),就需要对另外9名实际为良性肿瘤的患者实施了不必要的高级别手术(即最多接受9例假阳性)。换言之,采用这一阈值隐含的前提是:对恶性肿瘤患者实施高级别手术所带来的医学获益,至少是良性肿瘤患者接受不必要高级别手术所造成伤害的9倍。
本文讨论了32种性能指标(3种区分度指标、6种校准度指标、9种整体性能指标、11种分类指标、3种临床效用指标)(见表1),以及相应的可视化评估方法。
表1. 本文所讨论的性能指标以及案例研究中ADNEX模型在校准前后的结果
![]()
![]()
![]()
![]()
![]()
良好性能指标应具备的关键特征
本文定义了性能指标应具备的两项关键特征:(1)该指标应为“恰当”(proper)的指标;(2)该指标应明确聚焦于是反映统计价值还是决策分析价值。不具备第一项特征的指标不可信赖,缺乏第二项特征的指标则含义模糊、难以解释。
第三项理想特征是具有直观易懂的可解释性,但本文不详细讨论这一特征,因为可解释性具有主观性,且受使用者背景知识和熟悉程度的影响。
在医学实践中,对预测性AI模型的性能评估可清晰区分为统计性能评估与决策分析性能评估两类。前四个性能维度关注统计性能的不同方面,而临床效用维度则聚焦于决策分析性能。
统计性能指标对于模型评估至关重要,但不能单独用于判断模型是否应投入临床实践。例如,仅凭良好的区分度和校准度就声称“该模型可用于辅助卵巢手术决策”是不恰当的。若某性能指标旨在超越单纯的统计价值,则必须依据决策分析原则,要纳入误分类成本。
案例研究:卵巢癌诊断模型(ADNEX模型)
本文所使用的案例是对有卵巢肿瘤的女性预期其恶性风险。ADNEX模型由国际卵巢肿瘤分析(IOTA)联盟开发,可在术前估计计划接受手术的卵巢肿瘤患者患恶性肿瘤的概率[1]。该模型可用于指导两类决策:(1)在肿瘤中心就诊的患者选择高级别手术还是保守手术;(2)在其他机构就诊的患者是否应转诊至肿瘤中心。
ADNEX模型基于1999-2012年间来自10个国家(意大利、比利时、瑞典、捷克、波兰、法国、英国、中国、西班牙、加拿大)的24家二级和三级医疗机构共5909名患者的数据开发而成。
随后,TransIOTA研究利用2015-2019年间来自4个国家(比利时、意大利、捷克和英国)的1家二级和5家三级医疗机构的894名女性数据,对ADNEX模型区分良性与恶性肿瘤的能力进行了外部验证[2]。
出于教学目的,本文使用该数据集计算了所有要讨论的性能指标及其95%CI,并展示了所有相关的可视化图表。
本文评估了原始ADNEX模型的性能,以及经逻辑校准(logistic recalibration)更新后的性能(见前表1)。更新方法为:以结局为因变量,以ADNEX输出的事件概率的logit值(线性预测因子)为自变量,拟合一个logistic回归模型。该方法类似于机器学习中的Platt缩放(Platt scaling),常用于改善预测的校准度。逻辑校准本质上是对线性预测因子进行线性变换,因此是一种保序方法(rank-preserving method),即患者按恶性概率排序的结果在校准前后保持不变。
所有R和Python代码,以及894名参与者的恶性风险估计值和实际结局数据,均已公开于GitHub代码仓库,链接如下:
https://github.com/benvancalster/PerfMeasuresOverview
参考文献:
1.BMJ. 2014; 349:g5920
2. Br J Cancer. 2024; 130:934-940
本文整理自:Lancet Digit Health. 2025 Dec 13:100916.
受篇幅限制,本篇文章先介绍到这里,在后面一篇推文中,我们再介绍这篇文章的后半部分,即针对各种性能指标的描述以及相应的可视化方法,敬请期待。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.