网易首页 > 网易号 > 正文 申请入驻

临床预测模型的评价,常用这些指标!

0
分享至

内容来自:“小白学统计”微信公众号,感谢作者授权。

医疗预测模型的评估通常涉及三个关键方面:区分度、校准度和临床实用性。区分度是衡量模型区分有事件和无事件个体的能力,而校准则评估预测风险与观察风险之间的一致性。理想的模型应同时展现出高水平的区分能力和校准度,以改善临床决策。

虽然评估模型的区分度和校准度是至关重要的,但当前的相关文献报道似乎并不乐观。一项由Wessler等人进行的研究显示,在796个预测模型中,仅有63%报告了区分能力的测量,而仅有36%包含校准评估指标。类似地,Carrick等人审查了62个验证模型,发现虽然98%报告了区分能力,但只有41.9%提供了校准信息。这突显了医疗预测模型综合评估中的显著差距。

区分度指标

灵敏度和特异度是评估区分能力的常用指标;然而,在处理类分布不均衡数据集时(如阳性比例仅占10%),它们往往不够充分。即便灵敏度和特异度较高,模型的实际效用也并不能得到保证。例如,如下表所示(阳性率为5%,典型的非均衡数据),灵敏度和特异度分别为80%和96%。然而,阳性预测值(PPV)仅为50%,这表明在采用模型预测的100个阳性个体中,实际只有50个是真正阳性。

此外,灵敏度和特异度可能会因决策阈值的不同而有所变化。例如,在 ,PCOS阳性率为10.45%,如果将决策阈值设定为50%时,灵敏度和特异度分别为0.34和0.98。然而,当阈值调整为10%时,灵敏度和特异度分别变化为0.76和0.84。在事件发生率较低的情况下,阈值为0.5通常导致灵敏度较低,但这并不一定意味着性能差。从这个角度看,综合考虑了所有阈值性能的ROC曲线下面积(AUC)在实际应用中更受青睐。

尽管AUC(也称为c统计量)被广泛使用,但它也存在一些局限性,特别是在非均衡数据集中。例如,我们曾对一份数据建模,在这份数据中,共42个阳性事件和312个非阳性事件,我们发现如果将所有对象预测为非阳性事件,会产生0.885的AUC,这错误地暗示其表现良好。这强调了仅依靠AUC可能导致误导性结论的潜在风险

因此,虽然一个预测模型可能表现出高灵敏度、特异度和AUC,但这些指标单独使用并不能保证模型的良好表现。有一些综合指标可以考虑:例如,F1分数结合了灵敏度和阳性预测值,部分弥补了灵敏度的局限性。

然而,由于F1分数仅侧重阳性事件,它仍可能引入偏差。 例如,如下表所示,较高的灵敏度(0.92)和阳性预测值(0.99)产生了高达0.95的F1分数,而特异度仍然极低,仅为0.11。 在这种情况下,Matthews Correlation Coefficient(MCC)提供了更全面和更平衡的模型性能评估。

因此,在评估不平衡数据的区分能力时,我们不建议仅依赖单一指标。相反,我们建议结合灵敏度、特异度、AUC、F1分数和MCC从多个角度评估模型性能。

校准指标

单靠区分能力不足以评估模型的预测性能。即使模型表现出高区分能力,如果预测值与实际值之间存在显著差异,其实际效用也会受到限制。从这个角度来看,校准评估变得不可或缺

校准通常使用校准图进行可视化,该图将预测概率分为若干个箱(通常为10个,但也可以是其它),并评估每个箱中预测概率与实际阳性事件比例之间的一致性。如下图所示,是将预测概率分了5个箱子,纵坐标是每个分类中的实际阳性率。下图可以看出二者一致性还不错

虽然Hosmer-Lemeshow检验可以作为校准图的拟合优度检验,但因其统计功效受样本量影响太大,且解释性差,因此并不建议使用。如果想使用的话,为了解决样本过大或过小带来的问题,已有文章提出了Hosmer-Lemeshow检验的改进版本。此外,也可以使用综合校准指数(ICI),该指标通过计算观察到的概率与预测概率之间的加权平均差异来量化二分结果的校准。

综合性能测量

一些性能测量指标结合了区分能力和校准成分,如解释变异(R²)和Brier score。R²是连续结果中最常用的测量指标,而R² Nagelkerke通常用于二分类模型。Brier score表示实际结果与估计概率之间的均方误差,分数越低表示模型性能越好。然而,需要注意的是,较低的Brier score并不一定意味着更高的校准,因为它同时反映了区分能力和校准能力。

决策曲线分析

虽然区分能力和校准对评估预测模型的性能至关重要,但它们并未为临床医生提供临床实用性方面的决策。为了解决这一限制,决策曲线分析(DCA)作为一种方法被开发出来,能够总结模型在支持临床决策中的表现

决策曲线绘制了预测模型的各种概率阈值(表示模型认为是阳性结局并需要干预的预测风险水平)所对应的净收益(NB)。通过比较不同模型的NB,DCA帮助临床医生识别哪个建议能够产生最高的NB,从而促进更好的临床决策。

如下图,横坐标是不同概率阈值,纵坐标是模型的净收益。红色曲线代表预测模型的净收益,绿色虚线代表对所有人进行干预的获益,蓝色虚线代表对所有人都不干预的获益(其实就是没有获益)。图中的紫色括号部分是我标出来的,说明在这一段的概率阈值之内,应用模型是有临床价值的,因为这段内模型的净收益比“对所有人都干预”更高,也比“对所有人都不干预”更高。

DCA的关键在于理解净收益,它类似于利润。从财务角度看,净利润是通过从收入中减去支出,然后乘以汇率得出的。在医学背景下,净收益计算为真正阳性数量减去假阳性数量,并通过一个因子(pt/(1-pt))加权,其中pt代表阈值概率。这个权重平衡了真正阳性的益处与假阳性的危害。通俗点说,净收益可以理解为:如果模型预测对了,提前干预获得收益(也许是生命延长,也许是生存质量提高等);但是如果模型预测错误,干预带来负面效应(如取了个活检,白疼了一下)。这两个差值就是净收益。

阈值pt的确定依赖于临床考量。例如,在预测前列腺癌时,预测概率超过10%也许就会促使你进行活检,因为发现侵袭性癌症的好处超过了不必要活检所带来的风险。然而,在病理骨折风险方面,除非风险超过25%,否则可能不会考虑手术。所以,这个pt取决于你对疾病严重程度的认识,提前干预所预期的获益,以及能接受干预所带来的负面效应的承受能力。

尽管DCA是一个有价值的决策工具,但它主要适用于早期干预对结果有显著影响的情况,例如早期癌症检测和治疗,这对癌症患者的生存很重要,一旦模型提示存在患病风险,患者可能会立刻采取措施。然而,某些干预措施并非完全由临床医生驱动。例如,我们前期开发的OvaRePred模型,主要用于评估并预测卵巢储备状态。如果该模型识别出卵巢储备减少并预测早期进入围绝经期,临床医生的作用仅限于提醒就诊者,让她决定何时考虑怀孕,但不能直接替她做干预。而且即使某一女性已知自己卵巢储备减少,考虑到各种因素,也不一定立刻就会采取措施。在这种情况下,DCA并不是必须的。

点击左下角“阅读原文”,学习医咖会专栏课程《理论+实操,带你轻松告别临床预测模型的小白》。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央定调:人民日报钟才平连发6篇,14亿人收入、房贷、养老解析

中央定调:人民日报钟才平连发6篇,14亿人收入、房贷、养老解析

另子维爱读史
2026-01-17 21:04:24
跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

跟学历低的妹子谈恋爱是什么体验?如果你被她吸引,不妨放下预设

另子维爱读史
2026-01-09 22:06:39
至今无人超越的十部国产剧,《潜伏》垫底,榜首凭实力第一

至今无人超越的十部国产剧,《潜伏》垫底,榜首凭实力第一

小Q侃电影
2026-01-18 16:44:55
前AV女优自曝为BTS“守身”6年,偶像入伍后才解禁男色

前AV女优自曝为BTS“守身”6年,偶像入伍后才解禁男色

随波荡漾的漂流瓶
2026-01-16 17:21:48
确认了!是知名演员张嘉益

确认了!是知名演员张嘉益

看尽落尘花q
2026-01-04 11:55:44
美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

小莜读史
2026-01-15 20:26:25
李沁刚出道时照片曝光,腿上都是淤青,看着让人好心疼

李沁刚出道时照片曝光,腿上都是淤青,看着让人好心疼

动物奇奇怪怪
2026-01-16 12:31:20
我被当众降职那天,妻子空降成了最大股东,她:重新宣布人事任命

我被当众降职那天,妻子空降成了最大股东,她:重新宣布人事任命

二十一号故事铺
2025-08-21 19:26:09
'央视穷鬼'龙洋底牌被扒光,每月撑死赚2万

'央视穷鬼'龙洋底牌被扒光,每月撑死赚2万

春风咏歌
2026-01-18 15:22:06
1月16日俄乌:美俄配合默契, 欧洲愈发强硬

1月16日俄乌:美俄配合默契, 欧洲愈发强硬

山河路口
2026-01-16 18:15:09
曝37岁福原爱将诞下3胎!老公身份公开,简直把前夫脸面放地上踩

曝37岁福原爱将诞下3胎!老公身份公开,简直把前夫脸面放地上踩

法老不说教
2025-12-22 19:20:00
解放军上场后,外交部也跟进行动,中方通知日本:血债必须偿还

解放军上场后,外交部也跟进行动,中方通知日本:血债必须偿还

时时有聊
2026-01-17 20:30:55
你知道女性的阴道有多长吗?或许与你所想,完全不同!

你知道女性的阴道有多长吗?或许与你所想,完全不同!

战争茶馆
2025-11-26 10:33:50
聂卫平住院照曝光:吸氧坐轮椅,穿病号服仍不忘下棋,女儿想念他

聂卫平住院照曝光:吸氧坐轮椅,穿病号服仍不忘下棋,女儿想念他

观察鉴娱
2026-01-16 09:47:21
山西男篮捡宝?退役复出铁人 他能补上山西持球短板吗?

山西男篮捡宝?退役复出铁人 他能补上山西持球短板吗?

你看球呢
2026-01-18 16:43:24
火箭对阵鹈鹕前瞻 火箭多次输给西部垫底队 这次还会阴沟里翻船吗

火箭对阵鹈鹕前瞻 火箭多次输给西部垫底队 这次还会阴沟里翻船吗

大话火箭队
2026-01-18 16:46:32
索尼正准备 “革命性” 发布,或震撼行业?

索尼正准备 “革命性” 发布,或震撼行业?

相机Beta
2026-01-16 20:29:13
马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

老特有话说
2026-01-17 16:26:05
老人拆除自家危房后被告知“无法重建”,当地回应:证已过期,重建需邻居同意

老人拆除自家危房后被告知“无法重建”,当地回应:证已过期,重建需邻居同意

落纸生花创意手工
2026-01-18 12:05:36
吴彦祖夫妇:岁月沉淀的默契与颜值

吴彦祖夫妇:岁月沉淀的默契与颜值

述家娱记
2026-01-10 17:50:31
2026-01-18 17:23:00
医咖会
医咖会
生动有趣的形式传递医学新进展
2730文章数 10961关注度
往期回顾 全部

健康要闻

血常规3项异常,是身体警报!

头条要闻

学校食堂有食物黄曲霉毒素超标11倍 学生:食堂有"毒"

头条要闻

学校食堂有食物黄曲霉毒素超标11倍 学生:食堂有"毒"

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

BBA,势败如山倒

科技要闻

AI大事!马斯克:索赔9300亿元

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

手机
游戏
健康
教育
数码

手机要闻

Air史上最大电池!红魔11 Air官宣搭载7000mAh牛魔王电池

行业大佬爆料:《星战绝地3》最快年内就能玩到!

血常规3项异常,是身体警报!

教育要闻

小学思维,答对的寥寥无几

数码要闻

雷蛇发布BLACKPINK限量联名外设:含粉色鼠标、键盘、电竞椅等

无障碍浏览 进入关怀版