网易首页 > 网易号 > 正文 申请入驻

临床预测模型的评价,常用这些指标!

0
分享至

内容来自:“小白学统计”微信公众号,感谢作者授权。

医疗预测模型的评估通常涉及三个关键方面:区分度、校准度和临床实用性。区分度是衡量模型区分有事件和无事件个体的能力,而校准则评估预测风险与观察风险之间的一致性。理想的模型应同时展现出高水平的区分能力和校准度,以改善临床决策。

虽然评估模型的区分度和校准度是至关重要的,但当前的相关文献报道似乎并不乐观。一项由Wessler等人进行的研究显示,在796个预测模型中,仅有63%报告了区分能力的测量,而仅有36%包含校准评估指标。类似地,Carrick等人审查了62个验证模型,发现虽然98%报告了区分能力,但只有41.9%提供了校准信息。这突显了医疗预测模型综合评估中的显著差距。

区分度指标

灵敏度和特异度是评估区分能力的常用指标;然而,在处理类分布不均衡数据集时(如阳性比例仅占10%),它们往往不够充分。即便灵敏度和特异度较高,模型的实际效用也并不能得到保证。例如,如下表所示(阳性率为5%,典型的非均衡数据),灵敏度和特异度分别为80%和96%。然而,阳性预测值(PPV)仅为50%,这表明在采用模型预测的100个阳性个体中,实际只有50个是真正阳性。

此外,灵敏度和特异度可能会因决策阈值的不同而有所变化。例如,在 ,PCOS阳性率为10.45%,如果将决策阈值设定为50%时,灵敏度和特异度分别为0.34和0.98。然而,当阈值调整为10%时,灵敏度和特异度分别变化为0.76和0.84。在事件发生率较低的情况下,阈值为0.5通常导致灵敏度较低,但这并不一定意味着性能差。从这个角度看,综合考虑了所有阈值性能的ROC曲线下面积(AUC)在实际应用中更受青睐。

尽管AUC(也称为c统计量)被广泛使用,但它也存在一些局限性,特别是在非均衡数据集中。例如,我们曾对一份数据建模,在这份数据中,共42个阳性事件和312个非阳性事件,我们发现如果将所有对象预测为非阳性事件,会产生0.885的AUC,这错误地暗示其表现良好。这强调了仅依靠AUC可能导致误导性结论的潜在风险

因此,虽然一个预测模型可能表现出高灵敏度、特异度和AUC,但这些指标单独使用并不能保证模型的良好表现。有一些综合指标可以考虑:例如,F1分数结合了灵敏度和阳性预测值,部分弥补了灵敏度的局限性。

然而,由于F1分数仅侧重阳性事件,它仍可能引入偏差。 例如,如下表所示,较高的灵敏度(0.92)和阳性预测值(0.99)产生了高达0.95的F1分数,而特异度仍然极低,仅为0.11。 在这种情况下,Matthews Correlation Coefficient(MCC)提供了更全面和更平衡的模型性能评估。

因此,在评估不平衡数据的区分能力时,我们不建议仅依赖单一指标。相反,我们建议结合灵敏度、特异度、AUC、F1分数和MCC从多个角度评估模型性能。

校准指标

单靠区分能力不足以评估模型的预测性能。即使模型表现出高区分能力,如果预测值与实际值之间存在显著差异,其实际效用也会受到限制。从这个角度来看,校准评估变得不可或缺

校准通常使用校准图进行可视化,该图将预测概率分为若干个箱(通常为10个,但也可以是其它),并评估每个箱中预测概率与实际阳性事件比例之间的一致性。如下图所示,是将预测概率分了5个箱子,纵坐标是每个分类中的实际阳性率。下图可以看出二者一致性还不错

虽然Hosmer-Lemeshow检验可以作为校准图的拟合优度检验,但因其统计功效受样本量影响太大,且解释性差,因此并不建议使用。如果想使用的话,为了解决样本过大或过小带来的问题,已有文章提出了Hosmer-Lemeshow检验的改进版本。此外,也可以使用综合校准指数(ICI),该指标通过计算观察到的概率与预测概率之间的加权平均差异来量化二分结果的校准。

综合性能测量

一些性能测量指标结合了区分能力和校准成分,如解释变异(R²)和Brier score。R²是连续结果中最常用的测量指标,而R² Nagelkerke通常用于二分类模型。Brier score表示实际结果与估计概率之间的均方误差,分数越低表示模型性能越好。然而,需要注意的是,较低的Brier score并不一定意味着更高的校准,因为它同时反映了区分能力和校准能力。

决策曲线分析

虽然区分能力和校准对评估预测模型的性能至关重要,但它们并未为临床医生提供临床实用性方面的决策。为了解决这一限制,决策曲线分析(DCA)作为一种方法被开发出来,能够总结模型在支持临床决策中的表现

决策曲线绘制了预测模型的各种概率阈值(表示模型认为是阳性结局并需要干预的预测风险水平)所对应的净收益(NB)。通过比较不同模型的NB,DCA帮助临床医生识别哪个建议能够产生最高的NB,从而促进更好的临床决策。

如下图,横坐标是不同概率阈值,纵坐标是模型的净收益。红色曲线代表预测模型的净收益,绿色虚线代表对所有人进行干预的获益,蓝色虚线代表对所有人都不干预的获益(其实就是没有获益)。图中的紫色括号部分是我标出来的,说明在这一段的概率阈值之内,应用模型是有临床价值的,因为这段内模型的净收益比“对所有人都干预”更高,也比“对所有人都不干预”更高。

DCA的关键在于理解净收益,它类似于利润。从财务角度看,净利润是通过从收入中减去支出,然后乘以汇率得出的。在医学背景下,净收益计算为真正阳性数量减去假阳性数量,并通过一个因子(pt/(1-pt))加权,其中pt代表阈值概率。这个权重平衡了真正阳性的益处与假阳性的危害。通俗点说,净收益可以理解为:如果模型预测对了,提前干预获得收益(也许是生命延长,也许是生存质量提高等);但是如果模型预测错误,干预带来负面效应(如取了个活检,白疼了一下)。这两个差值就是净收益。

阈值pt的确定依赖于临床考量。例如,在预测前列腺癌时,预测概率超过10%也许就会促使你进行活检,因为发现侵袭性癌症的好处超过了不必要活检所带来的风险。然而,在病理骨折风险方面,除非风险超过25%,否则可能不会考虑手术。所以,这个pt取决于你对疾病严重程度的认识,提前干预所预期的获益,以及能接受干预所带来的负面效应的承受能力。

尽管DCA是一个有价值的决策工具,但它主要适用于早期干预对结果有显著影响的情况,例如早期癌症检测和治疗,这对癌症患者的生存很重要,一旦模型提示存在患病风险,患者可能会立刻采取措施。然而,某些干预措施并非完全由临床医生驱动。例如,我们前期开发的OvaRePred模型,主要用于评估并预测卵巢储备状态。如果该模型识别出卵巢储备减少并预测早期进入围绝经期,临床医生的作用仅限于提醒就诊者,让她决定何时考虑怀孕,但不能直接替她做干预。而且即使某一女性已知自己卵巢储备减少,考虑到各种因素,也不一定立刻就会采取措施。在这种情况下,DCA并不是必须的。

点击左下角“阅读原文”,学习医咖会专栏课程《理论+实操,带你轻松告别临床预测模型的小白》。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普行径助推东方崛起伤及盟友

特朗普行径助推东方崛起伤及盟友

烽火瞭望者
2026-04-29 06:13:36
炸裂!家长因孩子考差怼班主任,纳税人请你教孩子,考不好要道歉

炸裂!家长因孩子考差怼班主任,纳税人请你教孩子,考不好要道歉

火山詩话
2026-04-27 11:14:53
10-13!赵心童遭墨菲3连鞭无缘4强 卫冕梦碎:难破世锦赛49年魔咒

10-13!赵心童遭墨菲3连鞭无缘4强 卫冕梦碎:难破世锦赛49年魔咒

我爱英超
2026-04-30 00:04:13
美国狠下死手绞杀新加坡,全球无国敢援,真相太残酷!

美国狠下死手绞杀新加坡,全球无国敢援,真相太残酷!

小陆搞笑日常
2026-04-28 18:59:07
四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

四年暴跌120亿,微信是怎么“杀死”口香糖行业的?

流苏晚晴
2026-04-19 20:34:47
演员陆毅嘴唇发紫,被网友提醒去医院体检;陆毅听劝后回应:心脏没问题,体重却超标了,身高1米8,体重180斤,“我是方的”

演员陆毅嘴唇发紫,被网友提醒去医院体检;陆毅听劝后回应:心脏没问题,体重却超标了,身高1米8,体重180斤,“我是方的”

浙江之声
2026-04-27 13:09:03
iPhone用户又中招!苹果天气深夜“崩了”:数据无法加载

iPhone用户又中招!苹果天气深夜“崩了”:数据无法加载

快科技
2026-04-29 15:08:07
国米夏季引援中场篇,小斯坦100%回收,红军大将欲复制小麦先例

国米夏季引援中场篇,小斯坦100%回收,红军大将欲复制小麦先例

狗哥是一名内拉
2026-04-29 16:12:35
67岁大爷拒绝30岁女邻居的追求:我虽然年纪大了,但是我不糊涂

67岁大爷拒绝30岁女邻居的追求:我虽然年纪大了,但是我不糊涂

烙任情感
2026-04-28 15:27:23
暗流涌动!特朗普,大危机来了!

暗流涌动!特朗普,大危机来了!

大嘴说天下
2026-04-28 22:00:46
十年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

十年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

小兰聊历史
2026-04-26 08:44:22
2004年马加爵被执行死刑后,同学回想他的生活,提到一个怪异之处

2004年马加爵被执行死刑后,同学回想他的生活,提到一个怪异之处

谈史论天地
2026-04-29 08:15:15
一家4口在华山跳崖,总债务高达4亿元,仅有一个女儿被留下

一家4口在华山跳崖,总债务高达4亿元,仅有一个女儿被留下

纸鸢奇谭
2024-08-14 16:57:01
男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

男子将24岁女孩撞成高位截瘫,得知要赔200万,灵机一动将名下2套房过户给女儿,女孩去要钱,男子:要钱没有,要命一条!

大爱三湘
2026-04-28 19:39:24
中国的“性萧条”时代,正式到来了

中国的“性萧条”时代,正式到来了

律法刑道
2025-12-15 08:28:58
中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

千秋文化
2026-04-27 20:01:18
王濛手臂上那个“老头吃桃酥”,我看哭了,也笑疯了

王濛手臂上那个“老头吃桃酥”,我看哭了,也笑疯了

科学发掘
2026-04-29 14:34:57
欧盟给乌放钱先设门槛:乌克兰企业年入9万美元就要交20%税

欧盟给乌放钱先设门槛:乌克兰企业年入9万美元就要交20%税

桂系007
2026-04-29 23:38:14
生肖鸡:五月有2关躲不掉,不是工作,不是破财,却让你心神不定

生肖鸡:五月有2关躲不掉,不是工作,不是破财,却让你心神不定

阿龙美食记
2026-04-24 21:34:09
别人对你说“咱俩加个微信”,千万别说 “您扫我还是我扫您?” 高情商的人这样做

别人对你说“咱俩加个微信”,千万别说 “您扫我还是我扫您?” 高情商的人这样做

德鲁克博雅管理
2026-04-23 17:02:27
2026-04-30 01:35:00
医咖会
医咖会
生动有趣的形式传递医学新进展
2821文章数 11003关注度
往期回顾 全部

健康要闻

干细胞治烧烫伤能用了么?

头条要闻

补壹刀:解放军两支舰队同时行动 信息量非常大

头条要闻

补壹刀:解放军两支舰队同时行动 信息量非常大

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

旅游
数码
健康
房产
教育

旅游要闻

虎哥说|五一连休5天,山东这些新晋打卡地别错过!

数码要闻

极米推出X50 Ultra / Max投影仪,15499-19499元

干细胞治烧烫伤能用了么?

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

教育要闻

高考地理试题中的“学考分离”现象

无障碍浏览 进入关怀版