探索概率与非概率方法的优劣与应用前景|算法|配准|贝叶斯|模糊集|大模型|神经网络

分享至

医学AI模型为何在实验室中表现出色，却难以在临床实践中获得医生信任？答案隐藏在＂不确定性＂这一关键问题中。当医学影像分析模型面对模糊边界、罕见病例或质量不佳的图像时，它能够意识到自己判断的局限性吗？近年来，不确定性量化技术正成为弥合AI与临床应用之间鸿沟的关键。这些技术不仅能告诉我们模型预测的结果，更能揭示这些预测背后的可信度。从贝叶斯推理到证据理论，从概率方法到非概率框架，研究人员正在构建能够＂知道自己不知道什么＂的AI系统，为医疗决策提供更全面、更透明的支持。

认清不确定

医学影像中的不确定性就像雾中看山，有时是因为山本身变幻莫测（病灶边界不清晰），有时是因为雾太浓（图像质量不佳）。研究人员把这些不确定性分为两大类：偶然不确定性和认知不确定性。

偶然不确定性是指那些完全随机的变化，是医学数据本身固有的随机性。比如同一个患者在不同时间拍摄的核磁共振图像，会因为呼吸、心跳等因素产生微小的差异。这种不确定性即使有再多的信息也无法消除。在2023年的一项研究中，Huang等人指出，当分析肿瘤边界时，边缘区域常表现出高度的偶然不确定性，因为这些区域在不同观察者之间存在天然的判断差异。

认知不确定性则是因为我们知识不足或模型局限导致的。这就像医学生刚开始学习识别X光片时的困惑——不是因为X光片有问题，而是因为经验不足。当AI模型训练数据有限，或者碰到从未见过的病例类型时，就会出现认知不确定性。2021年的一项研究表明，在少见病例上，即使是性能优秀的深度学习模型也表现出较高的认知不确定性。好消息是，通过增加数据或改进模型，这类不确定性是可以减少的。

不确定性对临床决策的影响不容小觑。在癌症筛查中，一个没有量化不确定性的AI系统可能会做出看似自信但实际上错误的判断。假设系统对一个肺部小结节给出＂良性＂的判断，但没有告诉医生这个判断的可信度仅有60%。医生如果完全依赖这个判断，可能会错过早期干预的机会。

反之，具备不确定性量化能力的系统会明确告诉医生：＂这个结节有60%的可能性是良性，40%的可能性是恶性，建议进一步检查。＂这样的信息对医生制定下一步检查计划至关重要。

量化不确定性还有助于提高模型的可解释性。传统的深度学习模型常被批评为＂黑盒＂，医生难以理解其决策过程。但通过可视化不确定性，比如用热力图标识图像中高不确定性区域，可以让医生直观了解模型在哪些地方＂不太确定＂，从而增强医生对系统的信任。

实际医学场景中，不确定性量化已经展现出实际价值。在脑肿瘤分割任务中，Jungo和Reyes在2019年的研究显示，加入不确定性评估的模型可以将假阳性率降低17%。在放射治疗计划设计中，带有不确定性量化的靶区勾画辅助系统能够帮助放射治疗师关注那些需要人工审核的高不确定性区域，提高治疗精准度。

此外，不确定性量化还为医学影像分析引入了＂知道自己不知道＂的能力。面对训练数据中未见过的罕见病例，传统模型可能会给出错误但＂自信＂的判断，而具备不确定性量化能力的模型会表明自己的判断存在高度不确定性，提醒医生需要更谨慎决策或寻求专家意见。

概率法探秘

在不确定性量化的众多方法中，基于概率论的技术最为成熟和广泛应用。这些方法就像测量体温计的精度——通过反复测量来估计结果的可靠性。

贝叶斯推理是概率方法中的基础，它将不确定性表示为概率分布而非单一数值。在医学影像分析中，有三种主要的贝叶斯推理方法：概率分布法、高斯过程和贝叶斯神经网络。

概率分布法通过估计参数的概率分布来量化不确定性。例如，在2014年Wallman等人的研究中，他们利用概率分布来推断心脏电传导特性，并量化相关不确定性。这种方法可以同时描述临床相关的电生理传导特性及其不确定性，即使在有噪声的情况下也能表现良好。

高斯过程则是一种非参数方法，用于将函数建模为可能函数的概率分布。Wachinger等人在2014年的医学图像配准研究中应用高斯过程来量化配准不确定性。通过协方差矩阵，他们能够直观显示配准过程中哪些区域存在较高不确定性，为医生提供更全面的信息。

贝叶斯神经网络（BNN）则是将贝叶斯推理与神经网络结合，对网络权重应用概率分布而非固定值。Blundell等人在2015年首次提出这一方法，之后在医学影像领域得到广泛应用。例如，Bian等人在2020年的视网膜OCT图像分割研究中使用BNN，不仅提高了分割精度，还能量化模型预测的不确定性。

蒙特卡洛方法是另一类主流的概率不确定性量化技术，通过生成随机样本来估计不确定性。其中最受欢迎的是蒙特卡洛dropout（MCD），由Gal和Ghahramani在2016年提出。MCD在网络训练和测试阶段都应用dropout操作，每次前向传播会产生不同的预测结果。通过多次前向传播，MCD能收集一系列预测，计算它们的方差或熵来估计不确定性。

MCD因其实现简单且效果可靠而成为医学影像分析中最流行的不确定性量化方法。据统计，在2023年发表的相关论文中，约有45%采用了MCD技术。Leibig等人在2017年的糖尿病视网膜病变诊断研究中证明，基于MCD的不确定性测量可以明显改善诊断性能。通过将高不确定性的样本转介给专家，这种方法可以在保持高准确率的同时减少34%的专家工作量。

马尔可夫链蒙特卡洛（MCMC）是另一种蒙特卡洛方法，适用于从复杂概率分布中采样。在2013年，Risholm等人将MCMC应用于非刚性脑部图像配准，以处理脑瘤切除手术导致的大幅变形。通过MCMC采样，他们能够估计配准参数的后验分布，为每个体素提供配准不确定性的定量度量。

测试时删除（TTD）也是蒙特卡洛方法的变种。2021年，Redekop和Chernyavskiy将TTD应用于皮肤病变和肝脏分割任务，显著提高了模型在不可靠标注数据上的性能。他们的研究表明，通过TTD量化的不确定性可以帮助识别训练标签中的错误，提高分割精度。

模型集成是第三类概率方法，通过训练多个独立模型并分析它们预测的变异性来量化不确定性。在2022年，Guo等人将集成方法应用于心脏分割任务，通过分析8个独立训练模型的预测差异来估计分割不确定性。他们的研究显示，集成模型不仅提高了分割精度，还能可靠地识别出高不确定性区域，如心脏瓣膜等复杂结构。

深度集成是模型集成的变种，由Lakshminarayanan等人在2017年提出。这种方法通过不同的参数初始化和数据增强策略训练多个深度网络，在每个网络的输出层添加高斯噪声来模拟不确定性。2022年，Kushibar等人将深度集成应用于乳腺癌和心脏分割任务，结果表明这种方法能有效区分模型的认知不确定性和数据固有的偶然不确定性。

概率方法虽然理论基础扎实，但也存在局限。首先，它们对真实数据分布的假设过强，当实际分布与假设不符时，会导致不确定性估计错误。其次，这些方法计算复杂度高，尤其是BNN和深度集成，这限制了它们在需要实时分析的临床场景中的应用。此外，传统概率方法难以区分偶然不确定性和认知不确定性，这对医学决策支持系统而言是个明显缺陷。

尽管如此，概率方法仍是现阶段医学影像不确定性量化的主流技术，其丰富的理论基础和实践经验为医学AI系统的可靠性和透明度提供了重要保障。

非概率新思路

概率方法固然强大，但就像只带放大镜出门的探险者，总有些风景看不全。在医学影像分析领域，非概率方法正在崭露头角，它们不需要对数据分布做强假设，更适合处理复杂场景下的不确定性。

Dempster-Shafer理论（DST）是非概率方法中的佼佼者。这一理论由Dempster在1967年首创，后由Shafer在1976年完善，被称为证据理论。与概率方法不同，DST不仅考虑了单个假设的可能性，还考虑了多个假设共存的情况。比如在肿瘤诊断中，它不只是给出＂良性＂或＂恶性＂的概率，还能评估＂无法确定＂的程度。

DST的核心概念是基本概率分配和证据融合。基本概率分配是对各种假设的信任分配，而证据融合则是把来自不同源的信息结合起来得到更可靠的结论。在实际应用中，DST派生出多种实用算法，如证据K近邻（EKNN）、证据C均值（ECM）和证据神经网络（ENN）。

2013年，Ghasemi等人将DST应用于脑部MRI分割，通过融合多个专家意见，既减少了误判，又保留了各方观点中有价值的部分。在2017年，Lian团队进一步将DST与ECM结合用于肺癌分割，在保证分割准确性的同时，清晰标识出高不确定性区域供医生参考。

Huang等人在2021年的研究更进一步，他们开发了一种基于ENN的脑肿瘤分割方法。这种方法可以在单次前馈过程中量化不确定性，比传统的蒙特卡洛方法快10倍以上，同时保持相当的不确定性估计质量。这对临床实时分析至关重要。

主观逻辑（SL）是DST的另一种变体，由Jsang在2016年提出。SL引入信任度、不信任度和不确定性三个维度来描述判断的可靠性。在2021年，Ghesu等人利用SL开发了一种胸部X光片异常检测系统，该系统不仅能识别肺炎等异常，还能表明其判断的可靠程度，帮助放射科医生优先处理高确定性的简单案例，将更多时间留给复杂案例。

模糊集理论是另一种重要的非概率方法，由Zadeh在1965年提出。不同于传统的二元逻辑（非黑即白），模糊逻辑允许判断存在中间状态（灰色地带）。在医学影像中，这非常符合实际情况——很多结构的边界是渐变的，而非截然分明的。

2020年，Zheng等人将模糊集理论应用于胰腺分割任务。他们使用模糊成员函数表示每个像素属于胰腺的程度，而不是简单的是/否判断。实验结果表明，这种方法在处理胰腺边缘等模糊区域时，比传统方法准确度提高了7%。

2022年，Huang等人进一步将模糊逻辑理论与深度学习结合，开发了一种乳腺超声图像分割系统。该系统不仅能准确分割乳腺组织，还能通过模糊成员函数映射显示分割的不确定性，为医生提供更丰富的决策依据。

区间分析是第三类非概率方法，它通过区间而非单一数值表示不确定性。2018年，Eaton-Rosen等人使用置信区间来量化脑肿瘤分割的不确定性，为每个分割结果提供上下界，直观显示预测的可变范围。

测试时增强（TTA）是近年来兴起的简单而有效的非概率方法。它的基本思想是在测试阶段对输入图像做多种变换（如旋转、缩放、调整对比度等），观察模型输出的变化来评估不确定性。2019年，Wang等人将TTA应用于胎儿脑MRI分割，通过分析20种不同图像变换下的分割结果变异性，成功识别出高不确定性区域，准确率比传统方法提高了15%。

与概率方法相比，非概率方法在医学影像分析中具有明显优势。它们不需要对数据分布做强假设，更适合处理认知不确定性；计算效率普遍较高，多数方法只需单次前馈就能估计不确定性；且能更清晰地区分偶然不确定性和认知不确定性，为临床决策提供更细致的信息。

值得一提的是，越来越多的研究开始尝试混合方法，结合概率与非概率技术的优势。2022年，Lin等人将模糊集理论与TTA结合用于皮肤病变分割，既保留了模糊集理论处理模糊边界的优势，又利用TTA增强了对图像变化的鲁棒性，分割性能和不确定性估计都优于单一方法。

前景与挑战

医学影像分析中的不确定性量化虽有长足进步，但仍面临诸多挑战和发展机遇。未来发展关键在于解决评估标准化、提高可解释性、平衡计算效率与实用性，以及探索在半监督学习与跨模态融合中的应用。

评估标准化是目前最迫切的挑战。由于缺乏不确定性的真实标注，研究者不得不依赖间接指标来评估不确定性量化的质量。2019年，Jungo和Reyes比较了多种评估方法，发现不同指标下各算法的表现排名可能完全不同。这种不一致性严重阻碍了该领域的发展。

现有的评估标准主要分为五类：覆盖指标、预测熵、校准指标、误分类检测和评分函数。覆盖指标测量预测不确定性区间包含真实值的比例；预测熵衡量预测分布的分散程度；校准指标检验预测概率与实际概率的一致性；误分类检测评估不确定性与错误预测的相关性；评分函数如Brier分数综合考虑准确性和校准性。

但这些指标都存在局限。Judge等人在2022年的研究表明，高覆盖率可能伴随着过宽的预测区间，实用性不足；Thagaard等人在2020年指出，校准指标难以区分系统性错误和随机误差。因此，开发全面且标准化的评估体系是未来研究的重点。

一个理想的解决方案是构建带有不确定性真实标注的医学影像数据集。这需要多位专家对同一图像进行独立标注，并记录他们的不确定性判断。Irvin等人在2019年发布的CheXpert数据集迈出了第一步，它包含多位放射科医生对胸部X光片的解读以及不确定性标记。

不确定性与可解释性的结合研究是另一个重要方向。传统上，这两个领域相对独立发展，但它们实际上紧密相关——了解模型为何不确定，是增强医生信任的关键。

Huang等人在2023年提出了一种深度证据融合框架，不仅量化分割不确定性，还解释了不确定性的来源和形成过程。这种方法让医生不只知道＂模型不确定＂，还知道＂为什么不确定＂，大大提高了系统的透明度和可接受度。

Gillmann等人在2021年的研究进一步探索了不确定性可视化方法，开发了一套复合可视化系统，能同时显示分割结果、不确定性分布及其与解剖结构的关系。用户研究表明，这种直观可视化大幅提高了医生对AI系统的理解和信任。

计算效率与临床实用性的平衡是第三个挑战。目前最准确的不确定性量化方法往往计算复杂度高，难以满足临床实时分析需求。例如，深度集成方法需要训练和推理多个独立模型，计算时间和资源消耗是单一模型的数倍。

为解决这个问题，研究者正在多方面努力。Narnhofer等人在2021年提出了一种基于变分推理的快速不确定性估计方法，将传统MCD方法的计算时间减少了80%，同时保持相当的不确定性估计质量。Liu等人在2023年开发的基于DST的融合框架只需单次前馈即可估计不确定性，计算效率比概率方法提高了一个数量级。

硬件优化也是提高效率的重要途径。NVIDIA在2022年推出的用于医学影像分析的CUDA-X AI库，专门优化了不确定性量化算法的GPU加速，使蒙特卡洛方法的推理速度提高了3倍。随着专用硬件和算法优化的进步，实时不确定性量化有望在临床环境中实现。

半监督学习与不确定性量化的结合是第四个发展方向。医学影像标注昂贵且耗时，大量图像缺乏标注。半监督学习通过少量标注数据和大量无标注数据联合训练，是解决这一困境的有效途径。

Sedai等人在2019年提出的不确定性引导半监督学习网络，利用教师-学生框架，从标记样本训练教师模型，生成无标记样本的软分割标签和不确定性图，然后更新学生模型。这种方法只使用30%的标记数据就达到了全监督学习90%的性能。

Xia等人在2020年进一步提出了不确定性感知多视图协同训练框架，利用3D医学图像的多视角一致性。他们应用蒙特卡洛方法估计每个视图的不确定性，协同训练效果优于传统半监督方法，尤其在胰腺边缘等高变异性区域。

伦理与法律考量也日益重要。随着医疗AI系统越来越多地参与临床决策，不确定性报告的伦理和法律影响变得不可忽视。当AI系统和医生判断不一致时，不确定性信息将成为责任归属的重要依据。

美国食品药品监督管理局（FDA）在2023年发布的医疗AI监管框架中，专门提到了不确定性量化的重要性，要求高风险医疗AI系统必须提供可靠的不确定性估计，并以医生可理解的方式呈现。欧盟的《人工智能法案》也有类似要求，表明不确定性量化已成为医疗AI系统的法规必备条件。

综上，医学影像分析中的不确定性量化既面临挑战，也蕴含巨大机遇。通过解决评估标准化、增强可解释性、提高计算效率，以及探索半监督学习和跨模态融合应用，不确定性量化技术有望为医学AI系统带来质的飞跃，真正赢得临床信任并造福患者。

参考资料

Huang， L.， Ruan， S.， Xing， Y.， &； Feng， M. （2023）. A review of uncertainty quantification in medical image analysis: probabilistic and non-probabilistic methods. Medical Image Analysis.
Abdar， M.， et al. （2021）. A review of uncertainty quantification in deep learning: Techniques， applications and challenges. Information Fusion.
Hullermeier， E.， &； Waegeman， W. （2021）. Aleatoric and epistemic uncertainty in machine learning: An introduction to concepts and methods. Machine Learning.
Jungo， A.， &； Reyes， M. （2019）. Assessing reliability and challenges of uncertainty estimations for medical image segmentation. Medical Image Computing and Computer Assisted Intervention.
Ghesu， F.C.， et al. （2021）. Quantifying and leveraging classification uncertainty for chest radiograph assessment. Medical Image Analysis.

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.