在医疗影像分析的广阔天地中,一场静默的革命正在发生。当人工智能遇见放射学,当海量未标记数据的潜力被释放,自监督学习正成为连接二者的关键桥梁。想象一下,计算机如同一位不知疲倦的医学生,无需老师指导,便能从数以万计的X光片中自主学习,提取出肺部结节的特征、心脏异常的模式。本文将探索这项技术如何在X光、CT、核磁共振和超声这四大放射影像领域带来诊断能力的质的飞跃,特别是在标记数据稀缺的情况下,如何显著提升诊断准确性,为医学影像分析开辟新纪元。
![]()
学会自学:自监督学习的奥秘
自监督学习,简单来说就是让机器在没有人工标注的情况下,自己给自己出题、自己解答,从而学到有用的知识。就像一个孩子在看到各种水果后,不需要大人告诉他们哪个是苹果、哪个是橙子,自己就能发现水果之间的区别——有的圆,有的椭圆;有的红色,有的绿色。这些自学得来的知识,未来在认识新水果时就能派上用场。
在医学影像分析中,自监督学习的基本工作流程分为两步。第一步是"自我预训练":模型接收大量未标记的医学影像(比如胸部X光片),通过解决一个预设任务(称为"前置任务")来学习基本的特征表示。这个前置任务不需要人工标注,完全可以从数据本身生成。第二步是"有监督微调":将预训练好的模型用于实际的医学诊断任务,如肺炎检测或肿瘤识别,此时只需要少量带标签的数据进行微调。
目前,自监督学习主要有两类方法:生成式方法和预测式方法。生成式方法要求模型重建被破坏的影像。比如,在降噪自编码器中,医学影像会被添加噪声,模型需要恢复原始影像;在图像修复任务中,影像的一部分会被遮挡,模型需要预测被遮挡的内容。这类方法的优势在于直观易懂,且能捕捉影像的全局特征。
![]()
预测式方法则更加多样化,包括预测图像变换、解决拼图任务等。例如,在旋转预测任务中,模型需要判断影像被旋转的角度;在拼图任务中,影像被切成小块并打乱,模型需要恢复正确顺序。这些任务看似简单,实际上要求模型理解影像的结构和组织方式。
近年来,对比学习成为自监督学习的主流方向。它的核心思想是使同一影像的不同变换版本(正样本对)在特征空间中靠近,而不同影像的变换版本(负样本对)则远离。以SimCLR为例,它通过随机数据增强(如裁剪、旋转、颜色变换)创建同一影像的两个视图,然后使这两个视图的特征表示相似。在2020年,Azizi等人将这一方法应用于胸部X光片分析,相比完全监督学习,平均AUC提高了0.01以上。
随着研究深入,非对比学习方法也崭露头角。它们不依赖负样本对,只需要正样本对就能学习有用的特征表示。例如BYOL,它使用两个网络——一个在线网络和一个目标网络,在线网络学习预测目标网络的输出。Nguyen等人在2022年将BYOL应用于胸部X光片分类,取得了比随机初始化或ImageNet预训练更好的效果。
理论上,为什么自监督预训练能提高下游任务的性能?Balestriero与LeCun在2022年提出,只要前置任务中正样本对之间的关系包含了标签之间的关系,自监督方法就能为下游任务学到有用的特征。简单说,如果前置任务能捕捉到与实际诊断相关的变化,那么学到的特征就能帮助诊断。
X光中的奇迹:胸片分析新境界
在所有医学影像模态中,X光,尤其是胸部X光片(CXR)的自监督学习研究最为丰富。这并非偶然,因为胸部X光检查是全球最常见的医学影像检查之一,且有多个公开的大型数据集如CheXpert、ChestX-ray14和MIMIC-CXR,为研究提供了坚实基础。
2020年,Zhou等人提出了C2L(联合嵌入对比学习)方法,它采用批量混合操作和带动量更新的教师网络。他们在多个公开数据集上进行预训练,并在Chest X-ray14、CheXpert和RSNA肺炎数据集上评估,结果显示C2L优于ImageNet预训练的监督模型和MoCo预训练的自监督模型。具体来说,使用ResNet18作为骨干网络时,C2L在Chest X-ray14上的平均AUC达到0.8350,而ImageNet预训练仅为0.8150;使用DenseNet121时,C2L达到0.8440,ImageNet预训练为0.8290。
Azizi等人的Multi-Instance对比学习进一步扩展了正样本对的定义,将同一患者的不同胸片视为正样本对,从而利用数据集中已有的信息来增强前置任务的难度。他们的实验揭示了几个关键发现:首先,用ImageNet预训练的权重初始化自监督预训练效果最佳;其次,自监督预训练模型在外部数据集Chest X-ray14上的表现优于完全监督模型,表明自监督学习提高了模型的泛化能力。
非对比学习方法在胸片分析中也有出色表现。Mondal等人在2022年使用BYOL预训练CheXpert数据集上的模型,然后在COVIDx CXR-2数据集上进行COVID-19分类,比随机初始化的模型准确率提高了约1%。这表明即使是针对新出现的疾病,自监督预训练仍能提供有价值的特征表示。
![]()
除了对比和非对比学习,研究者还探索了其他前置任务。Pang等人提出了POPAR,通过拼图打乱和恢复来预训练视觉Transformer,在Chest X-ray14上的平均AUC达到0.8181,优于随机初始化(0.7429)和ImageNet预训练(0.8132)。Ma等人展示了掩码图像建模对视觉Transformer胸片任务的好处,使用Swin-B架构在Chest X-ray14上达到0.8195的AUC,比随机初始化(0.7704)提高了约5个百分点。
多模态前置任务也为胸片分析带来突破。Ji等人预训练了一个网络,学习配对的胸片和放射学报告的相似表示。Tiu等人最大化了MIMIC-CXR数据集中胸片图像和报告"印象"部分的余弦相似度。有趣的是,他们没有进行微调,而是通过提供文本提示进行零样本学习(例如"气胸"和"无气胸"),模型表现几乎匹敌完全监督方法。这种方法的成功得益于如MIMIC-CXR这样同时包含影像和医生报告的数据集。
在乳腺癌识别方面,Truong等人发现解决拼图前置任务的预训练改善了恶性乳腺病变的预测,特别是在只有四分之一标签可用的情况下。You等人展示了对比学习前置任务优于基线,他们的前置任务独特之处在于将同一乳房的多个视图视为正样本对。将双侧乳房摄影作为正样本对也改善了乳腺癌筛查模型的性能。BYOL预训练也被证明能提高乳腺肿瘤分割效果。
在口腔放射影像领域,Taleb等人研究了SimCLR、Barlow Twins和BYOL预训练CNN检测龋齿的效果,仅使用152幅图像微调就将敏感性提高了6%,并且优于人类表现。Hu等人观察到,使用重建前置任务预训练改善了下游的颌骨肿瘤和囊肿的分类与分割。
值得注意的是,尽管多项研究表明自监督预训练优于从零开始训练,但与ImageNet预训练相比的结果却不一致。有些研究显示自监督预训练优于ImageNet预训练,而另一些则显示两者相当或前者稍逊。这可能与具体任务、数据集大小以及预训练方法有关。2D CNN或视觉Transformer的自监督预训练并不总是明显优于ImageNet预训练初始化,这点在Models Genesis、Semantic Genesis和Parts2Whole等方法的评估中有所体现。
总结来说,自监督预训练在X光影像分析中展现了巨大潜力,尤其是在标记数据稀缺的情况下。它不仅提高了模型性能,还增强了模型对外部数据集的泛化能力。研究表明,将临床知识融入前置任务设计是一个有前途的方向,如利用多视图检查、配对报告等现有医学信息来定义更有意义的正样本对关系。
影像三兄弟:多模态自监督突破
在医学影像的世界里,CT、MRI和超声被视为X光的"升级版",它们能提供更丰富的结构信息,但标注成本也更高。CT扫描是三维的,需要专业医生逐层标注;MRI能区分不同软组织,但数据量巨大;超声则添加了时间维度,图像质量受操作者影响大。这三种模态的自监督学习应用展现出丰富多彩的前景。
![]()
在CT领域,肺结节检测是最热门的应用之一。LIDC-IDRI数据库作为公开的带标注的CT扫描集合,包含了详细的肺结节标注和分割掩码,成为了诸多自监督研究的试验场。2019年,Zhou等人提出了Models Genesis,一种针对3D医学图像的恢复式预训练方法。具体做法是对CT子体积应用非线性平移、像素打乱、裁剪和掩蔽等变换,然后训练一个编码器-解码器CNN来恢复原始子体积。在LUNA2016挑战数据集上,使用Models Genesis预训练的3D CNN达到了0.9834的测试AUC,远高于从零训练的0.9603。有趣的是,2D CNN使用Models Genesis预训练虽然比随机初始化好,但不如使用ImageNet预训练的权重。
基于Models Genesis,Haghighi等人在2021年提出了Semantic Genesis,增加了一个分类损失到重构损失中。分类任务是预测子区域属于哪个类别,这些类别是根据预训练自编码器潜在空间的聚类构建的。Semantic Genesis的3D模型在LUNA2016上达到了0.9847的AUC,进一步提升了性能。2022年,Feng等人提出Parts2Whole,任务是从随机子体积重构整个CT体积,在同样的数据集上达到了0.9867的AUC,成为当时的最高分。
脑出血检测是CT自监督应用的另一个成功案例。Zhuang等人训练了一个3D CNN分类器来检测脑出血,应用了一个他们戏称为"解魔方"的自定义前置任务。这个任务是预测应用于立方体输入的8个子体积的随机排列和旋转。他们的自定义预训练使准确率比从零训练提高了11.2%。
在COVID-19诊断方面,多项研究证明了自监督学习的价值。Ewen和Khan在公开的COVID-CT数据集上取得了不错的性能,而他们使用的前置任务看似平凡——预测CT扫描是否在矢状平面上水平反射。Lu和Dai进行了两轮使用MoCo的对比预训练,一轮在LUNA2016数据集上,第二轮在扩展版的COVID-CT上。评估结果显示,这种方法优于ImageNet预训练。
器官和肿瘤分割是CT自监督学习的另一大应用。多项研究在NIH Pancreas-CT数据集上报告了胰腺肿瘤分割的结果。Zheng等人的切片打乱重构预训练达到了0.8621的Dice得分,优于随机初始化的0.8569。Tao等人的Rubik's cube++方法达到了0.8408,而Yang等人的VoxSeP达到了0.8571,都显著优于基线。在LiTS2017肝脏肿瘤分割基准测试中,Models Genesis(3D)达到了0.8510的IoU,Parts2Whole达到了0.8670,United达到了0.8653,都大幅超过了从零训练的0.7782到0.7976。
MRI自监督应用同样丰富多彩。在脑肿瘤分割任务上,BraTS挑战赛是一个常用的多模态MRI分割基准。多种重构前置任务被提出,如Chen等人的图像块位置交换、Kayal等人的3D超体素修复、Taleb等人的多模态拼图以及Huang等人的边界区域加权掩蔽重构。Kayal的方法使得他们的3D CNN显著优于随机初始化的基线,即使在所有训练标签都包括在内的情况下也是如此。
在精神疾病检测方面,自监督预训练也取得了成功。Mahmood等人开发了1D CNN,在静息态功能性MRI时间序列上检测阿尔茨海默病、精神分裂症和自闭症。他们使用的对比前置任务将时间序列的片段和整体视为一对,这改善了所有三个分类器的AUC。Zhao等人提出了一种前置任务,结合了基本的自编码器和均方误差,以及一个旨在强制同一患者在两个时间点拍摄的体积表示在潜在空间中具有方向性的正则化器。他们的方法使预训练模型的测试AUC比前一项工作提高了0.076。
![]()
超声影像的自监督研究相对较少,但仍有一些成功案例。在乳腺超声恶性肿瘤识别方面,Lin等人提出了一种视频特定的前置任务,预训练编码器-解码器架构以恢复随机掩蔽整帧和剩余帧中的补丁后的超声视频。在私有数据集上进行半监督微调用于良恶性病变分类时,掩蔽视频预训练比随机初始化提高了1%的准确率。
在超声心动图任务中,Anand等人评估了多种联合嵌入SSL方法(如SimCLR、MoCoV2、BYOL、DINO)在视图分类任务上的表现。他们发现预训练不仅优于随机和ImageNet预训练初始化,而且预训练使用更多未标记数据会扩大性能差距。Dezaki等人设计了一个多方面的定制前置任务,包括重新排序连续帧的打乱三元组,最小化连续帧的嵌入并最大化时间上远离的帧的嵌入,以及最小化来自多个视图的对应于心动周期中相同点的帧的嵌入差异。尽管在使用所有标签时,完全监督学习与自监督预训练相当,但在标签较少时,SSL大大提高了性能。
甲状腺结节评估是超声的另一个重要应用。Zhao和Yang预训练了一个区分良恶性结节的分类器,使用公开的TN-SCUI2020数据集。他们将先前医学知识整合到对比前置任务中,该任务旨在最小化手工制作的放射组学特征和原始超声图像嵌入之间的差异。他们的方法优于随机初始化和使用通用前置任务的预训练。
未来方向:从实证走向理论
自监督学习的成功不仅仅是实验结果的堆砌,更需要理论指导与实践总结。通过对大量文献的梳理,我们可以归纳出几个关键的发展方向和建议。
低标记场景是自监督学习的最大价值所在。多项研究一致表明,当标签数量有限时,自监督预训练带来的性能提升最为显著。Chen等人通过限制可用于下游微调的标签数量,证明了自监督预训练在使用25%和50%数据集时带来的改进。Truong等人也观察到,在只有四分之一标签可用时,预训练解决拼图前置任务改善了恶性乳腺病变的预测。
在实践中,一个常见策略是比较在不同标签可用性分数下完全监督和自监督模型的性能。Azizi等人以及Dezaki等人的实验都显示,随着可用标签减少,自监督预训练的优势越来越明显。这一现象不仅限于某一种模态或任务,而是在X光、CT、MRI和超声的各种应用中都有体现。由此可见,自监督学习是解决医学影像领域标签稀缺问题的有力工具。
![]()
理论支持与实证方法的结合是未来研究的重要方向。目前,许多针对特定任务的SSL方法往往依靠直觉而非严格的理论基础。它们通常根据临床和/或背景知识来设计前置任务,但这些选择主要是基于直觉的。随着研究深入,需要更多理论工作来指导前置任务的选择和设计。
Balestriero与LeCun的工作为此提供了一个框架,他们证明只要前置任务中正样本对之间的关系包含了标签之间的关系,SSL方法就能为下游任务学到有用的特征。这一理论指导了Fernandez-Quilez等人修改SimCLR的数据转换分布,使其捕捉不会改变标签的差异。Azizi等人则扩展了成对关系,将同一病理的多个采集视图包括在内。这些策略利用了现有的临床知识,而不需要额外的标签工作。
未来的方法应尽可能应用经过理论证明的方法进行SSL预训练;否则,在提出优于常规方法的主张时,应进行统计显著性测试。此外,研究者还应考虑利用多视图检查、多模态研究、随附的放射学报告和DICOM标签等"免费"的临床知识来源。
可比较与可重复的基准测试对推动领域发展至关重要。医学影像机器学习的一个长期问题是缺乏公共数据集,这阻碍了结果的可复制性。本综述中许多提出新型SSL方法的研究仅在私有数据集上进行评估,导致许多结果无法直接比较。
建议提出新型SSL方法的作者使用公共数据集评估其方法,或者除了私有数据集外,还包括公共数据集的结果。评估公共数据集时,研究者应使用与前人研究相同的训练/测试分割。此外,作者应努力在标准公共数据集上评估时使用相同的预训练和训练集。
预训练对模型泛化能力的影响也值得深入研究。在不同分布下训练的机器学习模型容易出现性能下降。偏差可能来自训练集中混杂或中介变量的分布,如标签差异、患者人口统计、采集技术和设备制造商。外部验证因此成为部署前的关键步骤。
一些研究报告了自监督预训练在外部测试集上表现的改进。Azizi等人发现,在CheXpert上进行自监督预训练并在Chest X-ray14上评估的模型优于在Chest X-ray14上训练的完全监督模型。Tiu等人和Wang等人也观察到类似的改进。这些发现暗示自监督学习可能有助于提高模型的泛化能力,但需要更多工作来确认这一现象。
综上所述,自监督学习为放射学影像分析开辟了新的可能性,特别是在标签稀缺的情况下。通过充分利用未标记数据,整合临床知识,理论与实践相结合,自监督学习有望进一步提升医学影像分析的能力和效率,造福医疗实践。
参考资料
VanBerlo, B., Hoey, J., &; Wong, A. (2023). A Survey of the Impact of Self-Supervised Pretraining for Diagnostic Tasks with Radiological Images. arXiv preprint arXiv:2309.02555.
Shurrab, S., &; Duwairi, R. (2022). Self-supervised learning methods and applications in medical imaging analysis: A survey. Artificial Intelligence in Medicine, 102333.
Zhou, L., et al. (2022). Models Genesis: Self-supervised Learning Framework for Domain Adaptive Medical Image Analysis. Medical Image Analysis, 79, 102447.
Azizi, S., et al. (2021). Big Self-Supervised Models Advance Medical Image Classification. In Proceedings of the IEEE/CVF International Conference on Computer Vision.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.