医学数据的深度学习 Deep Learning for Medical Data|算法|大模型|神经网络

分享至

医学数据的深度学习

Deep Learning for Medical Data

摘要
本论文重新审视深度学习的基本组成要素，并评估其在医学图像分析领域的应用现状。论文指出深度学习在此领域存在的三大主要挑战：专家知识的整合、未标注数据的利用，以及预测不确定性的估计。全文据此分为三个部分，分别对应上述挑战予以解决。

第一部分提出一种新型深度学习模型，通过引入旋转-反射等变性（roto-reflective equivariance）将专家知识嵌入模型，从而提升医学成像任务（尤其是组织病理切片中转移性组织检测）的准确性与鲁棒性。该模型优于传统CNN架构，并在输入扰动下展现出强稳健性。随后，论文提出PCam数据集——源自Camelyon16挑战赛——旨在推动深度学习社区关注真实医学问题。PCam的结构设计贴近通用深度学习基准，实验证明在该数据集上的性能提升可有效迁移到更大的Camelyon16基准上。

第二部分探讨自监督表征学习的潜力，基于对比预测编码（CPC）方法，并进一步提出对比扰动预测编码（C²PC），通过引入针对医学图像特性的增强策略，显著提升了CPC的性能。

第三部分聚焦于高风险医学决策中至关重要的预测不确定性估计问题，提出一种新颖的变分推断方法：该方法在量化隐变量上构建多项分布，在不确定性估计与风险评估方面展现出与现有方法相比具有竞争力的性能。

论文结论指出：通过应对上述三大挑战，深度学习可更有效地适配医学影像任务——具体而言，专家知识可被高效整合进深度学习模型；借助自监督学习利用未标注数据可显著提升模型性能；而采用更灵活的变分推断方法可改善预测不确定性估计。

引言
1.1 研究动因

1.1.1 医学决策

准确诊断疾病并确定最有效的治疗方案，是贯穿人类历史的一项持久挑战。在古代，疑难病例常被归因于超自然力量；恶魔与神意干预成为当时社会对疾病的万能解释，治疗也据此展开。此后，人类不断进步，科学方法最终在医学中占据主导地位。凭借日益丰富的科学知识体系、对干预措施设定的高标准循证要求，以及多样化的现代诊断工具，医生如今得以以前所未有的方式做出有据可循的治疗决策。

然而，疾病诊断与疗效预测远非“火箭科学”可比——其复杂性远超后者。这一挑战源于：不确定性笼罩医学决策的方方面面。尽管我们已建立起对引力与火箭发动机较为可靠的确定性模型，人类身体却仍未被完全理解——时至今日，仍有新器官被发现，并对治疗产生深远影响（Benias 等，2018；Valstar 等，2021）。关于检测与治疗效果的科学证据不仅稀疏，且偏向特定人群；干预研究常受“幸存者偏差”困扰——出于对随机对照试验（RCT）合理性的追求，易导致双盲研究友好的疗法更易被研究，而真正复杂的干预则被忽视。人类个体的异质性进一步加剧了问题的复杂性；与此同时，许多诊断工具本身伴随着患者痛苦与高昂费用。此外，医学领域日新月异——昔日被誉为现代治疗巅峰的干预手段，如今亦不断受到质疑（Maron 等，2020；Perera 等，2022）。在此迷雾般的不确定性中做出决策，或许需要超越凡人手动所能驾驭的智能水平。

1.1.2 医学影像

现代医学影像技术的兴起进一步加剧了这一挑战。X光、超声，以及后来的计算机断层扫描（CT）、磁共振成像（MRI），加之组织病理学数字化的进步，使临床医生得以获取患者日益海量的信息。结果是，医生面临数据过载，需处理巨量信息以完成诊断与预后预测。处理这些技术生成的陌生图像被证明极其复杂，以至于催生了放射科医师与病理科医师等专门职业——他们负责评估影像数据并转化为可操作的临床建议。然而，这些专家承担的许多任务恰恰是人类天然不擅长的：常常如“大海捞针”般在海量数据中搜寻微小病灶，远离与患者的直接互动，持续聚焦于密集数据流以识别异常并评估风险。为标准化判断，专家们依赖主观评分体系（如 Gleason 评分；Gleason & Tannenbaum, 1977；Gleason, 1992），其对治疗侵入性具有重大影响，却表现出惊人的评分者间高变异性（Ozkan 等，2016）。此外，决策过程中引入更多人力，本身即带来沟通与交接方面的挑战；而一旦诊断完成，专家建议与真实治疗结局之间往往缺乏反馈闭环。

正因如此，计算机辅助诊断（CAD）展现出巨大潜力：计算机拥有无限能量与无尽专注力；尤为值得一提的是，它们从不会宿醉上岗。软件具备可复制性，且可持续迭代优化；错误行为可被精确复现、深入研究并修正；反馈闭环可跨越数月，将治疗结局回传作为早期识别模型的指导信号——这为改进医学决策提供了一条极具前景的路径。

尽管医学诊断过程包含诸多环节，全面覆盖整个流程仍极具挑战。本论文聚焦于其中关键一环：基于医学影像解读的计算机辅助诊断。这是迈向构建全面系统的重要一步——该系统可整合医学诊断全流程的各类信息，并在过程中提供决策支持。

1.1.3 计算机辅助诊断

将医学影像分析领域的专业知识提炼为算法，已被证明困难重重。尽管无数博士投身此道，试图依据历经数世纪锤炼的直觉与理论推导出诊断规则，结果却近乎不可能实现。幸运的是，机器学习为僵化的规则建模提供了替代路径：该领域已有成熟方法，可通过专家标注的示例自动学习模型，旨在捕捉标注背后的潜在原理。然而，医学影像数据体量庞大、信息稠密，传统机器学习方法依赖人工设计的特征提取器，将原始数据转化为算法可处理的数值表示。而这一特征工程本身，其难度几乎不亚于从零开始设计规则。

1.1.4 深度学习

正因如此，深度学习的出现为医学影像分析领域带来了翻天覆地的变革。通过结合大规模随机初始化的特征提取器与随机梯度下降法在搜索空间中优化，机器学习模型如今可直接在原始稠密影像上进行训练。该范式因 2012 年 ImageNet 挑战赛中深度学习大幅超越传统方法而广为人知；自此，绝大多数医学影像分析研究社群均已转向深度学习作为主导范式。

深度学习在医学影像分析中的有效性，激发了人们对未来的乐观愿景：模型可基于全球数据训练，而非依赖专家在有限学术医院数据集上手工构建的模型——后者仅覆盖全球人群的局部子集；模型可在初诊数月后从错误中学习，形成人类专家实践中罕见的反馈闭环；尽管常被视为“黑箱”，但一支类似空难调查员的专家团队可精确复现模型出错时的状态，并借助各类工具进行内省分析，指导未来如何规避同类错误；此外，深度学习模型可自由复制，使专业知识得以全球普及——为原本资源匮乏的地区带来高质量医学洞见。

深度学习模型有望变革初级医疗服务模式：通过消除对专科专家的依赖，使基层医生能直接将医学影像转化为可操作洞见，从而减轻沟通负担，减少交接失误；最后，当新型疾病威胁全球时，这些模型可被快速更新以纳入新诊断标准，实现对全球公共卫生危机的灵活响应。

1.1.5 重新审视医学影像分析中的深度学习

尽管成效卓著，深度学习的发展本质上是经验性的——有人甚至戏称为“炼金术”——其仍缺乏坚实的第一性原理（first-principle）理论支撑。尽管这一路径已带来巨大成功，但驱动其逐年进步的主流基准（如自然图像中的单目标分类）与医学影像分析的实际问题存在显著差异：后者更关注分类准确率，却忽略了医学场景的诸多细微特性。这并非否定深度学习在该领域的价值——它确已在若干重要医学影像基准上取得重大突破（Litjens 等，2017a）：例如，Gulshan 等（2016）展示了可媲美认证眼科医师团队的糖尿病视网膜病变检测模型；Esteva 等（2017）实现了接近人类专家水平的皮肤癌分类；Wang 等（2016）在前哨淋巴结活检组织病理全切片图像中识别转移性乳腺癌方面展现了强大性能。

然而，对于医学决策这般敏感的任务，深度学习模型的失效模式绝不可忽视（Zhang 等，2016；Litjens 等，2017a）：数据偏差、类别不平衡、决策缺乏可解释性与可阐释性、对输入模态扰动的脆弱性、以及对标注分歧的高度敏感等问题，在医学领域需被审慎对待。因此，有必要以医学影像分析为透镜，重新审视深度学习领域的“常识”现状，以期发现进一步提升空间，并修正既有缺陷。

1.2 研究框架

本论文以医学影像分析为应用场景，对深度学习工具箱进行重新审视，并识别出亟待深入研究的三大主题：
（1）专家知识（如建模约束）；
（2）不确定性建模与校准预测；
（3）海量未标注医学影像数据的有效利用。

这三大主题构成了本论文的核心基础：

在第部分，我们研究如何将专家知识融入深度神经网络；
在第部分，我们探究概率建模方法，以提升不确定性估计的校准性，从而辅助基于深度学习模型的临床决策；
在第部分，我们研究深度学习模型如何从未标注数据中学习，以增强规模有限的标注数据集。

贯穿全文，我们围绕以下研究问题展开探讨：

研究问题 1：在大规模医学场景中，旋转-反射等变性（roto-reflective equivariance）能否提升深度学习模型的准确性与鲁棒性？

深度学习研究多集中于自然图像领域，其中图像具有标准朝向（天空总在上方）。而医学图像，尤其是组织病理学图像，并不具备此类天然朝向先验。我们的主要贡献在于：在大规模真实世界组织病理学基准任务上，评估 Cohen 与 Welling（2016）提出的群等变模型（group equivariant models）的应用效果。尽管学界推测此类等变性可提升性能，但尚缺乏实证支持；另有观点认为，减少参数共享反而更有利于模型自主学习。因此，我们旨在探究：在真实大规模医学影像场景中，通过群卷积神经网络（GCNN）框架显式引入旋转与镜像对称性，是否能提高深度学习模型的样本效率（sample efficiency）。

研究问题 2：如何激励深度学习研究社区将模型优化聚焦于真实世界的医学问题？

基于前一问题的研究经验，我们进一步构建一个契合深度学习研究范式的医学影像基准数据集，使研究者与实践者得以在具有现实临床意义、且与实际影响高度相关的衍生任务上，便捷地验证新方法的有效性。

研究问题 3：医学影像深度学习模型能否从对比预测编码（Contrastive Predictive Coding, CPC）中受益，以实现自监督表征学习？

医学影像数据本身并不稀缺——全球医院每日都在生成海量图像，并通过称为 PACS（影像归档与通信系统）的集中式存储平台进行管理；现代化教学医院甚至已配备自动化数据处理流程。真正的瓶颈在于专家标注的获取：该过程成本高昂，通常需多位“金标准”专家对单张图像独立判读并达成共识。因此，利用未标注数据成为该领域极具前景的方向——因标注数据与未标注数据之比极度失衡。在本论文第二部分，我们探索一种新颖的无监督表征学习技术，旨在使深度学习模型的主体部分无需下游任务标签即可完成训练，从而提升标签效率（label efficiency）。

研究问题 4：能否在不依赖端到端反向传播（end-to-end backpropagation）的情况下，高效优化深度学习模型？延续未标注数据这一主题，我们进一步探究：无监督训练是否可采用贪心式（greedy）策略——即逐层训练神经网络，而无需对整个网络进行反向传播。此类训练方式对医学影像神经网络尤为值得关注：首先，无监督训练显著减轻了医学专家的标注负担；其次，单层训练所需的内存相比全网络训练低若干数量级；最后，模型可在大型医学影像的局部裁剪块（small crops）上训练，这对处理 3D 或 4D 医学数据尤为关键且高效。

研究问题 5：隐变量量化（latent variable quantization）能否提升深度隐变量模型中的置信度评分质量？医学决策高度依赖对预测结果置信度的准确评估。由于深度学习模型易表现出过度自信（overconfidence），研究能更精准刻画不确定性的模型对医学影像分析至关重要。在本论文第三部分，我们聚焦于深度隐变量模型中的变分推断框架——一类概率性深度学习模型——检验一个常被假设但鲜有实证的观点：变分后验分布的灵活性提升将带来性能改善。为此，我们引入一种高度灵活的平均场后验分布（mean-field posterior），其核心在于对隐空间进行量化。

在正文章节深入探讨上述研究问题之前，我们将在下一节简要介绍相关符号约定与深度学习的核心原理；最后，第 7 章将对全文进行总结，并展望未来研究方向。

1.3 符号说明
本文通篇采用下表所示的符号约定。

1.4.1 数据

我们从考虑数据开始。理想情况下，我们已收集到一个由独立同分布（i.i.d.）样本点x构成的大型数据集。每个样本点可能附带一个我们希望预测的标签y。这构成一个包含 n 个样本的数据集：{(xᵢ, yᵢ) | 0 ≤ i ≤ n}。我们将该数据集划分为三部分：一部分用于在训练集 ₜᵣₐᵢₙ 上优化模型，一部分用于在验证集 ᵥₐₗᵢ 上跟踪并调优训练过程中的性能，最后一部分用于在未见过的数据集 ₜₑₛₜ 上评估模型的预期表现。这种划分确保了我们的模型能够泛化至问题本身，而非过度拟合训练数据。

1.4.2 模型

深度学习模型本质上是一个参数化的数学函数，它接收数据空间中的样本，并将其映射到标签空间：f: ℝₓ → ℝᵧ。通常，该函数形式为交替进行的线性变换后接标量非线性函数（或称激活函数）：f_θ(x) = W³h(W²h(W¹x))。此函数被称为“神经网络”，因其结构大致受到大脑中连接神经元层的启发。参数或权重 θ: {Wˡ} 是我们需要调整以寻找最优模型的“旋钮”。

1.4.3 优化

我们通过交替估计模型在训练数据上产生的误差，并利用导数对参数做微小调整以降低该误差，来优化函数 f 的参数。这就是梯度下降（Gradient Descent）的核心思想，其工作原理如下：我们定义一个标量误差函数（常称为损失函数）ℒ: {X, Y, W} → ℝ。为了改进模型，我们计算每个参数的偏导数 ∇ℒ = dℒ/dWˡᵢⱼ。然后，我们沿最陡下降方向对每个参数进行小幅更新：

其中步长（即学习率）为 η。我们通过从训练数据中抽取小规模、半随机的子集（称为小批量，mini-batches）来执行该算法。实践表明，这种做法可提升模型泛化能力，并降低计算开销。我们将这种分步优化方式称为随机梯度下降（Stochastic Gradient Descent, SGD），以区别于使用全部训练数据计算真实梯度的（普通）梯度下降法。

学习率 η 是一个超参数，用于控制优化过程中每一步对权重更新的幅度。若学习率过大，优化算法可能越过最优解，导致训练不稳定甚至发散；反之，若学习率过小，算法可能需极长时间才能收敛至最小值。因此，选择合适的学习率对训练成功至关重要。

目前存在多种学习率设定策略，包括：固定学习率、学习率调度（learning rate schedules）以及自适应学习率。

固定学习率指在整个训练过程中保持学习率恒定；
学习率调度指随训练进程逐步降低学习率；
自适应学习率则根据优化进展动态调整学习率。

此外，训练过程中还可采用多种技术监控学习率：例如，当验证损失不再改善时，按预设调度降低学习率；或通过监测梯度变化，判断当前学习率是否过高或过低。

总体而言，选择恰当的学习率需结合实验与调优，不存在放之四海而皆准的通用方案。

1.5 概率推断与深度学习

在高风险领域，预测错误将带来巨大代价。幸运的是，此类领域往往具备一种安全后备机制：例如，自动驾驶汽车可执行紧急制动，医生可追加其他诊断检查，工业生产流程可暂时中止。对于深度学习模型，可通过设定一个预设置信度阈值，拒绝对置信度低于该阈值的数据点做出预测，从而实现类似的安全机制。借此，虽以牺牲部分预测（即拒绝率上升）为代价，却能确保较低的错误率。

然而，如何从神经网络中估计出高质量的置信度分数——即生成能对正确与错误预测进行良好排序的置信度——仍是当前研究的热点与难点。

深度隐变量模型（Deep Latent Variable Models, DLVMs；见图1.1）通过引入隐变量 z 来应对这一挑战：其中后验分布 p(z|x) 的不确定性直接影响对目标预测的置信度评估。近年来，已提出多种高效的推断算法，其中尤以变分推断（variational inference）为代表：其通过优化一个推断神经网络，使其预测某个变分分布的参数，从而逼近原本难以处理的真实后验分布（Kingma & Welling, 2013；Rezende 等, 2014；Alemi 等, 2016；Achille & Soatto, 2016）。

在本论文第三部分，我们探究如何在深度学习中量化不确定性。我们以 Tishby 等人（2000）提出的信息瓶颈（Information Bottleneck, IB）理论为视角展开研究。信息瓶颈目标函数为其旨在最大化隐变量 z 与目标 y 之间的互信息，同时最小化 z 与输入 x 之间的互信息。如 Alemi 等（2016）与 Achille 和 Soatto（2016）同期所示，该目标可通过变分推断方案高效优化。
在马尔可夫假设 p(z, x, y) = p(z|x)p(y|x)p(x) 下，他们推导出如下下界（lower bound）：

其中，关于期望项 ₚ₍₂|ₓₙ₎ 的计算通常通过单个蒙特卡洛样本进行估计，而 r(z) 是对边缘分布 p(z) 的一种变分近似。对于 r(z)，一个常见选择是采用简单的分布形式，例如标准正态分布（Normal）。Alemi 等人（2016）与 Achille 和 Soatto（2016）进一步指出：Kingma 与 Welling（2013）及 Rezende 等人（2014）提出的变分自编码器（VAE）的证据下界（ELBO），实际上是信息瓶颈（IB）下界在 y = x 且 β = 1 时的一个特例：

另一种理解方式是：公式 1.1 可被视为一种域转换型 beta-VAE（Higgins 等，2016），其中输入图像被编码至隐空间，再解码到目标域。此时，拉格朗日乘子 β 控制着“率”（rate）与“失真”（distortion）之间的权衡，正如 Alemi 等人（2017）所论证。然而，这种解释并非直接源于在条件似然 p(y|x) 上应用 Jensen 不等式推导 ELBO 的过程。

原文链接：https://pure.uva.nl/ws/files/178886789/Thesis.pdf

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.