科学家构建多模态LLM框架，进行3D脑CT放射学报告生成|ct|医学|实验

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

2025-03-13 12:32:24　来源: ScienceAI

天津举报

分享至

编辑 | 烂菜叶

多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局，其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。

虽然基于 2D MLLM 的 RRG 已经得到充分认可，但其在 3D 医学图像中的实用性仍未得到充分开发。

在这方面，台北荣民总医院（Taipei Veterans General Hospital）、台湾阳明交通大学（National Yang Ming Chiao Tung University）以及美国加州大学的研究人员整理了 3D-BrainCT 数据集（18,885 个文本扫描对）并开发了 BrainGPT，这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

该团队还提出了面向特征的放射学任务评估 (FORTE)，这是一种捕捉生成报告的临床本质的评估方案。

测试表明 BrainGPT 的平均 FORTE F1 得分为 0.71（degree = 0.661; landmark = 0.706; feature = 0.693, and impression = 0.779），并且在类图灵测试中，74% 的 BrainGPT 生成的报告与人类书写的基本事实无法区分。

该研究以「Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation」为题，于 2025 年 3 月 6 日发布在《Nature Communications》。

现代医疗保健中的人工智能 (AI) 实施彻底改变了医院在患者诊断、疾病干预和临床研究方面的日常实践。虽然卷积神经网络 (CNN) 已经攻克了图像分类和特征分割方面的一些主要任务，但 CNN 输出相对受上下文限制，并且不如完整的书面诊断报告那么令人担忧。

鉴于这一临床差距，已建立了用于胸部 X 光 (CXR) 解释的早期报告生成模型。其中，基于 LLM 的 CXR 报告生成的成功激发了跨学科领域科学家对人机界面的探索兴趣，其中多模态大型语言模型 (MLLM) 可以作为医疗专家的助手。

为了评估 MLLM 在放射学报告生成 (RRG) 中的准备情况，台北荣民总医院的研究人员调查了相关工作并确定了迄今为止 MLLM 放射学应用中的三个客观限制：

（1）研究最多的 CXR 模式缺乏足够的病变多样性来反映现实世界的诊断挑战，（2）在解释体积扫描时尚未充分测试最大模型容量，（3）没有可用于衡量 MLLM 报告信息密度和保真度的通用评估指标。

新方案

这些未解决的问题共同阻碍了具有影响力的医学 MLLM 的发展。在最新的研究中，该团队在通过解决以下问题来提高 MLLM 在放射学中的适应性：

（1）他们整理了一个大规模 3D 脑 CT 数据集（18,885 个文本扫描对），其中包含丰富的病变细节，包括神经元和血管 CT 特征的程度、空间标志和诊断印象。

（2）研究人员提出了临床视觉指令调整 (CVIT) 概念，以增强开源 Otter 基础模型的医学领域知识。在这种情况下，CVIT 增强型 BrainGPT 模型展示了多图像字幕（Image Captioning）功能，并对体积脑 CT 扫描进行了临床合理的解释。BrainGPT 模型的诊断准确性和语言风格在 CQ500 数据集上进行了外部验证，并包括 11 名医生评估员进行类似图灵测试的语言风格评估。

（3）团队提出了一种面向特征的放射学任务评估 (FORTE) 评估结构，来评估 MLLM 生成字幕的应用前景。FORTE 的变量包括诊断放射学句子中的四个基本关键字组成部分（程度、标志、特征和印象）。通过进一步检查生成的内容和评估分数之间的相关性，他们建议使用句子配对和否定消除对 MLLM 输出进行预处理可以增强对齐并过滤掉不相关的图像描述。

图示：使用 MLLM 从 3D 脑部 CT 扫描生成放射学报告的示意图概述。（来源：论文)

性能评估与讨论

之前，Hamamci 团队研究表明，生成模型能够以最先进的 (SOTA) 水平生成 3D 胸部 CT 报告（BLEU-1 = 46、BLEU-4 = 36.9、METEOR = 29.5、ROUGE-L = 45.9）。

然而，他们的定制 Transformer 模型需要在单个 NVIDIA A100 GPU 上进行 7 天的训练，而这里开发的 BrainGPT 模型只需要在两个 NVIDIA A100 GPU 上进行 12 小时的微调。

此外，Google AI 的 Med-Gemini-3D 可以生成 3D CT 报告，但只有 53% 的报告在人体评估中被认为具有临床有效性。使用大规模 Google TPUv4 加速器舱的高计算成本使得这种方法不适用于资源有限的一般研究。

相比之下，BrainGPT 使用端到端开源 Otter 框架（CLIP ViT-L/14 视觉编码器和 LlaMA-7B），允许进行实验复制和检查点共享。此外，BrainGPT 的训练成本降低，可以实现高效的视觉指令调整，提高模型性能并根据专业或风格要求定制响应。

图示：采用临床视觉指令调整 (CVIT) 从基线 Otter 模型对 BrainGPT 进行微调。（来源：论文）

虽然该团队没有修改 Otter 模型结构，但他们将 SOTA 级性能归因于 RVIT 和 CVIT 的综合作用。

之前，Singhal 团队首先探索了医学领域中特定于任务的 RVIT，并报告说，聊天机器人的性能随着医学 QA 上下文示例启动而得到改善。同样，Med-PaLM M 使用图像提示（CXR 和病理幻灯片）以及临床指导来指导 MLLM 完成多模态医疗任务。

与这些研究相呼应，这里的 CVIT 模型（BrainGPT 模板、BrainGPT 关键字）在脑 CT 字幕制作方面的表现优于 RVIT 模型。这表明，精细的专家级指导设计可能会优化临床字幕制作任务的模型结果。

图示：通过医生参与的图灵测试评估 BrainGPT 报告的语言准备情况。（来源：论文）

研究人员还强调，传统指标不适合评估临床字幕任务。医学图像报告有助于鉴别诊断，因此具有复杂的释义、高标记数（>100）和大量负面描述的特点，这与常见的指标评估背景相冲突。

他们还观察到一种「解读狂欢」行为，其中 BrainGPT 从多对象脑 CT 上下文中提供脱靶（但不是幻觉）诊断叙述。这种行为是有害的，因为 (1) 脱靶效应可能会排除原发疾病焦点（例如中风或脑肿瘤），以及 (2) 扩大叙述可能会稀释传统指标，导致无效评估。

为此，FORTE 作为一个评估框架，由句子配对、否定删除和 4 类关键词提取组成，它可以连贯地限制模型幻觉、增强解释收敛性，并为医疗保健提供者提供即时放射学印象。

研究人员对不同的评估指标进行了皮尔逊相关性分析，并报告称 FORTE 方法比相对单一的传统指标涵盖了更广泛的医学语义维度。它与人类专家评估和 DocLens 评分的相关性都达到中等到高度，进一步证明了这一点。

此外，FORTE 框架是可定制的，可以在各种医疗任务之间转移，没有任何焦点限制，该团队的 GitHub 页面上提供了可互换的分类关键字库作为关键字 JSON 文件，并针对胸部 X 光、低剂量计算机断层扫描 (LDCT)、腹部 CT 和脑部 CT 任务展示了一些示例。

在 FORTE 框架内，BrainGPT 取得了令人称赞的表现，F1 得分达到 0.589，与一般医学疾病识别中最先进的 (SOTA) 性能相当，在先前的基准研究中报告的准确率为 59.2%。

自然语言处理实验中的人类专家评估是在不同的实验设计下进行的，并且服务于不同的研究目的。因此，在不同情况下，得到的观点往往不一致且不可比。因此，相关研究采用定量（完整性、正确性、简洁性）和定性（内容、语言、结构）测量来剖析区分合成临床报告和人工报告的引人注目的特征。

通过采用具有客观语言标准的类似设计，研究人员发现审阅者成功率和答案交替原因（「可疑措辞」和「都没有提到关键特征」）都与写作风格（「熟悉度和语气」和「细节的具体性或模糊性」）有关，而不是与句子级的写作质量和连贯性有关。一项独立的提示研究也强调了医学报告写作风格的重要性。

有趣的是，他们观察到输入案例不平衡会影响字幕写作风格，这可能与一般模型训练期间观察到的过度拟合有关。

局限性与结语

该研究同样存在几个局限性，或许在未来的工作中加以解决。

首先，这是一项试点体积脑 CT 字幕研究，没有对应的 MLLM 模块进行基准测试，因此研究人员无法证明 SOTA 级别的有效性；但是，他们应用了外部验证来确保脑 CT 模块中的字幕有效性。

其次，BrainGPT 是在退化导向数据上进行训练的，因此无法捕捉 CQ500 中的恶性肿瘤和急性创伤特征。这一现象反映出训练材料可能会为最终模块的灵活性打下基础。因此，团队建议纳入不同的疾病病因，以进行鉴别诊断，从而提高 MLLM 对边界脑 CT 特征的概括。

最后，该团队进行了 CVIT 并发明了面向临床的评估（句子配对、否定消除和 FORTE），但他们没有试验改变模型主干是否有利于脑 CT 标记。未来的研究途径可能是比较多模型结果并微调 CT 的视觉编码器和语言模型。

论文链接：https://www.nature.com/articles/s41467-025-57426-0

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.