网易首页 > 网易号 > 正文 申请入驻

科学家构建多模态LLM框架,进行3D脑CT放射学报告生成

0
分享至

编辑 | 烂菜叶

多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。

虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。

在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

该团队还提出了面向特征的放射学任务评估 (FORTE),这是一种捕捉生成报告的临床本质的评估方案。

测试表明 BrainGPT 的平均 FORTE F1 得分为 0.71(degree = 0.661; landmark = 0.706; feature = 0.693, and impression = 0.779),并且在类图灵测试中,74% 的 BrainGPT 生成的报告与人类书写的基本事实无法区分。

该研究以「Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation」为题,于 2025 年 3 月 6 日发布在《Nature Communications》。

现代医疗保健中的人工智能 (AI) 实施彻底改变了医院在患者诊断、疾病干预和临床研究方面的日常实践。虽然卷积神经网络 (CNN) 已经攻克了图像分类和特征分割方面的一些主要任务,但 CNN 输出相对受上下文限制,并且不如完整的书面诊断报告那么令人担忧。

鉴于这一临床差距,已建立了用于胸部 X 光 (CXR) 解释的早期报告生成模型。其中,基于 LLM 的 CXR 报告生成的成功激发了跨学科领域科学家对人机界面的探索兴趣,其中多模态大型语言模型 (MLLM) 可以作为医疗专家的助手。

为了评估 MLLM 在放射学报告生成 (RRG) 中的准备情况,台北荣民总医院的研究人员调查了相关工作并确定了迄今为止 MLLM 放射学应用中的三个客观限制:

(1)研究最多的 CXR 模式缺乏足够的病变多样性来反映现实世界的诊断挑战,(2)在解释体积扫描时尚未充分测试最大模型容量,(3)没有可用于衡量 MLLM 报告信息密度和保真度的通用评估指标。

新方案

这些未解决的问题共同阻碍了具有影响力的医学 MLLM 的发展。在最新的研究中,该团队在通过解决以下问题来提高 MLLM 在放射学中的适应性:

(1)他们整理了一个大规模 3D 脑 CT 数据集(18,885 个文本扫描对),其中包含丰富的病变细节,包括神经元和血管 CT 特征的程度、空间标志和诊断印象。

(2)研究人员提出了临床视觉指令调整 (CVIT) 概念,以增强开源 Otter 基础模型的医学领域知识。在这种情况下,CVIT 增强型 BrainGPT 模型展示了多图像字幕(Image Captioning)功能,并对体积脑 CT 扫描进行了临床合理的解释。BrainGPT 模型的诊断准确性和语言风格在 CQ500 数据集上进行了外部验证,并包括 11 名医生评估员进行类似图灵测试的语言风格评估。

(3)团队提出了一种面向特征的放射学任务评估 (FORTE) 评估结构,来评估 MLLM 生成字幕的应用前景。FORTE 的变量包括诊断放射学句子中的四个基本关键字组成部分(程度、标志、特征和印象)。通过进一步检查生成的内容和评估分数之间的相关性,他们建议使用句子配对和否定消除对 MLLM 输出进行预处理可以增强对齐并过滤掉不相关的图像描述。

图示:使用 MLLM 从 3D 脑部 CT 扫描生成放射学报告的示意图概述。(来源:论文)

性能评估与讨论

之前,Hamamci 团队研究表明,生成模型能够以最先进的 (SOTA) 水平生成 3D 胸部 CT 报告(BLEU-1 = 46、BLEU-4 = 36.9、METEOR = 29.5、ROUGE-L = 45.9)。

然而,他们的定制 Transformer 模型需要在单个 NVIDIA A100 GPU 上进行 7 天的训练,而这里开发的 BrainGPT 模型只需要在两个 NVIDIA A100 GPU 上进行 12 小时的微调。

此外,Google AI 的 Med-Gemini-3D 可以生成 3D CT 报告,但只有 53% 的报告在人体评估中被认为具有临床有效性。使用大规模 Google TPUv4 加速器舱的高计算成本使得这种方法不适用于资源有限的一般研究。

相比之下,BrainGPT 使用端到端开源 Otter 框架(CLIP ViT-L/14 视觉编码器和 LlaMA-7B),允许进行实验复制和检查点共享。此外,BrainGPT 的训练成本降低,可以实现高效的视觉指令调整,提高模型性能并根据专业或风格要求定制响应。

图示:采用临床视觉指令调整 (CVIT) 从基线 Otter 模型对 BrainGPT 进行微调。(来源:论文)

虽然该团队没有修改 Otter 模型结构,但他们将 SOTA 级性能归因于 RVIT 和 CVIT 的综合作用。

之前,Singhal 团队首先探索了医学领域中特定于任务的 RVIT,并报告说,聊天机器人的性能随着医学 QA 上下文示例启动而得到改善。同样,Med-PaLM M 使用图像提示(CXR 和病理幻灯片)以及临床指导来指导 MLLM 完成多模态医疗任务。

与这些研究相呼应,这里的 CVIT 模型(BrainGPT 模板、BrainGPT 关键字)在脑 CT 字幕制作方面的表现优于 RVIT 模型。这表明,精细的专家级指导设计可能会优化临床字幕制作任务的模型结果。

图示:通过医生参与的图灵测试评估 BrainGPT 报告的语言准备情况。(来源:论文)

研究人员还强调,传统指标不适合评估临床字幕任务。医学图像报告有助于鉴别诊断,因此具有复杂的释义、高标记数(>100)和大量负面描述的特点,这与常见的指标评估背景相冲突。

他们还观察到一种「解读狂欢」行为,其中 BrainGPT 从多对象脑 CT 上下文中提供脱靶(但不是幻觉)诊断叙述。这种行为是有害的,因为 (1) 脱靶效应可能会排除原发疾病焦点(例如中风或脑肿瘤),以及 (2) 扩大叙述可能会稀释传统指标,导致无效评估。

为此,FORTE 作为一个评估框架,由句子配对、否定删除和 4 类关键词提取组成,它可以连贯地限制模型幻觉、增强解释收敛性,并为医疗保健提供者提供即时放射学印象。

研究人员对不同的评估指标进行了皮尔逊相关性分析,并报告称 FORTE 方法比相对单一的传统指标涵盖了更广泛的医学语义维度。它与人类专家评估和 DocLens 评分的相关性都达到中等到高度,进一步证明了这一点。

此外,FORTE 框架是可定制的,可以在各种医疗任务之间转移,没有任何焦点限制,该团队的 GitHub 页面上提供了可互换的分类关键字库作为关键字 JSON 文件,并针对胸部 X 光、低剂量计算机断层扫描 (LDCT)、腹部 CT 和脑部 CT 任务展示了一些示例。

在 FORTE 框架内,BrainGPT 取得了令人称赞的表现,F1 得分达到 0.589,与一般医学疾病识别中最先进的 (SOTA) 性能相当,在先前的基准研究中报告的准确率为 59.2%。

自然语言处理实验中的人类专家评估是在不同的实验设计下进行的,并且服务于不同的研究目的。因此,在不同情况下,得到的观点往往不一致且不可比。因此,相关研究采用定量(完整性、正确性、简洁性)和定性(内容、语言、结构)测量来剖析区分合成临床报告和人工报告的引人注目的特征。

通过采用具有客观语言标准的类似设计,研究人员发现审阅者成功率和答案交替原因(「可疑措辞」和「都没有提到关键特征」)都与写作风格(「熟悉度和语气」和「细节的具体性或模糊性」)有关,而不是与句子级的写作质量和连贯性有关。一项独立的提示研究也强调了医学报告写作风格的重要性。

有趣的是,他们观察到输入案例不平衡会影响字幕写作风格,这可能与一般模型训练期间观察到的过度拟合有关。

局限性与结语

该研究同样存在几个局限性,或许在未来的工作中加以解决。

首先,这是一项试点体积脑 CT 字幕研究,没有对应的 MLLM 模块进行基准测试,因此研究人员无法证明 SOTA 级别的有效性;但是,他们应用了外部验证来确保脑 CT 模块中的字幕有效性。

其次,BrainGPT 是在退化导向数据上进行训练的,因此无法捕捉 CQ500 中的恶性肿瘤和急性创伤特征。这一现象反映出训练材料可能会为最终模块的灵活性打下基础。因此,团队建议纳入不同的疾病病因,以进行鉴别诊断,从而提高 MLLM 对边界脑 CT 特征的概括。

最后,该团队进行了 CVIT 并发明了面向临床的评估(句子配对、否定消除和 FORTE),但他们没有试验改变模型主干是否有利于脑 CT 标记。未来的研究途径可能是比较多模型结果并微调 CT 的视觉编码器和语言模型。

论文链接:https://www.nature.com/articles/s41467-025-57426-0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
2-0!西甲2强齐头并进:皇马完胜+差榜首1分,巴萨主场决战定冠军

2-0!西甲2强齐头并进:皇马完胜+差榜首1分,巴萨主场决战定冠军

体育知多少
2026-02-09 06:54:23
维生素B12立大功!医生发现:糖尿病患者常吃,或能缓解4种并发症

维生素B12立大功!医生发现:糖尿病患者常吃,或能缓解4种并发症

蜉蝣说
2026-02-08 16:08:11
不容错过!2月9晚上20:30!中央5套CCTV5、CCTV5+直播节目表

不容错过!2月9晚上20:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-02-09 13:20:09
妻子在集团当了20年会计,一直没升职她辞职那天,总经理却找上门

妻子在集团当了20年会计,一直没升职她辞职那天,总经理却找上门

云端小院
2026-02-08 09:20:01
春节前大回暖!广东升温时间确定!

春节前大回暖!广东升温时间确定!

南粤女声
2026-02-09 10:16:13
原本以为马杜罗会在美国的监狱里把牢底坐穿,没想到剧情突变!

原本以为马杜罗会在美国的监狱里把牢底坐穿,没想到剧情突变!

生活魔术专家
2026-02-07 10:50:01
为什么说中国今后制裁日本,会变得越来越难?

为什么说中国今后制裁日本,会变得越来越难?

奇思妙想生活家
2026-02-08 18:25:37
阳光城副总裁陈霓结束调查已回工作岗位

阳光城副总裁陈霓结束调查已回工作岗位

澎湃新闻
2026-02-08 12:43:07
具俊晔又曝黑料?网友质疑棕色大衣不是27年前的:当时没这种款式

具俊晔又曝黑料?网友质疑棕色大衣不是27年前的:当时没这种款式

小徐讲八卦
2026-02-09 11:09:45
随着62岁穆帅率队2-1,本菲卡距离葡超榜首仅差6分

随着62岁穆帅率队2-1,本菲卡距离葡超榜首仅差6分

侧身凌空斩
2026-02-09 06:37:15
16年婚姻逆袭!张怡宁与大20岁徐威,从冷战离婚到彼此成全

16年婚姻逆袭!张怡宁与大20岁徐威,从冷战离婚到彼此成全

绚丽的画卷
2026-02-09 00:06:03
亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

极目新闻
2026-02-08 23:54:17
这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

夜深爱杂谈
2026-02-07 19:05:55
这样的教材,教出来的究竟是人才还是蠢材?

这样的教材,教出来的究竟是人才还是蠢材?

作家加野
2026-02-06 10:01:56
乌克兰公布最新数据,历经4年作战乌军死亡5.5万,俄军死亡76.3万

乌克兰公布最新数据,历经4年作战乌军死亡5.5万,俄军死亡76.3万

碳基生物关怀组织
2026-02-05 23:11:54
孙颖莎:走下领奖台重新开始,争议球都是比赛的一部分

孙颖莎:走下领奖台重新开始,争议球都是比赛的一部分

懂球帝
2026-02-08 22:18:32
邬君梅外籍老公病逝,结婚30年没孩子,她独自在美国庆60岁生日

邬君梅外籍老公病逝,结婚30年没孩子,她独自在美国庆60岁生日

往史过眼云烟
2026-02-07 09:56:11
微博之夜第一排:比C位还靠前、和资方同起同坐的她,到底凭啥?

微博之夜第一排:比C位还靠前、和资方同起同坐的她,到底凭啥?

暖心萌阿菇凉
2026-02-06 18:20:22
热血渐凉:被耗尽的小米SU7 Ultra

热血渐凉:被耗尽的小米SU7 Ultra

虎嗅APP
2026-02-09 01:46:07
2026-02-09 13:51:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1229文章数 223关注度
往期回顾 全部

科技要闻

热血渐凉:被耗尽的小米SU7 Ultra

头条要闻

男子在小区周边投毒致10只宠物狗死亡 获刑1年10个月

头条要闻

男子在小区周边投毒致10只宠物狗死亡 获刑1年10个月

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

李亚鹏暂停直播:将投入嫣然医院工作

财经要闻

文玩假拍骗局调查:3500元瓷瓶估值300万

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

游戏
时尚
旅游
艺术
军事航空

Bin晒腹肌是真情流露!爆料称纯个人行为 不是任务

2026最流行的5种发型,太适合过年了!

旅游要闻

免票!半价!河南多家景区官宣春节门票优惠政策

艺术要闻

布兰特的冬日,不只是风景,更是心底的一场!温柔雪

军事要闻

美伊最敏感时刻 林肯号航母迎来三位“不速之客”

无障碍浏览 进入关怀版