网易首页 > 网易号 > 正文 申请入驻

科学家构建多模态LLM框架,进行3D脑CT放射学报告生成

0
分享至

编辑 | 烂菜叶

多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。

虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。

在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

该团队还提出了面向特征的放射学任务评估 (FORTE),这是一种捕捉生成报告的临床本质的评估方案。

测试表明 BrainGPT 的平均 FORTE F1 得分为 0.71(degree = 0.661; landmark = 0.706; feature = 0.693, and impression = 0.779),并且在类图灵测试中,74% 的 BrainGPT 生成的报告与人类书写的基本事实无法区分。

该研究以「Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation」为题,于 2025 年 3 月 6 日发布在《Nature Communications》。

现代医疗保健中的人工智能 (AI) 实施彻底改变了医院在患者诊断、疾病干预和临床研究方面的日常实践。虽然卷积神经网络 (CNN) 已经攻克了图像分类和特征分割方面的一些主要任务,但 CNN 输出相对受上下文限制,并且不如完整的书面诊断报告那么令人担忧。

鉴于这一临床差距,已建立了用于胸部 X 光 (CXR) 解释的早期报告生成模型。其中,基于 LLM 的 CXR 报告生成的成功激发了跨学科领域科学家对人机界面的探索兴趣,其中多模态大型语言模型 (MLLM) 可以作为医疗专家的助手。

为了评估 MLLM 在放射学报告生成 (RRG) 中的准备情况,台北荣民总医院的研究人员调查了相关工作并确定了迄今为止 MLLM 放射学应用中的三个客观限制:

(1)研究最多的 CXR 模式缺乏足够的病变多样性来反映现实世界的诊断挑战,(2)在解释体积扫描时尚未充分测试最大模型容量,(3)没有可用于衡量 MLLM 报告信息密度和保真度的通用评估指标。

新方案

这些未解决的问题共同阻碍了具有影响力的医学 MLLM 的发展。在最新的研究中,该团队在通过解决以下问题来提高 MLLM 在放射学中的适应性:

(1)他们整理了一个大规模 3D 脑 CT 数据集(18,885 个文本扫描对),其中包含丰富的病变细节,包括神经元和血管 CT 特征的程度、空间标志和诊断印象。

(2)研究人员提出了临床视觉指令调整 (CVIT) 概念,以增强开源 Otter 基础模型的医学领域知识。在这种情况下,CVIT 增强型 BrainGPT 模型展示了多图像字幕(Image Captioning)功能,并对体积脑 CT 扫描进行了临床合理的解释。BrainGPT 模型的诊断准确性和语言风格在 CQ500 数据集上进行了外部验证,并包括 11 名医生评估员进行类似图灵测试的语言风格评估。

(3)团队提出了一种面向特征的放射学任务评估 (FORTE) 评估结构,来评估 MLLM 生成字幕的应用前景。FORTE 的变量包括诊断放射学句子中的四个基本关键字组成部分(程度、标志、特征和印象)。通过进一步检查生成的内容和评估分数之间的相关性,他们建议使用句子配对和否定消除对 MLLM 输出进行预处理可以增强对齐并过滤掉不相关的图像描述。

图示:使用 MLLM 从 3D 脑部 CT 扫描生成放射学报告的示意图概述。(来源:论文)

性能评估与讨论

之前,Hamamci 团队研究表明,生成模型能够以最先进的 (SOTA) 水平生成 3D 胸部 CT 报告(BLEU-1 = 46、BLEU-4 = 36.9、METEOR = 29.5、ROUGE-L = 45.9)。

然而,他们的定制 Transformer 模型需要在单个 NVIDIA A100 GPU 上进行 7 天的训练,而这里开发的 BrainGPT 模型只需要在两个 NVIDIA A100 GPU 上进行 12 小时的微调。

此外,Google AI 的 Med-Gemini-3D 可以生成 3D CT 报告,但只有 53% 的报告在人体评估中被认为具有临床有效性。使用大规模 Google TPUv4 加速器舱的高计算成本使得这种方法不适用于资源有限的一般研究。

相比之下,BrainGPT 使用端到端开源 Otter 框架(CLIP ViT-L/14 视觉编码器和 LlaMA-7B),允许进行实验复制和检查点共享。此外,BrainGPT 的训练成本降低,可以实现高效的视觉指令调整,提高模型性能并根据专业或风格要求定制响应。

图示:采用临床视觉指令调整 (CVIT) 从基线 Otter 模型对 BrainGPT 进行微调。(来源:论文)

虽然该团队没有修改 Otter 模型结构,但他们将 SOTA 级性能归因于 RVIT 和 CVIT 的综合作用。

之前,Singhal 团队首先探索了医学领域中特定于任务的 RVIT,并报告说,聊天机器人的性能随着医学 QA 上下文示例启动而得到改善。同样,Med-PaLM M 使用图像提示(CXR 和病理幻灯片)以及临床指导来指导 MLLM 完成多模态医疗任务。

与这些研究相呼应,这里的 CVIT 模型(BrainGPT 模板、BrainGPT 关键字)在脑 CT 字幕制作方面的表现优于 RVIT 模型。这表明,精细的专家级指导设计可能会优化临床字幕制作任务的模型结果。

图示:通过医生参与的图灵测试评估 BrainGPT 报告的语言准备情况。(来源:论文)

研究人员还强调,传统指标不适合评估临床字幕任务。医学图像报告有助于鉴别诊断,因此具有复杂的释义、高标记数(>100)和大量负面描述的特点,这与常见的指标评估背景相冲突。

他们还观察到一种「解读狂欢」行为,其中 BrainGPT 从多对象脑 CT 上下文中提供脱靶(但不是幻觉)诊断叙述。这种行为是有害的,因为 (1) 脱靶效应可能会排除原发疾病焦点(例如中风或脑肿瘤),以及 (2) 扩大叙述可能会稀释传统指标,导致无效评估。

为此,FORTE 作为一个评估框架,由句子配对、否定删除和 4 类关键词提取组成,它可以连贯地限制模型幻觉、增强解释收敛性,并为医疗保健提供者提供即时放射学印象。

研究人员对不同的评估指标进行了皮尔逊相关性分析,并报告称 FORTE 方法比相对单一的传统指标涵盖了更广泛的医学语义维度。它与人类专家评估和 DocLens 评分的相关性都达到中等到高度,进一步证明了这一点。

此外,FORTE 框架是可定制的,可以在各种医疗任务之间转移,没有任何焦点限制,该团队的 GitHub 页面上提供了可互换的分类关键字库作为关键字 JSON 文件,并针对胸部 X 光、低剂量计算机断层扫描 (LDCT)、腹部 CT 和脑部 CT 任务展示了一些示例。

在 FORTE 框架内,BrainGPT 取得了令人称赞的表现,F1 得分达到 0.589,与一般医学疾病识别中最先进的 (SOTA) 性能相当,在先前的基准研究中报告的准确率为 59.2%。

自然语言处理实验中的人类专家评估是在不同的实验设计下进行的,并且服务于不同的研究目的。因此,在不同情况下,得到的观点往往不一致且不可比。因此,相关研究采用定量(完整性、正确性、简洁性)和定性(内容、语言、结构)测量来剖析区分合成临床报告和人工报告的引人注目的特征。

通过采用具有客观语言标准的类似设计,研究人员发现审阅者成功率和答案交替原因(「可疑措辞」和「都没有提到关键特征」)都与写作风格(「熟悉度和语气」和「细节的具体性或模糊性」)有关,而不是与句子级的写作质量和连贯性有关。一项独立的提示研究也强调了医学报告写作风格的重要性。

有趣的是,他们观察到输入案例不平衡会影响字幕写作风格,这可能与一般模型训练期间观察到的过度拟合有关。

局限性与结语

该研究同样存在几个局限性,或许在未来的工作中加以解决。

首先,这是一项试点体积脑 CT 字幕研究,没有对应的 MLLM 模块进行基准测试,因此研究人员无法证明 SOTA 级别的有效性;但是,他们应用了外部验证来确保脑 CT 模块中的字幕有效性。

其次,BrainGPT 是在退化导向数据上进行训练的,因此无法捕捉 CQ500 中的恶性肿瘤和急性创伤特征。这一现象反映出训练材料可能会为最终模块的灵活性打下基础。因此,团队建议纳入不同的疾病病因,以进行鉴别诊断,从而提高 MLLM 对边界脑 CT 特征的概括。

最后,该团队进行了 CVIT 并发明了面向临床的评估(句子配对、否定消除和 FORTE),但他们没有试验改变模型主干是否有利于脑 CT 标记。未来的研究途径可能是比较多模型结果并微调 CT 的视觉编码器和语言模型。

论文链接:https://www.nature.com/articles/s41467-025-57426-0

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谷爱凌再遭美国网友网暴:没收她的财产!回美国是非法滞留 鲁比奥查她

谷爱凌再遭美国网友网暴:没收她的财产!回美国是非法滞留 鲁比奥查她

小椰的奶奶
2026-02-13 08:02:35
澳门之所以不闹腾,不闹独立,不闹分裂,不闹反共,不闹亲台亲美

澳门之所以不闹腾,不闹独立,不闹分裂,不闹反共,不闹亲台亲美

百态人间
2026-02-13 15:10:15
26分钟限定!小贾伦创NBA历史第一神迹,爵士这波赚大了

26分钟限定!小贾伦创NBA历史第一神迹,爵士这波赚大了

大眼瞄世界
2026-02-13 03:54:16
李嘉诚预警应验!2026 年楼市迎来大分化,刚需购房务必三思

李嘉诚预警应验!2026 年楼市迎来大分化,刚需购房务必三思

坠入二次元的海洋
2026-02-13 21:56:47
为什么很多家庭一到过年就吵架?网友:和睦都是有人忍出来的

为什么很多家庭一到过年就吵架?网友:和睦都是有人忍出来的

另子维爱读史
2026-02-11 18:15:33
醒醒吧,伊朗从来不是我们的“好朋友”

醒醒吧,伊朗从来不是我们的“好朋友”

苏格拉高
2026-01-11 07:42:04
上海5000万消费券明天开抢!春节可用!赶紧定闹钟↗

上海5000万消费券明天开抢!春节可用!赶紧定闹钟↗

东方不败然多多
2026-02-13 14:50:54
丈夫指责妻子给女儿羽绒服外穿罩衣太土,揭露不同家境的认知差距

丈夫指责妻子给女儿羽绒服外穿罩衣太土,揭露不同家境的认知差距

知晓科普
2026-02-12 22:03:52
韩媒:母亲称林孝埈加入中国是最伟大决定 林孝埈盼把母亲接到中国

韩媒:母亲称林孝埈加入中国是最伟大决定 林孝埈盼把母亲接到中国

劲爆体坛
2026-02-13 22:18:04
节前尾盘砸盘,到底意味着什么?

节前尾盘砸盘,到底意味着什么?

张春林
2026-02-13 15:46:07
日方扣押11名中国人,特朗普暂缓多项科技限制政策

日方扣押11名中国人,特朗普暂缓多项科技限制政策

泛舟碧波湖水
2026-02-13 21:02:48
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
朝鲜战争表面上是中国赢得的,但实际上是一个巨大的损失

朝鲜战争表面上是中国赢得的,但实际上是一个巨大的损失

安安说
2026-02-02 12:18:03
中央戏剧学院表演系原主任陈刚,主动投案!闫学晶儿子就是这个系

中央戏剧学院表演系原主任陈刚,主动投案!闫学晶儿子就是这个系

阿讯说天下
2026-02-12 16:51:21
快船队花了将近4000万请走哈登,拿球不攻慢悠悠运球,场均助攻高但顶级组织力全无

快船队花了将近4000万请走哈登,拿球不攻慢悠悠运球,场均助攻高但顶级组织力全无

生活新鲜市
2026-02-13 18:55:05
粟裕晚年评述孟良崮之战:不应过度丑化蒋介石,张灵甫也绝非是孤军冒进

粟裕晚年评述孟良崮之战:不应过度丑化蒋介石,张灵甫也绝非是孤军冒进

史海孤雁
2025-12-16 22:23:11
宁波一小区保安被刑拘:豪车出入,出手大方,对外自称小区项目总负责人有“特价房源”,私刻公章骗取购房款累计上千万元

宁波一小区保安被刑拘:豪车出入,出手大方,对外自称小区项目总负责人有“特价房源”,私刻公章骗取购房款累计上千万元

极目新闻
2026-02-13 14:03:40
十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

十年前,桑兰能成功索要18亿美金的赔偿,如今想要二胎却很困难?

北有南栀
2026-02-07 18:05:03
博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

爱宠物
2026-02-12 21:48:37
中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

中南大学湘雅医院2025年外籍患者就诊人次较前年翻6倍

澎湃新闻
2026-02-12 20:48:26
2026-02-14 00:32:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1233文章数 224关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

旅游
手机
本地
公开课
军事航空

旅游要闻

迎新春,上海之巅观光厅焕新揭幕

手机要闻

iPhone 16e库存基本告罄,消息暗示17e即将到来

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

多次成功应对外舰、外机挑衅 太原舰展示052D硬核实力

无障碍浏览 进入关怀版