网易首页 > 网易号 > 正文 申请入驻

GPT医学AI新赛道:16万张图片、70万问答对的临床问答数据集发布

0
分享至

机器之心专栏

机器之心编辑部

大模型想打开应用前景,要从数据集入手。

胸部 X 光片图像作为临床诊断最常用的手段之一,是计算机与医学结合的一个重要领域。其丰富的视觉和病例报告文本信息促进了 vision-language 在医学领域发展。医学 VQA 是其中的一个重要方向,近年来比较著名的 ImageCLEF-VQA-Med,和 VQA-RAD 数据集包含了许多了胸部 X 光片问答对。

然而,尽管 X 胸片检查报告中包含大量临床信息,现有医学 VQA 任务的问题种类和数量有限,在临床方面的贡献也相对有限。例如,ImageCLEF-VQA-Med 对于胸部 X 光片模态只有两种问题,“这张图片里是否有异常?”,以及 “这张图片里最主要的异常是什么?”,VQA-RAD 的问题种类虽然更丰富,但是却只含有 315 张图片。

在今年的 KDD2023 上,来自德州大学阿灵顿分校,NIH 以及日本理化学研究所,东京大学,国立癌症研究中心的研究人员和放射科医生,联合设计了一个服务临床诊断的大型 VQA 数据集,MIMIC-Diff-VQA。

论文地址:
https://arxiv.org/abs/2307.11986

该数据基于放射科胸片报告,设计了种类更加丰富,内容更加准确的具有逻辑递进的问答对,涵盖 7 种不同的问题类型。

图 1:临床的诊断过程,医生通过比较病程前后图像的差异做出判断

该研究同时提出了一个全新任务,图像对比 VQA (difference VQA):给定两张图片,回答关于这两张图片差异性的问题。在医学领域,这个任务直接反映了放射科医生的需求。在临床实践中,如图 1 所示,医生经常需要对比回看病人之前的医学影像,评估病灶变化情况并以评价诊疗过程。因此 Difference VQA 提出的问题包括” 这张图片与过去的图片相比有什么变化?”, “疾病的严重程度是否有减轻?”

本次公布的数据集包含 16 万张图片和 70 万问题,这大大刷新了此前的医学 VQA 数据集的大小记录。基于该数据集,本文同时也提供了一个利用 GNN 的 VQA 方法作为 basline。为了解决临床放射科图片中病人姿态差异的问题,该研究使用 Faster R-CNN 提取器官的特征作为图的节点,通过整合隐含关系、空间关系和语义关系三种图网络关系来融合了医学专家的知识。其中空间关系是指各个器官之间的位置关系,语义关系包括解剖学和疾病关系知识图,隐含关系通过全连接关系作为前两者的补充。这些节点间的关系被嵌入到图网络的边中,并通过 ReGAT (Relation-aware graph attention network) 用于对最终图特征进行计算。研究团队希望这个数据集能够促进医学领域视觉问答技术的发展,特别是为如 GPT-4 等 LLM 真正服务于临床提供基准,真正成为支持临床决策和患者教育有用的工具。

目前医学 Vision Language 发展现状

医学 Vision Language 领域对现有医疗数据库进行了很多探索来训练深度学习模型。这些数据库包括,MIMIC-CXR, NIH14 和 CheXpert 等。在这些工作通常分为三类:疾病标签的直接分类 (图 2 (b)),医学报告生成 (图 2 (c)) 以及视觉问答任务 (图 2 (d))。疾病标签分类任务首先通过简单的 rule-based 工具,例如 NegBio 和 CheXpert,从报告内容中提取生成预先定义的标签, 随后对正样本和负样本进行分类。报告生成领域的方法繁多,诸如对比学习,Attention 模型,Encoder-Decoder 模型等,核心工作都是将图片信息转化为文字来拟合原始的报告。尽管这些任务取得了很多进展,但从具体临床应用角度来看仍存在局限性。

例如在疾病标签分类中 (图 2 (b)) 中,自然语言处理(NLP)规则经常处理不好不确定性和否定项,导致提取的标签出了不准确。同时,简单的标签只提供了单一的异常信息,无法反映临床疾病的多样性。报告生成系统 (图 2 (c)) 通过挖掘图像中的隐含信息避免这个问题,但是它不能结合临床情况回答医生关注的特定问题。例如图 2 (a) 中,原始放射学报告中排除了多种常见或是医生较为关注的疾病,但是人工报告生成器很难猜测放射科医师想要排除哪些疾病。

相比之下,视觉问答(VQA)任务 (图 2 (c)) 更加可行,因为它可以回答医生或病人所关注的特定问题,比如在之前提到的例子中,问题可以设定为 “图像中是否有气胸 ",而答案无疑是" 没有 "。然而,现有的 VQA 数据集 ImageCLEF-VQA-Med 仅仅包含少量通用问题,比如" 图像有什么问题吗?这张图像的主要异常是什么?",缺乏多样性。这样的问题不仅将 VQA 问题降级为分类问题,而且对临床提供的帮助信息也有限。虽然 VQA-RAD 涵盖 11 种问题类型的问题更加多样,但该数据集仅含有 315 张图像,无法充分发挥出需要大量数据投喂的深度学习模型的性能。为了填补医学 Vision Language 领域的这个空缺,该研究充分结合放射科医生的实践,提出了这项图像对比 VQA(difference VQA)任务,并且基于此任务构建了一个大型的 MIMIC-Diff-VQA 数据集。

图 2:目前医学 Vision Language 各种方法的对比

数据集介绍

MIMIC-Diff-VQA 数据集包括 164,654 张图片,和 700,703 问题,含盖 7 种不同的具有临床意义的问题类型,包括异常,存在,方位,位置,级别,类型,和差异。前六种问题和传统 VQA 一致,针对于当前图片提问,只有差异类型问题是针对两张图片的问题。各个问题的比例数据和完整问题列表请分别见图 3 和见表格 1。

图 3:MIMIC-Diff-VQA 问题类型的统计数据

表 1:每种问题类型的问题示例

数据集构建

依托于 MIMIC-CXR 提供的海量的胸部 X 光片图像和文本报告,从 377110 张图片和 227835 个放射学报告中,该研究在放射科医生的指导下构建了 MIMIC-Diff-VQA 数据集。

构造 MIMIC-Diff-VQA 数据集的第一步是提取一个 KeyInfo dataset。这个 KeyInfo dataset 包含每个放射学报告中的关键信息,比如报告中出现的肯定的异常对象,及其对应的异常名称、级别、类型、位置,以及否定出现的对象名。提取过程的第一步是根据医生的意见选取出最常用的异常关键词,和其对应的属性关键词(级别、类型、位置),之后再设定相应的规则对这些关键信息进行提取,同时保留其” 肯定 / 否定 “信息。

为了保证数据集构建的质量,该研究主要遵循 “提取 - 检查 - 修改” 的步骤,首先通过正则表达式设定的规则对数据库报告中的关键信息进行提取,然后利用手动和自动的方法对提取结果进行检查,接下来对出现问题的地方进行修改使提取结果更加准确。其中,检查时使用的自动方法包括:使用 ScispaCy 提取报告中的 entity 名称,考虑 Part-of-Speech 在句子中的作用,交叉验证 MIMIC-CXR-JPG 数据集中的 label 提取结果。综合这些自动化方法和手动验证筛选,通过 “提取 - 检查 - 修改” 的步骤,该研究最终完成了 KeyInfo dataset 的构建。

在完成 KeyInfo dataset 的构建之后,该研究便可以在其基础上设计每一个病人的单次或多次访问对应的问题和答案,最终构成了 MIMIC-Diff-VQA 数据集。

质量保证

为了进一步保证生成数据集的质量,该研究使用三个人工验证者随机对总计 1700 个考题和答案进行了人工验证,如表 2 所示,最终的平均正确率达到了 97.4%。

表 2:人工验证数据集结果

Baseline 模型介绍

同时,在提出的数据集基础上,该研究针对胸部 X 光片和 Difference VQA 任务设计了一个图网络模型。如图 4 所示,考虑拍摄胸部 X 光片的过程中,到同一个病人在不同时间点可能由于身体姿态的不同,拍摄的图像可能伴随着大尺度的位移和改变。

图 4:该研究提出方法的模型结构

因此,gai通过对输入的图片进行解剖学结构定位,并提取对应检测对象的特征作为图网络的节点,以排除病人身体姿态对特征的影响。图网络中的每一个节点是一个解剖学结构位置的特征与问题特征的结合。为了充分挖掘图像中可能包含的病变信息,该研究通过不同的预训练模型为每一个解剖学结构提取一个纯解剖学结构特征和一个疾病特征。

在 “多关系图网络模块” 中,该研究进行了三种不同的图网络关系来计算最终的图网络特征,包括:隐含关系,空间关系,语义关系。对于隐含关系,使用简单的全连接以让模型在潜在关系中发掘有价值的信息。对于空间关系,研究团队考虑了节点之间 11 种不同的空间关系作为边,并用 ReGAT (Relation-aware Graph Attention Network) 进行计算。对于语义关系,该研究引入了两种知识图谱,即,共现知识图谱(Co-occurrence Knowledge graph),和解剖学知识图谱(Anatomical Knowledge graph)。前者考虑不同疾病之间共同出现的概率关系,后者考虑疾病与解剖学之间的关系。

由于该研究在第一步提取了对应的解剖学结构特征和疾病特征,于是便可以将他们嵌入到这两种知识图谱当中。与空间关系的图网络计算类似,该研究考虑了三种语义关系:共现关系,解剖学关系,无关系,来作为图网络的边,每一种关系用一个数字标签来进行表征,并使用 ReGAT 进行运算。

最终,三种关系图网络计算后的节点特征进行全局平均池化,得到最终图像对应的图特征。将两张图片的图特征相减便可得到差异图特征。对这些特征通过注意力机制得到对应的特征向量,然后将两张图片的特征向量和相减后得到的差异特征向量输入最终的 LSTM 答案生成器,便可得到最终的答案。

该研究将模型与领域内最先进的方法做对比,包括 MMQ (Multiple Meta-model Quantifying), MCCFormers ( Multi-Change Captioning transformers), 和 IDCPCL (Image Difference Captioning with Pre-training and Contrastive Learning)。其中 MMQ 是传统医学 VQA 模型,MCCFormers 和 IDCPCL 是差异描述(Difference Captioning)模型。由于 MMQ 无法处理多张图像,该研究仅在除了 Difference 类问题以外的其他六种问题上将它与所提模型作对比。对于 MCCFormers 和 IDCPCL,由于他们不是 VQA 模型并且必须同时输入两张图片,因此该研究仅在 Difference 类问题上与他们进行对比。对比结果如表 3 和表 4 所示,该模型在 Difference VQA 上显示出了更优越的性能。

表 3:该研究提出的方法与 MMQ 在 non-difference 类问题上的准确率对比

表 4:几种方法与差异描述方法在 Difference 类问题上的对比

总结与讨论

该研究提出了一个医学 Difference VQA 问题,并收集了一个大规模的 MIMIC-Diff-VQA 数据集,以此希望能对推动学界相关技术的发展,同时为医学界提供有力的支持,包括提供临床决策辅助和患者教育工具等方面。同时,该研究设计了一个专家知识感知的多关系图网络模型来解决这个问题,为学界提供了一个基准模型作为参照。与当前在相关领域最先进的方法的比较表明,该研究所提方法取得了显著改进。

然而,该研究的数据集和方法仍存在一定的局限性,比如数据集没有考虑对于特殊情况下同一个病灶出现在多于两处的情况,以及同义词的合并也有进一步的提升空间。

此外,所提模型也会产生一些错误,包括:1、对同一异常的不同呈现方面的混淆,例如肺不张和肺浸润被互相误认。2、相同类型异常的不同名称,例如心影增大被错误分类为心脏肥大。3、用于提取图像特征的预训练模型(Faster-RCNN)可能提供不准确的特征,并导致错误的预测,例如错误地将肺浸润识别为胸膜积液。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闹大了!红领巾的新系法是什么鬼?说没有内鬼我是不信的!

闹大了!红领巾的新系法是什么鬼?说没有内鬼我是不信的!

文雅笔墨
2024-06-05 18:24:32
真实市政府办公务员的一天是怎样度过的?8点半到单位晚上9点半才能走

真实市政府办公务员的一天是怎样度过的?8点半到单位晚上9点半才能走

火锅局
2024-06-05 23:57:32
因采石场震裂房屋而维权,广西桂林村民集体维权结果21人被抓

因采石场震裂房屋而维权,广西桂林村民集体维权结果21人被抓

人我场
2024-06-05 15:10:24
领导潜规则女下属后续:公司曝光,女主真容被扒,离职员工曝猛料

领导潜规则女下属后续:公司曝光,女主真容被扒,离职员工曝猛料

360度评说
2024-06-05 20:30:22
沁县公职人员遇刺:熟人作案;凶手籍籍无名,死者风云人物

沁县公职人员遇刺:熟人作案;凶手籍籍无名,死者风云人物

大师兄爱写作
2024-06-05 19:53:00
终于出炉,国足23人名单诞生,伊万压哨放弃3将,艾克森+1米9锋霸

终于出炉,国足23人名单诞生,伊万压哨放弃3将,艾克森+1米9锋霸

北门儿
2024-06-05 18:53:34
三个数据:2024应届毕业生1179万,boss直聘新增用户4900万,深圳写字楼空置率30%

三个数据:2024应届毕业生1179万,boss直聘新增用户4900万,深圳写字楼空置率30%

西游日记
2024-06-05 08:59:06
乌克兰连续打击俄本土,俄军家属跪在国防部楼前乞求亲人回家

乌克兰连续打击俄本土,俄军家属跪在国防部楼前乞求亲人回家

史政先锋
2024-06-04 21:22:44
王阳这事闹的,恐怕以后老戏骨都不敢和流量明星一起演戏了吧

王阳这事闹的,恐怕以后老戏骨都不敢和流量明星一起演戏了吧

乐观探历史
2024-06-05 20:52:57
隔夜不能吃的东西一定要牢记,归纳一清二楚,看看吧

隔夜不能吃的东西一定要牢记,归纳一清二楚,看看吧

养生讲堂专席
2024-06-05 20:52:41
给徐辉少将提两点建设性意见

给徐辉少将提两点建设性意见

木蹊说
2024-06-05 13:42:36
上海绿地万豪酒店6月起停业,北京银行14.88亿接盘转为办公使用

上海绿地万豪酒店6月起停业,北京银行14.88亿接盘转为办公使用

界面新闻
2024-06-05 19:08:02
美驻乌使馆发警告:有美国国籍也没用,别来!

美驻乌使馆发警告:有美国国籍也没用,别来!

观察者网
2024-06-05 15:25:03
俄军围城时,泽连斯基没跑的真正原因?一个举动,
改变了世界

俄军围城时,泽连斯基没跑的真正原因?一个举动, 改变了世界

史政先锋
2024-06-04 17:36:28
深夜突发!降息!

深夜突发!降息!

中国基金报
2024-06-06 00:18:24
台当局抓扣陆船话音刚落,我海警派出5艘船只,进入金马海域巡查

台当局抓扣陆船话音刚落,我海警派出5艘船只,进入金马海域巡查

贺文萍
2024-06-05 17:43:47
房贷月供9300,一家三口晚饭9.5元  网友集体劝:把房子卖了吧

房贷月供9300,一家三口晚饭9.5元 网友集体劝:把房子卖了吧

可达鸭面面观
2024-06-05 15:10:40
全面封锁开始,中方军舰全撤走,马科斯反应微妙,菲船物资已抛海

全面封锁开始,中方军舰全撤走,马科斯反应微妙,菲船物资已抛海

说天说地说实事
2024-06-05 20:49:30
媒体为何忽视底层老百姓而睁眼瞎说 营造虚假繁荣 今日头条深度分析

媒体为何忽视底层老百姓而睁眼瞎说 营造虚假繁荣 今日头条深度分析

生活百态小故事
2024-06-06 02:52:57
美军试射高超音速核导弹 “30分钟内可抵达莫斯科”

美军试射高超音速核导弹 “30分钟内可抵达莫斯科”

参考消息
2024-06-05 15:02:07
2024-06-06 07:24:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9052文章数 141937关注度
往期回顾 全部

科技要闻

9家车企拿到自动驾驶落地入场券,没特斯拉

头条要闻

美国佐治亚州上诉法院暂停审理特朗普选举干扰案

头条要闻

美国佐治亚州上诉法院暂停审理特朗普选举干扰案

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

员工证实周大福关闭深圳工厂

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

房产
本地
艺术
旅游
公开课

房产要闻

新房交易再冲高!三个月1.7万套、157万㎡,海口楼市又行了!

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

旅游要闻

一女子从家到机场仅10分钟却没赶上飞机 愤而投诉

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版