网易首页 > 网易号 > 正文 申请入驻

击败40%临床医生!谷歌首次验证「全科医学AI系统」,看病难真要成历史?

0
分享至

新智元报道

编辑:LRS

【新智元导读】基于100万医学数据、PaLM模型、ViT模型,谷歌全新模型Med-PaLM M成医学界大模型新sota!

「看病难」在全世界范围内都是一个难题,想要成为一位优秀的专科、全科医生不仅需要耗费大量时间来进行知识学习,还需要经历足够多的病例来获取实操经验。

如果医学AI系统足够强大,在常见病的处理上完全可以取代人类医生,医疗服务紧缺现象也会得到极大缓解。

今年4月,美国哈佛大学、斯坦福大学、耶鲁医学院、加拿大多伦多大学等多所顶尖高校、医疗机构的研究人员在Nature上联合提出了一种 ,可以灵活地编码、整合和大规模解释医学领域的多模态数据,比如文本、成像、基因组学等,有可能颠覆现有的医疗服务形式。

最近,Google Research和Google DeepMind共同发布了一篇论文,对全科医学人工智能概念进行了实现、验证。

研究人员首先策划了一个全新的多模态生物医学基准数据集MultiMedBench,包含100多万条样本,涉及14个任务,如医疗问题回答、乳腺和皮肤科图像解读、放射学报告生成和总结以及基因组变异识别。

然后提出了一个新模型Med-PaLM Multimodal(Med-PaLM M),验证了通用生物医学人工智能系统的可实现性。

Med-PaLM M 是一个大型多模态生成模型,仅用一组模型权重就可以灵活地编码和解释生物医学数据,包括临床语言、成像和基因组学数据。

在所有MultiMedBench任务中,Med-PaLM M的性能都与最先进的技术相差无几,在部分任务上甚至还超越了专用的SOTA模型。

文中还报告了该模型在零样本学习下可以泛化到新的医学概念和任务、跨任务迁移学习以及涌现出的零样本医学推理能力。

文中还进一步探究了Med-PaLM M的能力和局限性,研究人员对比了模型生成的及人类编写的胸部X光报告进行了放射科医师评估,在246份病例中,临床医生认为Med-PaLM M的报告在40.5%的样本中比放射科医生编写的要更好,也表明Med-PaLM M具有潜在的临床实用性。

MultiMedBench

为了训练和评估大模型在执行各种临床相关任务的能力,谷歌的研究人员收集了一个多任务、多模态的全科医疗基准数据集MultiMedBench

该基准由12个开源数据集以及14个独立任务组成,包含100多万条样本,涵盖了医疗问答、放射学报告、病理学、皮肤病学、胸部X光、乳房X光和基因组学等多个领域。

任务类型: 问题回答、报告生成和总结摘要、视觉问题回答、医学图像分类和基因组变异识别(genomic variant calling)

模态: 模式:文本、放射学(CT、MRI 和 X-射线)、病理学、皮肤病学、乳房X射线检查(mammography)和基因组学。

输出格式: 所有任务(包括分类任务)都是开放式生成(open-ended generation)

纯语言任务包括医学问题回答(MultiMedQA任务)和放射学报告总结,可以测试模型是否具有理解、回忆和操作医学知识的能力。

多模态任务包括医学视觉问题解答 (VQA)、医学图像分类、胸部X光报告生成和基因组变异识别,非常适合评估模型的视觉理解和多模态推理能力。

Med-PaLM M:全科生物医疗AI的概念验证

基座模型:PaLM-E

PaLM-E是一个多模态语言模型,可以处理包括文本、视觉和传感器信号等多模态的输入序列,使用了预训练的PaLM和ViT模型,在OK-VQA和VQA v2等多个视觉语言基准测试中表现出色。

PaLM-E可以灵活地在单个提示中交错显示图像、文本和传感器信号,使模型能够在完全多模态的背景下进行预测。

PaLM-E具有零样本多模态思维链(CoT)推理和少样本上下文学习等多种能力。

研究人员利用PaLM-E模型作为Med-PaLM M的基础架构,组合了128B、84B和562B三个不同参数量的PaLM-E模型。

预处理

研究人员将MultiMedBench数据集中的所有图像重新调整为224×224×3尺寸,同时保留原始长宽比,在必要时进行填充处理;对于灰度图像,沿通道维度(channel dimension)对图像进行堆叠,将灰度图像转换为三通道图像。

其他与任务相关的预处理方法,如类平衡、图像数据增强等请参阅原文。

指令任务提示、one-shot样例

想要训练一个通用生物医学人工智能模型,模型架构及参数上的统一、能够同时处理多模态、多任务的输入是很重要的。

研究人员采用指令微调的方式,为不同任务设定不同的指令,使得模型可以在统一的生成架构内执行不同类型的任务,其中任务提示由指令、相关上下文信息和问题组成。

比如在胸部X光报告生成任务中,上下文信息包括研究原因和图像方向;而在皮肤病学分类任务中,则提供与皮损图像相关的患者临床病史作为上下文。

研究人员将所有分类任务都设计成多选问题,将所有可能的类别标签作为单个答案选项提供,并提示模型生成最可能的答案作为目标输出。

对于其他生成任务,如视觉问题解答、报告生成和总结,则根据目标响应对模型进行微调。

从实验结果来看,Med-PaLM M的最佳结果(三种模型尺寸)在12个任务中的5个都实现了超越先前SOTA的性能,并且在其余任务上也展现出极有竞争力的性能表现。

值得注意的是,这些结果是在使用相同模型权重集的通用模型中取得的,没有针对特定任务进行任何架构定制或优化。

在医疗问题回答任务上,先前的SOTA模型Med-PaLM 2性能更高,但与基线PaLM模型相比,Med-PaLM M在三个问答任务上,实现了远超PaLM的性能。

不同尺寸模型的性能对比

对比12B、84B 和562B的Med-PaLM M模型性能,可以观察到:

1. 语言推理任务受益于模型规模的扩大

对于需要语言理解和推理的任务,如医学问题回答、医学视觉问题回答和放射学报告总结,将模型规模从12B扩大到562B时,性能显著提高。

2. 视觉编码器的性能是多模态任务的瓶颈

对于乳房X射线或皮肤病学图像分类等任务,需要细致入微的视觉理解能力,对语言推理的需求极低(输出仅为分类标签标记)。

可以看到,从Med-PaLM M 12B到Med-PaLM 84B,性能有所提高,但562B模型带来的性能提升却很有限,可能是因为视觉编码器在该步骤中没有进一步扩大参数量(Med-PaLM M 84B 和 562B 模型都使用相同的22B ViT作为视觉编码器),成为性能增益的瓶颈;其他干扰因素可能还包括输入图像的分辨率等。

在胸部X光报告生成任务中,从表面上看,这项任务似乎需要复杂的语言理解和推理能力,可以从更大的语言模型中受益;但从实际效果上来看,Med-PaLM M 84B模型在大多数指标上与562B模型大致相当或略微超过,可能仅仅是由于较大的模型使用了较少的训练步骤。

增加语言模型尺寸没用的另一个原因可能是,MIMIC-CXR数据集中生成胸部X光报告的输出空间相当有限,只有一组模板句子和有限数量的条件,所以在生成报告时采用检索而非生成的方式可能更好。

此外,更大的562B模型倾向于生成冗长的报告,而84B模型则相对简洁,如果在训练中没有进一步做偏好调整,可能会影响最终的评估指标。

零样本通用能力

通过评估Med-PaLM M从蒙哥马利县(Montgomery County,MC)数据集中的胸部X光图像中检测肺结核(TB)异常的能力,研究人员探究了Med-PaLM M对未知医学概念的零样本泛化能力。

可以看到,相比专门优化过的SOTA模型,不同尺寸的Med-PaLM M性能相近,在没有额外训练样本的情况下,准确率只落后不到5%

在推理方面,研究人员在MC TB数据集上定性地探索了 Med-PaLM M 的零样本思维链(CoT)能力。

与分类设置不同的是,除了是/否分类预测外,还需要用纯文本示例提示模型生成一份报告,描述在给定图像中的发现。

从实验结果中可以发现,Med-PaLM M模型可以在正确的位置识别出结核病相关的主要病变。

不过,根据放射科专家的审查,模型生成的报告中仍有一些遗漏的结果和错误,仍有改进的空间。

值得注意的是,Med-PaLM M 12B无法生成连贯的视觉条件反应,也就是说语言模型的规模在零样本CoT多模态推理能力中起着关键作用,可能是一种涌现的能力。

参考资料:

https://arxiv.org/pdf/2307.14334.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破防了!土耳其排协体面送别老将,中国女排功勋,只剩默默退场

破防了!土耳其排协体面送别老将,中国女排功勋,只剩默默退场

金毛爱女排
2026-06-24 00:00:07
还是来了,为了制衡中国,印度开出天价筹码!蒙古这次有点心动了

还是来了,为了制衡中国,印度开出天价筹码!蒙古这次有点心动了

潘冹旅行浪子
2026-06-24 12:52:10
陪玩陪睡只是皮毛!继关晓彤后,向佐再曝“猛料”,谢娜也没逃过

陪玩陪睡只是皮毛!继关晓彤后,向佐再曝“猛料”,谢娜也没逃过

趣文说娱
2026-06-21 23:14:56
“开屏广告没了”登顶热搜,大量网友惊喜反馈高德地图、百度地图、微博等App能“秒进”主页,体验极为“丝滑”

“开屏广告没了”登顶热搜,大量网友惊喜反馈高德地图、百度地图、微博等App能“秒进”主页,体验极为“丝滑”

大风新闻
2026-06-23 22:27:03
杨某某(女,36岁)开车致1死2伤,官方公布伤情:3岁男孩病情危重,妈妈将进行胸椎骨折手术

杨某某(女,36岁)开车致1死2伤,官方公布伤情:3岁男孩病情危重,妈妈将进行胸椎骨折手术

南方都市报
2026-06-23 19:06:52
官宣:2027级起,研究生学制延长!

官宣:2027级起,研究生学制延长!

老吕教你考MBA
2026-06-22 11:58:15
特朗普炮轰参议院:给伊朗“送安慰”,让谈判更艰难

特朗普炮轰参议院:给伊朗“送安慰”,让谈判更艰难

观察者网
2026-06-24 11:44:10
被老师当众诬陷作弊,从此我天天交白卷,高考结束后却被清华录取

被老师当众诬陷作弊,从此我天天交白卷,高考结束后却被清华录取

历史八卦社
2025-05-12 22:35:58
快讯!伊朗结束,该轮到朝鲜了?

快讯!伊朗结束,该轮到朝鲜了?

故事终将光明磊落
2026-06-24 12:11:49
历史总是惊人地相似!解放台湾,康熙340年前的经验值得学习借鉴

历史总是惊人地相似!解放台湾,康熙340年前的经验值得学习借鉴

近史谈
2026-06-09 16:59:24
外资掉到2010年还刹不住,国家再开大门!

外资掉到2010年还刹不住,国家再开大门!

家传编辑部
2026-06-23 17:16:50
“崔贤”号新型多用途驱逐舰正式进入朝鲜海军服役

“崔贤”号新型多用途驱逐舰正式进入朝鲜海军服役

澎湃新闻
2026-06-24 08:54:32
世界杯预测,巴西队与苏格兰队刺刀见红,瑞士队要击败加拿大队

世界杯预测,巴西队与苏格兰队刺刀见红,瑞士队要击败加拿大队

足球分析员
2026-06-24 11:00:07
iPhone Ultra 9 月发布,售价很猛!

iPhone Ultra 9 月发布,售价很猛!

花果科技
2026-06-22 15:35:19
遭中方制裁两周,菲军方与菲防长撇清关系,特奥多罗墙倒众人推?

遭中方制裁两周,菲军方与菲防长撇清关系,特奥多罗墙倒众人推?

蹲坑看世界
2026-06-24 14:58:44
伊朗飞行员懵了!刚扔完炸弹拼命逃,扭头看见美军被击落?

伊朗飞行员懵了!刚扔完炸弹拼命逃,扭头看见美军被击落?

咸鱼金脑袋
2026-06-24 04:22:17
巴萨脸都被打肿!8000 万水货世界杯现形 愚蠢操作差点坑死英格兰

巴萨脸都被打肿!8000 万水货世界杯现形 愚蠢操作差点坑死英格兰

奶盖熊本熊
2026-06-24 06:33:47
WOW!热火报价詹姆斯!组建史诗级三巨头

WOW!热火报价詹姆斯!组建史诗级三巨头

篮球实战宝典
2026-06-23 18:26:29
78岁老人:去养老院住了一年后,我才发现,在那里养老是一种煎熬

78岁老人:去养老院住了一年后,我才发现,在那里养老是一种煎熬

烙任情感
2026-06-23 10:45:59
沉默96小时后,台当局公开道歉,蒋万安开始行动,两岸已签约成功

沉默96小时后,台当局公开道歉,蒋万安开始行动,两岸已签约成功

果妈聊娱乐
2026-06-24 13:32:54
2026-06-24 15:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15520文章数 66935关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

媒体:辽宁舰编队训练 中国海军"御用摄影师"交了白卷

头条要闻

媒体:辽宁舰编队训练 中国海军"御用摄影师"交了白卷

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

教育
游戏
房产
手机
公开课

教育要闻

泰晤士高等教育世界大学影响力排名出炉!曼大登顶全球第一!

钓鱼佬摄影佬狂喜!《红色沙漠》最新补丁上线

房产要闻

今年13.7万,明年15.4万!海南教育,正在疯狂扩容!

手机要闻

老旗舰满血复活!小米14系列电池升级服务官宣:预计第四季度上线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版