网易首页 > 网易号 > 正文 申请入驻

击败40%临床医生!谷歌首次验证「全科医学AI系统」,看病难真要成历史?

0
分享至

新智元报道

编辑:LRS

【新智元导读】基于100万医学数据、PaLM模型、ViT模型,谷歌全新模型Med-PaLM M成医学界大模型新sota!

「看病难」在全世界范围内都是一个难题,想要成为一位优秀的专科、全科医生不仅需要耗费大量时间来进行知识学习,还需要经历足够多的病例来获取实操经验。

如果医学AI系统足够强大,在常见病的处理上完全可以取代人类医生,医疗服务紧缺现象也会得到极大缓解。

今年4月,美国哈佛大学、斯坦福大学、耶鲁医学院、加拿大多伦多大学等多所顶尖高校、医疗机构的研究人员在Nature上联合提出了一种 ,可以灵活地编码、整合和大规模解释医学领域的多模态数据,比如文本、成像、基因组学等,有可能颠覆现有的医疗服务形式。

最近,Google Research和Google DeepMind共同发布了一篇论文,对全科医学人工智能概念进行了实现、验证。

研究人员首先策划了一个全新的多模态生物医学基准数据集MultiMedBench,包含100多万条样本,涉及14个任务,如医疗问题回答、乳腺和皮肤科图像解读、放射学报告生成和总结以及基因组变异识别。

然后提出了一个新模型Med-PaLM Multimodal(Med-PaLM M),验证了通用生物医学人工智能系统的可实现性。

Med-PaLM M 是一个大型多模态生成模型,仅用一组模型权重就可以灵活地编码和解释生物医学数据,包括临床语言、成像和基因组学数据。

在所有MultiMedBench任务中,Med-PaLM M的性能都与最先进的技术相差无几,在部分任务上甚至还超越了专用的SOTA模型。

文中还报告了该模型在零样本学习下可以泛化到新的医学概念和任务、跨任务迁移学习以及涌现出的零样本医学推理能力。

文中还进一步探究了Med-PaLM M的能力和局限性,研究人员对比了模型生成的及人类编写的胸部X光报告进行了放射科医师评估,在246份病例中,临床医生认为Med-PaLM M的报告在40.5%的样本中比放射科医生编写的要更好,也表明Med-PaLM M具有潜在的临床实用性。

MultiMedBench

为了训练和评估大模型在执行各种临床相关任务的能力,谷歌的研究人员收集了一个多任务、多模态的全科医疗基准数据集MultiMedBench

该基准由12个开源数据集以及14个独立任务组成,包含100多万条样本,涵盖了医疗问答、放射学报告、病理学、皮肤病学、胸部X光、乳房X光和基因组学等多个领域。

任务类型: 问题回答、报告生成和总结摘要、视觉问题回答、医学图像分类和基因组变异识别(genomic variant calling)

模态: 模式:文本、放射学(CT、MRI 和 X-射线)、病理学、皮肤病学、乳房X射线检查(mammography)和基因组学。

输出格式: 所有任务(包括分类任务)都是开放式生成(open-ended generation)

纯语言任务包括医学问题回答(MultiMedQA任务)和放射学报告总结,可以测试模型是否具有理解、回忆和操作医学知识的能力。

多模态任务包括医学视觉问题解答 (VQA)、医学图像分类、胸部X光报告生成和基因组变异识别,非常适合评估模型的视觉理解和多模态推理能力。

Med-PaLM M:全科生物医疗AI的概念验证

基座模型:PaLM-E

PaLM-E是一个多模态语言模型,可以处理包括文本、视觉和传感器信号等多模态的输入序列,使用了预训练的PaLM和ViT模型,在OK-VQA和VQA v2等多个视觉语言基准测试中表现出色。

PaLM-E可以灵活地在单个提示中交错显示图像、文本和传感器信号,使模型能够在完全多模态的背景下进行预测。

PaLM-E具有零样本多模态思维链(CoT)推理和少样本上下文学习等多种能力。

研究人员利用PaLM-E模型作为Med-PaLM M的基础架构,组合了128B、84B和562B三个不同参数量的PaLM-E模型。

预处理

研究人员将MultiMedBench数据集中的所有图像重新调整为224×224×3尺寸,同时保留原始长宽比,在必要时进行填充处理;对于灰度图像,沿通道维度(channel dimension)对图像进行堆叠,将灰度图像转换为三通道图像。

其他与任务相关的预处理方法,如类平衡、图像数据增强等请参阅原文。

指令任务提示、one-shot样例

想要训练一个通用生物医学人工智能模型,模型架构及参数上的统一、能够同时处理多模态、多任务的输入是很重要的。

研究人员采用指令微调的方式,为不同任务设定不同的指令,使得模型可以在统一的生成架构内执行不同类型的任务,其中任务提示由指令、相关上下文信息和问题组成。

比如在胸部X光报告生成任务中,上下文信息包括研究原因和图像方向;而在皮肤病学分类任务中,则提供与皮损图像相关的患者临床病史作为上下文。

研究人员将所有分类任务都设计成多选问题,将所有可能的类别标签作为单个答案选项提供,并提示模型生成最可能的答案作为目标输出。

对于其他生成任务,如视觉问题解答、报告生成和总结,则根据目标响应对模型进行微调。

从实验结果来看,Med-PaLM M的最佳结果(三种模型尺寸)在12个任务中的5个都实现了超越先前SOTA的性能,并且在其余任务上也展现出极有竞争力的性能表现。

值得注意的是,这些结果是在使用相同模型权重集的通用模型中取得的,没有针对特定任务进行任何架构定制或优化。

在医疗问题回答任务上,先前的SOTA模型Med-PaLM 2性能更高,但与基线PaLM模型相比,Med-PaLM M在三个问答任务上,实现了远超PaLM的性能。

不同尺寸模型的性能对比

对比12B、84B 和562B的Med-PaLM M模型性能,可以观察到:

1. 语言推理任务受益于模型规模的扩大

对于需要语言理解和推理的任务,如医学问题回答、医学视觉问题回答和放射学报告总结,将模型规模从12B扩大到562B时,性能显著提高。

2. 视觉编码器的性能是多模态任务的瓶颈

对于乳房X射线或皮肤病学图像分类等任务,需要细致入微的视觉理解能力,对语言推理的需求极低(输出仅为分类标签标记)。

可以看到,从Med-PaLM M 12B到Med-PaLM 84B,性能有所提高,但562B模型带来的性能提升却很有限,可能是因为视觉编码器在该步骤中没有进一步扩大参数量(Med-PaLM M 84B 和 562B 模型都使用相同的22B ViT作为视觉编码器),成为性能增益的瓶颈;其他干扰因素可能还包括输入图像的分辨率等。

在胸部X光报告生成任务中,从表面上看,这项任务似乎需要复杂的语言理解和推理能力,可以从更大的语言模型中受益;但从实际效果上来看,Med-PaLM M 84B模型在大多数指标上与562B模型大致相当或略微超过,可能仅仅是由于较大的模型使用了较少的训练步骤。

增加语言模型尺寸没用的另一个原因可能是,MIMIC-CXR数据集中生成胸部X光报告的输出空间相当有限,只有一组模板句子和有限数量的条件,所以在生成报告时采用检索而非生成的方式可能更好。

此外,更大的562B模型倾向于生成冗长的报告,而84B模型则相对简洁,如果在训练中没有进一步做偏好调整,可能会影响最终的评估指标。

零样本通用能力

通过评估Med-PaLM M从蒙哥马利县(Montgomery County,MC)数据集中的胸部X光图像中检测肺结核(TB)异常的能力,研究人员探究了Med-PaLM M对未知医学概念的零样本泛化能力。

可以看到,相比专门优化过的SOTA模型,不同尺寸的Med-PaLM M性能相近,在没有额外训练样本的情况下,准确率只落后不到5%

在推理方面,研究人员在MC TB数据集上定性地探索了 Med-PaLM M 的零样本思维链(CoT)能力。

与分类设置不同的是,除了是/否分类预测外,还需要用纯文本示例提示模型生成一份报告,描述在给定图像中的发现。

从实验结果中可以发现,Med-PaLM M模型可以在正确的位置识别出结核病相关的主要病变。

不过,根据放射科专家的审查,模型生成的报告中仍有一些遗漏的结果和错误,仍有改进的空间。

值得注意的是,Med-PaLM M 12B无法生成连贯的视觉条件反应,也就是说语言模型的规模在零样本CoT多模态推理能力中起着关键作用,可能是一种涌现的能力。

参考资料:

https://arxiv.org/pdf/2307.14334.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
活塞队奥萨尔·汤普森成本赛季首位,达成统治级防守里程碑球员

活塞队奥萨尔·汤普森成本赛季首位,达成统治级防守里程碑球员

好火子
2026-03-22 23:56:58
专家解析美军F-35战机被伊军击中:飞行高度过低、隐形性能失效、飞行航线被摸透

专家解析美军F-35战机被伊军击中:飞行高度过低、隐形性能失效、飞行航线被摸透

上观新闻
2026-03-22 18:36:02
医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这5变化

医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这5变化

蜉蝣说
2026-03-20 17:28:57
歼-20总设计师名字从官网消失了,没人说为什么,但名单确实空了

歼-20总设计师名字从官网消失了,没人说为什么,但名单确实空了

音乐时光的娱乐
2026-03-23 01:58:00
广州独生子女养老困局:一场没人替你扛的硬仗,正在拖垮8090后

广州独生子女养老困局:一场没人替你扛的硬仗,正在拖垮8090后

复转这些年
2026-03-22 17:28:55
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
穆里尼奥真的是欲哭无泪,本菲卡27轮不败却依然落后榜首4分!

穆里尼奥真的是欲哭无泪,本菲卡27轮不败却依然落后榜首4分!

田先生篮球
2026-03-22 11:18:58
28万彩礼被父母扣下,女子10年不回娘家,母亲急了,她却说没退路

28万彩礼被父母扣下,女子10年不回娘家,母亲急了,她却说没退路

大鱼简科
2026-03-09 19:26:08
戛纳红毯惊现“闪钻女”,三分钟疯狂摆拍被工作人员强行带离

戛纳红毯惊现“闪钻女”,三分钟疯狂摆拍被工作人员强行带离

东方不败然多多
2026-03-22 18:27:36
太突然!老戏骨游飙猝逝,终年57岁!

太突然!老戏骨游飙猝逝,终年57岁!

地理三体说
2026-03-20 22:43:04
江浙沪父母的反向家用火了!网友:家里供不起你上班了!

江浙沪父母的反向家用火了!网友:家里供不起你上班了!

阿离家居
2026-03-22 06:42:50
1只就判刑!2019年,浙江男子带狗采茶咬死1只,剥皮卖肉取脑冷冻

1只就判刑!2019年,浙江男子带狗采茶咬死1只,剥皮卖肉取脑冷冻

万象硬核本尊
2026-03-21 18:03:18
《好好的时光》收官,3人零差评1人翻红,她全程龇牙咧嘴差评一片

《好好的时光》收官,3人零差评1人翻红,她全程龇牙咧嘴差评一片

洲洲影视娱评
2026-03-21 14:20:20
悲剧了!40多万买游戏装备跌成8万!男子哭诉是父母给他结婚钱…

悲剧了!40多万买游戏装备跌成8万!男子哭诉是父母给他结婚钱…

火山詩话
2026-03-21 05:54:08
国际金价“八连跌”,分析人士:全球通胀担忧成主因,摩根大通预测:年底仍可能达每盎司6300美元

国际金价“八连跌”,分析人士:全球通胀担忧成主因,摩根大通预测:年底仍可能达每盎司6300美元

纵相新闻
2026-03-22 15:44:03
南海部分海域进行实弹射击 禁止驶入

南海部分海域进行实弹射击 禁止驶入

每日经济新闻
2026-03-22 21:43:26
陈晓和毛晓彤领证了!?

陈晓和毛晓彤领证了!?

八卦疯叔
2026-03-22 09:40:10
伊朗发起第74波打击

伊朗发起第74波打击

界面新闻
2026-03-22 19:50:54
伊朗使用新型无人机打击以色列本-古里安机场

伊朗使用新型无人机打击以色列本-古里安机场

新华社
2026-03-22 17:25:02
随着穆帅争冠最大劲敌2-1逆转,葡萄牙体育4-1,葡超最新积分榜出炉

随着穆帅争冠最大劲敌2-1逆转,葡萄牙体育4-1,葡超最新积分榜出炉

侧身凌空斩
2026-03-23 06:59:04
2026-03-23 08:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14786文章数 66707关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

伊朗采用新型战术和升级系统 地面部队处于战备"巅峰"

头条要闻

伊朗采用新型战术和升级系统 地面部队处于战备"巅峰"

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

健康
数码
亲子
家居
时尚

转头就晕的耳石症,能开车上班吗?

数码要闻

古尔曼:苹果Apple TV、HomePod和HomePod mini库存告急

亲子要闻

抽动症病因到底是啥,总结了完整版

家居要闻

时空交织 空间绮梦

她凭这件旗袍在赛场圈粉无数

无障碍浏览 进入关怀版