网易首页 > 网易号 > 正文 申请入驻

击败40%临床医生!谷歌首次验证「全科医学AI系统」,看病难真要成历史?

0
分享至

新智元报道

编辑:LRS

【新智元导读】基于100万医学数据、PaLM模型、ViT模型,谷歌全新模型Med-PaLM M成医学界大模型新sota!

「看病难」在全世界范围内都是一个难题,想要成为一位优秀的专科、全科医生不仅需要耗费大量时间来进行知识学习,还需要经历足够多的病例来获取实操经验。

如果医学AI系统足够强大,在常见病的处理上完全可以取代人类医生,医疗服务紧缺现象也会得到极大缓解。

今年4月,美国哈佛大学、斯坦福大学、耶鲁医学院、加拿大多伦多大学等多所顶尖高校、医疗机构的研究人员在Nature上联合提出了一种 ,可以灵活地编码、整合和大规模解释医学领域的多模态数据,比如文本、成像、基因组学等,有可能颠覆现有的医疗服务形式。

最近,Google Research和Google DeepMind共同发布了一篇论文,对全科医学人工智能概念进行了实现、验证。

研究人员首先策划了一个全新的多模态生物医学基准数据集MultiMedBench,包含100多万条样本,涉及14个任务,如医疗问题回答、乳腺和皮肤科图像解读、放射学报告生成和总结以及基因组变异识别。

然后提出了一个新模型Med-PaLM Multimodal(Med-PaLM M),验证了通用生物医学人工智能系统的可实现性。

Med-PaLM M 是一个大型多模态生成模型,仅用一组模型权重就可以灵活地编码和解释生物医学数据,包括临床语言、成像和基因组学数据。

在所有MultiMedBench任务中,Med-PaLM M的性能都与最先进的技术相差无几,在部分任务上甚至还超越了专用的SOTA模型。

文中还报告了该模型在零样本学习下可以泛化到新的医学概念和任务、跨任务迁移学习以及涌现出的零样本医学推理能力。

文中还进一步探究了Med-PaLM M的能力和局限性,研究人员对比了模型生成的及人类编写的胸部X光报告进行了放射科医师评估,在246份病例中,临床医生认为Med-PaLM M的报告在40.5%的样本中比放射科医生编写的要更好,也表明Med-PaLM M具有潜在的临床实用性。

MultiMedBench

为了训练和评估大模型在执行各种临床相关任务的能力,谷歌的研究人员收集了一个多任务、多模态的全科医疗基准数据集MultiMedBench

该基准由12个开源数据集以及14个独立任务组成,包含100多万条样本,涵盖了医疗问答、放射学报告、病理学、皮肤病学、胸部X光、乳房X光和基因组学等多个领域。

任务类型: 问题回答、报告生成和总结摘要、视觉问题回答、医学图像分类和基因组变异识别(genomic variant calling)

模态: 模式:文本、放射学(CT、MRI 和 X-射线)、病理学、皮肤病学、乳房X射线检查(mammography)和基因组学。

输出格式: 所有任务(包括分类任务)都是开放式生成(open-ended generation)

纯语言任务包括医学问题回答(MultiMedQA任务)和放射学报告总结,可以测试模型是否具有理解、回忆和操作医学知识的能力。

多模态任务包括医学视觉问题解答 (VQA)、医学图像分类、胸部X光报告生成和基因组变异识别,非常适合评估模型的视觉理解和多模态推理能力。

Med-PaLM M:全科生物医疗AI的概念验证

基座模型:PaLM-E

PaLM-E是一个多模态语言模型,可以处理包括文本、视觉和传感器信号等多模态的输入序列,使用了预训练的PaLM和ViT模型,在OK-VQA和VQA v2等多个视觉语言基准测试中表现出色。

PaLM-E可以灵活地在单个提示中交错显示图像、文本和传感器信号,使模型能够在完全多模态的背景下进行预测。

PaLM-E具有零样本多模态思维链(CoT)推理和少样本上下文学习等多种能力。

研究人员利用PaLM-E模型作为Med-PaLM M的基础架构,组合了128B、84B和562B三个不同参数量的PaLM-E模型。

预处理

研究人员将MultiMedBench数据集中的所有图像重新调整为224×224×3尺寸,同时保留原始长宽比,在必要时进行填充处理;对于灰度图像,沿通道维度(channel dimension)对图像进行堆叠,将灰度图像转换为三通道图像。

其他与任务相关的预处理方法,如类平衡、图像数据增强等请参阅原文。

指令任务提示、one-shot样例

想要训练一个通用生物医学人工智能模型,模型架构及参数上的统一、能够同时处理多模态、多任务的输入是很重要的。

研究人员采用指令微调的方式,为不同任务设定不同的指令,使得模型可以在统一的生成架构内执行不同类型的任务,其中任务提示由指令、相关上下文信息和问题组成。

比如在胸部X光报告生成任务中,上下文信息包括研究原因和图像方向;而在皮肤病学分类任务中,则提供与皮损图像相关的患者临床病史作为上下文。

研究人员将所有分类任务都设计成多选问题,将所有可能的类别标签作为单个答案选项提供,并提示模型生成最可能的答案作为目标输出。

对于其他生成任务,如视觉问题解答、报告生成和总结,则根据目标响应对模型进行微调。

从实验结果来看,Med-PaLM M的最佳结果(三种模型尺寸)在12个任务中的5个都实现了超越先前SOTA的性能,并且在其余任务上也展现出极有竞争力的性能表现。

值得注意的是,这些结果是在使用相同模型权重集的通用模型中取得的,没有针对特定任务进行任何架构定制或优化。

在医疗问题回答任务上,先前的SOTA模型Med-PaLM 2性能更高,但与基线PaLM模型相比,Med-PaLM M在三个问答任务上,实现了远超PaLM的性能。

不同尺寸模型的性能对比

对比12B、84B 和562B的Med-PaLM M模型性能,可以观察到:

1. 语言推理任务受益于模型规模的扩大

对于需要语言理解和推理的任务,如医学问题回答、医学视觉问题回答和放射学报告总结,将模型规模从12B扩大到562B时,性能显著提高。

2. 视觉编码器的性能是多模态任务的瓶颈

对于乳房X射线或皮肤病学图像分类等任务,需要细致入微的视觉理解能力,对语言推理的需求极低(输出仅为分类标签标记)。

可以看到,从Med-PaLM M 12B到Med-PaLM 84B,性能有所提高,但562B模型带来的性能提升却很有限,可能是因为视觉编码器在该步骤中没有进一步扩大参数量(Med-PaLM M 84B 和 562B 模型都使用相同的22B ViT作为视觉编码器),成为性能增益的瓶颈;其他干扰因素可能还包括输入图像的分辨率等。

在胸部X光报告生成任务中,从表面上看,这项任务似乎需要复杂的语言理解和推理能力,可以从更大的语言模型中受益;但从实际效果上来看,Med-PaLM M 84B模型在大多数指标上与562B模型大致相当或略微超过,可能仅仅是由于较大的模型使用了较少的训练步骤。

增加语言模型尺寸没用的另一个原因可能是,MIMIC-CXR数据集中生成胸部X光报告的输出空间相当有限,只有一组模板句子和有限数量的条件,所以在生成报告时采用检索而非生成的方式可能更好。

此外,更大的562B模型倾向于生成冗长的报告,而84B模型则相对简洁,如果在训练中没有进一步做偏好调整,可能会影响最终的评估指标。

零样本通用能力

通过评估Med-PaLM M从蒙哥马利县(Montgomery County,MC)数据集中的胸部X光图像中检测肺结核(TB)异常的能力,研究人员探究了Med-PaLM M对未知医学概念的零样本泛化能力。

可以看到,相比专门优化过的SOTA模型,不同尺寸的Med-PaLM M性能相近,在没有额外训练样本的情况下,准确率只落后不到5%

在推理方面,研究人员在MC TB数据集上定性地探索了 Med-PaLM M 的零样本思维链(CoT)能力。

与分类设置不同的是,除了是/否分类预测外,还需要用纯文本示例提示模型生成一份报告,描述在给定图像中的发现。

从实验结果中可以发现,Med-PaLM M模型可以在正确的位置识别出结核病相关的主要病变。

不过,根据放射科专家的审查,模型生成的报告中仍有一些遗漏的结果和错误,仍有改进的空间。

值得注意的是,Med-PaLM M 12B无法生成连贯的视觉条件反应,也就是说语言模型的规模在零样本CoT多模态推理能力中起着关键作用,可能是一种涌现的能力。

参考资料:

https://arxiv.org/pdf/2307.14334.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
后续!江苏教育部门回应:姜萍大学梦破灭,强基计划恐成唯一途径

后续!江苏教育部门回应:姜萍大学梦破灭,强基计划恐成唯一途径

校长侃财
2024-06-17 11:54:32
太突然!“大门紧锁,几乎搬空”!有人充10万还没消费,多名探店网红曾宣传

太突然!“大门紧锁,几乎搬空”!有人充10万还没消费,多名探店网红曾宣传

鲁中晨报
2024-06-17 06:55:07
辽宁惊现神秘金字塔:专家坦言非人力能完成,女娲补天惊现现实?

辽宁惊现神秘金字塔:专家坦言非人力能完成,女娲补天惊现现实?

天气观察站
2024-06-17 08:59:27
林右昌宣讲失言,台湾媒体人怒轰:停止在花莲地震受灾户伤口洒盐

林右昌宣讲失言,台湾媒体人怒轰:停止在花莲地震受灾户伤口洒盐

海峡导报社
2024-06-16 22:50:04
中国一旦进入战争,这些数字告诉你,只有一个结论:缴械投降

中国一旦进入战争,这些数字告诉你,只有一个结论:缴械投降

蓝婉莹
2024-05-12 02:22:39
艺术人体:女性的美丽

艺术人体:女性的美丽

书画艺术收藏
2024-06-17 19:10:02
真被张召忠说中了?掏空国库建造的2艘航母,如今彻底沦为废铁

真被张召忠说中了?掏空国库建造的2艘航母,如今彻底沦为废铁

高山非凡创作
2024-05-16 07:48:51
影版《三体》正式启动,张艺谋执导,叶文洁人选曝光太惊喜!

影版《三体》正式启动,张艺谋执导,叶文洁人选曝光太惊喜!

星寒新影视
2024-06-17 21:02:38
连广州大剧院都发霉了,59天仅7天没下雨,终于理解广东人审美了

连广州大剧院都发霉了,59天仅7天没下雨,终于理解广东人审美了

番茄说史聊
2024-06-17 21:28:34
尹烨对哈马斯的点评,这是最勇敢的科普

尹烨对哈马斯的点评,这是最勇敢的科普

关尔东
2024-06-06 08:56:59
四川女孩带广东男友回家,父母好酒好菜招待,男友一宿没住就跑了

四川女孩带广东男友回家,父母好酒好菜招待,男友一宿没住就跑了

好酒云观察
2024-06-17 14:27:37
去日本尿完之后,“铁头”前往新浪总部维权,恐怕只能多尿一次了

去日本尿完之后,“铁头”前往新浪总部维权,恐怕只能多尿一次了

走读新生
2024-06-17 12:34:28
CCTV5+直播,中国女排决战日本!朱婷出战悬念揭晓,蔡斌该懂了

CCTV5+直播,中国女排决战日本!朱婷出战悬念揭晓,蔡斌该懂了

刺头体育
2024-06-17 14:45:01
你能认识12样说明你已经五十岁了,全认识说明你真的老了

你能认识12样说明你已经五十岁了,全认识说明你真的老了

娱乐圈的笔娱君
2024-06-17 13:51:38
2019年,蔡英文公开蒋介石手令,当中内容令两岸一片哗然

2019年,蔡英文公开蒋介石手令,当中内容令两岸一片哗然

旧时楼台月
2024-06-08 13:45:15
税务总局:父母、配偶、子女等亲属间赠与房产,免20%个税!

税务总局:父母、配偶、子女等亲属间赠与房产,免20%个税!

周军律师聊案子
2024-06-10 08:49:06
特斯拉三款新车曝光!确认年内推出/最快8月亮相

特斯拉三款新车曝光!确认年内推出/最快8月亮相

爱卡汽车
2024-06-17 09:10:03
被中国人耍了?美国联邦航空局调查有问题的钛如何进入波音和空客

被中国人耍了?美国联邦航空局调查有问题的钛如何进入波音和空客

嘿哥哥科技
2024-06-15 22:11:11
《墨雨云间》最新排播出炉!12集缩减到8集,平台损剧目的明确

《墨雨云间》最新排播出炉!12集缩减到8集,平台损剧目的明确

叶二娱评
2024-06-17 14:27:37
他是原中央政治局常委,大肆迫害王光美,1980年被开除党籍

他是原中央政治局常委,大肆迫害王光美,1980年被开除党籍

历史龙元阁
2024-06-17 23:46:40
2024-06-18 04:28:49
新智元
新智元
AI产业主平台领航智能+时代
11161文章数 65537关注度
往期回顾 全部

科技要闻

为什么你的iPhone,肯定用不上"苹果AI"?

头条要闻

欧洲杯-卢卡库屡失良机两进球被吹 比利时0-1斯洛伐克

头条要闻

欧洲杯-卢卡库屡失良机两进球被吹 比利时0-1斯洛伐克

体育要闻

飞翔的斗牛士 如今也迎来最后一舞

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

人均养老金上调3% 怎么年轻人吵翻了?

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

房产
健康
数码
手机
游戏

房产要闻

强!全国第三!海口房价正在止跌!

晚餐不吃or吃七分饱,哪种更减肥?

数码要闻

苹果 macOS 14.6 开发者预览版 Beta 发布

手机要闻

体验爆杀安卓?iOS 18上手:前所未有的自由度

我们试玩了《星战:亡命之徒》,并和开发者们聊了聊

无障碍浏览 进入关怀版