网易首页 > 网易号 > 正文 申请入驻

医疗AI如何选?专用模型识别疾病更准,GPT-4推理能力强但成本高昂

0
分享至

·研究人员发现,在生物医疗领域,尽管“定制版”垂类模型应用对于医学自然语言处理上仍有优势,但涉及复杂的推理,尤其是医学问答方面,闭源通用大模型GPT-4则更有明显优势。

澎湃新闻记者 蒋立冬 AI创意

大模型在生物医疗领域的应用情况如何?哪种模型更加适用?4月6日,《自然·通讯》(Nature Communications)杂志刊登了一项由耶鲁大学医学院的研究人员对大语言模型(LLMs)在生物医学自然语言处理(BioNLP)中的全面评估与应用指南(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下简称“指南”)。在该份指南中,研究人员选择了12个来自 BioNLP 不同应用领域的数据集,评估了四种具有代表性的大模型GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA在零样本、少样本和微调设置下的性能。

生物医学自然语言处理(BioNLP)技术是一种将自然语言处理技术应用于生物医学领域的交叉学科技术,核心是从大量的生物医学文本比如医学论文、电子病历、基因数据库等中自动提取有用的信息。

研究人员发现,在生物医疗领域,仅靠持续扩充预训练数据并不能显著提升开源生物医学大语言模型的整体表现,针对具体医学任务的微调才是关键。比如生物医学领域特定大模型的代表PMC -LLaMA,使用了32个A100 GPU对模型进行预训练,但最终评估并未发现该模型的性能有显著提升。PMC -LLaMA是由上海交通大学长聘轨副教授谢伟迪研究团队于2023年4月研发的垂类模型,基座模型使用的是LLaMA 2;研究人员发现,直接微调LLaMA 2可以获得更好或至少相似的性能。通过微调,模型可以针对性地学习医学领域的专业知识和复杂推理要求,从而在信息抽取、医学问答等任务上实现显著性能提升。

研究人员建议,未来在生物医疗应用中,应更多关注如何优化微调策略,以弥补预训练在处理专业医学文本时的不足。“需要一种更有效、更可持续的方法来开发特定于生物医学领域的大语言模型。”研究人员称。

相较于通用大模型,针对生物医疗领域里的“定制版”模型BioBERT和PubMedBERT(注释:Bert是一款由谷歌开发的预训练语言模型),在医学自然语言处理表现更出色。由于经过专业的医学数据训练,BioBERT和PubMedBERT这类“定制版”模型能够更精准地识别疾病名称、基因、化学物质以及理解医学术语,这一点表现比GPT-3.5和GPT-4为代表的通用大型语言模型更好。但涉及较为复杂的推理任务,尤其是医学问答方面,GPT-4则更有明显优势,能够“看懂并能思考”,生成更合理以及准确的回应。

对于生物医药行业普遍关心的大模型幻觉问题,此次研究结果表明,GPT-4在两个数据集上几乎没有出现幻觉问题。在零样本条件下,通用开源模型LLaMA 2则更容易出现幻觉问题,比如输出时常常出现信息不完整、格式不一致或提示无关内容的情况,它产生的幻觉案例约占测试样本的32%,比例远超GPT-3.5和GPT-4。

尽管GPT-4在众多评估任务中表现优异,但研究人员指出,其调用成本相当于GPT-3.5的60至100倍。对于预算有限的实际应用场景,医学机构可能会倾向于选用成本较低且效果可接受的GPT-3.5;而对于准确性要求极高、尤其是医学问答这类依赖复杂推理的任务中,GPT-4可能会是更理想的选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两国可能合并,一旦成功将变成超级大国,恐终结美国一家独大局面

两国可能合并,一旦成功将变成超级大国,恐终结美国一家独大局面

现代小青青慕慕
2026-03-15 09:34:25
不可错过!3月24日晚上21:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月24日晚上21:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-24 16:14:08
股息率最高7.79%!抗跌绩优股出炉,6股业绩猛增50%以上

股息率最高7.79%!抗跌绩优股出炉,6股业绩猛增50%以上

数据宝
2026-03-24 12:13:15
大众造了一台比理想还要理想的增程车?

大众造了一台比理想还要理想的增程车?

新浪财经
2026-03-24 09:31:00
难以置信!网传上海一对小夫妻结婚仅半年,却因美甲一事火速离婚

难以置信!网传上海一对小夫妻结婚仅半年,却因美甲一事火速离婚

火山詩话
2026-03-23 06:42:44
杨紫真的已经瘦到天赋上限了,这也太牛了…

杨紫真的已经瘦到天赋上限了,这也太牛了…

手工制作阿歼
2026-02-22 13:25:34
定了!年薪1000万签约2年,格列兹曼夏窗将加盟美职联奥兰多城

定了!年薪1000万签约2年,格列兹曼夏窗将加盟美职联奥兰多城

衣衫褴褛的文人
2026-03-24 16:44:45
拿到中国导弹后,转头邀北约联合军演,武契奇又给全世界上了一课

拿到中国导弹后,转头邀北约联合军演,武契奇又给全世界上了一课

近史博览
2026-03-21 09:56:52
伊朗给日本船只开绿灯,这一箭三雕之计,精准命中美日同盟的死穴

伊朗给日本船只开绿灯,这一箭三雕之计,精准命中美日同盟的死穴

二大爷观世界
2026-03-24 14:59:28
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
美宜佳背后的假烟生意,远比谍战片还魔幻

美宜佳背后的假烟生意,远比谍战片还魔幻

深氪新消费
2026-03-24 12:12:52
广东队最新消息!威姆斯正式跟队,将取代杜锋出任新主教练?

广东队最新消息!威姆斯正式跟队,将取代杜锋出任新主教练?

绯雨儿
2026-03-24 11:56:26
91岁老母亲看望病重儿子,刚转身离开,55岁的儿子就走了

91岁老母亲看望病重儿子,刚转身离开,55岁的儿子就走了

原梦叁生
2026-03-07 12:46:34
双色球第26032期,单挑5注,精选一注,独蓝精选,冲击6+1

双色球第26032期,单挑5注,精选一注,独蓝精选,冲击6+1

芭比衣橱
2026-03-24 13:44:41
蓝营发生惊变,五大“诸侯”联手:力挺江启臣,背后谁在操盘?

蓝营发生惊变,五大“诸侯”联手:力挺江启臣,背后谁在操盘?

掉了颗大白兔糖
2026-03-24 07:34:23
女子打幼童骨折续 :身份被扒是教师 ,家属更嚣张再曝帮凶太可恨

女子打幼童骨折续 :身份被扒是教师 ,家属更嚣张再曝帮凶太可恨

社会日日鲜
2026-03-24 07:01:30
老公刚定完AA,婆婆就来养病,我:这是陪嫁房,你们必须要交房租

老公刚定完AA,婆婆就来养病,我:这是陪嫁房,你们必须要交房租

清水家庭故事
2026-03-24 15:53:08
5岁女童,扁桃体切除后口鼻喷血离世

5岁女童,扁桃体切除后口鼻喷血离世

中国新闻周刊
2026-03-24 14:31:20
罗永浩端起瑞幸超大杯:一场跨越15年的营销闭环

罗永浩端起瑞幸超大杯:一场跨越15年的营销闭环

说故事的阿袭
2026-03-23 20:34:31
宋朝华非法收受他人财物,数额特别巨大

宋朝华非法收受他人财物,数额特别巨大

新京报政事儿
2026-03-24 10:17:32
2026-03-24 17:27:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
884579文章数 5089073关注度
往期回顾 全部

科技要闻

黄仁勋看透中国AI圈 人情世故卷出最快创新

头条要闻

地铁吐血女孩最新发声:目前仍在抢救室

头条要闻

地铁吐血女孩最新发声:目前仍在抢救室

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

林峰张馨月全家浙江游 岳母帮忙带女儿

财经要闻

很多人,都被黄金吓怕了!

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

本地
手机
亲子
旅游
公开课

本地新闻

春日吃花第一站——云南

手机要闻

古尔曼:苹果将推iPhone史上最大规模革新,折叠屏iPhone与20周年纪念版两年内亮相

亲子要闻

韩国女星自曝:深夜夫妻时间被孩子撞见,帐篷拉链被拉开当场尴尬

旅游要闻

"爽爽贵阳·新十景"将在省旅发大会期间发布!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版