网易首页 > 网易号 > 正文 申请入驻

医疗AI如何选?专用模型识别疾病更准,GPT-4推理能力强但成本高昂

0
分享至

·研究人员发现,在生物医疗领域,尽管“定制版”垂类模型应用对于医学自然语言处理上仍有优势,但涉及复杂的推理,尤其是医学问答方面,闭源通用大模型GPT-4则更有明显优势。

澎湃新闻记者 蒋立冬 AI创意

大模型在生物医疗领域的应用情况如何?哪种模型更加适用?4月6日,《自然·通讯》(Nature Communications)杂志刊登了一项由耶鲁大学医学院的研究人员对大语言模型(LLMs)在生物医学自然语言处理(BioNLP)中的全面评估与应用指南(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下简称“指南”)。在该份指南中,研究人员选择了12个来自 BioNLP 不同应用领域的数据集,评估了四种具有代表性的大模型GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA在零样本、少样本和微调设置下的性能。

生物医学自然语言处理(BioNLP)技术是一种将自然语言处理技术应用于生物医学领域的交叉学科技术,核心是从大量的生物医学文本比如医学论文、电子病历、基因数据库等中自动提取有用的信息。

研究人员发现,在生物医疗领域,仅靠持续扩充预训练数据并不能显著提升开源生物医学大语言模型的整体表现,针对具体医学任务的微调才是关键。比如生物医学领域特定大模型的代表PMC -LLaMA,使用了32个A100 GPU对模型进行预训练,但最终评估并未发现该模型的性能有显著提升。PMC -LLaMA是由上海交通大学长聘轨副教授谢伟迪研究团队于2023年4月研发的垂类模型,基座模型使用的是LLaMA 2;研究人员发现,直接微调LLaMA 2可以获得更好或至少相似的性能。通过微调,模型可以针对性地学习医学领域的专业知识和复杂推理要求,从而在信息抽取、医学问答等任务上实现显著性能提升。

研究人员建议,未来在生物医疗应用中,应更多关注如何优化微调策略,以弥补预训练在处理专业医学文本时的不足。“需要一种更有效、更可持续的方法来开发特定于生物医学领域的大语言模型。”研究人员称。

相较于通用大模型,针对生物医疗领域里的“定制版”模型BioBERT和PubMedBERT(注释:Bert是一款由谷歌开发的预训练语言模型),在医学自然语言处理表现更出色。由于经过专业的医学数据训练,BioBERT和PubMedBERT这类“定制版”模型能够更精准地识别疾病名称、基因、化学物质以及理解医学术语,这一点表现比GPT-3.5和GPT-4为代表的通用大型语言模型更好。但涉及较为复杂的推理任务,尤其是医学问答方面,GPT-4则更有明显优势,能够“看懂并能思考”,生成更合理以及准确的回应。

对于生物医药行业普遍关心的大模型幻觉问题,此次研究结果表明,GPT-4在两个数据集上几乎没有出现幻觉问题。在零样本条件下,通用开源模型LLaMA 2则更容易出现幻觉问题,比如输出时常常出现信息不完整、格式不一致或提示无关内容的情况,它产生的幻觉案例约占测试样本的32%,比例远超GPT-3.5和GPT-4。

尽管GPT-4在众多评估任务中表现优异,但研究人员指出,其调用成本相当于GPT-3.5的60至100倍。对于预算有限的实际应用场景,医学机构可能会倾向于选用成本较低且效果可接受的GPT-3.5;而对于准确性要求极高、尤其是医学问答这类依赖复杂推理的任务中,GPT-4可能会是更理想的选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
紧急提醒:截图别乱发,暗水印能直接找到你的本人

紧急提醒:截图别乱发,暗水印能直接找到你的本人

戗词夺理
2026-03-25 10:35:41
伊朗称正在搜捕逃亡美军

伊朗称正在搜捕逃亡美军

界面新闻
2026-03-25 23:21:14
全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

车知事
2026-03-26 21:34:27
伊朗军方:已击中或击落202架各类美以军机

伊朗军方:已击中或击落202架各类美以军机

界面新闻
2026-03-26 15:29:15
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

上观新闻
2026-03-26 19:36:04
全国高速明天大调整!车主集体欢呼:早该这么干了

全国高速明天大调整!车主集体欢呼:早该这么干了

沙雕小琳琳
2026-03-26 02:05:39
万科创始人妻子解除边控

万科创始人妻子解除边控

地产微资讯
2026-03-26 20:23:02
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
官宣!中国最大省再设立新县,什么信号?

官宣!中国最大省再设立新县,什么信号?

西部城市
2026-03-26 21:08:33
张雪峰去世巨额遗产曝光,能给女儿留下多少钱?

张雪峰去世巨额遗产曝光,能给女儿留下多少钱?

蓝鲸新闻
2026-03-26 17:41:20
香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

老吴教育课堂
2026-03-26 14:11:15
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

狼叔评论
2026-03-26 22:22:04
张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

张雪峰灵堂照曝光,门口摆满了花圈,网友看到遗像后心里酸酸的

180视角
2026-03-26 18:36:11
四川某设计院爆大瓜!

四川某设计院爆大瓜!

黯泉
2026-03-26 18:36:06
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

罕见!97岁老人头顶长出4厘米恶臭树桩 五年前曾做手术仍复发

快科技
2026-03-25 09:53:08
禁止将居民住宅专门用于安放骨灰!

禁止将居民住宅专门用于安放骨灰!

北青网-北京青年报
2026-03-26 16:11:05
2026-03-26 23:20:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
885217文章数 5089156关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
数码
旅游
艺术
公开课

教育要闻

骂人没有杀伤力?那不是白忙活吗?

数码要闻

Intel IBOT加速技术揭秘!硬件不变 白嫖22%游戏性能

旅游要闻

探访资中文旅新地标 邂逅千年古城的诗与远方

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版