网易首页 > 网易号 > 正文 申请入驻

DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估

0
分享至

编辑 | 白菜叶

大型语言模型 (LLM) 正在日益改变医疗应用。

然而,像 GPT-4o 这样的专有模型在临床应用方面面临巨大障碍,因为它们无法在医疗机构内部部署,同时也不符合严格的隐私法规。

DeepSeek 等开源 LLM 展示的强悍性能,为科学家提供了一种有前景的替代方案。因为它们可以被部署在本地,医院的工作人员可以用本地数据对它们进行高效的微调。

DeepSeek 在临床决策中的能力

为了证明 DeepSeek-V3 和 DeepSeek-R1 的临床实用性,来自德国的研究团队(Otto-von-Guericke University,Charite - University Medicine Berlin等)将其在临床决策支持任务中的表现与专有 LLM(包括 GPT-4o 和 Gemini-2.0 Flash Thinking Experimental)进行了对比。

相关论文《Benchmark evaluation of DeepSeek large language models in clinical decision-making》,于 2025 年 4 月 23 日发布在《Nature Medicine》。

论文链接:https://www.nature.com/articles/s41591-025-03727-2

研究人员使用 125 例具有足够统计功效的患者病例,涵盖了广泛的常见病和罕见病,发现 DeepSeek 模型的表现与医学专用 LLM 相当,在某些情况下甚至更佳。

这项研究表明,开源 LLM 可以为安全的模型训练提供可扩展的途径,从而在符合数据隐私和医疗保健法规的情况下,实现现实世界的医疗应用。

图示:考虑诊断和治疗的 LLM(GPT-4o、DeepSeek-R1、DeepSeek-V1 和 Gemini-2.0)在 Gem2FTE 实验中的 Likert 评分。(来源:论文)

DeepSeek 在医学领域的推理能力

虽然如此,但是在医学领域 DeepSeek 的能力推理能力尚未得评估。

在同期发表在 《Nature Medicine》上的另一篇论文《Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning》中,美国西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的研究人员测试了 DeepSeek 在临床医学领域的推理能力。

论文链接:https://www.nature.com/articles/s41591-025-03726-3

本研究评估了 DeepSeek-R1、ChatGPT-o1 和 Llama 3.1-405B 这三个 LLM 执行四项不同医学任务的能力:回答美国医师执照考试 (USMLE) 的问题、基于文本的诊断和治疗案例进行解释和推理、根据 RECIST 1.1 标准进行肿瘤分类以及提供跨多种模式的诊断影像报告摘要。

图示:概述了三种大型语言模型在执行四项指定医学任务方面的表现。缩写:pt:分值,PD:疾病进展,PR:部分缓解,N:数量。(来源:论文)

在 USMLE 测试中,DeepSeek-R1(准确率 = 0.92)的表现略逊于 ChatGPT-o1(准确率 = 0.95;p = 0.04),但优于 Llama 3.1-405B(准确率 = 0.83;p < 10^-3)。

在基于文本的案例挑战中,DeepSeek-R1 的表现与 ChatGPT-o1 相似(准确率分别为 0.57 vs 0.55;p = 0.76 和 0.74 vs 0.76;p = 0.06,使用《New England Journal of Medicine》和《Medicilline》数据库)。

图示:比较三款 LLM 在各种医学任务中的表现。对三款 LLM(ChatGPT-o1、DeepSeek-R1 和 Llama 3.1-405B)在以下医学任务中的表现进行了评估:美国医师执照考试 (USMLE) 试题、诊断问题(NEJM 和 Medicilline 数据库中)、推理(BMJ 和 NEJM 数据库中)、放射学报告中的 RECIST 1.1 分类以及报告摘要(MIMIC-III 和私有数据集)。(来源:论文)

对于 RECIST 分类,DeepSeek-R1 的表现也与 ChatGPT-o1 相似(0.73 vs 0.81;p = 0.10)。DeepSeek 提供的诊断推理步骤被认为比 ChatGPT 和 Llama 3.1-405B 提供的步骤更准确(平均 Likert 分数分别为 3.61、3.22 和 3.13,p = 0.005 和 p < 10^−3)。

然而,DeepSeek-R1 提供的汇总成像报告的整体质量低于 ChatGPT-o1 提供的报告(5 分制 Likert 分数:4.5 vs 4.8;p < 10^−3)。

这项研究展示了 DeepSeek-R1 LLM 在医疗应用方面的潜力,但也强调了需要进一步提升的方向。

图示:AI 与医疗。(来源:AI 生成)

总而言之,科学家们在不断探索 AI 在医疗决策、医学诊断中的应用,已有的评估结果表明,AI 在这些领域的使用正变得越来越可靠、越来越安全。相信在不久的将来,AI 将成为医疗体系中不可或缺的强大助力,为全球的患者造福!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
【环时深度】减少对美依赖,加拿大的战略转身?

【环时深度】减少对美依赖,加拿大的战略转身?

环球网资讯
2026-02-05 06:49:38
新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

我心纵横天地间
2026-02-03 22:57:23
黄金、白银,巨震!降息,突生变数!

黄金、白银,巨震!降息,突生变数!

证券时报e公司
2026-02-04 23:17:57
好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

好惨烈的身高对比差距,中越边境上的一张军人合影突然火了起来

我心纵横天地间
2026-01-30 22:17:29
公积金缴纳等级,你在几级?

公积金缴纳等级,你在几级?

新浪财经
2026-02-04 05:17:52
具俊晔接住了这波热度,韩媒首度还原大S死亡真相,汪小菲没说错

具俊晔接住了这波热度,韩媒首度还原大S死亡真相,汪小菲没说错

东方不败然多多
2026-02-04 15:25:59
李荣浩与杨丞琳出行,乍一看以为是爸爸领着女儿,好雷人!

李荣浩与杨丞琳出行,乍一看以为是爸爸领着女儿,好雷人!

小娱乐悠悠
2026-02-04 10:52:25
比电诈园区还狠,湖北多家精神病院关正常人套医保,形成产业链

比电诈园区还狠,湖北多家精神病院关正常人套医保,形成产业链

历史总在押韵
2026-02-03 23:59:33
马斯克亲手杀死「汽车公司」特斯拉

马斯克亲手杀死「汽车公司」特斯拉

版面之外
2026-02-03 21:30:47
沙媒:努涅斯要求新月接受费内巴切对自己的报价,否则将罢赛

沙媒:努涅斯要求新月接受费内巴切对自己的报价,否则将罢赛

懂球帝
2026-02-04 23:12:05
以色列称如果美国谈不来又不好打就自己打,美国完全不用打都行

以色列称如果美国谈不来又不好打就自己打,美国完全不用打都行

邵旭峰域
2026-02-04 12:34:59
大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

古希腊掌管月桂的神
2026-02-03 10:20:14
6小时轰炸,90枚导弹,基辅电力彻底瘫痪,乌克兰或后悔撕毁停战

6小时轰炸,90枚导弹,基辅电力彻底瘫痪,乌克兰或后悔撕毁停战

霁寒飘雪
2026-02-04 14:19:21
“地震中消失的人去哪了?”网友的扎心评论,直接看哭了上万网友

“地震中消失的人去哪了?”网友的扎心评论,直接看哭了上万网友

另子维爱读史
2026-01-15 18:13:19
2020年上海朱晓东被执行死刑,与母亲诀别时痛哭忏悔:妈,我错了

2020年上海朱晓东被执行死刑,与母亲诀别时痛哭忏悔:妈,我错了

谈史论天地
2026-02-04 19:35:03
韩媒曝大S死因不简单,机场路上心脏骤停,S家遭质疑 马筱梅说漏嘴

韩媒曝大S死因不简单,机场路上心脏骤停,S家遭质疑 马筱梅说漏嘴

陈意小可爱
2026-02-04 16:49:36
30死324伤!屡劝不听,滞留北海道旅客喊话祖国包机接人!

30死324伤!屡劝不听,滞留北海道旅客喊话祖国包机接人!

阿燕姐说育儿
2026-02-04 15:51:25
老夫少妻扁鹊难医!嫁大20岁徐威的张怡宁,终是逃不过残酷现实

老夫少妻扁鹊难医!嫁大20岁徐威的张怡宁,终是逃不过残酷现实

素衣读史
2026-02-02 16:43:21
女篮许诺现状:进入大学当老师,成知名网红,39岁不缺钱却仍单身

女篮许诺现状:进入大学当老师,成知名网红,39岁不缺钱却仍单身

篮球看比赛
2026-02-04 17:39:02
Shams:公牛将科比-怀特和康利交易到黄蜂

Shams:公牛将科比-怀特和康利交易到黄蜂

懂球帝
2026-02-05 04:30:04
2026-02-05 10:00:51
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1226文章数 223关注度
往期回顾 全部

科技要闻

微信给马化腾浇了“一盆冷水”

头条要闻

牛弹琴:中国元首和特朗普通话 特朗普就台湾问题表态

头条要闻

牛弹琴:中国元首和特朗普通话 特朗普就台湾问题表态

体育要闻

中国棒球,立春

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

黄金,出现拐点

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

本地
艺术
教育
手机
公开课

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

艺术要闻

草书识别新挑战:为何70年未出硬笔书法大师?

教育要闻

2025全国毕业生薪酬百强出炉,青岛大学上榜!

手机要闻

春节换机指南!2026年值得入手的骁龙旗舰盘点:各价位段闭眼选

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版