网易首页 > 网易号 > 正文 申请入驻

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

0
分享至

MedKGEval团队 投稿
量子位 | 公众号 QbitAI

医疗大模型知识覆盖度首次被精准量化!

在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。

他们提出的MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。

该研究已被WWW 2025会议Web4Good Track录用为口头报告(oral)。目前,WWW 2025正在悉尼举行,会议时间从4月28日持续至5月2日。



背景

大语言模型(LLM)在医疗领域的快速发展凸显了其知识存储与处理的潜力,但其临床部署前的可靠性验证亟需更系统化的评估框架。

当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力,却存在三个明显的局限:

1)其长尾数据分布导致罕见病症覆盖不足,评测结果存在偏差;

2)任务导向的设计聚焦疾病预测、用药咨询等单一场景,难以量化模型内在医学知识储量;

3)传统问答形式局限于表面对错判断,无法捕捉医学概念间的复杂拓扑关联。

为解决这些问题,本文提出基于医疗知识图谱(KG)的多层级评估框架MedKGEval。

医疗KG通过结构化存储复杂实体关系网络,为评估提供天然基准。框架创新性地设计三级评估体系:实体层评估医学概念理解,关系层检验医学关联区分能力,子图层验证结构化推理水平。

通过真伪判断和多选题形式,同时实现任务导向(task-oriented)的粗粒度性能评估与知识导向(knowledge-oriented)的细粒度三重覆盖度测量(实体/关系/知识三元组)。

医疗知识覆盖度评估框架MedKGEval

在MedKGEval中研究团队设计了多层级的任务体系,其中包含3个层级的9项核心任务,通过真伪判断(TFQ)与多选题(MCQ)任务形式,实现任务导向与知识导向的双重评测。

具体评估流程框架见下图。



任务架构设计

基于医疗知识图谱的实体、关系、三元组结构,构建三级评估体系:

实体层面(3项任务):验证医学概念理解

  • 实体类型标注(ET):通过多选题识别“糖尿病”等实体的分类标签(如疾病/症状)
  • 实体聚类(EC):从5个实体中辨识类型异常项(如混入症状类别的药物实体)
  • 实体消歧(ED):判断两个实体是否等价,比如“阿司匹林”与“乙酰水杨酸”是否为等价实体

关系层面(3项任务):检验医学关联认知

  • 关系类型标注(RT):选择“并发症”关系可连接的实体类型对(如疾病→疾病)
  • 事实核验(FC):判断三元组的真伪,比如“布洛芬-治疗-偏头痛”
  • 关系预测(RP):补全实体之间缺失的关系,比如“冠状动脉硬化→(?)→心肌梗死”

子图层面(3项任务):评估结构化推理

  • 错误识别(ER):从5个三元组中检测异常项(如错误药物禁忌关系)
  • 子图推理1(R1):基于多跳关系推理,比如基于“高血压→并发症→脑出血→影像检查→CT”路径,推断“高血压→影像检查→CT”是否成立
  • 子图推理2(R2):在相同推理链中,从候选关系中选择正确关联



随着利用的KG信息增多,任务难度也在逐渐升高,这样阶梯式、多层级的评估更有利用全面了解LLMs的性能。

任务导向和知识导向的评估机制

在每项任务中均配备评估核心实体/关系映射(如上图 core E and R),实现细粒度知识覆盖分析:

任务导向评估:计算准确率指标

知识导向评估:

  • 实体覆盖率:实体正确率均值(CovAvg-E)、引入节点中心度加权(CovDeg-E)
  • 关系覆盖率:关系正确率均值(CovAvg-R)、按关系出现频次加权(CovDeg-R)
  • 三元组覆盖率Cov-T:反映知识单元整体掌握度
实验及评估结果

MedKGEval选用中文医疗领域主流知识图谱CPubMedKG和CMeKG作为基准,经下采样构建实验数据集。

评估模型涵盖三大类:1)开源通用模型;2)医疗垂类模型;3)闭源模型。

下表展示了11个LLM的任务导向评估结果,可以看到:GPT-4o以70.65%平均准确率领先;同架构LLM参数量翻倍带来3-5%准确率提升;大多LLM在实体层面任务上表现优于关系和子图层面;通用模型性能超越医疗垂类模型(归因分析:垂类模型微调数据侧重具体任务(如用药咨询、医患对话摘要),导致医学知识广度受限)。



下表展示了11个LLM的知识导向评估结果,可以看到:GPT-4o在CPubMedKG (small)上覆盖了65.66%的实体、55.60%的关系、62.31%的三元组;更大的参数量通常会带来更高的知识覆盖度;CovAvg 和 CovDeg 的对比体现出了LLM对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)的偏好性:CovAvg < CovDeg 说明 LLM 在高关联度实体的上表现更好、反之说明 LLM 在低关联度实体上表现更好。



接下来,研究团队使用MedKGEval评估框架对四个示例LLM在关联度最高的15个实体和最高频的15个关系上的知识覆盖情况进行分析。

以常用临床实体“超声”为例,可以看到GPT-4o以94.16%正确率领先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。



在医学关系覆盖度上,4个LLM也表现出了类似的特点。



分析结果表明,MedKGEval能有效定位LLM在特定医学知识领域的认知缺陷。

这些发现对模型优化具有重要指导价值:如上图所示,WiNGPT在“肺结核”实体相关问答中表现欠佳、Baichuan2-13B在“相关(转换)”关系中存在明显短板。

因此,在下轮微调中建议针对性补充结核病诊疗指南和病理转化机制相关数据,通过基于知识缺陷诊断的定向增强策略,可显著提升医疗领域LLM的整体性能。

总结

本文提出的MedKGEval框架通过医疗KG视角,构建了评估LLM医学知识覆盖度的多维度体系。

该框架在实体、关系和子图三个层级展开评估,系统揭示了当前大语言模型在医学知识存储与推理能力方面的优势与局限。

研究团队提出的的任务导向与知识导向双轨评估机制,不仅能够精准定位模型的知识薄弱环节,更为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。


论文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代码地址:https://github.com/ZihengZZH/MedKGEval

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝江疏影国外藏私生子后续:幕后多位大佬被扒,本人露面一脸愁容

曝江疏影国外藏私生子后续:幕后多位大佬被扒,本人露面一脸愁容

郑丁嘉话
2025-05-12 10:57:48
别再吹歼10了,这次真正的赢家是... ...

别再吹歼10了,这次真正的赢家是... ...

诗与星空
2025-05-13 08:00:08
天猫618今晚8点开启预售 iPhone16 Pro将降价2000元

天猫618今晚8点开启预售 iPhone16 Pro将降价2000元

环球Tech
2025-05-13 14:53:49
巴黎航展6月开幕,法国主动邀请歼10C参加,并主张与中国加强合作

巴黎航展6月开幕,法国主动邀请歼10C参加,并主张与中国加强合作

碳基生物关怀组织
2025-05-13 19:11:36
极端天气越来越多,竟有气象学者预警:80、90后不可能安享晚年!

极端天气越来越多,竟有气象学者预警:80、90后不可能安享晚年!

有趣的火烈鸟
2025-05-13 16:42:30
成都警方通报:一家三口溺水,一人不幸遇难

成都警方通报:一家三口溺水,一人不幸遇难

界面新闻
2025-05-13 15:44:29
厅局级以上干部不允许经商,西北大学副校长是怎么赚到400多亿的

厅局级以上干部不允许经商,西北大学副校长是怎么赚到400多亿的

灰鸽观察室
2025-05-13 13:22:53
魔幻接连上演,普通人看完只剩下麻木

魔幻接连上演,普通人看完只剩下麻木

末名先生
2025-05-13 15:33:41
中美关税谈完后,日本网友破防了!日媒的配图更有意思!

中美关税谈完后,日本网友破防了!日媒的配图更有意思!

消失的电波
2025-05-13 15:51:36
比亚迪经销商也崩了?多地4S店爆关门跑路!

比亚迪经销商也崩了?多地4S店爆关门跑路!

鹞石周说
2025-05-13 20:25:52
坚守彻底否定文革的底线

坚守彻底否定文革的底线

霹雳炮
2025-05-13 22:07:29
乌方:泽连斯基只接受与普京会谈,拒见其他俄代表;泽连斯基:已准备好前往土耳其与普京直接会谈

乌方:泽连斯基只接受与普京会谈,拒见其他俄代表;泽连斯基:已准备好前往土耳其与普京直接会谈

每日经济新闻
2025-05-13 17:52:01
又打起来了!44死118伤!巴基斯坦损失惨重

又打起来了!44死118伤!巴基斯坦损失惨重

深度报
2025-05-12 22:36:42
光线传媒:《哪吒之魔童闹海》延长放映至5月31日

光线传媒:《哪吒之魔童闹海》延长放映至5月31日

界面新闻
2025-05-13 18:01:14
就在今天,一项NBA79年独一无二的纪录,被尼克斯实现,冲击东决

就在今天,一项NBA79年独一无二的纪录,被尼克斯实现,冲击东决

大西体育
2025-05-13 14:41:08
下午的雷会爆的更厉害

下午的雷会爆的更厉害

后视镜里de未来
2025-05-13 13:27:31
冰雹突袭北京多区!局地可能造成雹灾!此时此刻的冰雹,大如鸡蛋——

冰雹突袭北京多区!局地可能造成雹灾!此时此刻的冰雹,大如鸡蛋——

BRTV新闻
2025-05-13 21:46:12
广东一男子因“工位鱼缸养红薯”火了,引20万人围观,真的好好看

广东一男子因“工位鱼缸养红薯”火了,引20万人围观,真的好好看

观察鉴娱
2025-05-13 11:22:21
“75万买299元路由器”后续:重庆市纪委、财政局、教委联合介入调查

“75万买299元路由器”后续:重庆市纪委、财政局、教委联合介入调查

封面新闻
2025-05-13 16:42:36
特朗普突然提到“统一”,台当局急了

特朗普突然提到“统一”,台当局急了

环球时报新闻
2025-05-13 17:20:50
2025-05-14 00:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
10470文章数 176139关注度
往期回顾 全部

科技要闻

京东外卖首战业绩如何?创新业务狂揽57亿

头条要闻

老人住底楼过道4个月被女儿拒之门外 女婿:不可能赡养

头条要闻

老人住底楼过道4个月被女儿拒之门外 女婿:不可能赡养

体育要闻

离开曼联,他在马拉多纳的城市成为明星

娱乐要闻

张柏芝母亲节上热搜!3个儿子引热议

财经要闻

老股民被收割670万 杀猪盘牵出20亿大案

汽车要闻

或2027年发布 全新宝马1系假想图曝光

态度原创

手机
艺术
数码
家居
军事航空

手机要闻

国补价3499元!魅族21 PRO Flyme钛好用版发布:用上24K纯金

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

299元起!小米轨道插座套装全家桶正式开售:8000W大功率

家居要闻

简洁纯净 空灵的东方妙境

军事要闻

印巴停火后莫迪讲话:只是"暂停"军事行动

无障碍浏览 进入关怀版