网易首页 > 网易号 > 正文 申请入驻

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

0
分享至

MedKGEval团队 投稿
量子位 | 公众号 QbitAI

医疗大模型知识覆盖度首次被精准量化!

在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。

他们提出的MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。

该研究已被WWW 2025会议Web4Good Track录用为口头报告(oral)。目前,WWW 2025正在悉尼举行,会议时间从4月28日持续至5月2日。

背景

大语言模型(LLM)在医疗领域的快速发展凸显了其知识存储与处理的潜力,但其临床部署前的可靠性验证亟需更系统化的评估框架。

当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力,却存在三个明显的局限:

1)其长尾数据分布导致罕见病症覆盖不足,评测结果存在偏差;

2)任务导向的设计聚焦疾病预测、用药咨询等单一场景,难以量化模型内在医学知识储量;

3)传统问答形式局限于表面对错判断,无法捕捉医学概念间的复杂拓扑关联。

为解决这些问题,本文提出基于医疗知识图谱(KG)的多层级评估框架MedKGEval。

医疗KG通过结构化存储复杂实体关系网络,为评估提供天然基准。框架创新性地设计三级评估体系:实体层评估医学概念理解,关系层检验医学关联区分能力,子图层验证结构化推理水平。

通过真伪判断和多选题形式,同时实现任务导向(task-oriented)的粗粒度性能评估与知识导向(knowledge-oriented)的细粒度三重覆盖度测量(实体/关系/知识三元组)。

医疗知识覆盖度评估框架MedKGEval

在MedKGEval中研究团队设计了多层级的任务体系,其中包含3个层级的9项核心任务,通过真伪判断(TFQ)与多选题(MCQ)任务形式,实现任务导向与知识导向的双重评测。

具体评估流程框架见下图。

任务架构设计

基于医疗知识图谱的实体、关系、三元组结构,构建三级评估体系:

实体层面(3项任务):验证医学概念理解

  • 实体类型标注(ET):通过多选题识别“糖尿病”等实体的分类标签(如疾病/症状)
  • 实体聚类(EC):从5个实体中辨识类型异常项(如混入症状类别的药物实体)
  • 实体消歧(ED):判断两个实体是否等价,比如“阿司匹林”与“乙酰水杨酸”是否为等价实体

关系层面(3项任务):检验医学关联认知

  • 关系类型标注(RT):选择“并发症”关系可连接的实体类型对(如疾病→疾病)
  • 事实核验(FC):判断三元组的真伪,比如“布洛芬-治疗-偏头痛”
  • 关系预测(RP):补全实体之间缺失的关系,比如“冠状动脉硬化→(?)→心肌梗死”

子图层面(3项任务):评估结构化推理

  • 错误识别(ER):从5个三元组中检测异常项(如错误药物禁忌关系)
  • 子图推理1(R1):基于多跳关系推理,比如基于“高血压→并发症→脑出血→影像检查→CT”路径,推断“高血压→影像检查→CT”是否成立
  • 子图推理2(R2):在相同推理链中,从候选关系中选择正确关联

随着利用的KG信息增多,任务难度也在逐渐升高,这样阶梯式、多层级的评估更有利用全面了解LLMs的性能。

任务导向和知识导向的评估机制

在每项任务中均配备评估核心实体/关系映射(如上图 core E and R),实现细粒度知识覆盖分析:

任务导向评估:计算准确率指标

知识导向评估:

  • 实体覆盖率:实体正确率均值(CovAvg-E)、引入节点中心度加权(CovDeg-E)
  • 关系覆盖率:关系正确率均值(CovAvg-R)、按关系出现频次加权(CovDeg-R)
  • 三元组覆盖率Cov-T:反映知识单元整体掌握度
实验及评估结果

MedKGEval选用中文医疗领域主流知识图谱CPubMedKG和CMeKG作为基准,经下采样构建实验数据集。

评估模型涵盖三大类:1)开源通用模型;2)医疗垂类模型;3)闭源模型。

下表展示了11个LLM的任务导向评估结果,可以看到:GPT-4o以70.65%平均准确率领先;同架构LLM参数量翻倍带来3-5%准确率提升;大多LLM在实体层面任务上表现优于关系和子图层面;通用模型性能超越医疗垂类模型(归因分析:垂类模型微调数据侧重具体任务(如用药咨询、医患对话摘要),导致医学知识广度受限)。

下表展示了11个LLM的知识导向评估结果,可以看到:GPT-4o在CPubMedKG (small)上覆盖了65.66%的实体、55.60%的关系、62.31%的三元组;更大的参数量通常会带来更高的知识覆盖度;CovAvg 和 CovDeg 的对比体现出了LLM对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)的偏好性:CovAvg < CovDeg 说明 LLM 在高关联度实体的上表现更好、反之说明 LLM 在低关联度实体上表现更好。

接下来,研究团队使用MedKGEval评估框架对四个示例LLM在关联度最高的15个实体和最高频的15个关系上的知识覆盖情况进行分析。

以常用临床实体“超声”为例,可以看到GPT-4o以94.16%正确率领先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。

在医学关系覆盖度上,4个LLM也表现出了类似的特点。

分析结果表明,MedKGEval能有效定位LLM在特定医学知识领域的认知缺陷。

这些发现对模型优化具有重要指导价值:如上图所示,WiNGPT在“肺结核”实体相关问答中表现欠佳、Baichuan2-13B在“相关(转换)”关系中存在明显短板。

因此,在下轮微调中建议针对性补充结核病诊疗指南和病理转化机制相关数据,通过基于知识缺陷诊断的定向增强策略,可显著提升医疗领域LLM的整体性能。

总结

本文提出的MedKGEval框架通过医疗KG视角,构建了评估LLM医学知识覆盖度的多维度体系。

该框架在实体、关系和子图三个层级展开评估,系统揭示了当前大语言模型在医学知识存储与推理能力方面的优势与局限。

研究团队提出的的任务导向与知识导向双轨评估机制,不仅能够精准定位模型的知识薄弱环节,更为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。


论文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代码地址:https://github.com/ZihengZZH/MedKGEval

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刑侦大案口述纪实:尘封28年,南医大女学生命案终告侦破!

刑侦大案口述纪实:尘封28年,南医大女学生命案终告侦破!

橘仔看世界
2026-06-23 09:09:12
女子被歹徒蹂躏三小时,死前哀求别吵醒女儿,丁照月遇害案始末

女子被歹徒蹂躏三小时,死前哀求别吵醒女儿,丁照月遇害案始末

易玄
2026-06-23 06:45:08
王石:已向深圳市公安机关报案

王石:已向深圳市公安机关报案

大峰
2026-06-23 16:27:46
徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

庭小娱
2026-06-01 15:20:06
警惕!利益集团侵蚀公有制基石

警惕!利益集团侵蚀公有制基石

烽火瞭望者
2026-06-23 06:21:31
全联盟都笑他疯了!王哲林千万投拉链厂,如今躺赢人生

全联盟都笑他疯了!王哲林千万投拉链厂,如今躺赢人生

童叔不飙车
2026-06-12 10:49:07
葡萄牙对阵劲旅正名之战,41岁C罗剑指球队世界杯历史封神纪录

葡萄牙对阵劲旅正名之战,41岁C罗剑指球队世界杯历史封神纪录

云儿评球
2026-06-23 23:56:02
米莱祝贺,哥伦比亚右转,川普上任后拉美再没选出左翼总统

米莱祝贺,哥伦比亚右转,川普上任后拉美再没选出左翼总统

移光幻影
2026-06-22 14:17:26
就是他,让外蒙古独立出去,从中国“蒙古省”成为蒙古国

就是他,让外蒙古独立出去,从中国“蒙古省”成为蒙古国

墨策讲历史
2026-06-22 00:35:06
江苏这场“降级”风暴,撕开了多少体制内的遮羞布?

江苏这场“降级”风暴,撕开了多少体制内的遮羞布?

娱乐洞察点点
2026-06-23 18:03:55
《玩具总动员5》带动北美票房逼近2019年水平

《玩具总动员5》带动北美票房逼近2019年水平

澎湃新闻
2026-06-23 21:50:30
贝克汉姆好大儿拒过父亲节,自曝不看世界杯阴阳爸妈?嘲他们总蹭自己热度?

贝克汉姆好大儿拒过父亲节,自曝不看世界杯阴阳爸妈?嘲他们总蹭自己热度?

英国报姐
2026-06-24 01:07:31
压力给到C罗!梅西5球、姆巴佩、哈兰德双双梅开二度,C 罗0球

压力给到C罗!梅西5球、姆巴佩、哈兰德双双梅开二度,C 罗0球

夜白侃球
2026-06-23 10:49:32
京东工业CEO宋春正因健康原因辞职,2025年年薪668万元,公司上市仅半年

京东工业CEO宋春正因健康原因辞职,2025年年薪668万元,公司上市仅半年

红星资本局
2026-06-23 14:23:04
陈震结束180天全平台禁言连更4推,偷税风波后掉粉近百万,名下仅3家公司存续

陈震结束180天全平台禁言连更4推,偷税风波后掉粉近百万,名下仅3家公司存续

大象新闻
2026-06-22 20:57:02
中国女排两大强援即将归队!重返世界一流强队不是梦?

中国女排两大强援即将归队!重返世界一流强队不是梦?

云隐南山
2026-06-23 13:38:39
曼联愿蚀让乌加特 卡域克换血铁腕清冗员

曼联愿蚀让乌加特 卡域克换血铁腕清冗员

坠入温柔晚风
2026-06-24 01:18:14
马来西亚媒体跟团痛批《联合早报》,大马华人为何更爱中国?

马来西亚媒体跟团痛批《联合早报》,大马华人为何更爱中国?

罗富强说
2026-06-23 11:15:44
突发!梁靖崑退赛原因曝光!国乒抵达洛杉矶,CCTV直播美国大满贯!赛程出炉!

突发!梁靖崑退赛原因曝光!国乒抵达洛杉矶,CCTV直播美国大满贯!赛程出炉!

好乒乓
2026-06-23 15:35:41
他俩传出恋爱绯闻了?

他俩传出恋爱绯闻了?

奋斗在韩国
2026-06-22 14:00:45
2026-06-24 02:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
12831文章数 176502关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

时尚
旅游
家居
公开课
军事航空

被40万人追更的火焰魔术师,重塑古老灯工玻璃

旅游要闻

河南一景区玻璃观景台发生碎裂,游客:第一念头就是快跑!景区:系小孩用伞尖敲击玻璃导致表层碎裂,已隔离涉事区域并联系厂家更换玻璃

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列总理、国防部长和国防军总参谋长发表联合声明

无障碍浏览 进入关怀版