网易首页 > 网易号 > 正文 申请入驻

GPT-4o医学知识覆盖率仅55%?大模型医疗能力“体检报告”来了

0
分享至

MedKGEval团队 投稿
量子位 | 公众号 QbitAI

医疗大模型知识覆盖度首次被精准量化!

在医疗领域,大语言模型(LLM)的潜力令人振奋,但其知识储备是否足够可靠?腾讯优图实验室天衍研究中心的最新研究给出了答案。

他们提出的MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估,系统揭示了GPT-4o等主流模型的医学知识覆盖度。

该研究已被WWW 2025会议Web4Good Track录用为口头报告(oral)。目前,WWW 2025正在悉尼举行,会议时间从4月28日持续至5月2日。

背景

大语言模型(LLM)在医疗领域的快速发展凸显了其知识存储与处理的潜力,但其临床部署前的可靠性验证亟需更系统化的评估框架。

当前主流的Prompt-CBLUE、Medbench和MedJourney等评估体系虽通过医学问答基准测试LLM的任务执行能力,却存在三个明显的局限:

1)其长尾数据分布导致罕见病症覆盖不足,评测结果存在偏差;

2)任务导向的设计聚焦疾病预测、用药咨询等单一场景,难以量化模型内在医学知识储量;

3)传统问答形式局限于表面对错判断,无法捕捉医学概念间的复杂拓扑关联。

为解决这些问题,本文提出基于医疗知识图谱(KG)的多层级评估框架MedKGEval。

医疗KG通过结构化存储复杂实体关系网络,为评估提供天然基准。框架创新性地设计三级评估体系:实体层评估医学概念理解,关系层检验医学关联区分能力,子图层验证结构化推理水平。

通过真伪判断和多选题形式,同时实现任务导向(task-oriented)的粗粒度性能评估与知识导向(knowledge-oriented)的细粒度三重覆盖度测量(实体/关系/知识三元组)。

医疗知识覆盖度评估框架MedKGEval

在MedKGEval中研究团队设计了多层级的任务体系,其中包含3个层级的9项核心任务,通过真伪判断(TFQ)与多选题(MCQ)任务形式,实现任务导向与知识导向的双重评测。

具体评估流程框架见下图。

任务架构设计

基于医疗知识图谱的实体、关系、三元组结构,构建三级评估体系:

实体层面(3项任务):验证医学概念理解

  • 实体类型标注(ET):通过多选题识别“糖尿病”等实体的分类标签(如疾病/症状)
  • 实体聚类(EC):从5个实体中辨识类型异常项(如混入症状类别的药物实体)
  • 实体消歧(ED):判断两个实体是否等价,比如“阿司匹林”与“乙酰水杨酸”是否为等价实体

关系层面(3项任务):检验医学关联认知

  • 关系类型标注(RT):选择“并发症”关系可连接的实体类型对(如疾病→疾病)
  • 事实核验(FC):判断三元组的真伪,比如“布洛芬-治疗-偏头痛”
  • 关系预测(RP):补全实体之间缺失的关系,比如“冠状动脉硬化→(?)→心肌梗死”

子图层面(3项任务):评估结构化推理

  • 错误识别(ER):从5个三元组中检测异常项(如错误药物禁忌关系)
  • 子图推理1(R1):基于多跳关系推理,比如基于“高血压→并发症→脑出血→影像检查→CT”路径,推断“高血压→影像检查→CT”是否成立
  • 子图推理2(R2):在相同推理链中,从候选关系中选择正确关联

随着利用的KG信息增多,任务难度也在逐渐升高,这样阶梯式、多层级的评估更有利用全面了解LLMs的性能。

任务导向和知识导向的评估机制

在每项任务中均配备评估核心实体/关系映射(如上图 core E and R),实现细粒度知识覆盖分析:

任务导向评估:计算准确率指标

知识导向评估:

  • 实体覆盖率:实体正确率均值(CovAvg-E)、引入节点中心度加权(CovDeg-E)
  • 关系覆盖率:关系正确率均值(CovAvg-R)、按关系出现频次加权(CovDeg-R)
  • 三元组覆盖率Cov-T:反映知识单元整体掌握度
实验及评估结果

MedKGEval选用中文医疗领域主流知识图谱CPubMedKG和CMeKG作为基准,经下采样构建实验数据集。

评估模型涵盖三大类:1)开源通用模型;2)医疗垂类模型;3)闭源模型。

下表展示了11个LLM的任务导向评估结果,可以看到:GPT-4o以70.65%平均准确率领先;同架构LLM参数量翻倍带来3-5%准确率提升;大多LLM在实体层面任务上表现优于关系和子图层面;通用模型性能超越医疗垂类模型(归因分析:垂类模型微调数据侧重具体任务(如用药咨询、医患对话摘要),导致医学知识广度受限)。

下表展示了11个LLM的知识导向评估结果,可以看到:GPT-4o在CPubMedKG (small)上覆盖了65.66%的实体、55.60%的关系、62.31%的三元组;更大的参数量通常会带来更高的知识覆盖度;CovAvg 和 CovDeg 的对比体现出了LLM对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)的偏好性:CovAvg < CovDeg 说明 LLM 在高关联度实体的上表现更好、反之说明 LLM 在低关联度实体上表现更好。

接下来,研究团队使用MedKGEval评估框架对四个示例LLM在关联度最高的15个实体和最高频的15个关系上的知识覆盖情况进行分析。

以常用临床实体“超声”为例,可以看到GPT-4o以94.16%正确率领先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。

在医学关系覆盖度上,4个LLM也表现出了类似的特点。

分析结果表明,MedKGEval能有效定位LLM在特定医学知识领域的认知缺陷。

这些发现对模型优化具有重要指导价值:如上图所示,WiNGPT在“肺结核”实体相关问答中表现欠佳、Baichuan2-13B在“相关(转换)”关系中存在明显短板。

因此,在下轮微调中建议针对性补充结核病诊疗指南和病理转化机制相关数据,通过基于知识缺陷诊断的定向增强策略,可显著提升医疗领域LLM的整体性能。

总结

本文提出的MedKGEval框架通过医疗KG视角,构建了评估LLM医学知识覆盖度的多维度体系。

该框架在实体、关系和子图三个层级展开评估,系统揭示了当前大语言模型在医学知识存储与推理能力方面的优势与局限。

研究团队提出的的任务导向与知识导向双轨评估机制,不仅能够精准定位模型的知识薄弱环节,更为提升医疗领域LLM的可靠性和临床应用价值提供了量化依据。


论文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代码地址:https://github.com/ZihengZZH/MedKGEval

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖人输在哪:东契奇眼睛受伤最后两攻甩锅 詹姆斯丢压哨绝杀三分

湖人输在哪:东契奇眼睛受伤最后两攻甩锅 詹姆斯丢压哨绝杀三分

醉卧浮生
2026-02-25 14:00:24
三只羊(小杨哥)借壳美股上市股价大起大落,蛋蛋晒合影引发热议!辛巴被曝无法回国!

三只羊(小杨哥)借壳美股上市股价大起大落,蛋蛋晒合影引发热议!辛巴被曝无法回国!

TVB的四小花
2026-02-24 11:36:02
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
年轻时是游泳健将,这大体格看着太健康了,气血足大气漂亮!

年轻时是游泳健将,这大体格看着太健康了,气血足大气漂亮!

健身狂人
2026-02-26 01:54:59
升糖最快的主食被揪出,是白米饭的8倍,专家:糖尿病人别吃了

升糖最快的主食被揪出,是白米饭的8倍,专家:糖尿病人别吃了

小舟谈历史
2025-10-13 09:19:21
赚中国人的钱,却扬言“不用中国人”,美国巨头终于把自己作死了

赚中国人的钱,却扬言“不用中国人”,美国巨头终于把自己作死了

Hi科普啦
2026-02-24 14:47:21
农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

白云故事
2026-01-22 17:30:05
新华鲜报|乐享消费!节日支付数据看热气腾腾中国年

新华鲜报|乐享消费!节日支付数据看热气腾腾中国年

新华社
2026-02-24 23:28:07
史上最热过年确定,春季已大范围偏早!网友:今年夏天会不会热哭?

史上最热过年确定,春季已大范围偏早!网友:今年夏天会不会热哭?

中国气象爱好者
2026-02-25 21:37:24
天生一张娃娃脸都已经46了,你敢想

天生一张娃娃脸都已经46了,你敢想

超人强动物俱乐部
2026-02-25 19:21:58
听说闫学晶炫富导致中央戏剧学院的管理层都被团灭了!

听说闫学晶炫富导致中央戏剧学院的管理层都被团灭了!

达文西看世界
2026-02-15 20:25:40
央视直播中日男篮对决,篮协主席:世预赛已到最危险时刻!

央视直播中日男篮对决,篮协主席:世预赛已到最危险时刻!

篮球看比赛
2026-02-25 19:43:24
王楚然的腿有点粗呀,但身材整体上还是无敌的存在!

王楚然的腿有点粗呀,但身材整体上还是无敌的存在!

动物奇奇怪怪
2026-02-25 16:07:41
体坛联播|欧冠16强出炉:皇马、大巴黎入围,尤文图斯止步

体坛联播|欧冠16强出炉:皇马、大巴黎入围,尤文图斯止步

澎湃新闻
2026-02-26 08:02:35
毛奇、李佩霞2026年近况公布,两人服刑结局给所有人提了醒

毛奇、李佩霞2026年近况公布,两人服刑结局给所有人提了醒

娱乐督察中
2026-02-21 03:23:47
印度挺不住了,面对未来的停电危机,给中企画了张7000多亿的大饼

印度挺不住了,面对未来的停电危机,给中企画了张7000多亿的大饼

大鱼简科
2026-02-25 22:21:52
76年周恩来逝世,遗体告别江青来得最晚,一进门就大喊:大姐在哪

76年周恩来逝世,遗体告别江青来得最晚,一进门就大喊:大姐在哪

春秋砚
2026-02-26 08:15:07
42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

削桐作琴
2026-02-23 22:00:18
韧带撕裂赛季报销,火箭悍将惹下大祸,大合同彻底泡汤了!

韧带撕裂赛季报销,火箭悍将惹下大祸,大合同彻底泡汤了!

君子一剑似水流年
2026-02-25 06:53:46
欧冠16强:英超6队 西甲3队 德甲2队 法甲意甲葡超土超挪超1队

欧冠16强:英超6队 西甲3队 德甲2队 法甲意甲葡超土超挪超1队

智道足球
2026-02-26 07:33:49
2026-02-26 09:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12201文章数 176393关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

中方对日方出口管制措施落地后 高市早苗表态了

头条要闻

中方对日方出口管制措施落地后 高市早苗表态了

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

教育
健康
房产
数码
手机

教育要闻

最后2天!2026山东单招综招志愿填报操作手册来了!最低录取分仅15分!

转头就晕的耳石症,能开车上班吗?

房产要闻

海南楼市春节热销地图曝光!三亚、陵水又杀疯了!

数码要闻

Steam客户端获Beta测试版更新,改善硬件调查对多显卡系统识别

手机要闻

三星Galaxy S26系列手机AI功能盘点:升级Bixby,筛选陌生来电

无障碍浏览 进入关怀版