网易首页 > 网易号 > 正文 申请入驻

清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

0
分享至

本文工作由清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队,联合北邮、科大讯飞、无问芯穹等单位共同完成。第一作者周宇轩为清华大学电子工程系博士生,其研究方向聚焦于大模型的医疗垂类能力评估与优化,此前已提出 MultifacetEval(IJCAI 2024)与 PretexEval(ICLR 2025)等医学知识掌握的多面动态评估框架体系。吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队长期致力于面向真实需求驱动的医工交叉前沿技术研究与产业变革,曾在 2017 年联合科大讯飞研发了首个以 456 分高分通过国家临床执业医师资格考试综合笔试测试 AI 引擎 Med3R(Nature Communications 2018)并在全国 400 多个区县服务于基层医疗;2021 年联合惠及智医研发了首个基于全病历内容分析的智慧医保 AI 审核引擎,获得国家医保局智慧医保大赛一等奖,并在全国多个省市进行示范应用。

大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 “新战场” 之一。大模型具备强大的文本理解与生成能力,能够快速读取医学文献、解读病历记录,甚至基于患者表述生成初步诊断建议,有效辅助医生提升诊断的准确性与效率。

该技术有望在缓解医生工作负担、提升就诊效率、优化医疗管理水平等多个方面发挥重要作用。

虽然当前主流大语言模型在 MedQA 等医疗问答基准数据集上已取得 90% 以上的准确率,显示出强大的语言理解与推理能力,但临床一线的实际反馈表明,其在真实医疗场景中的应用效果仍不理想,普遍存在 “高分低能” 的问题。

在当前大语言模型不断取得评测突破的背景下,一个关键问题亟需回答:为何其在真实临床问题中仍难以发挥预期效能?

究其根本,是由于医学知识覆盖尚不充分,还是因缺乏有效的临床应用能力?亦或是在面对复杂、动态的真实场景时,模型在临床推理与决策层面存在显著短板?抑或三者皆为限制其实际落地的关键因素?

近日,清华大学电子系医工交叉平台刘喜恩助理研究员领衔的医学自然语言处理团队,联合多家单位在 ICML 2025 会议上发布最新研究成果,首次提出从医学知识掌握到临床问题解决的 “全周期” 大语言模型医学能力评测框架 ——MultiCogEval

该框架覆盖大模型在不同认知层次下的医学能力评测,为全面理解大语言模型在医疗领域的能力边界并洞察其在真实临床场景中面临的核心短板,提供了全新视角与分析工具。

  • 论文标题:Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving
  • 论文链接:https://openreview.net/pdf?id=sgrJs7dbWC
  • 项目主页:https://github.com/THUMLP/MultiCogEval

如何构建一个 “全周期” 医学评测框架?

在大多数国家,医学生通常需依次完成基础医学知识学习、临床见习以及住院医师规范化培训,方可成为一名合格医生。这一培养路径契合人类认知能力的发展规律:先通过记忆与理解掌握基础医学知识,继而在典型病例中运用所学进行具体分析,最终具备在真实临床场景中进行规划与问题求解的能力。与此相对应,针对临床能力的评估体系也呈现出分层递进的结构:从基础课程考试,到临床技能测评,再到住培阶段的综合结业考核,逐步覆盖不同认知层次。

然而,现有医学大模型评测集的任务设计多聚焦于单一类型(如问答、诊断等),尽管这类评估有助于比较不同模型间的性能差异,但通常仅覆盖某一特定认知层次,难以全面反映大模型在医学应用中所需的多层次、全流程能力。部分评测工作尝试通过引入多种任务来覆盖不同认知层次,但仍存在两方面问题:其一,不同任务与认知层次之间缺乏明确对应关系;其二,各任务所涉及医学知识点的覆盖范围、评测指标差异较大,导致跨任务的评估结果缺乏可比性与解释力。

为应对上述挑战,研究人员提出了多认知层次医学评测框架 MultiCogEval。该框架设计了一系列覆盖医学生培养全流程、对应不同认知层次的医学任务,并结合医学知识点对齐与评测指标统一等方法,实现了跨认知层次的评估可比性与结果可解释性,为大模型医学能力的系统性评估提供了有效支撑。

(图 1):人类医师医学认知能力发展流程与大模型医学能力评测的对应关系

MultiCogEval:多认知层次医学评测框架

受现有医师培养流程启发,MultiCogEval 从三个认知层次考察大语言模型的临床能力:

  • 基础知识掌握:评测模型对基础医学知识的记忆与理解程度。在这一层次上,MultiCogEval 采用现有 LLM Benchmarks 中最常用的多项选择题(Multiple-choice Questions)进行评测;
  • 综合知识应用:评测模型综合运用所学知识解决临床任务的能力。与多项选择题相比,真实临床场景往往可用信息更少、决策空间更大,同时依赖多步推理才能得到结果。为了进一步逼近这些真实临床场景的应用需求,MultiCogEval 从这三个维度出发,分别设计了三种任务进行评测;
  • 场景问题求解:评测模型在真实临床场景中主动规划求解的能力。尽管现有的一些医学评测集(如 MedQA)涉及对医学案例的分析与诊断,但这些评测集往往是将所有诊断信息一次性通过题干的形式提供的。与之相比,真实临床场景则依赖医师基于已有的诊断信息进行主动决策,通过查体、实验室检查、影像学等方式收集诊断信息,最终综合已有的诊断信息做出诊断。在这一层次上,MultiCogEval 采用一种模拟诊断任务,考察大模型在信息不足条件下主动规划检查检验,并完成诊断的能力。

(图 2):多认知层次医学评测框架 MultiCogEval

实验结果:当前大模型的临床场景问题求解能力仍待加强

基于该评测框架,研究人员对一系列知名大模型进行了系统的评测,观察到多种 SOTA 大语言模型(如 GPT-4o、DeepSeek-V3 和 Llama3-70B)在低阶任务(基础知识掌握)上表现出色,准确率超过了 60%。然而,当在中阶任务(综合知识应用)上进行评估时,这些模型的性能均出现了显著下降(约 20%)。此外,在高阶任务(场景问题求解)中,所有模型的表现进一步下滑,其中表现最好的 DeepSeek-V3 的全链条诊断准确率也仅为 19.4%。这表明,尽管当前的大语言模型在基础医学知识方面已经具备较强的掌握能力,但在更高认知层级上,尤其是在应对真实医疗场景中的复杂问题时,仍面临巨大挑战。

(表 1):来自多个系列的通用大模型在 MultiCogEval 不同层次上的评测表现

为研究医学领域 SFT 对大语言模型在不同认知层级上的影响,研究人员进一步对比了医学大模型与对应基座模型,发现医学领域 SFT 可以有效提升大模型的低阶(基础知识掌握)与中阶(综合知识应用)临床能力(最高可达 15%)。然而,在高阶任务(场景问题求解)上,它们未能取得显著进步,有些甚至表现不如基座模型。

(图 3):多个医学专用大模型在 MultiCogEval 不同层次上的评测表现

最后,研究人员进一步研究了推理时扩展(inference-time scaling)在提升大语言模型医学能力方面的效果。如表 2 所示,推理增强模型在所有认知层级上均优于对应的指令微调模型,且在中阶任务上的提升更为显著(例如 DeepSeek-R1 在中阶任务上提升了 23.1%,而在低阶任务上仅提升了 9.8%)。然而,当前的推理增强模型仍然没有完全解决高阶任务,说明现有的模型在真实临床场景中主动规划、获取决策信息进行推理的能力仍然有待进一步提升。

(表 2):推理增强模型与指令微调模型在不同层次任务上的性能对比

结语

本研究首次提出了多认知层次医学能力评测框架 MultiCogEval,系统性地对大语言模型在基础知识掌握、综合知识应用和场景问题求解三大认知层级上的医学能力进行评估。通过构建面向全流程医学任务的评测体系,并在多个主流通用大模型与医学专用模型上进行评测与分析,研究团队发现:

  1. 当前大模型在低层级医学任务表现较为出色,具备较强的医学知识记忆与理解能力。但随着任务认知复杂度的提升,模型在中高层级任务上的能力出现明显下降,尤其是在高阶临床场景下的主动信息获取与推理决策能力仍显不足;
  2. 医学领域微调在提升基础与中阶能力方面效果显著,但对高阶任务性能提升有限;
  3. 推理时扩展方法能够显著增强模型在各个层次医学任务上的表现,特别是在复杂任务中,但仍不足以完全弥补模型在高阶能力方面的短板。

MultiCogEval 的发布为后续的医学大模型研发与评测奠定了坚实基础。我们期待该框架能促进大模型在医学领域的更加稳健、可信、实用的落地,真正助力构建 “可信赖的 AI 医生”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
土耳其女老板在印度投了17年,4亿多美元,1万员工,一觉醒来全没

土耳其女老板在印度投了17年,4亿多美元,1万员工,一觉醒来全没

李子橱
2026-06-21 17:15:11
全体注意,巨大利好!这次A股真要变天了!

全体注意,巨大利好!这次A股真要变天了!

星图金融研究院
2026-06-29 15:46:41
CBA三大消息:徐昕正式签约李春江新岗位公布,山东报价广东新星

CBA三大消息:徐昕正式签约李春江新岗位公布,山东报价广东新星

历史胶囊
2026-06-29 10:11:00
过来人忠告和儿媳相处:不管她对你热不热乎,叫不叫爸妈,记住这3句话

过来人忠告和儿媳相处:不管她对你热不热乎,叫不叫爸妈,记住这3句话

游戏收藏指南
2026-06-29 18:05:15
74小时绝望搜救!阿根廷球星一夜家破人亡,天灾撕碎十年异乡生活

74小时绝望搜救!阿根廷球星一夜家破人亡,天灾撕碎十年异乡生活

行者聊官
2026-06-29 19:34:59
李小璐也到了无戏可拍地步,直言都是恋爱脑害了自己

李小璐也到了无戏可拍地步,直言都是恋爱脑害了自己

映射生活的身影
2026-06-29 15:29:56
有人预测:不出意外,下半年开始,米面油、将迎来行业新一轮洗牌

有人预测:不出意外,下半年开始,米面油、将迎来行业新一轮洗牌

趣味萌宠的日常
2026-06-29 15:36:22
快讯!王石捡到宝了!

快讯!王石捡到宝了!

故事终将光明磊落
2026-06-29 14:50:14
高考分数屏蔽:清华北大任选!办5天升学宴,通知书让父母傻眼了

高考分数屏蔽:清华北大任选!办5天升学宴,通知书让父母傻眼了

菁妈育儿
2026-06-26 11:32:09
医生:希望你的血脂报告里,永远不要出现这3项异常

医生:希望你的血脂报告里,永远不要出现这3项异常

华庭讲美食
2026-06-23 16:28:06
突发!世界杯疑现假球 FIFA被呼吁调查,细节曝光,网友:不惊讶

突发!世界杯疑现假球 FIFA被呼吁调查,细节曝光,网友:不惊讶

西昆仑Bruce
2026-06-29 19:44:45
辽宁葫芦岛一居民楼突发爆炸,楼体受损严重,多部门已到场处置,应急管理局:爆炸原因暂不清楚,现场正在进行搜救

辽宁葫芦岛一居民楼突发爆炸,楼体受损严重,多部门已到场处置,应急管理局:爆炸原因暂不清楚,现场正在进行搜救

潇湘晨报
2026-06-29 12:22:22
身中30多刀!34岁被害人带人看房,惨死出租屋内,现场遍布血迹!20年后凶手线索浮现

身中30多刀!34岁被害人带人看房,惨死出租屋内,现场遍布血迹!20年后凶手线索浮现

南方都市报
2026-06-28 15:08:45
600228,盘中上演“天地板”!此前连续3涨停

600228,盘中上演“天地板”!此前连续3涨停

证券时报e公司
2026-06-29 15:39:00
1975年10名特赦战犯投奔台湾,蒋经国提出一个条件,众人果断拒绝

1975年10名特赦战犯投奔台湾,蒋经国提出一个条件,众人果断拒绝

南书房
2026-06-21 18:40:07
梅西为啥35岁后,开始爆世界杯进球?

梅西为啥35岁后,开始爆世界杯进球?

张佳玮写字的地方
2026-06-29 18:06:01
94%出线概率打到0%,韩国队是怎么把自己作死的

94%出线概率打到0%,韩国队是怎么把自己作死的

铁血江湖人
2026-06-29 13:50:03
黎巴嫩真主党真不经打:经营近二十年的博福特岭,几小时就陷落

黎巴嫩真主党真不经打:经营近二十年的博福特岭,几小时就陷落

民间马后炮
2026-06-29 01:51:44
江苏高邮一小区发生亡人事件,殡仪馆接收了一具女性遗体,物业:系发生家庭纠纷;警方:已控制相关人员,相关情况正在调查处理

江苏高邮一小区发生亡人事件,殡仪馆接收了一具女性遗体,物业:系发生家庭纠纷;警方:已控制相关人员,相关情况正在调查处理

台州交通广播
2026-06-28 21:36:21
回顾:马向东注射死刑,细节披露,临刑前带镣铐与妻子痛哭告别

回顾:马向东注射死刑,细节披露,临刑前带镣铐与妻子痛哭告别

娱乐洞察点点
2026-06-29 19:11:34
2026-06-29 21:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13390文章数 142683关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

头条要闻

媒体:中国再对日本出重拳 一红一黄两张牌同时打出

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

时尚
本地
游戏
家居
艺术

伊姐周日热推:电视剧《千香》;电视剧《非份之罪》......

本地新闻

贵州小城的新目标:举办“村超”世界杯!

R星取消《GTA6》实体版!三大原因带你看清背后真相

家居要闻

传奇筑 日常诗

艺术要闻

震惊!他用水彩画出的“真实世界”,放大10倍后看呆了……

无障碍浏览 进入关怀版