网易首页 > 网易号 > 正文 申请入驻

大模型能否读懂病历?哈佛医学院发布BRIDGE大规模多语言评测基准

0
分享至

作者丨Jiageng

编辑丨ScienceAI

由哈佛大学医学院与附属 BWH 医院 YLab 团队领衔,联合UIUC、MIT、斯坦福、梅奥诊所等多个团队,共同发布了 BRIDGE —全球首个专注真实临床文本的多语言大语言模型评测!

该测评构建了 87 个真实世界的电子病历任务,覆盖 9 种语言,并且评估了 65 种当前最先进的大语言模型,是当前最全面、规模最大的 LLM 在医学应用的评测之一。

论文链接:https://arxiv.org/pdf/2504.19467

临床实战 —— 大语言模型在医疗的下一个战场

自两年前 GPT-4 和 Med-PaLM-1/2 刷榜美国医考 USMLE,轻松拿下「专家级」高分,验证了大语言模型(LLM)在医疗任务中的潜力,LLM 已被广泛应用于医疗领域。

但伴随着 LLM 在医疗领域的深入探索,越来越多研究与实践经验表明:考场高分 ≠ 临床实践。真实世界的临床文本和任务与文本规范的医考选择题截然不同:

  • 语言风格不同,文本形态灵活

电子病历中大量缩写和临床惯用表达,患者表述中的不规范文本、错别字等;

模板+自由输入混杂,结构松散不一、噪声极高。

  • 任务维度更广,涉及更多考量

不只是选择题,更多临床关心的任务亟待探索:表型提取、ICD-10 编码等;

不同语言、不同任务类型、不同临床专业等评估都是刚需。

同时,当前 LLM 发展迅猛,各家大模型「百花齐放」且更新频繁,越来越需要一个全面的真实临床文本评测构建起 LLM 开发与临床实践之间的「桥梁」!

因此,BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)就是要把大模型拉到真实的临床文本和任务面前「实战」,希望给大家带来新的参考:

  • 医生

快速查看适合自己语言、科室、任务的最优模型,安心选型;

  • LLM 开发者

全面考察模型,精准发现短板,进一步提升模型的适应性;

  • 医院 / 监管

系统性地分析性能差异,权衡使用方式/部署资源,制定相关标准。

BRIDGE概要

依托于团队前期发表于《NEJM AI》的全球临床文本数据集系统性综述[1],收集整理了大量开源的临床文本数据集,并进一步加以改造适应于 LLM 执行,从而构建了目前规模最大、覆盖最全的多语言真实世界临床文本(电子病历和在线问诊)数据大语言模型评测。

目前,已全面评估了 65 个当前最先进的LLM的性能,包括 DeepSeek-R1, Google Gemini, GPT-4o,Qwen3, Llama 4,MedGemma, Baichua-M1 等开源、闭源、医学专用 LLM,结合提出的系统性分类框架,从语言、专业科室、任务类型等多维度提供全面的性能分析,相关结果已上线实时排行榜

相关链接:https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard

结果速览

  • 开源模型发展迅猛,DeepSee-R1领跑

三种推理策略下的综合排名:

  • 零样本(Zero-shot) — 直接输出目标答案 DeepSeek-R1(44.2),GPT-4o(44.2),Gemini-1.5-Pro(43.8);
  • 思维链(Chain-of-thought) — 输出推理过程与答案,增强解释性 DeepSeek-R1(42.2),Gemini-2.0-Flash(43.8),GPT-4o(40.7);
  • 少样本(Few-shot) — 提供5个随机的样本,包含完整输入和输出Gemini-1.5-Pro(55.5),Gemini-2.0-Flash(53.3),GPT-4o(52.6)。

在最新一轮排行榜中,DeepSeek-R1 已超越 GPT-4o、Gemini 等商业化闭源模型,在零样本和 CoT 设置下都占据榜首。随着时间推移,开源模型和商业化模型的差距在逐渐缩小。

Mistral、Qwen、Gemma、Llama 等一系列开源模型迭代发展、持续发力,直至 DeepSeek-R1 带来突破。

其中,最新的 MedGemma 和 Qwen3 表现亮眼:MedGemma-27B 在少样本设置下排名第 4,甚至超过 DeepSeek-R1,Qwen3-235B-A22B-Thinking 在零样本和思维链设置下分别排名第 7 和第 5,而 Llama-4 却表现不佳,甚至不如 Llama3。

  • 少样本是最高效的性能提升途径,思维链可能损害性能

给 LLM 提供 5 条随机示例,能够使大多数模型性能显著增长,不仅领先的 LLM 进一步突破,如 DeepSeek-R1(44.2 到 51.4,+16.3%),较小的 LLM 更是「脱胎换骨」,如 Llama-3.2-1B(从 12.7到 24.4, +92.1%。相比之下,思维链虽然能够提高模型解释性,促进与医生患者的交互,但导致了大多数模型的性能下降。

  • Scaling Law在医疗领域依旧明显

纵向比对同一模型家族的不同参数版本,整体而言模型越大表现越好,验证了在临床文本任务上的 Scaling Law。业界常用的~70B 模型整体性能较优,排在第二梯队,而在小型 LLM(≤30B)中,MedGemma 和Baichuan-M1-14B 两个专门的医学领域模型表现亮眼,为资源受限的部署场景提供了轻量化选项。

  • 医学LLM潜力巨大,但还需全面加强

MedGemma 和 Baichuan-M1-14B 等最新的医学LLM性能强劲,甚至超过了许多 70B 的模型,但其他医学 LLM 则表现不佳,甚至未跑赢同代的通用 LLM。

同时,这些医学 LLM 往往在少样本设置下涨点明显,可能表明其指令跟随能力较弱。整体结果暴露出部分医学 LLM 的基座模型版本偏老,预训练数据、监督训练任务与真实临床文本脱节等潜在问题。

  • 不同任务表现差异较大:

文本分类、自然语言推理等标签明确的分类任务表现较优,而 NER 与事件提取任务则需要少样本的加持提升性能,表明这些任务更需要示例来澄清详细的标签定义和标准。

与此同时,需要与标准化医疗编码系统(如 ICD-10)保持一致的规范化和编码任务仍然特别具有挑战性,因为许多 LLM 缺乏对这些代码的内置映射。

尽管少样本学习带来适度的改进,但这些编码任务的性能仍然相对较低(约 15%)。QA 和摘要在内的文本生成任务的平均性能较低约为 20%,表明 LLM 在临床文本生成方面面临着挑战。

  • 更多:多语言、多临床场景、多专科验证

不同语言、不同专科的榜首各有归属:DeepSeek-R1 在中文、西班牙语、德语、俄语中独占鳌头,Gemini 对英文表现突出。而不同的临床场景和专业科室也表现不同,体现出需要进一步结合具体任务选择合适的模型。

结语

  • 开源模型持续发力,整体性能不逊商业化模型;
  • 少样本推理策略目前是成本最低、收益最稳的 LLM 提升途径;
  • 70 B 仍是效果与资源平衡的主流选项,而高质量的小模型正在加速发展;
  • 医学专业模型需要更新基座、拥抱更广泛的真实临床文本与任务;
  • 没有一款模型可以跨所有语言与专科「通吃」,针对性评测与配置仍是落地关键。

要想将 LLM 在临床领域进一步落地,还需要更多的「BRIDGE」来全面评估 LLM 在真实世界临床文本与任务中的表现,研发出更加可靠和全面的 LLM!

研究助理/博士后机会:

哈佛大学医学院和布莱根妇女医院 Jie Yang 课题组和 Josh Lin 课题组联合招聘博士后或者科研助理一名,研究方向为 Clinical natural language processing, LLM in healthcare。

  • 跨学科团队:与 Harvard、MIT、Mayo 的 AI 研究员、临床医生合作
  • 数据资源丰富:近 2 亿份 EHR 电子病例数据,覆盖 180 万患者,连接保险理赔数据;同时可以申请 MGB 十余家合作医院的病历数据。
  • 计算资源:8xH100 等高性能 GPU,高性能计算集群以及 Azure 云计算资源研究
  • 前沿:LLM in EHR、医疗文本理解与推理
  • 环境开放灵活,适合科研成长与职业发展

详情请前往招聘页面:https://ylab.top/opportunities/

参考文献:

1.Wu, J., Liu, X., Li, M., Li, W., Su, Z., Lin, S., Garay, L., Zhang, Z., Zhang, Y., Zeng, Q. and Shen, J., 2024. Clinical text datasets for medical artificial intelligence and large language models—a systematic review. NEJM AI, 1(6), p.AIra2400012.

2.Wu, J., Gu, B., Zhou, R., Xie, K., Snyder, D., Jiang, Y., Carducci, V., Wyss, R., Desai, R.J., Alsentzer, E. and Celi, L.A., 2025. BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text. arXiv preprint arXiv:2504.19467.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名调查记者刘虎被抓,应公开公正回应大众疑虑,以免人人自危

知名调查记者刘虎被抓,应公开公正回应大众疑虑,以免人人自危

互联网大观
2026-02-03 17:13:30
0-3!中国U16男足惨败输球,全场一球难进+被对手打懵,球迷失望

0-3!中国U16男足惨败输球,全场一球难进+被对手打懵,球迷失望

二疯说球
2026-02-04 09:58:36
绞杀链突然收紧!东大对日本的致命一击,见效了!

绞杀链突然收紧!东大对日本的致命一击,见效了!

深度报
2026-02-04 00:43:29
港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

鬼菜生活
2026-02-03 18:35:49
40胜联盟首队!雷霆36分狂胜魔术 亚历山大连121场20+哈腾三双

40胜联盟首队!雷霆36分狂胜魔术 亚历山大连121场20+哈腾三双

醉卧浮生
2026-02-04 11:29:16
2月3日俄乌最新:川普的保证,美国72小时内出兵?

2月3日俄乌最新:川普的保证,美国72小时内出兵?

西楼饮月
2026-02-03 19:44:43
当别人在参数里狂飙,有人却在“舒服躺赢”?

当别人在参数里狂飙,有人却在“舒服躺赢”?

Report汽车
2026-01-16 16:19:30
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

快科技
2026-02-04 00:32:29
爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

红星新闻
2026-02-04 13:50:19
程潇为什么被称为“奶潇”?看了这张图片后秒懂,不愧是内娱身材数一数二的女明星!

程潇为什么被称为“奶潇”?看了这张图片后秒懂,不愧是内娱身材数一数二的女明星!

In风尚
2026-02-04 12:08:57
2031、2035亚洲杯申办名单公布:中国未在列,韩澳两度申办

2031、2035亚洲杯申办名单公布:中国未在列,韩澳两度申办

足球报
2026-02-04 13:36:07
Shams:哈登和米切尔已经联系过了,两人对合作感到非常兴奋

Shams:哈登和米切尔已经联系过了,两人对合作感到非常兴奋

懂球帝
2026-02-04 12:55:28
笑不活!350万页档案查无川普,川黑白左的脸肿成猪头

笑不活!350万页档案查无川普,川黑白左的脸肿成猪头

壹家言
2026-02-04 00:48:53
夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

夫妻网购娃娃菜中毒大反转!是丈夫投毒,对妻子灭口,商家被坑惨

离离言几许
2026-02-03 15:12:39
周生生就“足金挂坠检出铁银钯”事件发布检测报告:该批次货品质量完全符合国家相关标准

周生生就“足金挂坠检出铁银钯”事件发布检测报告:该批次货品质量完全符合国家相关标准

闪电新闻
2026-02-04 09:23:59
比尔·盖茨被曝感染性病并隐瞒,前妻首次回应:爱泼斯坦相关文件勾起痛苦回忆,“所有的问题应该让这些人回答,包括我的前夫”

比尔·盖茨被曝感染性病并隐瞒,前妻首次回应:爱泼斯坦相关文件勾起痛苦回忆,“所有的问题应该让这些人回答,包括我的前夫”

大风新闻
2026-02-04 10:38:09
噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

大鱼简科
2026-02-03 14:16:54
成都个别领导的风险,比刘虎的要大得多

成都个别领导的风险,比刘虎的要大得多

不主流讲话
2026-02-03 15:18:01
勇士追字母失败?森林狼已成扬尼斯首选 金州4首轮+追梦小库无用

勇士追字母失败?森林狼已成扬尼斯首选 金州4首轮+追梦小库无用

颜小白的篮球梦
2026-02-04 11:09:37
2026-02-04 14:36:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1226文章数 223关注度
往期回顾 全部

教育要闻

最新消息:放假提前,南京家长会时间调整!

头条要闻

月销暴跌至不到50辆 小米SU7 Ultra专属销售团队解散

头条要闻

月销暴跌至不到50辆 小米SU7 Ultra专属销售团队解散

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

35岁入行,先被考证“割韭菜”

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

家居
健康
手机
艺术
军事航空

家居要闻

灰白意境 光影奏鸣曲

耳石症分类型,症状大不同

手机要闻

历史首次:三星押注大折叠手机,Galaxy Z Fold8备货量超过Flip8

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版