AI临床推理97.5%满分，医生35%，建议87.5%正确|治疗|分诊|国际罕见病日

AI临床推理97.5%满分，医生35%，建议87.5%正确

分享至

随着能力的提升，AI 在某个医疗基准数据集上获得 SOTA 已不足为奇。但现在，研究人员证明 AI 在真实病例场景下表现出与医生相当或更高的准确率。这意味着，AI 不是在训练过的场景下背诵标准答案，而是在临床实战中给出诊断推理。

近日，哈佛医学院、斯坦福大学等研究团队在 Science 发布了一项迄今最大规模 AI 医疗对比研究1，并首次用真实的患者病历来检验 AI 的推理能力，真实场景意味着可能存在病历混乱、信息不全的情况。

研究人员让 OpenAI 的 o1 模型与几百名医生在六种不同场景中进行诊断比对。结果表明，AI 在多项临床推理任务中的准确率与医生持平甚至更高，包括急诊决策、诊断以及为患者制定下一步的治疗方案。

研究团队设计了不同方面的实验，来考察 AI 的临床推理能力。在第一组实验中，研究人员使用了 The New England Journal of Medicine（NEJM）自 20 世纪 50 年代开始作为“金牌标准”的临床病理会议病例。

在 2012 年至 2024 年期间的 143 个临床病例中，o1-preview 覆盖了 78.3% 的正确病因，其给出的首个诊断即是正确答案的比例占 52%。如果将“非常接近”的诊断也看作正确答案，该比例则进一步提升至 97.9%。

研究人员还将 GPT-4 与 o1-preview 进行了性能对比。结果显示，GPT-4 在同一批病例上的准确率是 72.9%，而 o1-preview 在 70 个重叠病例中，24.3% 的病例表现优于 GPT-4，仅 7.1% 的病例表现落后。

值得关注的是，在 136 例诊断检查选择测试中，o1-preview 选择检查项目的正确率是 87.5%。评审医生认为，AI 提出的检查建议中有 11% 具备临床价值，仅 1.5% 的建议无帮助。

在临床推理的书写质量评估中，差距进一步凸显。研究团队采用 20 个来自 NEJM Healer 课程的教学病例，该项能力采用经过验证的 R-IDEA 量表评分。

o1-preview 在 80 次评分中 78 次获得满分，与之对比的是，GPT-4 仅获得 47 次满分，而主治医师和住院医师得到满分的次数分别是 28 次和 16 次。在高风险误诊项识别上，o1-preview 的中位命中率是 92%。但需要了解的是，尽管其在数值上比人类更高，但与医生并未达到统计学显著差异的水平。

管理决策能力的测试结果同样值得关注。研究团队使用了五个基于真实病例开发的临床场景，并在每个场景下设置了一系列治疗决策问题。结果显示，o1-preview 的中位得分是 89%，GPT-4 为 42%，将 GPT-4 作为辅助工具的医生则获得 41% 的中位得分，而使用传统资源制定方案的医生得分仅 34%。

此外，为防止模型“刷题”，研究人员还使用了 6 个从未公开发布的标志性诊断病例进行实验。结果发现，尽管 o1-preview 获得了 97% 的中位得分，但与 GPT-4 的 92% 以及人类医师的 74% 相比，统计学的优势并不显著。这也从侧面上说明，大模型能力的提升并非在所有任务上都保持同一幅度。

在最接近真实临床环境实验中，研究人员以波士顿一家医院急诊室的 76 名患者作为研究对象，并设置了三个临床决策节点从早期分诊、接诊后以及决定收入病房。

标准电子病历涵盖了生命体征数据、人口统计信息以及对患者就诊原因的简要描述等信息。与此前研究不同，研究人员提供给模型的信息未进行预处理，而是直接来源于真实的电子病历。模型基于这些数据，生成相关诊断结果，并提出下一步治疗建议。

结果显示，在分诊阶段医生的正确率仅 50% 至 55%，而 AI 在 67% 的病例中做出了接近医生或更准确的诊断。研究人员发现，在需要快速决策且信息有限的紧急情况下，AI 的优势更加突出。当提供更多细节信息，人类专家的准确率提升至 70% 至 79%；而 OpenAI 的 o1 模型的诊断准确率则提升至近 82%。

值得一提的是，整个实验的过程采取的是严格的盲法设计，两位评审医生在判断答案来源是人还是 AI 时，猜对的比例分别仅 15.2% 和 3.1%，大多数情况下他们无法区分回答是来自 AI 还是人类。

需要了解的是，急诊室的核心决策通常是分诊、处理和即时管理，而非仅取决于诊断的正确性。因此，这项研究并不意味着 AI 将全面替代急诊医生。

今年 3 月，美国医学协会发布的一项研究显示 2，现在已有近 20% 的美国医生正在使用 AI 作为辅助诊断的工具。在英国，16% 的医生每天使用 AI。据英国皇家内科医师学会今年 1 月发布的一项调查 3，在临床决策中医生将 AI 作为辅助诊断是最常见的一种用途。

尽管 AI 在相关方面表现出色，但 AI 并不是万能的。不容忽视的是，一方面，AI 有可能带来出错和承担责任风险。另一方面，也需要警惕的是，医生可能在无意中接受了 AI 给出的建议，而非自己的独立思考。此外，AI 在诊断老年患者或非英语母语患者方面仍存在相关挑战。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.