仅仅两周，AI看病从80%误诊“跃升”到比医生强，这到底是怎么回事？|科学|论文|误诊率|jama|神经系统疾病

仅仅两周，AI看病从80%误诊“跃升”到比医生强，这到底是怎么回事？

分享至

点击蓝字关注，多点在看防失联

个人观点，不代表任何组织与单位

前段时间，我的朋友圈被一条AI看病误诊率80%的新闻刷屏了，说不定你也看到过这条消息：

可后来，我的新闻推送又给了另一条消息，AI在复杂医疗诊断里表现出色，比急诊室医生还厉害：

两个新闻都是基于顶级学术期刊上发表的研究，“误诊80%”是4月16日发表在JAMA上：

“比急诊医生强”是4月30日发表在《科学》上：

两篇论文相隔正好两周，而且都是哈佛医学院的研究人员，不过是不同研究组。

不知道你看到这两个似乎完全矛盾的研究是什么感觉？

有一个解释可以让两篇论文不矛盾：急诊医生水平太差，说不定误诊率90%，就算AI误诊率80%也吊打。

显然这是开玩笑。

下面我们还是正经分析一下，两项研究里为什么一个看上去很不靠谱，一个看上去很靠谱。

最关键的地方，或许是两项研究测试的内容与评判标准都不一样。

JAMA上的研究，也就是AI一趟糊涂的那篇论文，研究人员给AI出的考题是默沙东诊疗手册里的29个病例情景，这与《科学》上侧重急诊室诊断不同，病例范围更广。

更重要的是，JAMA论文里，评判是AI从拿到病例那一刻起就开始，初步鉴别诊断，再到实验检查，最终诊断，以及治疗方案，每一步的表现都“考”。在这个评判体系里，即便AI给出的最终诊断对了，但在最初的鉴别诊断里有失误，也会被记录扣分。

其实，误诊超过80%是在初步鉴别诊断这一步，可在最终诊断方面，失败率不到40%——不同模型失败率是9-39%。

而《科学》上打败急诊室医生的研究，侧重的恰恰是最终诊断。从某种程度上看，实际上两个研究都暗示AI在最终诊断判断上做得还不错。

此外，必须注意JAMA论文里初步鉴别诊断失败率高，建立在病例情景里，患者的信息是一点点输入给AI，比如先是患者年龄、病症表现，再加上实验检查结果，每输入一点，研究人员问一部分问题，而每一步里AI给出的答案，都会与标准答案对比，不准确就被归入失败。

这是非常严苛的标准。但这个设计很重要，因为它更接近真实的临床工作方式。医生在门诊或急诊里，永远是从一个不完整的画面开始：先听主诉，再做体检，再等化验结果回来。每一步都要在信息不全的情况下做判断，并随时准备推翻自己的初步猜测。JAMA的测试捕捉到的，正是这种在不确定性下持续推论的能力，而这目前看来，恰恰是AI最薄弱的环节。

相比之下，《科学》论文里即便是真实病例，也是把完整的电子病历一次性输入。这更像是让AI做"事后诸葛"：所有线索已经摆在桌上，任务是从中归纳出答案，而不是在信息残缺时就要开始押注。两种测试场景，对应的其实是医生工作流程里完全不同的两个时刻：一个是诊断的起点，另一个更接近终点。

考虑到JAMA研究里，到最后诊断阶段，随着输入信息变多，成功率上升，再结合《科学》论文里的测试方法，可能都在暗示，有较多信息时，AI的表现会更好。

那AI看病到底行不行呢？它是那个误诊80%，还是比现实世界的医生强呢？

个人认为这其实都不是现在AI医疗需要关注的问题。

因为当下AI在医疗领域的应用，尤其是用大语言模型做诊疗，还在非常早期的阶段。

好比我们问一个读中学的孩子，啥时候能成为科学家，拿诺奖。这不光是做不做的到的问题，而是问这样的问题，对孩子没什么帮助，不会有助于他成长，去接近我们期望的结果。

最值得关注的，未必是当下的AI在医疗场景下做得有多好或多差，而是做得好的地方，为什么好；做得差的地方，原因是什么，有没有办法改进。可这恰恰是两篇论文都没有深入回答的地方：

下一步，我们怎么做，才能让模型的表现更好。

比如，AI在逐步获取信息时鉴别诊断能力差，是因为训练数据里缺乏这类"渐进式推理"的样本？还是模型本身在处理不确定性时存在结构性缺陷？如果是前者，针对性地用模拟临床对话的数据做训练或许有帮助；如果是后者，换一个更新的模型未必能解决问题，需要的可能是完全不同的架构思路。

这才是AI医疗研究下一步真正该啃的硬骨头——不是再做一个"AI能不能打败医生"的对比实验，而是设计能够定位失败根源的研究：在哪一步出错，为什么出错，改变哪个变量之后，可能有好转。没有这类研究，我们只能在"AI很厉害"和"AI很烂"之间反复横跳，却对如何推进毫无头绪。

读了这两篇论文后，其实我做了一件事，把两篇论文都传到ChatGPT与Claude上，问同一个问题，为什么都是做AI诊疗，这两篇论文得出了完全相反的结论。

ChatGPT和Claude都很聪明地抓住了两篇论文在方法学、评判标准上的差别。可也都犯了让我感到不可思议的错误，或者说是误解。

例如，ChatGPT在分析为什么AI在一个研究里看上去很成功，另一个很失败时，提出最关键的差别是，一项研究——JAMA那项，用了没有噪音的干净数据，大语言模型在这种环境下更出色：

这个解释等于是完全误解了两篇论文的结果。JAMA是用了“干净”的情景病例，可恰恰是在这项研究里，AI的成功率不高。

《科学》的论文是用了真实病例，存在潜在的“噪音干扰”，但AI在那篇论文里的表现并不差。

至于Claude，它没有犯ChatGPT的错，但它的解释里强调JAMA用了普通的大语言模型，《科学》用了OpenAI的o1推理模型，推理模型在回答诊疗这种复杂问题时更强大：

和ChatGPT一样，看似有道理，可惜不符合事实。JAMA的论文里除了用普通模型，也用了o1这样的推理模型。

《科学》那篇论文，其实也同时用了GPT4与o1，在有些检验上二者没有显著差别。

这些错误涉及的是对两篇论文最基础事实的了解，我完全没料到两个模型能出现这样的低级失误。

这或许也是当下AI用于医疗的风险：它们可以既“理解”复杂问题（两篇看似矛盾的论文，是方法与研究目的上有差异），给出看上去很好的答案，可又在一些基础事实上出错。

最后，同样值得指出的是，ChatGPT与Claude指出的“数据干净”，“推理模型”（更强更新的模型），是很多人回应AI不够好时的口头禅。似乎只要输入内容噪音小，或者用了下一代模型，之前做不到的都能实现。

这背后与其说是基于证据的合理推测，倒不如说是近乎信仰崇拜，甚至可能在干扰我们，人，做出正确的判断。

例如在《科学》这篇论文发表后，NPR做了报道，里面提到“过去的模型”表现不佳，《科学》论文展示了过去几年技术的巨大进步：

这篇报道里的“过去表现不佳的模型”，直接链接到JAMA那篇论文，也就是在记者看来，JAMA论文里的“矬”，是用了比《科学》论文里更老的模型。

这是NPR报道里极为罕见的事实错误，真相是：JAMA里用的模型比《科学》里更新。

《科学》用的是2024年9月发布的o1-preview，JAMA不仅用了o1，还一直跟踪到25年底的各个主流大语言模型：

就像我们不该默认AI会给出正确的答案，我们或许也不该默认，下一个AI会给出更准确的答案。

订阅关注防失联

前沿医药，请关注

参考资料

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2847679

https://www.science.org/doi/10.1126/science.adz4433

更多精彩内容见Youtube：Y博的科普园

Y博也有播客了，欢迎关注《说医解药》

小宇宙、苹果播客、Spotify同步更新

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.