急诊室里的AI：它比医生更会猜病因|医学|治疗|神经系统疾病

急诊室里的AI：它比医生更会猜病因

2026-05-01 02:40:20　来源: 硅屿手记

北京举报

分享至

波士顿一家急诊室的76份病历被输入一台AI系统。结果让研究团队愣住——在最难确诊的病例里，这台机器列出正确诊断的概率，超过了资深医生。

这不是科幻场景。2025年4月30日，哈佛大学团队把实验结果发在了《科学》期刊上。他们测试的是OpenAI的o-1预览版，一种能逐步拆解复杂问题的推理模型。论文显示，AI在80%的情况下会把正确答案放进备选清单，而医生的表现明显落后。

但争议立刻炸开。同一所大学的医学研究者Arya Rao公开质疑：机器做的"推理"，和医学生学的"推理"，根本是两回事。

一场关于AI能否参与临床决策的争论，正在医学界的最高殿堂激烈交锋。

实验设计：三组数据，一个残酷对比

研究团队设计了三层测试，层层加码。

第一层是教科书级难度。他们用了医学教育中的经典症状组合——那些让住院医师夜不能寐的疑难案例。第二层更狠：直接调取真实病历。76名波士顿急诊患者的完整诊疗记录，被脱敏后喂给AI。第三层则横跨历史数据，对比了此前发表在新英格兰医学杂志上的长期疑难病例系列。

三组对手同台竞技：纯AI模型、传统诊断辅助软件、人类临床医生。

图表数据（脚本自动插入图片：https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0501%2F4339a867j00tebl4s0010d000m800cip.jpg&thumbnail=660x2147483647&quality=80&type=jpg）显示了残酷差距。深色柱代表的AI推理模型o1-preview，正确诊断纳入率逼近80%。浅色柱的传统诊断软件、棕色柱的人类医生，都被甩在身后。

研究作者之一、哈佛大学生物医学数据科学家Arjun Manrai在4月28日的发布会上说：「我们正在见证一项真正深刻的技术变革，它将重塑医学。」

这句话的分量，需要放在具体场景里理解。

核心发现：AI的"灵光一闪"时刻

医学诊断最难的环节，常被外行忽略。

不是从A、B、C选项里挑正确答案。而是在一片空白中，想到"还有D这个可能性"。论文开篇就点破这个痛点：在医学最棘手的病例中，最难的部分不是选对诊断，而是想到它。

这正是AI展现优势的地带。

大语言模型（大型语言模型，LLM）的进化版本——推理模型——被设计成分步思考。它们不像早期AI那样直接蹦答案，而是展示一条思考链：先列出症状群，再排除常见病因，最后指向那些容易被忽视的罕见病。

在急诊场景下，这种能力直接对应临床痛点。一个发热伴皮疹的患者，可能是病毒感染，也可能是药物过敏，还可能是川崎病早期。人类医生受限于认知负荷和记忆检索速度，常在高压下漏掉后两种。AI的"广撒网"策略，反而降低了漏诊概率。

但论文也留了关键伏笔：数据来自多项既往研究，各系统并非审视完全相同的病例集。所有系统只检查了同一长期病例系列的某个子集。这意味着横向对比存在方法论瑕疵，结论需要谨慎解读。

行业背景：五分之一医护已在偷偷用AI

这项研究发布的时间点，恰逢医疗AI的渗透拐点。

2025年的一项全球调查显示，超过2000名受访医生和护士中，五分之一已在复杂病例中把AI当"第二意见"使用。超过半数明确表示想这么干。

需求已经存在。供给正在成熟。唯一卡住的是信任。

临床决策的特殊性在于：错误代价极高，责任归属模糊。AI推荐了一个诊断，医生采纳后出错，算谁的责任？医院信息系统接入第三方模型，患者数据如何脱敏？监管机构对"辅助诊断"和"替代诊断"的边界怎么划？

这些都不是技术问题，却是技术落地的真门槛。

Manrai团队的实验设计，某种程度上是在回应这种焦虑。他们刻意选择了"列出备选诊断"这个低侵入性场景，而非让AI直接拍板。论文结论也刻意收敛：这种AI"适用于辅助诊断"，而非取代医生。

反对声音：两种"推理"的根本分歧

质疑来自哈佛医学院内部。

未参与研究的Arya Rao抛出尖锐批评：「当我们说临床推理时，它和道德推理不是一回事。这些模型被优化来做我们称之为推理的序列思考，但这和医学生学的推理完全不同。」

这句话击中了当前AI医疗的核心争议。

医学训练中的临床推理，是因果链条的逐层搭建。为什么先考虑感染而非肿瘤？因为流行病学概率、因为患者年龄、因为症状时序。每一步都有可解释的医学依据，每一步都经得起同行质疑。这种推理的终点不仅是正确诊断，更是诊疗方案的可辩护性。

AI的"推理"是另一套逻辑。它基于海量文本中的模式匹配，生成统计上最可能的答案序列。步骤看起来相似——症状A关联疾病B的概率是C%——但底层没有医学因果模型。它不知道"为什么"，只知道"曾经这样"。

Rao的警告指向一个深层风险：如果医生过度依赖AI的"灵光一闪"，可能逐渐丧失独立构建诊断假设的能力。医学教育的核心目标，恰恰是培养这种能力。一个只会点击"AI建议"按钮的医生，和会独立思辨的医生，长期看谁能更好地应对未知疾病？

Manrai对批评并不抵触。他明确表态：AI应该辅助而非替代医疗角色。「最终，我认为人类希望由人类来引导他们……度过艰难的治疗决策。」

这个表态的微妙之处在于"引导"二字的权重。AI是工具，医生是决策者——这种分工在纸面上清晰，在急诊室的凌晨三点却可能模糊。当AI连续三次给出被证实正确的建议，医生的心理防线会不会松动？

技术演进：从聊天机器人到推理引擎

理解这场争论，需要追溯技术脉络。

OpenAI的ChatGPT基于大语言模型，2022年底引爆公众对生成式AI的认知。但早期版本有个致命弱点：面对需要多步推导的复杂问题，容易在中间步骤出错，导致最终答案离谱。

o-1系列是2024年推出的"推理模型"迭代。关键改进在于"思维链"（思维链，Chain-of-Thought）技术的工程化。模型被训练成显式展示中间步骤，而非直接输出结论。在数学竞赛、编程挑战等基准测试中，这种架构展现出接近人类专家的水平。

Manrai团队选择o-1预览版，正是看中这种逐步拆解能力在医学场景中的适配性。诊断本身就是典型的多步推理：从主诉出发，扩展鉴别诊断清单，根据检验结果逐一排除，最终锁定最可能病因。

但技术能力的跃升，不等于应用场景的自动解锁。医学有独特的验证体系：随机对照试验、真实世界证据、长期随访数据。AI在静态测试集上的高分，能否转化为患者结局的改善？这是下一批研究必须回答的。

商业逻辑：谁为"第二意见"买单

把实验放回商业视角，线索更清晰。

五分之一医护的自发使用，说明需求端已经成熟。超过半数想正式使用，说明付费意愿存在。剩下的问题是：产品形态和商业模式如何设计？

当前最可能的演进路径，是嵌入电子病历系统的"智能插件"。医生输入主诉和初步检查结果，AI实时生成鉴别诊断建议，标注置信度和关键鉴别点。这种设计最小化工作流程 disruption，也便于责任界定——AI输出明确标注为"建议"，最终决策权保留给医生。

收费模式可能走两条路。一是医院或医疗系统集中采购，作为基础设施投入。二是按调用次数计费，类似云计算的API模式。后者的风险在于，可能诱发过度使用：医生为求心安，对每个病例都点一遍AI建议，反而降低诊疗效率。

监管框架是更大的变量。美国FDA对"临床决策支持系统"有分级管理，低风险工具可走510(k)快速通道，高风险则需上市前审批。AI诊断辅助落在哪个区间，将直接影响产品上市节奏。

中国市场的变量同样复杂。三甲医院的信息化预算、基层医疗的人才缺口、医保支付的创新包容度，三者共同决定AI诊断工具的渗透速度。一个可能的差异化场景是：在医疗资源匮乏地区，AI"第二意见"的价值不是超越顶尖专家，而是让基层医生获得接近三甲水平的鉴别诊断能力。

关键节点复盘：从实验室到急诊室的三道坎

梳理时间线，能看清技术落地的真实节奏。

2022年底，ChatGPT发布，大语言模型进入公众视野。医学界的初步反应是警惕：生成式AI的"幻觉"问题——自信地编造不存在的信息——让它直接参与诊断显得危险。

2024年，推理模型o-1系列推出，"思维链"技术缓解了对中间步骤不可控的担忧。这是第一道坎的跨越：从"黑箱输出"到"可追踪推理"。

2025年4月，哈佛团队论文发表，用真实急诊病历验证效果。这是第二道坎：从"基准测试高分"到"临床场景有效"。但论文同时暴露了新问题——不同系统对比的病例集不一致，结论的稳健性存疑。

同期发布的全球医护调查，揭示了第三道坎的紧迫性：用户已经准备好，但产品形态、责任归属、监管框架全部滞后。五分之一的人"偷偷用"，说明现有工具要么未获正式批准，要么未接入工作流，处于灰色地带。

下一步的关键节点，可能是监管机构的分类指导文件发布，以及首个获得正式批准的AI诊断辅助产品上市。这两个事件将定义行业的合规基线。

启示：工具理性与医学人文的张力

这场争论的深层结构，是两种价值观的碰撞。

技术乐观派看到效率提升和漏诊减少。在医疗资源紧张、医生 burnout 普遍的当下，AI辅助诊断是缓解系统压力的可行路径。尤其对于那些罕见病、疑难病，AI的"知识广度"可能弥补个体医生的经验局限。

医学人文派担忧能力退化和关系异化。诊断不仅是信息处理，更是医患互动的核心环节。医生询问病史时的微表情观察、触诊时的手感反馈、解释病情时的共情表达，都无法被AI替代。如果技术介入过深，可能侵蚀医学作为"人学"的本质。

Manrai的表态试图调和这种张力：AI辅助，人类主导。但"辅助"的边界在哪里？是仅在医生卡壳时提供建议，还是全程参与生成备选清单？是被动响应查询，还是主动推送预警？

这些设计选择没有标准答案，将塑造未来十年的医疗实践形态。

一个值得追踪的信号是：当AI建议与医生直觉冲突时，决策权如何分配？论文数据显示AI整体表现更优，但具体到单个病例，医生的情境知识可能更准确。系统需要内置的"异议处理"机制，而非简单服从多数。

另一个信号是长期学习效应。如果住院医师从职业生涯早期就依赖AI建议，他们的独立诊断能力会如何演化？这需要纵向队列研究来验证，周期可能长达十年。

回到波士顿急诊室的那76份病历。它们被脱敏、输入、分析，成为论文里的一个数字。但每个数字背后，是一个真实患者在某个深夜的焦虑，是一位医生在时限压力下的判断，是一次可能改变治疗方向的诊断选择。

AI正在学会参与这个过程。它学得有多快、介入有多深、最终被接纳到什么程度，将取决于技术迭代的速度，更取决于医学界对"好的医疗"的定义本身。

当80%的正确率成为新常态，我们是否还愿意容忍那20%的失误？当机器比人更会"想到"病因，诊断的权威该由谁持有？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.