网易首页 > 网易号 > 正文 申请入驻

急诊室里的AI:它比医生更会猜病因

0
分享至

波士顿一家急诊室的76份病历被输入一台AI系统。结果让研究团队愣住——在最难确诊的病例里,这台机器列出正确诊断的概率,超过了资深医生。

这不是科幻场景。2025年4月30日,哈佛大学团队把实验结果发在了《科学》期刊上。他们测试的是OpenAI的o-1预览版,一种能逐步拆解复杂问题的推理模型。论文显示,AI在80%的情况下会把正确答案放进备选清单,而医生的表现明显落后。


但争议立刻炸开。同一所大学的医学研究者Arya Rao公开质疑:机器做的"推理",和医学生学的"推理",根本是两回事。

一场关于AI能否参与临床决策的争论,正在医学界的最高殿堂激烈交锋。

实验设计:三组数据,一个残酷对比

研究团队设计了三层测试,层层加码。

第一层是教科书级难度。他们用了医学教育中的经典症状组合——那些让住院医师夜不能寐的疑难案例。第二层更狠:直接调取真实病历。76名波士顿急诊患者的完整诊疗记录,被脱敏后喂给AI。第三层则横跨历史数据,对比了此前发表在新英格兰医学杂志上的长期疑难病例系列。

三组对手同台竞技:纯AI模型、传统诊断辅助软件、人类临床医生。

图表数据(脚本自动插入图片:https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0501%2F4339a867j00tebl4s0010d000m800cip.jpg&thumbnail=660x2147483647&quality=80&type=jpg)显示了残酷差距。深色柱代表的AI推理模型o1-preview,正确诊断纳入率逼近80%。浅色柱的传统诊断软件、棕色柱的人类医生,都被甩在身后。

研究作者之一、哈佛大学生物医学数据科学家Arjun Manrai在4月28日的发布会上说:「我们正在见证一项真正深刻的技术变革,它将重塑医学。」

这句话的分量,需要放在具体场景里理解。

核心发现:AI的"灵光一闪"时刻

医学诊断最难的环节,常被外行忽略。

不是从A、B、C选项里挑正确答案。而是在一片空白中,想到"还有D这个可能性"。论文开篇就点破这个痛点:在医学最棘手的病例中,最难的部分不是选对诊断,而是想到它。

这正是AI展现优势的地带。

大语言模型(大型语言模型,LLM)的进化版本——推理模型——被设计成分步思考。它们不像早期AI那样直接蹦答案,而是展示一条思考链:先列出症状群,再排除常见病因,最后指向那些容易被忽视的罕见病。

在急诊场景下,这种能力直接对应临床痛点。一个发热伴皮疹的患者,可能是病毒感染,也可能是药物过敏,还可能是川崎病早期。人类医生受限于认知负荷和记忆检索速度,常在高压下漏掉后两种。AI的"广撒网"策略,反而降低了漏诊概率。

但论文也留了关键伏笔:数据来自多项既往研究,各系统并非审视完全相同的病例集。所有系统只检查了同一长期病例系列的某个子集。这意味着横向对比存在方法论瑕疵,结论需要谨慎解读。

行业背景:五分之一医护已在偷偷用AI

这项研究发布的时间点,恰逢医疗AI的渗透拐点。

2025年的一项全球调查显示,超过2000名受访医生和护士中,五分之一已在复杂病例中把AI当"第二意见"使用。超过半数明确表示想这么干。

需求已经存在。供给正在成熟。唯一卡住的是信任。

临床决策的特殊性在于:错误代价极高,责任归属模糊。AI推荐了一个诊断,医生采纳后出错,算谁的责任?医院信息系统接入第三方模型,患者数据如何脱敏?监管机构对"辅助诊断"和"替代诊断"的边界怎么划?

这些都不是技术问题,却是技术落地的真门槛。

Manrai团队的实验设计,某种程度上是在回应这种焦虑。他们刻意选择了"列出备选诊断"这个低侵入性场景,而非让AI直接拍板。论文结论也刻意收敛:这种AI"适用于辅助诊断",而非取代医生。

反对声音:两种"推理"的根本分歧

质疑来自哈佛医学院内部。

未参与研究的Arya Rao抛出尖锐批评:「当我们说临床推理时,它和道德推理不是一回事。这些模型被优化来做我们称之为推理的序列思考,但这和医学生学的推理完全不同。」

这句话击中了当前AI医疗的核心争议。

医学训练中的临床推理,是因果链条的逐层搭建。为什么先考虑感染而非肿瘤?因为流行病学概率、因为患者年龄、因为症状时序。每一步都有可解释的医学依据,每一步都经得起同行质疑。这种推理的终点不仅是正确诊断,更是诊疗方案的可辩护性。

AI的"推理"是另一套逻辑。它基于海量文本中的模式匹配,生成统计上最可能的答案序列。步骤看起来相似——症状A关联疾病B的概率是C%——但底层没有医学因果模型。它不知道"为什么",只知道"曾经这样"。

Rao的警告指向一个深层风险:如果医生过度依赖AI的"灵光一闪",可能逐渐丧失独立构建诊断假设的能力。医学教育的核心目标,恰恰是培养这种能力。一个只会点击"AI建议"按钮的医生,和会独立思辨的医生,长期看谁能更好地应对未知疾病?

Manrai对批评并不抵触。他明确表态:AI应该辅助而非替代医疗角色。「最终,我认为人类希望由人类来引导他们……度过艰难的治疗决策。」

这个表态的微妙之处在于"引导"二字的权重。AI是工具,医生是决策者——这种分工在纸面上清晰,在急诊室的凌晨三点却可能模糊。当AI连续三次给出被证实正确的建议,医生的心理防线会不会松动?

技术演进:从聊天机器人到推理引擎

理解这场争论,需要追溯技术脉络。

OpenAI的ChatGPT基于大语言模型,2022年底引爆公众对生成式AI的认知。但早期版本有个致命弱点:面对需要多步推导的复杂问题,容易在中间步骤出错,导致最终答案离谱。

o-1系列是2024年推出的"推理模型"迭代。关键改进在于"思维链"(思维链,Chain-of-Thought)技术的工程化。模型被训练成显式展示中间步骤,而非直接输出结论。在数学竞赛、编程挑战等基准测试中,这种架构展现出接近人类专家的水平。

Manrai团队选择o-1预览版,正是看中这种逐步拆解能力在医学场景中的适配性。诊断本身就是典型的多步推理:从主诉出发,扩展鉴别诊断清单,根据检验结果逐一排除,最终锁定最可能病因。

但技术能力的跃升,不等于应用场景的自动解锁。医学有独特的验证体系:随机对照试验、真实世界证据、长期随访数据。AI在静态测试集上的高分,能否转化为患者结局的改善?这是下一批研究必须回答的。

商业逻辑:谁为"第二意见"买单

把实验放回商业视角,线索更清晰。

五分之一医护的自发使用,说明需求端已经成熟。超过半数想正式使用,说明付费意愿存在。剩下的问题是:产品形态和商业模式如何设计?

当前最可能的演进路径,是嵌入电子病历系统的"智能插件"。医生输入主诉和初步检查结果,AI实时生成鉴别诊断建议,标注置信度和关键鉴别点。这种设计最小化工作流程 disruption,也便于责任界定——AI输出明确标注为"建议",最终决策权保留给医生。

收费模式可能走两条路。一是医院或医疗系统集中采购,作为基础设施投入。二是按调用次数计费,类似云计算的API模式。后者的风险在于,可能诱发过度使用:医生为求心安,对每个病例都点一遍AI建议,反而降低诊疗效率。

监管框架是更大的变量。美国FDA对"临床决策支持系统"有分级管理,低风险工具可走510(k)快速通道,高风险则需上市前审批。AI诊断辅助落在哪个区间,将直接影响产品上市节奏。

中国市场的变量同样复杂。三甲医院的信息化预算、基层医疗的人才缺口、医保支付的创新包容度,三者共同决定AI诊断工具的渗透速度。一个可能的差异化场景是:在医疗资源匮乏地区,AI"第二意见"的价值不是超越顶尖专家,而是让基层医生获得接近三甲水平的鉴别诊断能力。

关键节点复盘:从实验室到急诊室的三道坎

梳理时间线,能看清技术落地的真实节奏。

2022年底,ChatGPT发布,大语言模型进入公众视野。医学界的初步反应是警惕:生成式AI的"幻觉"问题——自信地编造不存在的信息——让它直接参与诊断显得危险。

2024年,推理模型o-1系列推出,"思维链"技术缓解了对中间步骤不可控的担忧。这是第一道坎的跨越:从"黑箱输出"到"可追踪推理"。

2025年4月,哈佛团队论文发表,用真实急诊病历验证效果。这是第二道坎:从"基准测试高分"到"临床场景有效"。但论文同时暴露了新问题——不同系统对比的病例集不一致,结论的稳健性存疑。

同期发布的全球医护调查,揭示了第三道坎的紧迫性:用户已经准备好,但产品形态、责任归属、监管框架全部滞后。五分之一的人"偷偷用",说明现有工具要么未获正式批准,要么未接入工作流,处于灰色地带。

下一步的关键节点,可能是监管机构的分类指导文件发布,以及首个获得正式批准的AI诊断辅助产品上市。这两个事件将定义行业的合规基线。

启示:工具理性与医学人文的张力

这场争论的深层结构,是两种价值观的碰撞。

技术乐观派看到效率提升和漏诊减少。在医疗资源紧张、医生 burnout 普遍的当下,AI辅助诊断是缓解系统压力的可行路径。尤其对于那些罕见病、疑难病,AI的"知识广度"可能弥补个体医生的经验局限。

医学人文派担忧能力退化和关系异化。诊断不仅是信息处理,更是医患互动的核心环节。医生询问病史时的微表情观察、触诊时的手感反馈、解释病情时的共情表达,都无法被AI替代。如果技术介入过深,可能侵蚀医学作为"人学"的本质。

Manrai的表态试图调和这种张力:AI辅助,人类主导。但"辅助"的边界在哪里?是仅在医生卡壳时提供建议,还是全程参与生成备选清单?是被动响应查询,还是主动推送预警?

这些设计选择没有标准答案,将塑造未来十年的医疗实践形态。

一个值得追踪的信号是:当AI建议与医生直觉冲突时,决策权如何分配?论文数据显示AI整体表现更优,但具体到单个病例,医生的情境知识可能更准确。系统需要内置的"异议处理"机制,而非简单服从多数。

另一个信号是长期学习效应。如果住院医师从职业生涯早期就依赖AI建议,他们的独立诊断能力会如何演化?这需要纵向队列研究来验证,周期可能长达十年。

回到波士顿急诊室的那76份病历。它们被脱敏、输入、分析,成为论文里的一个数字。但每个数字背后,是一个真实患者在某个深夜的焦虑,是一位医生在时限压力下的判断,是一次可能改变治疗方向的诊断选择。

AI正在学会参与这个过程。它学得有多快、介入有多深、最终被接纳到什么程度,将取决于技术迭代的速度,更取决于医学界对"好的医疗"的定义本身。

当80%的正确率成为新常态,我们是否还愿意容忍那20%的失误?当机器比人更会"想到"病因,诊断的权威该由谁持有?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又赢麻了,全国3亿农民工平均月收入都超过5千元了!

又赢麻了,全国3亿农民工平均月收入都超过5千元了!

灯锦年
2026-05-01 01:55:05
伊朗最高领袖,“最详细伤情”披露

伊朗最高领袖,“最详细伤情”披露

中国新闻周刊
2026-04-30 16:23:05
保时捷中国CEO潘励驰回应在华销量下滑:不执着于数字

保时捷中国CEO潘励驰回应在华销量下滑:不执着于数字

IT之家
2026-05-01 10:52:56
罕见!罗永浩高情商回应,沒有爆粗,有博主说他啥时嗝屁就放烟花

罕见!罗永浩高情商回应,沒有爆粗,有博主说他啥时嗝屁就放烟花

火山詩话
2026-05-01 06:07:17
R级历史,羞于启齿

R级历史,羞于启齿

我是历史其实挺有趣
2026-04-29 16:46:23
A50,直线拉升!中国资产,集体爆发

A50,直线拉升!中国资产,集体爆发

证券时报
2026-05-01 10:52:07
洛阳白马寺发布郑重声明:不少游客因通过非官方第三方渠道购买非法倒卖的预约门票,导致无法正常入寺,切勿轻信

洛阳白马寺发布郑重声明:不少游客因通过非官方第三方渠道购买非法倒卖的预约门票,导致无法正常入寺,切勿轻信

极目新闻
2026-04-29 18:10:47
演员苗苗回应手心痣越来越大:边缘轮廓清晰,属于良性痣

演员苗苗回应手心痣越来越大:边缘轮廓清晰,属于良性痣

鲁中晨报
2026-04-30 21:11:03
冲上热搜!多部影片突然宣布:撤档!

冲上热搜!多部影片突然宣布:撤档!

中国基金报
2026-05-01 13:47:17
基因铁证撕碎韩国纯血神话!他们真正的老祖宗曝光,竟是一路杀光半岛土著的东南亚狠人

基因铁证撕碎韩国纯血神话!他们真正的老祖宗曝光,竟是一路杀光半岛土著的东南亚狠人

寄史言志
2026-04-30 18:39:55
9换4亏麻了!奇才送出5个选秀签,结果一场没打,今夏就要离队?

9换4亏麻了!奇才送出5个选秀签,结果一场没打,今夏就要离队?

你的篮球频道
2026-05-01 07:12:01
太讽刺!国安部点名“躺平网红”,揪出境外势力,评论区笑中带泪

太讽刺!国安部点名“躺平网红”,揪出境外势力,评论区笑中带泪

谭谈社会
2026-04-30 00:02:18
离谱!许家印只喝2700一瓶水 马桶必须喷香水 随身配备女按摩师

离谱!许家印只喝2700一瓶水 马桶必须喷香水 随身配备女按摩师

念洲
2026-04-28 11:37:39
第一个抢七来了!!!谁能想到啊!打脸全联盟了!

第一个抢七来了!!!谁能想到啊!打脸全联盟了!

柚子说球
2026-05-01 12:51:08
北京首钢21分大胜!赵睿正式复出,威廉姆斯表现出色,冲击总冠军

北京首钢21分大胜!赵睿正式复出,威廉姆斯表现出色,冲击总冠军

体坛瞎白话
2026-05-01 08:38:58
92年赶集遇到邻村寡妇,她红着脸说:晚上来我家,我给肉肉你吃

92年赶集遇到邻村寡妇,她红着脸说:晚上来我家,我给肉肉你吃

瓜哥的动物日记
2026-05-01 10:02:56
阿尔兹海默症最后都是咋去世的?医生叹息:去世前,身体有5征兆

阿尔兹海默症最后都是咋去世的?医生叹息:去世前,身体有5征兆

健康之光
2026-04-30 14:15:08
榴莲价格“大跳水”,发生了什么?

榴莲价格“大跳水”,发生了什么?

牲产队
2026-04-30 22:23:39
何小鹏透露公司改名原因

何小鹏透露公司改名原因

环球网资讯
2026-04-30 19:57:08
日本这座山不允许长树,每年要烧一次,付费还能体验“放火烧山”

日本这座山不允许长树,每年要烧一次,付费还能体验“放火烧山”

怪罗
2026-04-29 17:16:04
2026-05-01 14:08:49
硅屿手记
硅屿手记
有态度网友ytd
3366文章数 15关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

郴州1岁男童被人入室抢走案:奶奶曾被家人冤枉是共犯

头条要闻

郴州1岁男童被人入室抢走案:奶奶曾被家人冤枉是共犯

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

手机
亲子
房产
游戏
军事航空

手机要闻

炸锅!苹果创始人亲自助力追觅手机,又一国产旗舰手机品牌诞生?

亲子要闻

科普|孩子为何白天不咳晚上咳

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

玩家小心!别只在意划痕 这种情况或导致光盘直接报废

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版