网易首页 > 网易号 > 正文 申请入驻

急诊室AI诊断首胜医生,但作者说别急着换人

0
分享至

周四凌晨,马萨诸塞州一家医疗中心的急诊室里,一台机器正在和值班医生做同一份考卷。答案揭晓时,研究者们自己先愣了一下——OpenAI的o1系列大语言模型在诊断选择、急诊分诊、后续处置决策上,匹配甚至超过了人类医生的表现。

这场测试怎么设计的


《科学》期刊周四发表的这项研究,核心设计很直接:让AI和人类医生在完全相同的临床场景下做判断,然后比结果。

研究团队选了OpenAI 2024年发布的o1系列模型,设计了六个实验。前几个用标准化临床病例,后几个直接接入真实急诊数据——从马萨诸塞州一家医疗中心随机抽取的急诊患者记录。

每个病例,AI和多名医生独立给出诊断、分诊级别、下一步处置方案。最后盲评,看谁更准确。

结果让研究者自己也保持警惕。论文作者反复强调:这些发现不意味着AI能取代医生,而是意味着行业需要更快的评估标准和更严格的使用规则。

一个关键细节被反复提及:真实临床工作依赖视觉和听觉线索——患者脸色、呼吸声、疼痛时的微表情——这些都没进数据集。

AI在哪类任务上拉开差距

分诊阶段,信息最少的时候,AI的优势最明显。

急诊分诊是门残酷的手艺。患者刚进门,护士或医生要在几分钟内判断:这人能等,还是立刻进抢救室?决策依据往往只有主诉、生命体征、快速观察。信息碎片化,时间压力大,误判代价极高。

研究发现,人类医生和AI都随信息增加而提升准确率,但AI处理不确定性的方式不同。面对零散、非结构化的健康记录和病历笔记,大语言模型提取有效信息的能力更强。

这不是说AI"更聪明"。论文作者指出,人类医生在信息不完整时的表现波动,部分源于认知负荷和疲劳——急诊轮班的现实。AI没有这个问题,但它也没有走过急诊室走廊的经验。

一个有趣的对比:早期的大语言模型已经打败了传统算法诊断系统,但这项研究的特殊之处在于规模和场景真实性。不是实验室里的干净数据集,是真实的急诊患者、真实的病历、真实的医生判断。

为什么作者反对"AI取代医生"的叙事

研究结论和媒体报道的常见框架直接冲突。作者团队主动踩了刹车。

他们的论点分三层。第一,测试环境有边界。所有病例都经过了"可文本化"的处理——影像报告有文字描述,但AI没看片子;体征有数据记录,但AI没站在床边。

第二,临床决策的社会维度被剥离。论文提到,真实诊疗涉及患者沟通、家属协商、伦理权衡,这些无法被六维实验捕捉。

第三,也是作者最想强调的:现有AI医疗评估标准太慢、太松。这项研究的价值不在于证明AI多强,而在于暴露评估体系的滞后。当技术已经能在特定任务上匹配专家,监管框架还在用十年前的算法标准。

「这些发现建立在数十年用疑难病例评估医疗计算系统的基础上」,论文写道。但这一次,被评估的好像是评估系统本身。

从算法竞赛到协作框架

研究释放的信号比表面结论更复杂。它同时指向两个方向:AI在结构化认知任务上的潜力,以及人类医生在整合多模态信息上的不可替代性。

一个可能的演进路径是分层协作。分诊、初筛、病历预处理——这些信息密集但模式相对标准化的环节,AI承担更多;复杂诊断、患者沟通、动态调整——这些需要情境判断的环节,医生主导。

但这种协作需要重新设计工作流程,而不是简单地把AI塞进现有系统。论文作者呼吁的"更快、更严格的评估标准",实质是在要求行业回答:什么任务可以交给AI,什么必须保留人类决策权,边界怎么划。

这个问题没有技术答案。它涉及责任归属、患者信任、医疗事故法律框架——整套社会契约的重议。

对科技从业者的启示


如果你是AI产品经理或医疗科技创业者,这项研究提供了几个可操作的观察。

第一,垂直场景的"足够好"标准正在抬高。通用大模型的基准测试成绩,和真实临床任务的表现,中间隔着大量工程化工作。o1系列能在急诊场景胜出,不是因为模型参数更大,而是因为针对临床推理做了优化。

第二,"替代"叙事是陷阱,也是机会。研究作者主动拒绝这种框架,反而让成果更容易被医疗系统接纳。技术落地的阻力往往不在技术本身,而在利益相关者的恐惧。承认边界,比夸大能力更能加速渗透。

第三,评估基础设施是瓶颈。论文反复强调现有标准滞后,这意味着医疗AI的下一个战场可能是合规和认证——谁能建立被监管机构认可的评估体系,谁就能定义市场准入规则。

第四,人机协作的产品设计空间巨大。研究揭示了一个反直觉现象:信息越少,AI相对优势越大。这暗示产品设计的切入点可能不是"让AI做医生做的事",而是"让AI做医生做不到的事"——比如在信息稀缺时提供结构化建议,供医生快速验证或排除。

时间线复盘:从算法到急诊室

这项研究不是孤立突破,而是医疗AI演进的一个节点。

decades ago,医学界开始用疑难病例测试计算机诊断系统。早期算法基于规则,后来是机器学习模型,再往后是深度学习。每一代技术都在特定数据集上刷新准确率,但临床采纳始终缓慢。

大语言模型的出现改变了游戏规则。不同于前代系统需要大量人工特征工程,LLM可以直接处理自然语言病历,适应不同医院的记录格式。这种灵活性让"从论文到病房"的路径变短了。

2024年OpenAI发布o1系列,强调"推理能力"——不是更快生成答案,而是在复杂问题上花更多时间思考。这项研究选择o1,正是测试这种能力在医疗场景的价值。

2026年4月,论文发表。同期,全球多家医院正在试点AI辅助分诊系统,监管讨论从"是否允许"转向"如何规范"。

关键转折在于证据质量。此前多数研究用回顾性数据,这项研究设计了前瞻性对比,让AI和医生同时面对相同的新病例。方法论的严谨性,让结论更难被 dismiss。

未回答的问题

研究留下几个开放的工程挑战。

多模态整合:当AI能同时读病历、看影像、听心音,表现会如何变化?论文明确排除了这部分,但产品演进的方向清晰可见。

动态交互:测试中的AI一次性接收所有信息,真实诊疗是往复对话。患者补充症状、医生追问细节,这种迭代过程如何设计AI参与方式?

错误模式:AI和人类医生的错误类型是否不同?如果AI在特定人群、特定疾病上系统性偏差,如何检测和修正?

长期影响:如果分诊环节大规模引入AI,医生的临床能力培养会受什么影响?经验积累的路径被改变,十年后的急诊医生还会是今天的样子吗?

这些问题没有现成答案,但定义了下一个阶段的产品竞争维度。

行动号召

这项研究的价值,不在于它证明了AI比医生强,而在于它证明了"比医生强"这个标准本身已经不够用了。

真正的问题变成:在什么条件下,AI的参与能让医疗系统整体更可靠、更公平、更高效?这需要技术、临床、监管、伦理的多方协作,也需要愿意在这个模糊地带探索的产品人。

如果你是科技从业者,现在可以做的三件事:第一,关注FDA、NMPA等监管机构对医疗AI评估框架的更新,这比模型参数更重要;第二,在垂直场景中寻找"信息稀缺决策"的机会点,这是当前AI的相对优势区;第三,和临床一线建立真实反馈循环,不是做demo展示,而是观察AI建议如何被采纳、被修改、被忽略。

急诊室的灯光不会熄灭,但照亮的协作方式正在重写。早点进场,参与规则制定,比后期适应规则更有价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“不要靠近我!”宁波一男子情绪失控,站在河中大声嘶吼,一边挣扎一边挪向深水区,PTU队员和民警合力将其救起

“不要靠近我!”宁波一男子情绪失控,站在河中大声嘶吼,一边挣扎一边挪向深水区,PTU队员和民警合力将其救起

环球网资讯
2026-05-01 07:55:12
深圳终于成了最宽松的一线城市!

深圳终于成了最宽松的一线城市!

坠入二次元的海洋
2026-05-01 07:22:57
为何日本变得如此嚣张?因为一旦中日爆发冲突,日本就赚到了

为何日本变得如此嚣张?因为一旦中日爆发冲突,日本就赚到了

触摸史迹
2026-04-28 12:57:26
21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

21岁击败王菲的童颜巨乳富婆,巅峰期却选择主动过气

悠悠说世界
2026-04-25 14:03:58
2026年杭州房价疯涨区域

2026年杭州房价疯涨区域

坠入二次元的海洋
2026-05-01 07:19:16
腰斩的比亚迪

腰斩的比亚迪

诗与星空
2026-04-30 07:26:56
44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

44岁陈震现身北京车展,从网红车评人到无人问津,现状一点都不怨

林雁飞
2026-04-25 17:14:49
1960年沈醉拜访唐生明,推门竟撞见大将陈赓,他瞒着军统给红军送了多少救命枪弹?

1960年沈醉拜访唐生明,推门竟撞见大将陈赓,他瞒着军统给红军送了多少救命枪弹?

史海孤雁
2026-04-30 15:52:10
荣誉映初心 奋进新征程——回访2025年全国劳动模范

荣誉映初心 奋进新征程——回访2025年全国劳动模范

新华社
2026-04-29 23:26:04
日本:射程之内!

日本:射程之内!

新民周刊
2026-05-01 09:17:00
听到二审结果后,金建希几乎崩溃,全程都像丢了魂

听到二审结果后,金建希几乎崩溃,全程都像丢了魂

新浪财经
2026-05-01 01:08:56
沉默45年后,中国第二轮“严打”终于来了!但这次的目标变了

沉默45年后,中国第二轮“严打”终于来了!但这次的目标变了

奇葩游戏酱
2026-05-01 09:10:00
“NZ没有死刑,他很幸运!”新西兰官方重磅裁决!他直播杀害51人,妄图“推翻认罪”!受害者家属愤怒发声!

“NZ没有死刑,他很幸运!”新西兰官方重磅裁决!他直播杀害51人,妄图“推翻认罪”!受害者家属愤怒发声!

新西兰天维网
2026-04-30 13:03:29
“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

“只顾自己纹眉,不管女儿死活?”14岁女孩生日照,脸上全是槽点

蝴蝶花雨话教育
2026-04-25 00:45:03
曾经风靡亚洲的香港情色电影,咋就逐渐销声匿迹了?

曾经风靡亚洲的香港情色电影,咋就逐渐销声匿迹了?

小椰的奶奶
2026-05-01 00:27:28
郑丽文官宣访美!大陆回应字字千钧,国民党别再自欺欺人了

郑丽文官宣访美!大陆回应字字千钧,国民党别再自欺欺人了

蓝色海边
2026-05-01 09:08:20
美专家狂言:美军一旦向北京、上海扔下核弹,中国并不会对等报复

美专家狂言:美军一旦向北京、上海扔下核弹,中国并不会对等报复

南风不及你温柔
2026-04-26 08:24:49
给富豪当15年保姆,离开他送我一个盒子,本以为是钱,打开后傻眼

给富豪当15年保姆,离开他送我一个盒子,本以为是钱,打开后傻眼

白云故事
2025-04-03 12:45:04
郑丽文民调仅4%,访陆成功助力蒋万安领跑2028大选

郑丽文民调仅4%,访陆成功助力蒋万安领跑2028大选

宋垀搞笑配音
2026-05-01 07:57:33
被骂疯子的米莱终结阿根廷几十年赤字

被骂疯子的米莱终结阿根廷几十年赤字

桂系007
2026-04-28 15:20:23
2026-05-01 10:27:00
赛博兰博
赛博兰博
专注捣鼓AI效率工具,试图在这个时代留下数字分身的探索者。
2038文章数 25关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

头条要闻

牛弹琴:特朗普还是没抵住诱惑 诱惑中果然有陷阱

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

数码
教育
艺术
本地
房产

数码要闻

华硕准备“ROG新NUC”,预计升级CPU与GPU

教育要闻

考研数学满分!专业课满分!初试总分450!他最终圆梦985

艺术要闻

石景,无可比拟!

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

无障碍浏览 进入关怀版