网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

98%医生点赞的AI队友，斯坦福实验揭秘：诊断准确率飙升10%！

2025-06-15 13:34:46　来源: 新智元

北京举报

0

分享至

　　新智元报道

　　编辑：英智

　　【新智元导读】AI从医疗工具变身为协作队友，斯坦福大学研究揭示：医生诊断准确率竟飙升10%！70名美国执业医生参与的真实测试，AI-first、AI-second与传统诊断，谁能更精准破解临床谜题？

　　你敢让AI帮你看病吗？

　　斯坦福大学的一群医生和工程师，最近做了一项研究：让AI和人类医生组队，共同破解复杂的诊断难题。

　　论文链接：https://www.medrxiv.org/content/10.1101/2025.06.07.25329176v1.full.pdf

　　结果让人惊讶：当AI从「工具」变成「队友」，医生的诊断准确率直接飙升了10%。

　　网友惊叹：颠覆的临界点即将到来！

　　「充满热情的医生加上AI将势不可挡。」

　　「AI驱动的临床决策支持，仍然是该领域最有力的杠杆之一。」

　　还有人表示，「对于一个背负数十万美元债务的医生来说，这种发现有点令人害怕。这还只是用GPT 4，无法想象o3会有多厉害。」

　　AI当医生，

　　抢饭碗还是递扳手？

　　过去几年，AI在医疗领域的存在感越来越强，从影像识别到药物研发。

　　但医生把它当搜索工具，用来查指南、找文献，却不敢真正把它当作「搭档」。

　　为什么会这样？斯坦福的研究团队发现，关键问题出在交互模式上。

　　早期的AI就像个沉默的助手，医生输入问题，它输出答案。

　　这导致医生很难信任AI的判断，甚至出现过「医生用AI辅助诊断，结果反而比AI单独诊断更差」的情况。

　　于是，他们决定做一个颠覆性实验：把AI变成会讨论的队友。

　　实验设计很巧妙：让医生和AI各自先独立分析病例，然后AI生成一份联合报告，不仅列出双方的共识和分歧，还会像资深医生一样点评每个诊断的合理性。

　　比如，当医生考虑真性红细胞增多症，AI会补充低EPO水平支持这一诊断，但需排除罕见的EPO分泌肿瘤。

　　当医生漏掉淋巴瘤的可能性，AI会提醒瘙痒和尿酸升高可能是这个方向。

　　团队基于GPT-4开发了一款定制化的AI系统，设计了两种协作工作流程，分别测试AI-first和AI-second时的效果。

　　70名美国执业的内科或家庭科医生参与了这项试验，他们被随机分配到以下三种组别之一：

　　AI-first组：医生首先输入病例信息，查看AI生成的诊断建议（包括五个可能的诊断和七个后续步骤），然后结合自己的判断形成最终诊断。

　　AI-second组：医生先独立完成诊断（可以使用传统资源如UpToDate、PubMed等），再将病例和自己的初步诊断输入AI系统，AI会生成独立分析并与医生的诊断进行整合，生成一份综合报告。

　　对照组：医生仅使用传统资源完成诊断，不与AI互动。

　　实验使用了六个基于真实患者的临床病例，涵盖了复杂诊断场景。

　　每个病例包含病史、体检和实验室检查结果，医生需要提供三个可能的诊断、支持和反对的证据、最终诊断及三个后续步骤。

　　研究通过19分制的评分系统评估诊断的准确性，评分由两位内科认证医生独立完成，且评分者不知道答案来自医生还是AI，以确保公平。

　　AI系统的核心设计在于协作。

　　它不仅生成自己的诊断，还会对比医生和AI的判断，生成一份综合报告，清晰列出双方提出的诊断、共识点、分歧点，并对每个诊断提供评论。

　　这种设计旨在激发医生的批判性思考，而非简单依赖AI的输出。

　　研究结果：

　　AI显著提升诊断准确性

　　研究结果令人振奋，AI协作组的医生表现明显优于仅使用传统工具的对照组。

　　诊断准确性：

　　对照组（传统工具）：平均得分75%。

　　AI-first组：平均得分85%，比对照组高9.8%（p<0.0004）。

　　AI-second组：平均得分82%，比对照组高6.8%（p<0.00001）。

　　AI单独运行：平均得分90%，略高于协作组但差异不显著。

　　医生和AI协作后，虽然没超过AI单独水平，却比医生单打独斗强。这说明，AI能补全人类思维的漏洞。

　　在最终诊断和后续步骤（即临床上可操作的决策）方面，AI-first比AI-second组表现更好（高8.9%，p=0.026）。

　　AI-second相较于对照组在这些决策上的得分提升了14.9%（p=0.00092），其中36%的病例在与AI互动后有所提高。

　　AI-first完成每个病例的平均时间为631秒，略快于AI-second的688秒。在剔除未严格遵循流程的病例后，AI-first的优势更明显。

　　所有医生在试验后对AI的态度显著改善，98.6%表示愿意在复杂临床推理中使用AI（试验前为91.4%，p=0.011）。

　　为什么AI当队友更厉害？

　　信息过载与遗漏：临床诊断就像拼拼图，每个病例可能包含几十条线索。

　　医生很容易漏掉某个实验室指标（比如「血清LDH升高」提示细胞破坏），但AI能瞬间扫描所有数据，精准关联高LDH+巨幼细胞贫血可能指向骨髓增生异常综合征。

　　经验依赖的陷阱：资深医生容易被典型病例固化思维。

　　比如看到老年女性、乏力、舌炎，可能优先考虑缺铁性贫血，但AI会跳出经验框架，提出维生素B12缺乏或甲状腺功能减退的可能性。

　　决策链的逻辑性：AI的诊断报告就像思维流程图：先列出3个最可能的诊断，再用支持证据和反对证据逐条论证，最后给出3个下一步检查建议。

　　AI的「人性化改造」

　　为了让AI更懂医生，研究团队给它加了三个补丁。

　　1.会「吵架」的批判性思维：当医生的诊断和AI不一致时，AI不会直接服从，而是会说：「您提到的原发性胆汁性胆管炎可能性较低，因为患者缺乏胆汁淤积的证据，但需要注意罕见变异型。」

　　这种挑战不是对抗，而是逼医生重新审视自己的逻辑漏洞。

　　2.能「翻译」的沟通能力：传统AI输出的是学术化的语言，但实验中的AI会用口语化表达：「目前看，真性红细胞增多症是最可能的，但淋巴瘤不能完全排除，建议先查血清EPO水平和骨髓活检。」

　　这种说人话的能力，让医生更容易理解和接受。

　　3.可「追溯」的透明化决策：每个诊断结论，AI都会标注证据来源，比如「支持淋巴瘤的证据是瘙痒和尿酸升高（引用文献X），反对证据是缺乏淋巴结肿大（引用指南Y）。」

　　这解决了医生对AI黑箱决策的不信任感，让协作建立在可验证的基础上。

　　AI的「锚定效应」

　　研究发现，AI-second组中，AI的独立分析有时会受到医生初步诊断的影响。

　　实验中有个有趣的细节：AI-second组中，48%的病例中AI的诊断和医生初始意见完全重叠，而AI-first组仅为3%。

　　说明如果医生先入为主给出思路，AI可能会「迎合」人类判断，未能完全遵循独立分析的指令。

　　比如，有个病例中医生误判缺铁性贫血，AI在后续分析中居然也把这个诊断放在了第一位。尽管按照数据，维生素B12缺乏才是更合理的方向。

　　这意味着，AI的批判性依赖于独立思考的空间，一旦被人类思维锚定，反而会降低协作价值。

　　但反过来，当AI先发言时，医生会更主动地挑战它的结论。

　　有位住院医师在看到AI提出骨髓瘤时，立刻反驳：患者没有骨痛和蛋白尿，这个诊断可能性太低，并最终通过追问病史排除了这一方向。

　　这种「对抗性协作」，反而激发了更深入的临床推理。

　　参考资料：

　　https://x.com/emollick/status/1931907652118069510

　　https://www.medrxiv.org/content/10.1101/2025.06.07.25329176v1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

埃及头号球星萨拉赫赛后保持克制，未跟风批评裁判：我不想过多评论，大家都亲眼见证了全过程

红星新闻 2026-07-08 10:08:21
4357 跟贴 4357
防御台风“巴威”，江苏已派出6个督查指导组赴苏州、南通、连云港、盐城、无锡、常州、扬州、泰州8市

扬子晚报 2026-07-08 10:27:26
39 跟贴 39

媒体：解放军两年内两连发射战略导弹发出重要信号

极目新闻 2026-07-07 23:48:55
648 跟贴 648

高校男生参加期末考试监考老师:你眼镜有问题交卷吧

中国新闻周刊 2026-07-08 13:12:27
89 跟贴 89
河南老君山月薪6万招人每天看云海，需在山顶住30天，每天至少发一条短视频，景区：咨询报名者众多，全国仅选一人

极目新闻 2026-07-08 14:01:25
1875 跟贴 1875

北京老年卡坐市郊铁路可用！开通方法→

BRTV新闻 2026-07-08 13:00:50
327 跟贴 327

中国足协回应“佛得角邀国足踢友谊赛被婉拒”：消息不实

界面新闻 2026-07-07 18:19:33
2627 跟贴 2627
小店老板守着冰柜叹气：今年雪糕棒冰怎么没人吃了？

大象新闻 2026-07-05 21:58:07
1946 跟贴 1946

惊险！印度男子突遭狮子袭击，村民现场呼喊扔石块进行驱赶

北青网-北京青年报 2026-07-08 15:02:25
3 跟贴 3
网购依立腾防晒衣，收到的货颜色不对且无品牌厂家信息，男子认为是三无产品；卖家：寄错了，仅可退货退款

大风新闻 2026-07-08 11:04:09
71 跟贴 71
“77万条未读消息”事件后，企业微信紧急上线“拉群确认”机制

界面新闻 2026-07-08 10:14:57
149 跟贴 149
工信部：Claude Code安全后门隐患

界面新闻 2026-07-08 13:58:11
91 跟贴 91
黄冈男子在12楼家中被龙卷风吸出摔至草丛，妻子求助：想找间有热水的安置房

潇湘晨报 2026-07-07 22:53:21
106 跟贴 106
关注 | 挪威队内被曝出现疾病传播，多人发烧咳嗽，主教练回应

天津广播 2026-07-08 13:07:32
32 跟贴 32
广州举行云溪植物园、云萝植物园门票收费标准方案听证会

南方都市报 2026-07-07 13:48:11
337 跟贴 337
曝自由市场开启前几周詹姆斯仍认为自己有八成把握留在湖人

北青网-北京青年报 2026-07-07 20:23:08
196 跟贴 196
网传“新能源汽车智驾芯片自主化率不低于70%”系谣言（2026·07·07）

今日辟谣 2026-07-07 17:14:14
175 跟贴 175
广西贵港4000名师生被困，学生家长：已收到孩子陆续转移的消息

新浪财经 2026-07-08 17:14:49
0 跟贴 0
中金公司：上半年净利同比预增78%—90%

证券时报 2026-07-08 17:25:28
0 跟贴 0
盼到了！光谷这一游泳池终于要开了！

大楚生活圈 2026-07-08 17:17:52
0 跟贴 0
知名连锁餐厅被曝！“涉事餐具当日全部销毁”，最新回应

鲁中晨报 2026-07-08 17:14:16
0 跟贴 0
辽 N・U5319车主求助，大雨车牌丢了！（图）

本账号停运 2026-07-08 17:14:01
0 跟贴 0
“老头乐”正收割海外市场

环球网资讯 2026-07-08 17:18:20
0 跟贴 0

“你的眼镜有问题，交卷走吧！”

“你的眼镜有问题，交卷走吧！”

中国新闻周刊

2026-07-08 13:12:27

瑞士4-3点杀哥伦比亚晋级8强将战阿根廷，科贝尔扑点

瑞士4-3点杀哥伦比亚晋级8强将战阿根廷，科贝尔扑点

懂球帝

2026-07-08 07:04:29

广西水灾、四川地震，湖北龙卷风，“正能量大V”们集体沉默了

广西水灾、四川地震，湖北龙卷风，“正能量大V”们集体沉默了

清书先生

2026-07-08 11:27:44

女子10年收情人51万，说是嫖资不该退，法院认为是包养应返还原配

女子10年收情人51万，说是嫖资不该退，法院认为是包养应返还原配

汉史趣闻

2026-07-07 14:45:32

钱难挣，屎难吃！济南一则银行保安招聘信息，网友调侃2800花不完

钱难挣，屎难吃！济南一则银行保安招聘信息，网友调侃2800花不完

火山詩话

2026-07-07 15:13:34

美加墨世界杯8强全落位，金球奖悬念也不大了，将在以下6人中诞生

美加墨世界杯8强全落位，金球奖悬念也不大了，将在以下6人中诞生

球场没跑道

2026-07-08 11:33:45

闯大祸了！伊朗打击林肯号航母，美军误击巴基斯坦飞机？

闯大祸了！伊朗打击林肯号航母，美军误击巴基斯坦飞机？

兵国大事

2026-07-08 16:19:38

台风深入内陆就该”熄火"?美莎克是如何成为降雨制造机的?

台风深入内陆就该”熄火"?美莎克是如何成为降雨制造机的?

中国气象局

2026-07-07 19:35:53

承包养鱼不放水，致水库漫堤？六蓝水库养殖公告照片，引发争议

承包养鱼不放水，致水库漫堤？六蓝水库养殖公告照片，引发争议

火山詩话

2026-07-07 11:02:52

伊朗革命卫队：通过联合导弹和无人机行动，摧毁了美军第五舰队和科威特空军基地的85处重要美军设施

伊朗革命卫队：通过联合导弹和无人机行动，摧毁了美军第五舰队和科威特空军基地的85处重要美军设施

政知新媒体

2026-07-08 13:22:50

龙卷风袭击湖北多地，“眼看着父母被卷到百米高空”

龙卷风袭击湖北多地，“眼看着父母被卷到百米高空”

中国新闻周刊

2026-07-07 22:23:30

马卡报：迈阿密国际有意免签沃齐尼亚，巴乙多家俱乐部竞争

马卡报：迈阿密国际有意免签沃齐尼亚，巴乙多家俱乐部竞争

懂球帝

2026-07-08 16:48:27

“墙这么破，就别搞仪式感了！”农村小公主火了，让人不是滋味

“墙这么破，就别搞仪式感了！”农村小公主火了，让人不是滋味

世界圈

2026-07-07 09:19:17

随着阿根廷3-2逆转埃及诞生3个不可思议和1个事实梅西当场哭了

随着阿根廷3-2逆转埃及诞生3个不可思议和1个事实梅西当场哭了

侃球熊弟

2026-07-08 01:40:11

我记住这位英年早逝的经济学家是因为他那句充满悲悯和伤感的话..

我记住这位英年早逝的经济学家是因为他那句充满悲悯和伤感的话..

细雨中的呼喊

2026-07-08 13:30:56

又一康复重点医院突然倒闭！189名医务人员集体失业

又一康复重点医院突然倒闭！189名医务人员集体失业

康知了

2026-07-08 12:11:27

霍启刚发文痛斥美国政客“让世界杯失去灵魂”：美国总统特朗普曾亲自致电因凡蒂诺交涉，可说是以政治干预体育最赤裸的操作

霍启刚发文痛斥美国政客“让世界杯失去灵魂”：美国总统特朗普曾亲自致电因凡蒂诺交涉，可说是以政治干预体育最赤裸的操作

都市快报橙柿互动

2026-07-08 14:00:58

六蓝水库溃坝并非个例，老坝+极端天气是全世界的难题!

六蓝水库溃坝并非个例，老坝+极端天气是全世界的难题!

闫老大

2026-07-08 11:04:57

不知道欧洲媒体报道没报道广西湖北甘肃呢？

不知道欧洲媒体报道没报道广西湖北甘肃呢？

吴女士

2026-07-08 11:48:54

四川宜宾连发9次地震，五粮液回应

四川宜宾连发9次地震，五粮液回应

澎湃新闻

2026-07-08 14:06:28

AI产业主平台领航智能+时代

15638文章数 66949关注度

往期回顾全部

科技要闻

工信部：Claude Code安全后门隐患

头条要闻

下场比赛裁判组全是阿根廷人法国球员：不关注是谁

头条要闻

下场比赛裁判组全是阿根廷人法国球员：不关注是谁

体育要闻

阿根廷被埃及埋了一半，死里逃生

娱乐要闻

鹿晗出轨？邓超出轨绯闻又被扒出

财经要闻

科技新贵们，买爆深圳豪宅

汽车要闻

定名岚图梦想家9！岚图全新旗舰MPV来袭

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

亲子

本地

时尚

公开课

旅游要闻

暑期登山正当时跟随“登超”赴一场蜀山清凉之约

亲子要闻

祖孙俩一百多天没见，一看见奶奶就笑个不停

本地新闻

万斤西瓜免费吃，来河南顶“瓜瓜”

恶女洗白潮，正在失控

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版