网易首页 > 网易号 > 正文 申请入驻

98%医生点赞的AI队友,斯坦福实验揭秘:诊断准确率飙升10%!

0
分享至

  新智元报道

  编辑:英智

  【新智元导读】AI从医疗工具变身为协作队友,斯坦福大学研究揭示:医生诊断准确率竟飙升10%!70名美国执业医生参与的真实测试,AI-first、AI-second与传统诊断,谁能更精准破解临床谜题?

  你敢让AI帮你看病吗?

  斯坦福大学的一群医生和工程师,最近做了一项研究:让AI和人类医生组队,共同破解复杂的诊断难题。

  论文链接:https://www.medrxiv.org/content/10.1101/2025.06.07.25329176v1.full.pdf

  结果让人惊讶:当AI从「工具」变成「队友」,医生的诊断准确率直接飙升了10%。

  网友惊叹:颠覆的临界点即将到来!

  「充满热情的医生加上AI将势不可挡。」

  「AI驱动的临床决策支持,仍然是该领域最有力的杠杆之一。」

  还有人表示,「对于一个背负数十万美元债务的医生来说,这种发现有点令人害怕。这还只是用GPT 4,无法想象o3会有多厉害。」

  AI当医生,

  抢饭碗还是递扳手?

  过去几年,AI在医疗领域的存在感越来越强,从影像识别到药物研发。

  但医生把它当搜索工具,用来查指南、找文献,却不敢真正把它当作「搭档」。

  为什么会这样?斯坦福的研究团队发现,关键问题出在交互模式上。

  早期的AI就像个沉默的助手,医生输入问题,它输出答案。

  这导致医生很难信任AI的判断,甚至出现过「医生用AI辅助诊断,结果反而比AI单独诊断更差」的情况。

  于是,他们决定做一个颠覆性实验:把AI变成会讨论的队友。

  实验设计很巧妙:让医生和AI各自先独立分析病例,然后AI生成一份联合报告,不仅列出双方的共识和分歧,还会像资深医生一样点评每个诊断的合理性。

  比如,当医生考虑真性红细胞增多症,AI会补充低EPO水平支持这一诊断,但需排除罕见的EPO分泌肿瘤。

  当医生漏掉淋巴瘤的可能性,AI会提醒瘙痒和尿酸升高可能是这个方向。

  团队基于GPT-4开发了一款定制化的AI系统,设计了两种协作工作流程,分别测试AI-first和AI-second时的效果。

  70名美国执业的内科或家庭科医生参与了这项试验,他们被随机分配到以下三种组别之一:

  AI-first组:医生首先输入病例信息,查看AI生成的诊断建议(包括五个可能的诊断和七个后续步骤),然后结合自己的判断形成最终诊断。

  AI-second组:医生先独立完成诊断(可以使用传统资源如UpToDate、PubMed等),再将病例和自己的初步诊断输入AI系统,AI会生成独立分析并与医生的诊断进行整合,生成一份综合报告。

  对照组:医生仅使用传统资源完成诊断,不与AI互动。

  实验使用了六个基于真实患者的临床病例,涵盖了复杂诊断场景。

  每个病例包含病史、体检和实验室检查结果,医生需要提供三个可能的诊断、支持和反对的证据、最终诊断及三个后续步骤。

  研究通过19分制的评分系统评估诊断的准确性,评分由两位内科认证医生独立完成,且评分者不知道答案来自医生还是AI,以确保公平。

  AI系统的核心设计在于协作。

  它不仅生成自己的诊断,还会对比医生和AI的判断,生成一份综合报告,清晰列出双方提出的诊断、共识点、分歧点,并对每个诊断提供评论。

  这种设计旨在激发医生的批判性思考,而非简单依赖AI的输出。

  研究结果:

  AI显著提升诊断准确性

  研究结果令人振奋,AI协作组的医生表现明显优于仅使用传统工具的对照组。

  诊断准确性

  对照组(传统工具):平均得分75%。

  AI-first组:平均得分85%,比对照组高9.8%(p<0.0004)。

  AI-second组:平均得分82%,比对照组高6.8%(p<0.00001)。

  AI单独运行:平均得分90%,略高于协作组但差异不显著。

  医生和AI协作后,虽然没超过AI单独水平,却比医生单打独斗强。这说明,AI能补全人类思维的漏洞。

  在最终诊断和后续步骤(即临床上可操作的决策)方面,AI-first比AI-second组表现更好(高8.9%,p=0.026)。

  AI-second相较于对照组在这些决策上的得分提升了14.9%(p=0.00092),其中36%的病例在与AI互动后有所提高。

  AI-first完成每个病例的平均时间为631秒,略快于AI-second的688秒。在剔除未严格遵循流程的病例后,AI-first的优势更明显。

  所有医生在试验后对AI的态度显著改善,98.6%表示愿意在复杂临床推理中使用AI(试验前为91.4%,p=0.011)。

  为什么AI当队友更厉害?

  信息过载与遗漏:临床诊断就像拼拼图,每个病例可能包含几十条线索。

  医生很容易漏掉某个实验室指标(比如「血清LDH升高」提示细胞破坏),但AI能瞬间扫描所有数据,精准关联高LDH+巨幼细胞贫血可能指向骨髓增生异常综合征。

  经验依赖的陷阱:资深医生容易被典型病例固化思维。

  比如看到老年女性、乏力、舌炎,可能优先考虑缺铁性贫血,但AI会跳出经验框架,提出维生素B12缺乏或甲状腺功能减退的可能性。

  决策链的逻辑性:AI的诊断报告就像思维流程图:先列出3个最可能的诊断,再用支持证据和反对证据逐条论证,最后给出3个下一步检查建议。

  AI的「人性化改造」

  为了让AI更懂医生,研究团队给它加了三个补丁。

  1.会「吵架」的批判性思维:当医生的诊断和AI不一致时,AI不会直接服从,而是会说:「您提到的原发性胆汁性胆管炎可能性较低,因为患者缺乏胆汁淤积的证据,但需要注意罕见变异型。」

  这种挑战不是对抗,而是逼医生重新审视自己的逻辑漏洞。

  2.能「翻译」的沟通能力:传统AI输出的是学术化的语言,但实验中的AI会用口语化表达:「目前看,真性红细胞增多症是最可能的,但淋巴瘤不能完全排除,建议先查血清EPO水平和骨髓活检。」

  这种说人话的能力,让医生更容易理解和接受。

  3.可「追溯」的透明化决策:每个诊断结论,AI都会标注证据来源,比如「支持淋巴瘤的证据是瘙痒和尿酸升高(引用文献X),反对证据是缺乏淋巴结肿大(引用指南Y)。」

  这解决了医生对AI黑箱决策的不信任感,让协作建立在可验证的基础上。

  AI的「锚定效应」

  研究发现,AI-second组中,AI的独立分析有时会受到医生初步诊断的影响。

  实验中有个有趣的细节:AI-second组中,48%的病例中AI的诊断和医生初始意见完全重叠,而AI-first组仅为3%。

  说明如果医生先入为主给出思路,AI可能会「迎合」人类判断,未能完全遵循独立分析的指令。

  比如,有个病例中医生误判缺铁性贫血,AI在后续分析中居然也把这个诊断放在了第一位。尽管按照数据,维生素B12缺乏才是更合理的方向。

  这意味着,AI的批判性依赖于独立思考的空间,一旦被人类思维锚定,反而会降低协作价值。

  但反过来,当AI先发言时,医生会更主动地挑战它的结论。

  有位住院医师在看到AI提出骨髓瘤时,立刻反驳:患者没有骨痛和蛋白尿,这个诊断可能性太低,并最终通过追问病史排除了这一方向。

  这种「对抗性协作」,反而激发了更深入的临床推理。

  参考资料:

  https://x.com/emollick/status/1931907652118069510

  https://www.medrxiv.org/content/10.1101/2025.06.07.25329176v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5万一套海景房成“鬼城”!200户仅20户住,老人靠卖煎饼勉强维生

5万一套海景房成“鬼城”!200户仅20户住,老人靠卖煎饼勉强维生

小莜读史
2026-01-06 21:40:13
男子听信“偏方”将5厘米的水蛭塞进尿道,水蛭顺着尿道向内爬行“安家”膀胱,开始疯狂吸血释放抗凝血物质

男子听信“偏方”将5厘米的水蛭塞进尿道,水蛭顺着尿道向内爬行“安家”膀胱,开始疯狂吸血释放抗凝血物质

观威海
2026-01-07 09:22:09
支付宝2026开年第一次升级,大批百万富翁破防!

支付宝2026开年第一次升级,大批百万富翁破防!

鸣金网
2026-01-05 11:37:11
委内瑞拉变天震动菲律宾?小马科斯心乱如麻,生怕成了马杜罗第二

委内瑞拉变天震动菲律宾?小马科斯心乱如麻,生怕成了马杜罗第二

书纪文谭
2026-01-06 17:28:59
岂有此理!美特工粗暴对待委内瑞拉第一夫人,引发各国强烈愤慨!

岂有此理!美特工粗暴对待委内瑞拉第一夫人,引发各国强烈愤慨!

我心纵横天地间
2026-01-06 18:57:07
最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

最讨厌的演员排名,潘长江仅第五,闫学晶第二,第一毋庸置疑

林雁飞
2026-01-04 19:29:51
开国元勋酒量排名:许世友垫底,一女将上榜,总理1次喝25杯茅台

开国元勋酒量排名:许世友垫底,一女将上榜,总理1次喝25杯茅台

思雨忆史录
2026-01-06 09:07:04
回国了我才敢说:澳大利亚,是我去过的所有国家中,最被看轻的!

回国了我才敢说:澳大利亚,是我去过的所有国家中,最被看轻的!

冬天来旅游
2026-01-06 11:52:59
7 点被告知项目被抢走,我7点12分就提交离职报告,拉黑所有同事

7 点被告知项目被抢走,我7点12分就提交离职报告,拉黑所有同事

今天说故事
2026-01-03 23:56:51
米粉终于赢了一次

米粉终于赢了一次

虎嗅APP
2026-01-07 07:02:07
女优新有菜引退删除账号,请求粉丝:偶遇就当陌生人

女优新有菜引退删除账号,请求粉丝:偶遇就当陌生人

小雅娱乐八卦
2026-01-06 00:05:06
中国承诺不先动用核武器,要是美国炸毁北斗卫星,中国就输定了?

中国承诺不先动用核武器,要是美国炸毁北斗卫星,中国就输定了?

嫹笔牂牂
2026-01-06 12:08:16
白宫:特朗普考虑动用美军等“一系列选项”得到格陵兰岛

白宫:特朗普考虑动用美军等“一系列选项”得到格陵兰岛

新华社
2026-01-07 06:57:20
金庸去世7年后,小他29岁的林乐怡卖房套现2亿,低调享受富婆生活

金庸去世7年后,小他29岁的林乐怡卖房套现2亿,低调享受富婆生活

和平声浪
2026-01-04 15:32:08
“手打奶茶”!霸王茶姬从重处理,关店开除员工,小姑娘恐被索赔

“手打奶茶”!霸王茶姬从重处理,关店开除员工,小姑娘恐被索赔

辣条小剧场
2026-01-06 22:52:53
释永信倒台后,老乡才敢说实话,当年他想两三万一户买下整个村

释永信倒台后,老乡才敢说实话,当年他想两三万一户买下整个村

文史旺旺旺
2026-01-07 11:06:11
恭喜!2026是九紫离火大运的爆发期,看到此文的你就是天选之子

恭喜!2026是九紫离火大运的爆发期,看到此文的你就是天选之子

金沛的国学笔记
2026-01-06 16:23:08
泪流满面!网传昆山一家20多年外企撤场,N+1额外赠送一张购物卡

泪流满面!网传昆山一家20多年外企撤场,N+1额外赠送一张购物卡

火山詩话
2026-01-06 09:22:19
好讽刺!司晓迪发照片爆料鹿晗!关晓彤发的帖文锤了就是鹿晗家

好讽刺!司晓迪发照片爆料鹿晗!关晓彤发的帖文锤了就是鹿晗家

小邵说剧
2026-01-06 14:02:49
刺激夜:尤文3-0,罗马2-0,越南2-0,拜仁5-0,穆帅前东家2-0进决赛

刺激夜:尤文3-0,罗马2-0,越南2-0,拜仁5-0,穆帅前东家2-0进决赛

侧身凌空斩
2026-01-07 06:05:41
2026-01-07 11:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14270文章数 66448关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

体育要闻

全明星次轮票数:东契奇票王 詹皇超KD升西部第8

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

本地
教育
游戏
亲子
艺术

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

教育要闻

果脯咋读?噘嘴还是撅嘴?《咬文嚼字》发布“2025年十大语文差错”;快来看看,这些你都读写正确了吗? #咬文嚼字 #语文 #读音 #错别字

曾因暴力引争议!赛车爽游新作上架PS5商店

亲子要闻

笑发财了!宝妈问网友:给娃买的衣服留不留,不料评论区炸了锅

艺术要闻

David Grossmann:不一样的风景画

无障碍浏览 进入关怀版