网易首页 > 网易号 > 正文 申请入驻

微软 AI 诊断准确率超人类医生4倍,以后看病前先问问它?

0
分享至

四倍,AI 医生的诊断准确率远超过人类医生。

这可能有点难以置信,但微软人工智能团队日前发布的一项 AI 诊断协调系统 MAI-DxO(MAI Diagnostic Orchestrator)真的做到了。

它在《新英格兰医学杂志》每周发布共计 304 个真实复杂病例上进行了基准测试。测试结果显示,准确率达到了85.5%。

这个基准测试不再是之前光凭借记忆,就可以做到的试卷答题,而是微软创建的全新的评测标准,「顺序诊断基准」(SD Bench)。它高度还原了真实诊疗过程的互动挑战:

  1. 从患者的初步症状描述入手。
  2. 通过多轮提问,选择各种检验检查,逐步手机病情信息。
  3. 每开一项检查,同时记录检查项目的费用;评估必要性和成本。
  4. 给出最终诊断。

同样面对这个 304 个复杂病例,微软选择了另外 21 位来自美国和英国,具有 5 年至 20 年临床经验的执业医生,测试结果显示,真实医生的平均准确率仅为 20%,这与 「AI 医生」的差距足足有四倍之大。

同时,与人类医生相比,这个「AI 医生」还少开了很多不必要的检查,减少了 20%-70% 的诊断成本。

▲顺序诊断基准测试介绍图,「守门人」回应来自诊断代理的信息请求,评估模型则评估诊断代理的最终诊断与病例报告准确度。

MAI-DxO 究竟是如何做到人类医生的准确率四倍之高呢,它不是一个新出现的大语言模型,它也不依赖某个单一的模型。

MAI-DxO 是一个模拟现实中多名医生合作诊断过程的系统。得益于当前大语言模型的持续发展,在 MAI-DxO 系统中,有不同的语言模型去扮演五种不同的医疗角色。

这些医疗角色包括推测各种结果的假设医生、选择医生、质疑当前诊断假设的挑战医生、避免不必要检查的成本管理医生、以及确保诊断步骤和选择逻辑一致的检查表医生。

这些「医生」协作工作,充分地模拟了人类医生团队的工作流程,还弥补了单一 AI 模型在复杂诊断中可能出现的缺陷。

▲MAI-DxO 系统概览图

如上图描述的系统概览图所示,MAI-DxO 完全模拟了我们去医院看病的流程。

  1. 首先从问诊开始,MAIN-DxO 会得到一个简短的临床小故事,通常为 2-3 句话,包含病例的基本情况。
  2. 接着,MAI-DxO 会开始总结患者的主要诉求,选择下一步操作,是继续向患者提问,还是申请开检查。
  3. 每开一项检查会计算检查费用,同时持续进行多轮互动,直到给出最后诊断结果。

在测试过程中,MAI-DxO 利用 o4-mini 和专业医生设置了一个「守门人」,确保系统给 AI 的信息是与正常医生在问诊和临床上能够得到的信息一样。

MAI-DxO 的出现,为大语言模型在医疗诊断上取得明显的性能提升。微软测试了来自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型,表现均优于仅使用单一的 AI 模型,而表现最好的组合是 MAI-DxO 与 OpenAI 的 o3 配对。

由于不受大语言模型的限制,MAI-DxO 还能够在将来有更好的模型出现时,同步适配。

▲不同人工智能模型的准确性和每例平均诊断测试成本对比

尽管看起来 「AI 医生」已经有模有样,不过 AI 要真正做一个好医生可不是那么容易的。

微软在该项目论文最后提到,这次的研究存在显著局限性,包括像参与对比实验的 21 位医生并没有获得同行的讨论协助、参考书籍以及生成式 AI 等资源。此外,微软这次实验也仅仅只讨论了最具挑战性的病例难题,而对我们一般的日常性疾病诊断没有做进一步的测试。

微软强调 AI 不会取代医生,它将成为医生与患者共同的助手。

但就是这个医生和患者共同的助手,也持续地吸引着全世界范围的关注;早在今年 3 月,微软就发布了医疗界首个用于临床工作流程的 AI 助手 Microsoft Dragon Copilot,它能帮助医生更好的整理病例的临床文件。

IBM 推出 IBM Watson Health 医疗人工智能平台、谷歌的 DeepMind、以及英伟达的 NVIDIA Clara 等,都正从导诊、问诊、病理等医疗场景中带来新的变革。

前段时间,阿里达摩院也发布了全球首个胃癌影像筛查 AI 模型 DAMO GRAPE,首次利用平扫 CT 影像结合深度学习识别早期胃癌病灶。

华为今年才组建组建医疗卫生军团,上周也联合瑞金医院,宣布开源 RuiPath 病理模型,具备临床验证能力,覆盖肺癌等 7 个常见癌种。

医学需要极高的精准度,0.01% 的失误也有可能造成严重的后果,它完全不同于程序员写代码时出现的 bug。

MAI-DxO 模拟真实问诊的过程,看起来这条 AI 医疗之路越来越清晰。

从百度问诊,到 ChatGPT 问诊,我想未来除了拿着普通医院的检查结果,查医院排行榜,付费问在线医生,还可以先看看这个「AI 医生」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒重磅判断:中国将成全球首个武器不用进口的大国

日媒重磅判断:中国将成全球首个武器不用进口的大国

杨风
2026-03-24 22:16:20
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

风风顺
2026-03-26 15:03:26
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 17:32:49
爱范儿 incentive-icons
爱范儿
消费科技第一媒体
38612文章数 2601337关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
游戏
数码
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版