网易首页 > 网易号 > 正文 申请入驻

5个AI Agent“辩论”诊断,准确率超人类专家4倍 | 微软AI CEO详解微软医疗AI新突破

0
分享至

7月5日,Microsoft AI 首席执行官 Mustafa Suleyman接受Big Technology播客的访谈,详细介绍了微软在医疗AI领域的最新突破——多智能体“诊断协调器”。阐述了其设计理念、性能数据,系统性地解答了关于该系统技术架构、相较人类的性能优势、内在的透明度机制,以及对未来医生角色带来何种改变等一系列问题。

对话从一个核心数据展开:目前通过 AI 产品提出的健康相关查询已达到怎样的规模?这与传统搜索有何不同?

Suleyman 指出,目前 Microsoft Copilot 及其他 AI 应用每日处理的健康相关查询高达 5000 万次。他认为这是一个积极的信号,因为 AI 正在让信息获取变得更具对话性。他解释道:“搜索引擎已经让信息的获取变得极其廉价和便捷。而现在有了 Copilot,我们得到的答案更具对话性,你可以根据自己特定的知识背景和专业水平,调整回答的风格和深度。这常常会鼓励用户提出第二个、第三个问题,从而将一次简单的查询,转变为一场类似于你和医生之间的深度对话或咨询。” 这些查询覆盖了从癌症到心理健康,再到皮肤疹等极为广泛的健康问题。

这项由 Microsoft AI 宣布的新进展——多智能体“诊断协调器”,其具体工作原理是怎样的?

Suleyman 表示,这套系统的核心是模拟 AI 扮演诊断医生的角色,其工作流程覆盖了从问询到诊断的全过程。为了验证和训练这套系统,研究团队使用了《新英格兰医学杂志》发布的数百个真实历史病历。“这些病例每周都会发布一个,对医生来说就像一个终极填字游戏。他们显然要到下周才能看到答案,这是一个巨大的猜谜游戏,需要回顾五到七页非常详细的病史,然后试图弄清楚诊断结果究竟是什么。”

在具体实现上,系统在概念上由两个核心AI角色构成:一个“信息看门人”负责管理和调取患者所有的医疗信息;另一个“诊断医生”则通过与“看门人”对话,主动、有序地探寻病史、分析数据,并最终给出诊断。

为何需要采用一套由多个机器人对话组成的复杂系统,而非依赖单一的生成式 AI 模型一步到位?

Suleyman 指出,AI 领域近期的重大突破在于具备推理能力的模型,它们能在推理时主动查询其他 AI Agent 或信息源,以提升回答质量,而不是直接给出第一个想到的答案。他认为,真正的价值高地正在向上层转移。“随着AI模型本身逐渐商品化,真正的价值将体现在顶层的协调、编排与产品集成上。”

这个被称为“协调器”的系统,其底层调用了来自几家主流供应商的四种不同模型。通过这种智能编排,系统的综合准确率能在每个独立模型的基础上再获得约 10% 的显著提升。

该系统的实际表现如何?与人类专家的能力相比处于何种水平?

Suleyman 提供了直接的基准测试数据。在一项使用了《新英格兰医学杂志》病例的模拟诊断测试中,一批顶尖人类医生的平均诊断正确率约为 20%。相比之下,协调器系统的准确率达到了 85%。

他对此评价道:“它的准确率是人类专家的四倍以上。在我的职业生涯中,从未见过人类水平的表现与 AI 系统的表现之间存在如此巨大的差距。很多年前,我曾从事大量关于放射学、头颈癌和乳腺 X 光检查的诊断工作,目标只是拿一个单一的放射学检查来预测是或否有癌症。而那是我们能做的极限。而现在,它不仅仅是产生一个二元分类输出,而是实际上产生一个非常详细的诊断,并通过这种交互式对话机制顺序地完成。所以这极大地提高了准确性。”

这套系统是否能摆脱对训练数据的依赖,进行真正的推理?

Suleyman 强调,该系统具备真正的推理能力,而非记忆。他解释说:“我们与《新英格兰医学杂志》合作的部分原因,是因为他们每周都会发布一个全新的病例,这个病例甚至从未被数字化过。所以毫无疑问它不在训练数据中。例如,上周的这个病例,绝对不可能在训练数据中,因为它实际上是刚刚发表的。所以我不认为有任何那样的可能性。这真的是在做一种抽象的判断,它不是在复现训练数据,而是在根据它已有的知识进行某种推理或思考。”

对于 AI 系统普遍存在的“黑箱”问题,以及医生可能因依赖 AI 而导致“技能退化”的担忧,该系统如何应对?

Suleyman 认为,该系统的设计恰恰解决了这些问题。其核心在于过程的透明化。他详细描述道:“这不仅仅是给出一个黑箱答案。这就是为什么顺序诊断部分如此重要的原因,因为你可以实时观看 AI 向病历提问,得到一个答案,形成一个新问题,得到一个答案,提出一个新问题,然后要求一种不同类型的测试,得到那些结果,解释它,然后给出一个答案。所以对话性质意味着人类医生可以跟随,并以一种非常透明的方式实际学习。”

为了实现这种透明的、高质量的决策,系统内部拥有一套独特的协作机制。“我们实际上创造了五种不同类型的AI Agent,它们都会进行辩论,我们称之为‘辩论链’。它们相互协商,它们试图优先考虑某些不同的方面,比如成本或效率。正是这些不同技能在医生 Agent 之间的协调,实际上使这个系统如此有效。”

如果医生能够观察 AI 的全过程,这是否意味着他们的角色会变得被动?这种工具的真正效用在哪里?

Suleyman 承认让医生亲身思考的价值,但他认为新工具带来的益处远超风险。“我仍然认为这将是一个了不起的教育工具,让医生实际学习他们从未遇到过的广泛病例。例如,我们上周实际上在《新英格兰医学杂志》的最新病例研究上运行了 DXO 协调器,它正确地诊断了一个在所有医学文献中只出现过 1500 次的病例。那是一种非常晦涩的罕见病。所以很少有医生能有机会看到那个。因此,在真实的临床应用环境中准确和可预防地检测这类疾病的能力,我认为将大大超过医生无法以你描述的方式进行锻炼的风险。”

这项技术将如何重塑医生的未来角色?

Suleyman 认为,医生的角色远不止是做出诊断,AI 的介入将使其工作重心向更高价值的领域转移。他表示,人类专家医生仍然需要运用大量的判断力,尤其是在诊断之后。“判断什么对患者有效,并帮助患者决定,‘鉴于我现在知道我得到了这个诊断,我想采取什么治疗以及何时采取?以及那里的权衡是什么?’所以那将需要大量的判断力。”

因此,医生的角色不仅仅是提供人际连接和亲身陪伴,更是“以一种深度共情的方式与一个收到了诊断的患者一起思考,来规划他们的治疗过程。”

这套“协调器”方法论是否具有更广泛的应用前景?以及 Microsoft 对这项技术的最终目标是什么?

Suleyman 确认,这种方法论具有广泛的适用性。“这些协调器的基本方法是它们调整不同的 AI 来扮演非常具体的角色,然后让这些 AI 相互协商、辩论和讨论。这种设置显然适用于很多不同的环境,无论是在商业中,甚至未来在政府中。”

对于这项技术的未来,他怀有极高的期望。尽管目前尚处早期研究阶段,但他认为其展现的潜力是迈向“真正的医疗超级智能”的步伐。最终的目标是:“我们希望尝试尽快地、尽可能广泛地提供它,包括为我们每天 5000 万的健康查询服务。所以这将是我们的雄心壮志,就是以最安全的方式,尽快地把它带到消费者面前。”

【AI技术与应用交流群|仅限受邀加入】

AI算力领域TOP级从业者专属圈层

√ 与头部算力企业深度对话

√ 与AI上下游企业深度对话

√ 获取一手全球AI与算力产业信息

√ 获取AI热点及前沿产业独家信息

√ 随时了解全球AI领域高管最新观点及实录全文

√ 有机会参与AI主题产业交流活动

扫码验证身份(需备注姓名/公司/职务)

不止有 DeepSeek,更有 AI产业的未来!


| 文章来源:数字开物

• END

【专栏】精品再读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗主动出击,精准炸穿核弹基地?爆炸照亮半边天 特朗普紧急叫

伊朗主动出击,精准炸穿核弹基地?爆炸照亮半边天 特朗普紧急叫

顾蔡卫
2026-05-23 13:11:30
上海杨梅市场直击:安心杨梅应该怎么买?

上海杨梅市场直击:安心杨梅应该怎么买?

上观新闻
2026-05-23 07:21:05
2盘6-3!中国金花绽放:掀翻16号种子,重返法网正赛,双喜临门!

2盘6-3!中国金花绽放:掀翻16号种子,重返法网正赛,双喜临门!

刘姚尧的文字城堡
2026-05-23 07:07:44
国乒大洗牌来了!秦志戬狠砍4位世界冠军,3大新星被强推上位

国乒大洗牌来了!秦志戬狠砍4位世界冠军,3大新星被强推上位

大鱼简科
2026-05-22 16:45:28
越南要成为下一个乌克兰?一旦中越开战,中国不会手下留情

越南要成为下一个乌克兰?一旦中越开战,中国不会手下留情

国际阿尝
2026-05-22 17:03:19
61岁郭富城参观方媛舅舅的饭店,和一帮亲戚喝酒,获外婆拥抱送别

61岁郭富城参观方媛舅舅的饭店,和一帮亲戚喝酒,获外婆拥抱送别

一盅情怀
2026-05-21 16:23:41
2026年反腐重点,没有烟草、消防、医药、工程建设了,有三个变化

2026年反腐重点,没有烟草、消防、医药、工程建设了,有三个变化

职场资深秘书
2026-05-22 20:56:28
新加坡新总理“闯祸”!中国拒见黄循财,李显龙亲自来“擦屁股”

新加坡新总理“闯祸”!中国拒见黄循财,李显龙亲自来“擦屁股”

嫹笔牂牂
2026-05-23 09:59:00
太尴尬!一戴眼镜小伙身着丝袜,坐在中年男腿上玩手机,举止亲密

太尴尬!一戴眼镜小伙身着丝袜,坐在中年男腿上玩手机,举止亲密

火山詩话
2026-05-22 07:35:57
73岁普京:能长期保持极佳的状态,核心在于高度自律的饮食与运动

73岁普京:能长期保持极佳的状态,核心在于高度自律的饮食与运动

照见古今
2026-05-21 15:55:02
北京被淘汰揪出四大罪人:许利民排第2:赵睿输球后竟还笑得出来

北京被淘汰揪出四大罪人:许利民排第2:赵睿输球后竟还笑得出来

篮球快餐车
2026-05-23 02:23:49
NBA官方公布最佳防守阵容 文班亚马霍姆格伦领衔

NBA官方公布最佳防守阵容 文班亚马霍姆格伦领衔

环球网资讯
2026-05-23 14:32:28
郭晶晶霍启刚长子太像爸妈!英国名校就读,精通多门语言超优秀

郭晶晶霍启刚长子太像爸妈!英国名校就读,精通多门语言超优秀

一盅情怀
2026-05-22 13:53:33
广东和江苏的省会都坐不住了:为抢“双机场” 广州开建 南京亮底牌

广东和江苏的省会都坐不住了:为抢“双机场” 广州开建 南京亮底牌

天气观察站
2026-05-23 13:04:59
炸锅!徐杰硬气放弃国家队短训营,赴美特训:陪跑不如变强

炸锅!徐杰硬气放弃国家队短训营,赴美特训:陪跑不如变强

林子说事
2026-05-23 14:17:18
屈居亚军!U17亚洲杯决赛:中国2比3日本 11月将战世少赛

屈居亚军!U17亚洲杯决赛:中国2比3日本 11月将战世少赛

新英体育
2026-05-23 09:17:14
7人可不参加高考直通大学!体育总局祝贺U17国足:展现了青春力量

7人可不参加高考直通大学!体育总局祝贺U17国足:展现了青春力量

风过乡
2026-05-23 06:55:49
52岁保姆哭诉:月薪6千,却被67岁男雇主当老婆使唤,太没尊严了

52岁保姆哭诉:月薪6千,却被67岁男雇主当老婆使唤,太没尊严了

孢木情感
2026-05-23 14:35:14
山东大师王兴夫被抓捕归案,99名女徒弟揭露内幕,真相让人意外

山东大师王兴夫被抓捕归案,99名女徒弟揭露内幕,真相让人意外

诡谲怪谈
2025-03-25 17:25:18
最讨厌说假话!张雪直播识破车主撒谎当场宣布:拉黑并取消福利

最讨厌说假话!张雪直播识破车主撒谎当场宣布:拉黑并取消福利

快科技
2026-05-21 19:04:10
2026-05-23 16:07:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4755文章数 37465关注度
往期回顾 全部

科技要闻

爆炸声中又迈一步!拆解马斯克“十二飞”

头条要闻

总投资8亿的项目违规 民营建筑巨头诉广西贵港城管局

头条要闻

总投资8亿的项目违规 民营建筑巨头诉广西贵港城管局

体育要闻

少年意气,正在改变中国足球

娱乐要闻

歌手2026首播:胡彦斌破音 张碧晨跑调

财经要闻

股价暴跌!富途老虎是什么来头?

汽车要闻

与众07上市限时权益价10.99万起 首搭CEA架构

态度原创

健康
时尚
亲子
本地
艺术

外泌体 ≠ 生长因子!它们之间究竟有何区别?

夏天,更适合穿“爸爸裤”!

亲子要闻

儿童补脑DHA哪款好?热门补脑产品实测:磷脂酰丝氨酸PS与神经酸健脑益智

本地新闻

用云锦的方式,打开江苏南京

艺术要闻

15幅 2026年国家艺术基金优秀油画作品选

无障碍浏览 进入关怀版