网易首页 > 网易号 > 正文 申请入驻

医生要成为AI推理大师:这个新系统让机器像专家医生一样思考

0
分享至

这项由上海人工智能实验室、复旦大学和上海交通大学联合完成的研究于2025年6月发表在arXiv预印本平台上(论文编号:arXiv:2506.16962v1),感兴趣的读者可以通过该编号或访问https://github.com/manglu097/Chiron-o1获取完整论文和代码。

医生看病时,不是简单地看一眼就下结论,而是要仔细观察、逐步分析、反复思考,最终得出诊断。比如面对一个头痛的病人,医生会先询问症状持续时间,然后检查体征,接着结合影像资料,一步一步推理出可能的病因。然而,目前的医疗人工智能却像是一个急躁的实习生,看到问题就急于给出答案,缺乏这种深思熟虑的推理过程。

研究团队发现了一个有趣的现象:让AI学会医疗推理就像培养一个优秀的医生一样,需要大量高质量的"思考过程"训练。就好比学开车不能只记住"踩油门前进,踩刹车停车",还要学会"遇到红灯时先观察路况,然后逐渐减速,最后平稳停车"这样的完整思维链条。医疗诊断更是如此,需要AI掌握从症状观察到最终诊断的每一个推理步骤。

问题在于,制作这样的医疗推理训练数据比想象中复杂得多。在其他领域,比如数学题,我们可以很容易地众包获得解题步骤,但医疗推理需要专业的医学知识,请专家一个个手工标注既昂贵又耗时。更糟糕的是,即使有了推理步骤,我们也很难判断这些步骤是否真的有效,是否真的能帮助AI做出正确诊断。

为了解决这个难题,研究团队开发了一套名为"导师-学员协作搜索"(MICS)的创新方法。这个方法的核心思想非常巧妙,就像现实中导师指导学员学习的过程:导师提供指导思路,学员按照指导去解决问题,如果学员能成功解决问题,说明导师的指导是有效的;如果学员失败了,说明指导有问题,需要调整。

具体来说,研究团队设计了一个多模型协作的搜索系统。在这个系统中,有三个"导师模型"负责提供推理指导,包括ChatGPT-4o、Gemini 2.5 Pro和Qwen2.5-VL-72B。同时还有六个"学员模型"(三个不同的模型,每个使用两种不同的温度参数)负责按照导师的指导去解决实际的医疗问题。

这个协作过程就像一场精心设计的教学实验。导师们会针对同一个医疗案例提出不同的推理路径,比如面对一个胸痛病人,导师A可能建议先分析病史,导师B可能建议先查看心电图,导师C可能建议先进行体格检查。然后,所有的学员模型都会按照这些不同的指导思路去分析这个病例,看看最终能否得出正确的诊断。

关键的创新在于评价机制。研究团队提出了"MICS得分"的概念,用来衡量推理路径的有效性。这个得分很简单直观:如果按照某个推理路径,大多数学员都能得出正确答案,那么这个推理路径就得高分;如果大多数学员都失败了,说明这个推理路径有问题,得分就低。这就像考试一样,如果一个解题方法能让大多数学生都做对题目,说明这个方法是好的。

整个搜索过程是迭代进行的。系统会选择得分最高的推理步骤作为下一步搜索的起点,继续寻找最优的推理路径,直到找到一条完整的、高质量的推理链条,或者达到预设的最大搜索深度。这样,系统就能自动生成大量高质量的医疗推理数据,而且每一条推理路径都经过了严格的验证。

基于这套方法,研究团队构建了一个名为MMRP的综合医疗推理数据集。这个数据集就像一本完整的医学教科书,包含了从简单到复杂的各种医疗场景。数据集分为三个部分:第一部分是基础的医疗问答,就像医学院的入门课程;第二部分是图像-文本匹配数据,帮助AI理解医疗影像;第三部分就是用MICS方法生成的复杂推理数据,涵盖了12种医疗影像模式和20个人体系统。

特别有趣的是,研究团队还设计了三种不同的临床问答场景来训练AI。第一种是"患者向医生提问"的场景,模拟病人对诊断或治疗的困惑和担忧;第二种是"医生之间讨论"的场景,模拟专业医生之间的学术交流;第三种是"实习生向资深医生请教"的场景,模拟临床教学中的常见情况。这样的设计让AI能够适应各种真实的医疗交流场景。

在训练AI模型时,研究团队采用了类似人类学习的"循序渐进"策略。就像医学生的学习过程一样,首先学习基础医学知识,然后学习如何理解医疗影像,最后学习复杂的临床推理。这种课程式学习方法确保AI能够扎实地掌握每一个阶段的知识,为后续的复杂推理打下坚实基础。

研究团队最终开发出了名为Chiron-o1的医疗AI模型。这个模型的表现令人印象深刻,在多个医疗视觉问答和推理基准测试中都达到了最先进的性能。更重要的是,Chiron-o1不仅能给出正确答案,还能提供详细的推理过程,就像一个真正的医生一样,能够解释自己的诊断思路。

为了验证系统的有效性,研究团队进行了全面的对比实验。他们将Chiron-o1与现有的医疗AI模型进行了详细比较,包括通用的多模态大语言模型、专门的医疗AI模型,以及其他医疗推理模型。结果显示,Chiron-o1在几乎所有测试中都表现出色,特别是在需要复杂推理的任务上优势明显。

更深入的分析表明,MICS方法确实能够识别出有效的推理路径。通过分析推理过程中各步骤的得分变化趋势,研究团队发现,MICS生成的推理路径大多呈现稳步上升的得分趋势,而传统方法生成的推理路径则常常出现波动或下降,说明MICS能够有效地过滤掉低质量的推理步骤。

研究团队还进行了详细的案例分析,展示了不同模型在面对同一个复杂医疗问题时的表现差异。例如,对于一个20岁男性患者的头颅CT显示左侧枕顶骨异常平坦的病例,现有的医疗推理模型要么给出过于简单的分析(如Med-R1认为这可能只是正常解剖变异),要么出现明显的幻觉(如MedVLM-R1错误地诊断为颅骨骨折)。而Chiron-o1则能够进行深入细致的分析,从患者年龄、影像特征、鉴别诊断等多个角度进行推理,最终正确诊断为原发性先天性斜头畸形。

这项研究的意义远远超出了技术本身。在实际应用中,这样的AI系统可以作为医生的智能助手,特别是在医疗资源匮乏的地区,能够提供高质量的诊断建议和推理过程。对于医学教育而言,这样的系统也能够成为优秀的教学工具,帮助医学生学习标准化的诊断思维过程。

当然,研究团队也诚实地指出了当前方法的局限性。MICS方法需要多个大型模型协作,这意味着较高的计算成本和API调用费用。此外,MMRP数据集的规模还有进一步扩大的空间,这将是未来工作的重点方向。

值得注意的是,这项研究在方法论上也有重要贡献。传统的强化学习方法虽然能够提高模型性能,但往往局限于现有的推理范式,难以产生真正创新的推理方法。而MICS方法通过在训练阶段引入高质量的推理数据,能够帮助模型学习到新的推理模式,从根本上提升推理能力。

从更广阔的视角来看,这项研究代表了医疗AI发展的一个重要方向:从简单的模式识别转向深度的推理理解。就像医学从经验医学发展到循证医学一样,医疗AI也正在从"黑箱"诊断转向"可解释"推理。这种转变不仅能提高诊断准确性,更能增强医生和患者对AI系统的信任。

研究团队的工作还展示了跨学科合作的重要性。这项研究融合了人工智能、医学影像学、临床医学等多个领域的知识,体现了现代科学研究中协作创新的重要性。正是这种跨领域的深度合作,才使得复杂的医疗推理问题得到了有效解决。

展望未来,这样的医疗推理AI系统有望在多个方面发挥重要作用。在临床实践中,它可以辅助医生进行复杂病例的诊断,特别是那些需要综合多种信息进行推理的疑难杂症。在医学教育中,它可以作为标准化的教学工具,帮助学生掌握规范的诊断思维过程。在医疗质量控制中,它可以帮助识别潜在的诊断错误或遗漏。

说到底,这项研究最大的价值在于为医疗AI的发展开辟了一条新路径。通过MICS这样的创新方法,我们不仅能够训练出更准确的医疗AI系统,更重要的是能够让这些系统具备类似人类医生的推理能力。这意味着AI不再是一个不可解释的"黑箱",而是一个能够与医生进行有效沟通、共同解决医疗问题的智能伙伴。

归根结底,这项研究体现了一个重要理念:好的AI不应该取代人类专家,而应该增强人类的能力。通过提供高质量的推理过程和可验证的诊断思路,Chiron-o1这样的系统能够帮助医生做出更好的决策,同时也为医疗AI的可信度和可接受度奠定了重要基础。随着技术的不断发展和完善,我们有理由相信,这样的智能医疗助手将在不久的将来成为医疗实践中的重要组成部分,为改善全球医疗质量作出重要贡献。

Q&A

Q1:MICS方法是什么?它是如何工作的? A:MICS是"导师-学员协作搜索"方法,通过多个AI导师模型提供推理指导,然后让学员模型按照指导解决医疗问题。如果学员能成功解决问题,说明推理路径有效。这样能自动生成高质量的医疗推理训练数据,避免了昂贵的人工标注成本。

Q2:Chiron-o1会不会取代医生? A:不会取代医生,而是作为医生的智能助手。Chiron-o1的价值在于提供详细的推理过程和诊断建议,帮助医生特别是在医疗资源匮乏地区的医生做出更好的决策。它更像是一个永远在线的资深专家顾问,而最终的诊疗决策仍需要人类医生做出。

Q3:这个医疗AI系统的推理能力有多强? A:在多个医疗基准测试中,Chiron-o1都达到了最先进的性能,特别是在复杂推理任务上表现突出。它能够像真正的医生一样进行逐步分析,从症状观察到影像解读,再到鉴别诊断,最终得出合理结论。与现有医疗AI相比,它的推理过程更加详细和可信。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

外蒙宣布独立时,只有一个部落支持留在中国,如今情况怎么样了?

抽象派大师
2026-06-29 16:55:46
突发!以色列宣布:打死伊斯梅尔·马斯里

突发!以色列宣布:打死伊斯梅尔·马斯里

每日经济新闻
2026-06-30 11:36:05
俄百枚导弹袭乌致100多人伤亡,乌军FP-9弹道导弹雷霆反击

俄百枚导弹袭乌致100多人伤亡,乌军FP-9弹道导弹雷霆反击

史政先锋
2026-07-02 16:15:30
队报:塞内加尔出局,球队主帅蒂奥遭炮轰

队报:塞内加尔出局,球队主帅蒂奥遭炮轰

懂球帝
2026-07-02 20:07:09
从2026年7月1日起,全国将强制执行退休返聘及超龄员工,好事呀!

从2026年7月1日起,全国将强制执行退休返聘及超龄员工,好事呀!

福建睿平
2026-07-02 07:47:57
A股收评:遭遇“黑周四”!科创50暴跌7.7%,市场在怕什么?

A股收评:遭遇“黑周四”!科创50暴跌7.7%,市场在怕什么?

海右那人
2026-07-02 16:04:58
广东一女童被男子抛入河中,幸被路人及时救起,当地:男子与女童系家人,已送精神病院

广东一女童被男子抛入河中,幸被路人及时救起,当地:男子与女童系家人,已送精神病院

潇湘晨报
2026-07-02 15:49:17
初台风生成在即!明后天或接连登陆海南广西 华南将迎猛烈台风雨

初台风生成在即!明后天或接连登陆海南广西 华南将迎猛烈台风雨

北青网-北京青年报
2026-07-02 17:58:12
清华大学毕业照首排坐小孩 官方只默默删除却无回应

清华大学毕业照首排坐小孩 官方只默默删除却无回应

封面新闻
2026-07-02 17:12:41
扎哈罗娃:冯德莱恩是个“出色的骗子”

扎哈罗娃:冯德莱恩是个“出色的骗子”

参考消息
2026-07-02 14:14:08
扎克伯格一个骚操作,直接把AI存储市场搞崩了!网友:小扎想回血,市场大出血

扎克伯格一个骚操作,直接把AI存储市场搞崩了!网友:小扎想回血,市场大出血

大白聊IT
2026-07-02 17:34:58
西安赛格商户坠楼,曾因“拆券”被罚千万,详情披露

西安赛格商户坠楼,曾因“拆券”被罚千万,详情披露

中国新闻周刊
2026-07-02 18:40:49
重磅!凯尔特人与76人达成1换5交易 布朗乔治互换东家

重磅!凯尔特人与76人达成1换5交易 布朗乔治互换东家

罗说NBA
2026-07-02 06:20:21
西方坐不住了!20台“钢铁心脏”出口俄罗斯,外媒:一百年造不出

西方坐不住了!20台“钢铁心脏”出口俄罗斯,外媒:一百年造不出

疯狂的小菠萝
2026-07-02 10:48:36
黄有龙澳洲赌债案一审落槌:2.8亿输光、2.7亿还清,亿元利息主张

黄有龙澳洲赌债案一审落槌:2.8亿输光、2.7亿还清,亿元利息主张

三农老历
2026-07-02 15:26:26
浙江省纪委省监委:沈午卫,主动投案!

浙江省纪委省监委:沈午卫,主动投案!

都市快报橙柿互动
2026-07-02 19:25:37
黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

黄有龙澳洲赌债案落槌:2.8亿输光、2.7亿本金偿还、亿元利息主张

阿讯说天下
2026-07-02 09:56:50
安徽省药监局通报困难职工情况登记表相关情况

安徽省药监局通报困难职工情况登记表相关情况

界面新闻
2026-07-02 19:38:54
从银行辞职,嫁百亿富豪,丈夫破产后,她在上海开艾灸馆维持体面

从银行辞职,嫁百亿富豪,丈夫破产后,她在上海开艾灸馆维持体面

胡一舸南游y
2026-07-02 17:35:56
反杀开始!华为昇腾950PR登陆韩国:四分之一价格干翻英伟达H20

反杀开始!华为昇腾950PR登陆韩国:四分之一价格干翻英伟达H20

快科技
2026-07-02 11:58:19
2026-07-02 20:51:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19781文章数 49712关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

售价超30万小鹏新车仅200公里爆胎 4S店给的说法反复

头条要闻

售价超30万小鹏新车仅200公里爆胎 4S店给的说法反复

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

教育
艺术
旅游
房产
军事航空

教育要闻

压线生注意!今年填志愿有大风险!

艺术要闻

冉茂芹人物写生 17幅

旅游要闻

走进河北,向美而行 | 新京报快评

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版