网易首页 > 网易号 > 正文 申请入驻

蚂蚁集团团队颠覆医疗AI训练方式:用医生智慧教AI更懂看病

0
分享至


这项由蚂蚁集团联合香港中文大学(深圳)和北京大学共同完成的研究发表于2026年2月,研究编号为arXiv:2602.09653v2,为医疗人工智能的训练方式带来了突破性的改进。

当我们去医院看病时,好医生和普通医生的差别在哪里?好医生不仅知识丰富,更重要的是,他们知道在什么情况下该说什么话,什么时候该紧张,什么时候该安抚患者。这种细腻的临床判断力,正是当前医疗AI最缺乏的能力。

目前的医疗AI就像一个只会背书的学霸。它们在医学考试中表现优异,能够回答各种医学知识问题,但真正面对病人时,却常常不知道如何恰当地沟通。比如,当一个焦虑的母亲询问孩子发烧是否严重时,AI可能会机械地列出所有可能的疾病,把人吓得够呛;而经验丰富的儿科医生会先安抚情绪,再有针对性地询问关键症状,给出恰当的建议。

研究团队发现了这个问题的根源:传统的AI训练方法就像让学生只做标准化考试,而忽略了真实的临床情境训练。为了解决这个问题,他们开发了一套全新的训练体系,名为ClinAlign(临床对齐),这套方法的核心思想是让真正的医生来教AI如何在不同情况下给出恰当的回应。

一、医生手把手教AI的智慧传承体系

研究团队设计了一套类似师傅带徒弟的训练模式。他们首先收集了7034个真实的医疗咨询案例,这些案例覆盖了从简单的健康咨询到紧急医疗建议的各种情况。然后,他们让GPT-5.1这个强大的AI先给出初步的评判标准,就像让一个聪明的实习生先写个诊疗方案草稿。

接下来,真正的医生登场了。这111位来自不同科室的医生,包括外科、内科、妇产科等各个专业领域的主治医生和科室主任,开始像批改作业一样仔细审查这些AI生成的评判标准。他们不仅要纠正错误,更要根据自己的临床经验来完善这些标准。

这个过程就像厨师改进食谱一样。AI给出的初始"食谱"可能在理论上没问题,但缺乏实际操作的细节。医生们会说:"这里应该强调安全性","那里需要考虑患者的心理感受","遇到紧急情况时措辞要更明确"。经过平均1.34轮的修改,每个评判标准都得到了医生们的一致认可。

整个过程耗费了632.2个工作小时,成本约15172.80美元。虽然听起来不少,但考虑到这是在训练一个能服务千万患者的医疗AI,这个投入是非常值得的。最终,他们建立了一个名为HealthRubrics的数据集,这相当于一本由经验丰富的医生共同编写的"AI临床行为指南"。

二、从具体案例中提炼通用医疗智慧

有了医生验证的7034个具体案例后,研究团队面临一个新问题:如何让AI从这些具体案例中学会举一反三?毕竟,真实世界的医疗咨询千变万化,不可能为每一种情况都准备专门的训练案例。

研究团队的解决方案非常巧妙,他们开发了一套叫做HealthPrinciples的系统,把医生们在具体案例中体现的智慧提炼成119条通用原则。这个过程就像从无数个成功的烹饪案例中总结出一套完整的烹饪原理。

这119条原则按照四个维度进行分类:紧急程度、不确定性、用户专业程度和任务类型。紧急程度分为三个级别:非紧急(如常规健康咨询)、条件紧急(无法排除重要风险,需要关键信息)、紧急(明确的高风险特征,需要立即保护性行动)。不确定性也分为三个级别:信息充足、可减少的不确定性(通过对话可以澄清)、不可减少的不确定性(需要面诊、检查或化验)。

用户专业程度分为非专业人士和专业人士两类,这很重要,因为对普通患者和医学专业人员的沟通方式完全不同。任务类型则细分为21个类别,包括急诊分诊、症状评估、居家护理指导、药物安全、检查结果解读等等。

每条原则都像一个智慧的提醒。比如,对于"条件紧急"情况的原则是:"用冷静、非警示性的语言传达潜在严重性;给出有序的下一步:停止不安全暴露,现在就做低风险行动,避免伤害,监控症状,并具体说明何时何地寻求面诊或急诊护理。"这样的表达既体现了医学的专业性,又保持了人文关怀。

三、让AI学会在不同情况下恰当应答

有了这119条通用原则后,研究团队就可以大规模地训练AI了。他们又收集了16872个额外的医疗问题,利用这些原则为每个问题生成恰当的评判标准。这个过程就像一个经验丰富的主厨,可以根据不同食材和顾客需求,快速调配出合适的调料配方。

具体来说,当AI遇到一个新的医疗咨询时,系统首先会分析这个问题属于哪个类别:是紧急情况吗?信息是否充足?咨询者是专业人士还是普通患者?主要任务是什么?然后,系统会从119条原则中选择相关的原则,平均每个问题会匹配到22.9条原则。

接着,系统会把这些通用原则转化为针对具体问题的评判标准。比如,如果有人问"我孩子发烧了怎么办",系统会识别这是一个"条件紧急"的"症状评估"任务,咨询者是"非专业人士",然后生成相应的评判标准:回答应该询问关键症状(如发烧温度、持续时间、伴随症状),提供明确的就医指征,使用安抚性语言等。

研究团队还开发了一个推理时工具,可以在AI生成回答后,根据这些原则进行自我修正。这就像给AI配备了一个内在的临床督导,随时提醒它是否遵循了恰当的临床沟通原则。

四、训练效果令人惊艳的实际表现

研究团队使用强化学习技术,基于这些医生验证的评判标准来训练AI模型。他们选择了相对较小的Qwen3-4B模型作为基础,通过精心设计的训练过程,让它学会了如何在不同情况下给出恰当的医疗建议。

训练效果简直令人惊艳。在HealthBench-Hard这个专门测试医疗AI实用性的严格评测中,基础的Qwen3-4B模型原本只能得到5.2%的分数,经过医生手工标注的评判标准训练后,分数跃升到22.9%。当使用提炼的119条通用原则进行大规模训练后,分数进一步提升到24.4%。

最令人印象深刻的是,当研究团队使用稍大一些的Qwen3-30B-A3B模型时,经过完整的ClinAlign训练后,在HealthBench-Hard上达到了33.4%的分数。这个成绩不仅超越了许多规模更大的开源模型,甚至超过了一些知名的商业模型,包括DeepSeek-R1和o3等。

在其他评测中,这个经过特殊训练的医疗AI同样表现出色。在LLMEval-Med这个测试医疗语言理解、推理和安全伦理的综合评测中,模型在各个子项目上都有显著提升。特别值得注意的是,这种训练方法不仅提升了医疗专业表现,在Arena-Hard-v2这个测试通用能力的评测中也有显著提升,创意写作分数从34.9%跃升至79.4%。

研究团队还发现了一个有趣的现象:随着训练问题数量的增加,模型性能持续提升。从1000个问题训练到20000个问题,在固定计算资源下,性能呈现单调上升趋势。这说明多样化的临床情境训练比单纯的重复训练更有效,就像医学生需要接触各种不同病例才能真正成长一样。

五、推理时智能修正让AI越来越聪明

研究团队还开发了一个特殊功能,让AI在回答问题时能够进行自我反思和改进。这个功能基于提炼出的119条医疗智慧原则,当AI生成一个回答后,它会自动检查这个回答是否符合相关的临床原则,如果发现不足,会自动进行修正。

这个过程就像一个医生在给出诊断建议后,会习惯性地再检查一遍:"我有没有遗漏什么重要信息?表达是否恰当?患者能理解吗?是否考虑了安全因素?"实验结果显示,通过这种自我修正,AI的表现能够进一步提升,且修正效果在经过几轮后会趋于稳定。

测试显示,无论是使用哪种基础模型,通过多次推理时修正,HealthBench-Hard的表现都会稳步提升。虽然改进幅度会逐渐减小,但这证明了这种方法的普适性和有效性。这意味着即使是现有的AI模型,也可以通过这套原则获得更好的医疗咨询能力。

六、突破性成果重新定义医疗AI训练标准

这项研究的意义远超表面的性能提升数字。它首次证明了一个重要观点:对于医疗AI而言,纯粹的规模扩展不如精心设计的专业训练。一个经过临床智慧训练的小模型,可以在医疗应用中超越规模大十倍的通用模型。

研究团队的方法解决了医疗AI领域的一个根本性问题:如何让AI真正理解临床情境的复杂性和细致性。传统方法就像让学生只背教科书,而ClinAlign方法则像让学生跟着优秀的临床医生实习,学习在真实情况下如何恰当应对。

更重要的是,这套方法具有很强的可扩展性。119条提炼出的医疗智慧原则可以应用到新的医疗问题上,不需要每次都重新请医生标注。这就像有了一套完整的临床思维框架,可以指导AI处理各种新遇到的情况。

研究还显示,这种训练方法不仅提升了医疗专业能力,也增强了AI的通用交流能力。这表明,深度的专业训练实际上能够促进更广泛的智能表现,就像一个优秀的医生往往在其他需要细致沟通的领域也会表现出色。

从计算资源的角度来看,这个研究也具有重要的实用价值。它证明了通过精巧的训练方法,可以用相对较小的模型达到甚至超越大型模型的专业表现。这对于资源有限的医疗机构来说,提供了一个现实可行的AI应用方案。

研究团队已经承诺将完整的数据集和工具开源,这意味着全球的研究者都可以基于这套方法来改进医疗AI。这种开放合作的精神,将加速整个医疗AI领域的发展,最终让更多患者受益于更智能、更贴心的AI医疗助手。

这项研究为我们展示了一个令人兴奋的未来:AI不再是冷冰冰的机器回答,而是能够像经验丰富的医生一样,在不同情况下给出恰当、安全、有温度的医疗建议。当技术与人文关怀完美结合时,我们看到了医疗AI真正的价值所在。

Q&A

Q1:ClinAlign和传统医疗AI训练方法有什么不同?

A:传统方法让AI像背书一样学习医学知识,ClinAlign则让真正的医生手把手教AI在不同情况下如何恰当回应。就像从纸上谈兵变成了跟着师父实习,AI学会了不仅要答对,还要答得合适、安全、有温度。

Q2:为什么小模型训练后能超过大模型性能?

A:因为医疗咨询不只是知识问题,更重要的是临床判断和沟通技巧。经过医生验证的专业训练让小模型掌握了关键的临床智慧,就像一个有经验的专科医生比博学但缺乏临床经验的医学博士更适合看病一样。

Q3:普通人什么时候能用上这种更智能的医疗AI?

A:研究团队已承诺开源相关数据集和工具,这将加速全球医疗AI的改进。虽然还需要时间来完善和部署,但这项技术为开发更贴心、更安全的AI医疗助手奠定了重要基础,相信不久的将来我们就能体验到。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
倾家荡产移居美国,得绝症回国蹭医保,工作人员:外籍人员不报销

倾家荡产移居美国,得绝症回国蹭医保,工作人员:外籍人员不报销

小虎新车推荐员
2026-02-26 18:49:24
男子在顺风车上排便后“失联”,车主无奈报警!平台回应:赔偿车主519元,涉事乘客已被封号

男子在顺风车上排便后“失联”,车主无奈报警!平台回应:赔偿车主519元,涉事乘客已被封号

扬子晚报
2026-02-25 22:20:40
德国总理默茨一行见了10位浙江企业家代表,他们是谁?

德国总理默茨一行见了10位浙江企业家代表,他们是谁?

都市快报橙柿互动
2026-02-26 21:32:19
升破6.85!人民币创两年新高背后,外资正在疯狂抄底你的“命脉”

升破6.85!人民币创两年新高背后,外资正在疯狂抄底你的“命脉”

王二哥老搞笑
2026-02-26 14:08:07
令人窒息!公公掀翻饭桌烫伤3岁孙子,就因一句咱们先吃,不等了

令人窒息!公公掀翻饭桌烫伤3岁孙子,就因一句咱们先吃,不等了

丫头舫
2026-02-26 16:42:46
深夜,黄金白银走低!美联储降息,大消息!美伊谈判暂停,美军最大航母驶向中东!

深夜,黄金白银走低!美联储降息,大消息!美伊谈判暂停,美军最大航母驶向中东!

证券时报e公司
2026-02-26 23:20:04
2026春节走访思考:高速服务区取消加油站,真的好吗?

2026春节走访思考:高速服务区取消加油站,真的好吗?

丁道师
2026-02-25 19:04:45
曾被吹捧上天,如今却沦为笑柄的7个坑人设计,你家装了几个?

曾被吹捧上天,如今却沦为笑柄的7个坑人设计,你家装了几个?

Home范
2026-02-26 12:44:21
印陆军前参谋长终于承认:印军白死了!加勒万那夜,输的不是胆量

印陆军前参谋长终于承认:印军白死了!加勒万那夜,输的不是胆量

梁濆爱玩车
2026-02-26 00:45:15
亚洲第一帅又胖了!香港顶流姜涛过完年演出,腿粗肚子大跳舞笨拙

亚洲第一帅又胖了!香港顶流姜涛过完年演出,腿粗肚子大跳舞笨拙

冷紫葉
2026-02-25 18:19:24
这么成熟的脸来演初中生?都可以演初中生他妈了,这部剧疯了吧?

这么成熟的脸来演初中生?都可以演初中生他妈了,这部剧疯了吧?

星宿影视鸭
2026-02-26 11:17:18
俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

网易新闻出品
2026-02-24 10:00:05
广东主持区志航现状:66岁很油腻,转行成行为艺术家,女儿很漂亮

广东主持区志航现状:66岁很油腻,转行成行为艺术家,女儿很漂亮

白面书誏
2026-02-26 19:24:47
一路走好!2026年春晚才过10天,已有4位名人接连去世,令人唏嘘

一路走好!2026年春晚才过10天,已有4位名人接连去世,令人唏嘘

阿讯说天下
2026-02-26 11:23:19
一觉醒来,全球都在疯抢稀缺金属

一觉醒来,全球都在疯抢稀缺金属

贩财局
2026-02-26 08:28:20
张镇麟3中0!男篮客场赢日本,3新人没亮点,贺希宁队友首发拿2分

张镇麟3中0!男篮客场赢日本,3新人没亮点,贺希宁队友首发拿2分

体坛大事记
2026-02-26 22:50:38
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
司机:“不好意思,你差评有点多,不敢接”,乘客当场破防!

司机:“不好意思,你差评有点多,不敢接”,乘客当场破防!

宝哥精彩赛事
2026-02-27 01:37:35
随着中国赢日本 澳大利亚3连胜 韩国翻车 男篮世预赛晋级形势出炉

随着中国赢日本 澳大利亚3连胜 韩国翻车 男篮世预赛晋级形势出炉

侃球熊弟
2026-02-26 21:58:43
湖人内讧升级!东契奇唇语曝光!甩锅詹姆斯,球迷:想逼走goat

湖人内讧升级!东契奇唇语曝光!甩锅詹姆斯,球迷:想逼走goat

阿泰希特
2026-02-26 15:54:56
2026-02-27 07:28:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1928文章数 162关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

美国政府对外交官下令:开始行动

头条要闻

美国政府对外交官下令:开始行动

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

教育
亲子
旅游
家居
军事航空

教育要闻

高考100天倒计时!3招寄语助孩子冲刺金榜

亲子要闻

难怪他们会成为女儿奴,稳稳拿捏爸爸的心!

旅游要闻

海南三亚民宿8499元房间取消订单,被罚35万元:营业执照没保住

家居要闻

归隐于都市 慢享自由

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版