网易首页 > 网易号 > 正文 申请入驻

蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

就在医疗AI赛道激战正酣时,一个搅局者低调入场了。

依旧是蚂蚁,依旧「SOTA」

它就是蚂蚁集团联合浙江省卫生健康信息中心、浙江省安诊儿医学人工智能科技有限公司开源的医疗大模型——蚂蚁·安诊⼉(AntAngelMed)。

一经发布就登顶多项医疗基准测试榜单。



不讲什么噱头,也丝毫不喧嚣,它用数据和排名说话:

在OpenAI发布的HealthBench评测中强势霸榜开源模型第一,超越Baichuan-M2和gpt-oss-120B。

并横扫MedAIBench、MedBench等权威医疗榜单。

它也是迄今为止参数规模最大的开源医疗模型,足足有100B。

应用门槛相当低,即使是在中小型医疗机构,AntAngelMed也足以支撑起实时多轮交互和规模化部署,是真正能够落地跑起来的模型。



它为行业示范出一条清晰明确的路径——通过“专、精、稳”三位一体,构建通用智能+医疗专长的全栈能力闭环。

环顾全球,AI医疗正在成为一场关乎全人类健康的数字化变革。

李飞飞团队发布的斯坦福《2025 AI Index Report》中明确指出,AI已经从实验室正式走向临床和实际应用。

研究表明,AI比专业医生在诊断复杂临床病例时表现更优,而AI与医生的协作往往能取得最佳结果。与此同时,一系列医疗专用大模型也呈现出持续涌现的态势。

蚂蚁则在用实际行动全面押注这一赛道。

开源即登顶多项权威医疗榜单

具体来说,AntAngelMed是蚂蚁集团联合浙江省卫⽣健康委共同研发的开源医疗大模型,从诞生之初就是专为真实医疗场景所设计的。



这也充分体现在模型的基准测试表现上。

比如由OpenAI在去年发布的医疗健康领域评估测试集HealthBench,来自全球60个国家、262名医⽣共同构建,包含5000种多轮医疗对话场景,评分标准涵盖准确性、完整性、沟通质量、情境感知等多维度。

在面对DeepSeek-R1、Qwen3、OpenAI GPT-OSS等一众开源模型,AntAngelMed以62.5的评分拿下第一。

更进一步,在HealthBench的子集HealthBench-Hard(专为困难场景设计)上,AntAngelMed同样稳居榜首。

这也是继Baichuan-M2后,唯二打破HealthBench-Hard 32分魔咒的开源模型,要知道在HealthBench-Hard刚发布时,其困难程度一度让所有模型都拜倒在32分之下,甚至当时还有很多顶尖模型都直接挂零。

AntAngelMed的表现足以证明,其在最真实也最容易出错的复杂医疗环境中,仍然能够表现稳定,专业度拉满。



在由国家⼈⼯智能应⽤中试基地(医疗)·浙江、中国医学科学院北京协和医学院、中国信息通信研究院三⽅共建的权威测评体系MedAIBench中,AntAngelMed同样表现突出,尤其是在医疗知识问答、医疗伦理安全等多个核心维度上优势显著。

这侧面说明,模型不是在医疗基础知识或者临床诊断这类单一科目上能力强劲,而是整体医疗水平均衡,短板够长、专业够全面,容错率也会更低。



而在面向中文医疗场景的医疗大模型评测体系MedBench时,AntAngelMed依旧位列⾃测榜单第⼀。

MedBench拥有36个自主评测集,约70万条样本,最关键的是它区别于很多以英文为主的国际benchmark,更偏向于本土医疗体系,在表达上也更贴合国内问诊场景。

AntAngelMed在医学知识问答、医学语⾔理解、医学语⾔⽣成、复杂医学推理、医疗安全与伦理五⼤核⼼维度上稳定领先,展现出与基层临床流程的高度适配和无缝集成。



日常生活场景为例,我们向AntAngelMed提问:

  • 我最近总是头晕,可能是什么原因?



生成速度很快,几乎是秒入秒出

仔细看思考过程,它首先提及的是要照顾用户情绪,在给出答案时避免引起恐慌。

nice!这波人性化必须好评,毕竟之前每次上网搜症状,都感觉自己得了绝症……(慌张.jpg)



在给出具体建议时,它也会基于自身医学知识,仔细分析症状表现,找到最契合的成因。



结构上逻辑严谨,从共感→原因分析→建议→鼓励,全方位解决用户需求。



最终给出的答案也很专业暖心,感觉像是在和一位主任级医生面对面就诊。



P.S.不过正如AntAngelMed所说,症状加剧时一定要及时就医哦~



接着让AntAngelMed试着解读专业术语

  • 我的一份乳腺癌手术病理报告显示:ER(90%+),PR(80%+),HER2(1+),Ki-67(15%)。请解释这些指标代表什么?这对我的分型和后续治疗方案意味着什么?



在肿瘤病理报告中,免疫组化(IHC)指标是决定癌症治疗方案(如化疗、靶向、免疫治疗)的关键,而指标组合又极其复杂。

AntAngelMed首先用通俗易懂的语言解释了这几个相关指标的含义,对于极少接触专业医学知识的普通人,或者需要查找狭窄领域信息的专业医生来说,颇具参考价值。



此外,它也能准确识别出癌症亚型,给出倾向于激素治疗而非靶向治疗的参考意见。



值得关注的是,AntAngelMed还会告知用户接下来可以去挂哪些科室,以及可以询问主治医师哪些问题。

对于本看病困难星人,实在是暖暖的、很贴心~



整体感受下来,AntAngelMed既像一个无微不至的家庭医生,也像一位经验丰富的专家学者,无论是个人、医生、医疗机构,或许都能从中找到最适合的匹配方案。

既要专业度,也要人情味

那么AntAngelMed是如何做到的呢?

要厘清思路,首先需要回到模型本身。

AntAngelMed继承了百灵⼤模型Ling-flash-2.0的⾼效混合专家(MoE)架构,并建立起三阶段的训练过程:

Step 1:持续预训练。

通过持续预训练,大量的临床指南、医学文献等高质量知识被融入进模型参数中,让模型与知识深度融合,能够自然地以专业医学角度进行思考和表述。

换言之,这是在为医学AI打下最坚实的地基。



Step 2:监督微调。

为了解决真实场景应用的问题,在这个阶段里,指令数据兼具多种类型的表述形式,能够增强模型的通用推理能力,学会分步思考和多方案权衡。

另外,模型的人性化也同步得到提升,要知道医患问答不等同于学术问答,模型的输出如何能够更贴近真实医生的表达,这是关键。

Step 3:GRPO强化学习算法+双阶段强化学习路径。

这一步决定模型最终能不能被真实使用。

GRPO强化学习算法的引入,让模型对复杂任务的处理更加得心应手,也能更好地对齐人类价值,约束模型安全边界。

其中双阶段强化学习又分为两步:

  • 推理强化学习:保障模型的推理逻辑严谨,避免中途跳跃。
  • 通用强化学习:强化模型的行为风格,明确指导风险。

最终二者结合,共同推动模型朝着专业、克制又能共情的方向演化。



为了实现模型效率与性能两手抓,在原有的Ling-flash-2.0架构上,模型也在一系列核心设计上进行了全面优化,比如1/32激活⽐例、⽆辅助损失+Sigmoid路由策略、MTP层以及Partial-RoPE等。

最终帮助模型在参数规模相近的情况下,实现了相比Dense架构的7倍效率提升,模型计算成本同步得到大幅度降低。



要让模型跑得快、跑得稳,还需要进行推理加速。

这里采用的是FP8量化+EAGLE3优化

前者负责将模型推理时的数值精度压缩到FP8,可显著减少内存占用以提高计算吞吐;而后者主要用于抑制FP8量化带来的数值抖动,在效率与稳定性中找到最优解。

最终在真实线上医疗系统的典型负载32并发场景中,实现推理吞吐的稳步提升:HumanEval提升71%,GSM8K提升45%,Math-500提升⾼达94%。

蚂蚁医疗AI布局有迹可循

不难看出,AntAngelMed反映了蚂蚁对医疗AI领域的洞察细致入微,因为近一线所以懂行业痛点,因为有技术所以懂如何改进。

所以AntAngelMed才能从一众医疗大模型中脱颖而出,做到真实环境中也可以智商情商双在线,而非仅仅局限于基准测试的demo。

可以说,AntAngelMed的出现,进一步完善了蚂蚁在医疗AI领域的布局。

技术层面,AntAngelMed可以作为最坚实的基座模型,承载起AI在专业场景的规模化落地,解决的是蚂蚁最底层的技术需求。

它走的不是通用大模型+Prompt的基础医学问答路线,而是深度对齐医学语料、诊疗流程和医学推理链后,完成的专业性更强的诊疗推理。



国内外目前也有越来越多模型正在推进这一相似的范式转移。

显然,蚂蚁已率先预见到这条路线的正确性,并沿着它一路狂飙,来到了收获成果的阶段。

产品层面,蚂蚁也建立起了以面向用户的AI健康管家、面向医生的好大夫在线、面向机构的医疗大模型一体机为代表的三端一体产品矩阵。

从患者、医生到机构,蚂蚁的AI产品全方位覆盖医疗服务体系,满足从下至上每一个角色对AI医疗的切身需求。

组织层面,蚂蚁在去年年末,完成了一次相当重要的战略调整,将原来的数字医疗健康事业部正式升级为蚂蚁健康事业群

从事业部升级为事业群,这意味着医疗健康不再是蚂蚁的补充业务,而是正式成为与支付宝、数字支付、财富保险、信贷并列的核心板块。

可以预见的是,蚂蚁未来会将更多资源和精力倾向给AI医疗,而AntAngelMed还只是蚂蚁正式入局的开端。

那么为什么要选择做医疗AI呢?

归根结底在于通用大模型和专业场景存在鸿沟,缺乏相关领域的知识、难以进行复杂任务的决策,以及对话交互不等同于有效协同。

而专业智能体是把通用智能拆解、工程化,本质上是将不确定性约束在具体的产业里,只有这样才能实现大模型的生产价值最大化。



医疗则是其中最具代表性的练兵场,医疗的核心不是操作,而是智能密度最高的认知、推理和决策。

对于大模型来说,这是一块试金石,能倒逼大模型完成深度优化,推动模型向其它基础领域迁移。

而这个领域恰好还刚刚起步,有足够大的蓝海可以探索。

与此同时,蚂蚁也有做医疗AI的底气,多年来蚂蚁深耕支付、医保领域,为打通医疗AI提供了坚实的数据基础。

由此,在这条隐秘的医疗战线里,蚂蚁无疑会成为走得最久、也最深的先行者。

P.S.目前AntAngelMed模型系列已在平台开源,可访问官方开源仓库下载使⽤:

HuggingFace:https://huggingface.co/MedAIBase/AntAngelMed
ModelScope:https://modelscope.cn/models/MedAIBase/AntAngelMed
GitHub: https://github.com/MedAIBase/AntAngelMed

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

约基奇23+21+19创纪录!掘金险胜独行侠 穆雷53+9三分赛季新高

醉卧浮生
2026-03-26 12:35:12
吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

吃兰州拉面的人为什么越来越少了?网友:进店小心翼翼的怕说错话

另子维爱读史
2026-02-27 20:31:34
周冬雨刘昊然有孩子了?赵露思被禁止拍戏?宋佳钟楚曦暗撕?郭敬明害新剧埋了?女歌手折磨工作人员?

周冬雨刘昊然有孩子了?赵露思被禁止拍戏?宋佳钟楚曦暗撕?郭敬明害新剧埋了?女歌手折磨工作人员?

十锤星人
2026-03-26 23:25:27
伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

探源历史
2026-03-25 13:22:35
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

GA环球建筑
2026-03-26 14:10:54
女子在按摩店做理疗时被技师偷走金项链

女子在按摩店做理疗时被技师偷走金项链

新闻晨报随申Hi
2026-03-26 09:56:05
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

扬子晚报
2026-03-26 07:27:54
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
梅西球星卡在上海以1520万成交,创足球卡全球最高成交价纪录

梅西球星卡在上海以1520万成交,创足球卡全球最高成交价纪录

懂球帝
2026-03-26 14:54:51
斯柯达将退出中国,大众中国回应

斯柯达将退出中国,大众中国回应

第一财经资讯
2026-03-26 15:14:56
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

一代香港美人,感觉不是很开心的样子,大家还记得她的名字吗?

动物奇奇怪怪
2026-03-26 08:35:16
中国脑梗人数全球第一:肉吃得越少,血管就越通,真的吗?

中国脑梗人数全球第一:肉吃得越少,血管就越通,真的吗?

蜉蝣说
2026-03-24 10:00:57
伊朗对以色列发动新一轮导弹袭击

伊朗对以色列发动新一轮导弹袭击

财联社
2026-03-27 01:42:07
江西安源路桥集团有限公司党支部书记、董事长王东被查

江西安源路桥集团有限公司党支部书记、董事长王东被查

潇湘晨报
2026-03-25 16:16:44
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
2026-03-27 02:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
房产
手机
健康

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

400万人爱过的女孩,被黄谣网暴180天后

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版