网易首页 > 网易号 > 正文 申请入驻

医疗领域DeepSeek时刻:蚂蚁 · 安诊儿医疗模型开源,登顶权威榜单

0
分享至



编辑|泽南、陈陈

人们获取医疗信息的方式,正在逐渐被 AI 改变。

2026 刚一开年,OpenAI 发布了一份有关普通人与 AI 医疗的报告。



报告给出的信息令人惊讶:目前全球 ChatGPT 对话中有超过 5% 是与医疗健康有关的,每天有 4000 万人在向 ChatGPT 寻求健康问题的答案。

在人们向 AI 问的问题中,大模型的智能与知识储备得到了充分体现:60% 的人用 AI 探索症状,52% 的人用于理解医学术语或临床建议;越来越多的医生也在撰写医疗报告的时候应用了 AI。

也正是因为如此,1 月 7 日,OpenAI 正式发布了 ChatGPT 健康,通过整合人们的健康信息与大模型能力,可以帮助人们更加了解自身状况,能辅助人们进行健康方面的决策。



大模型正在生活的很多方面给我们带来帮助,但在面向常规任务的通用大模型上寻找医疗等专业知识的建议,很多时候还是显得不够靠谱。在医疗学术界,有研究就认为 AI 提供的医疗决策必须强制披露其准确性,接受监管以保护患者的安全。

近日,蚂蚁集团联合浙江省卫生健康信息中心、浙江省安诊儿医学人工智能科技有限公司开源的的蚂蚁・安诊儿医疗大模型(AntAngelMed),似乎为这些需求找到了最优解。

该模型总参数量达到1000 亿(激活参数 61 亿),是迄今为止参数量最大的开源医疗领域专业模型。

AntAngelMed 在 OpenAI 发起的 HealthBench、国家人工智能应用中试基地(医疗)的 MedAIBench 等评测基准中表现出色,其成绩超过了 GPT-oss、Qwen3、DeepSeek-R1 等通用模型,也超越了目前已有的医疗增强推理模型,达到了开源模型第一的成绩。



在由国家人工智能应用中试基地(医疗)・浙江、中国医学科学院北京协和医学院、中国信息通信研究院三方共建的权威测评体系 MedAIBench 中( https://www.medaibench.cn/ ),AntAngelMed 同样表现突出,尤其是在医疗知识问答、医疗伦理安全等多个核心维度上优势显著。



此外,AntAngelMed 在MedBench 排行榜中位列第一。MedBench 是专为评估中国医疗健康领域语言大模型(LLM)而设计的权威基准。AntAngelMed 的这一成绩进一步凸显了其在专业性、安全性以及临床应用潜力方面的领先表现。



目前 AntAngelMed 模型系列已在模型平台开源:

  • HuggingFace:https://huggingface.co/MedAIBase/AntAngelMed
  • ModelScope:https://modelscope.cn/models/MedAIBase/AntAngelMed
  • Github: https://github.com/MedAIBase/AntAngelMed

AntAngelMed 背后的技术

专业三阶段训练

与通用模型不同,医疗大模型面对的评价标准不仅仅是「答得多流畅」,还要强调结论的可靠性与可控性:既要在证据充分时给出严谨判断,也要在信息不足或风险较高时保持克制、明确安全边界。要满足这种要求,模型不仅需要覆盖系统化的医学知识,更需要具备稳定的推理能力与风险意识。

AntAngelMed 作为一款专注医疗垂直领域的开源大模型,其训练策略正是围绕上述要求展开的,形成了一套以医学能力构建为目标的三阶段训练流程

第一阶段是持续预训练,为模型注入医学知识。

团队在蚂蚁百灵通用基座模型 Ling-flash-2.0-base 上系统性引入大规模、高质量医学语料,比如百科全书、网络文本、学术出版物。

通过这一过程,模型构建起了稳定而完整的医学知识结构,为后续的医学能力打下坚实的地基。

第二阶段是面向真实医疗任务的监督微调。

AntAngelMed 引入了来自不同来源、不同形式的高质量医疗指令数据,重点微调模型如何展开和表达推理过程。这一阶段不仅提升了模型在复杂问题中的思考稳定性,也使其在医患问答、诊断分析等真实场景中,能够更好地理解问题语境并给出符合医疗交流逻辑的回应。

这样一来,AntAngelMed 不再仅仅停留在回答正确的表层表现上,而是在医疗语境中展现出更接近专业医生的沟通方式与思维路径。

第三阶段是强化学习,控制 AI 医疗回答的边界与行为方式。

AntAngelMed 采用先进的 GRPO(Group Relative Policy Optimization,组相对策略优化) 强化学习算法,并通过双阶段强化学习路径对模型能力进一步优化提升。

首先是「推理强化学习」,确保模型面对复杂病例信息时能保持因果链条清晰、判断过程可追溯。

然后是「通用强化学习」,重点关注模型的行为边界,在面对不确定性、敏感性问题时学会提示风险、适度保留,体现出必要的责任意识和安全规范。

可以说这一阶段是通用大模型最容易「踩雷」的部分,而也是医疗 AI 最重要的「合规能力」。



AntAngelMed 专业三阶段训练流程

高效 MoE 架构,高效推理能力

除了能力结构的精细建构,AntAngelMed 也在工程设计上充分考虑医疗系统的部署需求。

AntAngelMed 继承了Ling-flash-2.0 的先进架构,是一个高效的混合专家(MoE)模型。



Ling-flash-2.0 模型架构

在 Ling Scaling Laws 的指导下,只激活 1/32 参数(61 亿),并在专家粒度、共享专家比例、注意力平衡、无辅助损失函数 + Sigmoid 路由、MTP 层、QK-Norm 和 Partial-RoPE 等核心组件上进行了全面优化。

这些优化使得小激活率的 MoE 模型相比同等规模的 Dense 架构,可以实现高达7 倍的效率提升。

也就是说,AntAngelMed 仅需 6.1B 激活参数,就能实现约 40B 稠密模型的性能。这意味着模型在实际部署中对资源的占用更低、可扩展性更强,非常适合高用户需求的医疗领域。

由于激活参数较少,AntAngelMed 具备非常高的推理效率,在 H20 硬件环境下,可实现超过200 tokens/s 的推理速度,约为 36B 稠密模型的 3 倍。

对于医疗场景而言,这样的推理效率不仅代表响应更快,更重要的是,它提升了模型在实际系统中的可用性:在多用户同时访问的医疗平台上,能够保证稳定输出;在需要快速辅助决策的临床场景中,能在数秒内完成高质量回答,减少等待时间;甚至在资源受限的边缘部署环境中,也能以较低算力负担提供可用性能。

另外,医疗场景中常常伴随着篇幅较长的病历记录和结构复杂的检查报告,信息密度高、语义层级深,对模型的理解与处理能力提出了更高要求。

为解决这一需求,AntAngelMed 采用 YaRN 外推,将上下文长度扩展至 128K,大幅增强了模型处理病历等长文档的能力。

此外,为配合进一步推理加速,团队还采用了 FP8 量化技术并结合 EAGLE3 优化方案。这种软硬结合的设计带来了实实在在性能提升。

在并发数为 32 的情况下,与单独使用 FP8 相比,这种方法显著提高了推理吞吐量,在 HumanEval 数据集上的提升幅度为 71%,在 GSM8K 数据集上的提升幅度为 45%,在 Math-500 数据集上的提升幅度更是高达 94%。

从训练流程到模型架构,我们不难看出,AntAngelMed 的设计始终围绕医疗场景展开。三阶段训练方式让模型具备了专业的医学知识,而高效的 MoE 架构,使得模型在医疗这种高频次、高要求的场景下,在大幅降低激活成本的同时,依然保持专业推理能力与长上下文处理能力。

AntAngelMed:领先的医学专业模型

最后,我们上手体验了一番,看看 AntAngelMed 真实效果如何?

先来个大家都忽视但又每天经历的事情,一个成年人一天到底要吃几个鸡蛋。

AntAngelMed 的响应速度非常快,几乎在我们输入问题后没几秒就给出了答复。

模型的建议并非简单罗列营养标准,而是结合了胆固醇摄入上限、个体健康状况(如有无高血脂病史)等因素,给出了一个相对灵活的建议区间:



接下来我们又问了一个问题:请为一个 55 岁有高血压病史的上班族男性,设计一个简洁可执行的一周饮食 + 运动建议计划。

AntAngelMed 的回答简直比医生还详细,还做了表格方便用户查看:



结语

AntAngelMed 的开源,对于 AI 和医疗行业而言具有重要意义。

在 AntAngelMed 的基础上,大量机构和研究者可以进行下游任务微调,极大地降低了前沿医疗 AI 技术的应用门槛。对于普通人来说,或许过不了多久,我们就可以从 AI 那里获得安全可信的建议了。

据介绍,蚂蚁集团还将依托国家平台持续推进「AI + 医疗」的开源生态与技术创新,让先进的技术能够普惠更多开发者与用户。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连续6个交易日20cm涨停,今年最牛股明起停牌核查

连续6个交易日20cm涨停,今年最牛股明起停牌核查

财联社
2026-01-12 19:58:06
伊朗外交部长宣布解除互联网封锁,前王储呼吁推翻伊斯兰共和国

伊朗外交部长宣布解除互联网封锁,前王储呼吁推翻伊斯兰共和国

一种观点
2026-01-12 19:24:55
中戏新疆班毕业生出面证实,中戏2011级新疆班没有林傲霏

中戏新疆班毕业生出面证实,中戏2011级新疆班没有林傲霏

我就是个码字的
2026-01-12 17:30:25
这条荒唐新闻,引起公愤了!

这条荒唐新闻,引起公愤了!

胖胖说他不胖
2026-01-11 10:00:11
西蒙尼:我向弗洛伦蒂诺和维尼修斯道歉,我承认我做得不对

西蒙尼:我向弗洛伦蒂诺和维尼修斯道歉,我承认我做得不对

懂球帝
2026-01-12 20:48:51
历史性一幕发生:马杜罗被抓后,世界分成3派,乌克兰最令人气愤

历史性一幕发生:马杜罗被抓后,世界分成3派,乌克兰最令人气愤

文史旺旺旺
2026-01-11 15:47:04
江苏女子向北大才子炫耀50亿家产,被装铁桶沉长江,3天后捞出

江苏女子向北大才子炫耀50亿家产,被装铁桶沉长江,3天后捞出

小哥很OK
2024-07-16 07:53:00
大结局!林昀儒4:0世界亚军,斩获男单冠军,国乒男单女单0冠收官

大结局!林昀儒4:0世界亚军,斩获男单冠军,国乒男单女单0冠收官

国乒二三事
2026-01-12 01:50:39
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
特朗普取打击伊朗汇报,美国对伊朗的打击可能随时开始

特朗普取打击伊朗汇报,美国对伊朗的打击可能随时开始

邵旭峰域
2026-01-12 17:57:06
蒋介石侍卫长郝柏村晚年称:蒋介石最大错误,就是接受雅尔塔协定

蒋介石侍卫长郝柏村晚年称:蒋介石最大错误,就是接受雅尔塔协定

叹为观止易
2026-01-10 10:00:47
中央戏剧学院通报“演员闫学晶儿子被举报违规入学”:2012年未招收新疆班,网传信息不属实,该考生以户籍地北京生源身份报考我院

中央戏剧学院通报“演员闫学晶儿子被举报违规入学”:2012年未招收新疆班,网传信息不属实,该考生以户籍地北京生源身份报考我院

扬子晚报
2026-01-11 20:20:10
一夜4个消息!中国女排朱婷再获MVP,被曝将回国,或挖角庄宇珊

一夜4个消息!中国女排朱婷再获MVP,被曝将回国,或挖角庄宇珊

吾爱女排
2026-01-12 13:56:54
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
气坏了!澳大利亚球迷:我们甚至输给中国男足,这是最残酷的现实

气坏了!澳大利亚球迷:我们甚至输给中国男足,这是最残酷的现实

国足风云
2026-01-12 08:44:34
闫学晶事件持续发酵,冯巩等5人被牵连,赵本山曾告诫她别忘本!

闫学晶事件持续发酵,冯巩等5人被牵连,赵本山曾告诫她别忘本!

叨唠
2026-01-10 03:42:17
中超转会动态:上赛季第十官宣10人离队,赛季15球外援在列

中超转会动态:上赛季第十官宣10人离队,赛季15球外援在列

中超伪球迷
2026-01-12 19:08:21
第15天:伊朗伤亡人数飙升,川普又开空头支票

第15天:伊朗伤亡人数飙升,川普又开空头支票

近距离
2026-01-12 10:59:39
王毅同索马里外长电话会谈:反对“索马里兰”勾结台湾当局谋独行径

王毅同索马里外长电话会谈:反对“索马里兰”勾结台湾当局谋独行径

新京报
2026-01-11 19:19:06
合川千人刨猪汤后续:母亲独自打扫,本人哭求帮忙,粉丝擅自乱闯

合川千人刨猪汤后续:母亲独自打扫,本人哭求帮忙,粉丝擅自乱闯

丁丁鲤史纪
2026-01-12 15:59:20
2026-01-12 21:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12101文章数 142535关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

知晓女子丈夫出差 男子跨城赶来将她约宾馆猥亵拍裸照

头条要闻

知晓女子丈夫出差 男子跨城赶来将她约宾馆猥亵拍裸照

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

游戏
教育
艺术
亲子
公开课

任天堂正开发粉丝期待已久的热门系列以及全新IP

教育要闻

头顶上的争论 | 新观察

艺术要闻

画完这组画,他抑郁了,后来自杀了

亲子要闻

吃饭写作业的时候耸鼻子严重是怎么回事

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版