中国医疗大模型反超OpenAI，Baichuan-M2如何撕开行业天花板？｜甲子光年|医生|百川|医疗机构|医疗领域|openai

分享至

百川的破局路径是“造医生-改路径-促医学”。

作者｜Iris

编辑｜王博

GPT-5的发布将AI行业的增长焦虑摆在了台面——虽然GPT-5的效果并未达预期，但中美大模型之间的竞争依然焦灼。进入理性阵痛期的国内大模型公司仍在突围应变，各家都不希望在这场竞争中掉队。

“到了十年来最好的状态。”半个月前百川智能创始人、CEO王小川这样向「甲子光年」形容他的近况。

「甲子光年」和王小川结识多年，但这句话让我们有些意外，同时也有些期待。

今天，我们找到了他的“好状态”的来源——百川智能开源医疗增强大模型Baichuan-M2正式发布。

百川不仅发了新模型，新模型还很强。

OpenAI发布的HealthBench是一个医疗健康领域的评估测试集，评估结果显示，在HealthBench上，Baichuan-M2全面超越了当前所有前沿开源模型。

HealthBench评估测试结果，Baichuan-M2在最顶端

而HealthBench Hard是一个专门设计的困难场景评测集。在评测HealthBench Hard发布时，没有任何模型可以超过32分，甚至很多前沿模型只能得到0分的成绩。Baichuan-M2和GPT-5是目前全球唯二超过32分的模型，这体现了Baichuan-M2在解决复杂医疗场景任务上的优秀能力。

HealthBench Hard评估测试结果

此外，在中国临床诊疗场景的问题评测中，对比gpt-oss系列模型，Baichuan-M2则展现出更明显的可用性优势。

两年前，在百川智能官宣成立当天，王小川就对我们说：“（OpenAI等公司）他们可以用几万张卡跑模型去通向AGI，但有些深水区他们就不碰了，比如医学，他们可能躲着走，但我要去碰这些东西，我需要更考虑落地应用。”

2024年7月战略会，百川决定聚焦医疗。2025年1月24日，百川发布了Baichuan-M1-preview，同时开源了 Baichuan-M1 的小尺寸版模型Baichuan-M1-14B，该模型为行业首个医疗增强开源模型。它的医疗能力超越了更大参数量的Qwen2.5-72B，与o1-mini相差无几。而这次发布的Baichuan-M2依旧延续开源路线，参数量32B，为真实世界的医疗推理任务设计。

Baichuan-M2的亮点之一是患者模拟器。今年1月，百川在arXiv上发表“AI患者模拟器”论文，并基于该范式开源Baichuan-M1。后来，百川升级了“AI患者模拟器”并引入模型端到端强化学习，训练发布了Baichuan-M2。

虽然AI医疗赛道远离大厂射程，不需要正面与其竞争，但这并不是一条容易的路。

数据、合规、技术落地等难题将很多公司挡在壁垒之外，聚焦医疗的百川在一条少有人走的路上行进，同行者寥寥，也时不时也会面临“为何选择这条窄路”的质疑。

但近期，行业的水温正在发生变化：AI的影响力逐渐传导到最末端场景，甚至成为了医院的新兴奋点。一方面，全国大三甲医院积极抢占新技术高地，积极拥抱AI来提高诊疗天花板；另一方面，进入医改深水期的医疗机构生存压力日渐增加，这也倒逼医疗机构通过新技术压缩成本来实现医疗普惠。

数据显示，2024年中国百强医院已累计发布至少60个专科大模型。昔日对人工智能持谨慎观望态度的公立医院，也担心错过新技术浪潮，开始接纳并引入大模型。

在大洋彼岸，新发布的GPT-5也加注了在医疗场景的筹码。英伟达、亚马逊、谷歌、IBM等科技巨头纷纷切入医疗领域，与相关企业寻求深度合作。

这些变化，也验证了百川此前的技术猜想——医疗是大模型皇冠上的明珠。他们坚信医疗健康是智能时代最大的应用之一，任何一个AI技术在医疗上都有用武之地。

1.从审视，到拥抱

虽然AI医疗前景广阔，甚至上限远超AGI，但一直被行业质疑这并不是一门“好生意”。

其中难点在于，医疗行业期待着“颠覆性技术”的横空出世，却受限于数据安全和临床容错低等问题，对AI技术持审视谨慎态度。

这增加了高质量医疗数据的获得门槛，同时各医疗机构之间标准不同，因此数据难以共享。有行业人士透露，由于缺乏高质量训练数据，约八成医疗大模型项目止步于基础研发，无法进入专业领域增强的实质研发阶段。

相对互联网行业，医疗、制药非常传统和封闭，这就导致了AI医疗赛道难以打开市场，渗透情况并不乐观。相比发展速度迅猛的AI Chatbot赛道，AI医疗发展要缓慢许多，因此行业认为医疗AI没有这么快到来，这也让百川在最初遭遇了不少质疑的声音。

然而，风险与机遇并存。躬身入局一个还未完全成熟的赛道，需要承受拓荒期的阵痛，但也代表着能在行业拐点来临时占据先发优势。

这个拐点，比大多数人预想得还要突然。2025年开年后，AI医疗行业的水温变了，AI医疗市场逐步被激活。由于DeepSeek等AI工具的崛起，让医疗行业对AI技术开始了从观望到拥抱的转变，他们担心的是，错失新一波的技术浪潮，在可能发生的行业洗牌中落后于人。

医保改革也加速了这一进程的到来。医保基金将逐步跳过医院，直接与药械企业结算，可能对公立医院的现金流造成更大冲击。医疗机构面临的生存压力，也迫使他们不得不将AI视作转型的“解药”。

这种心态的转变，使得一年前还在观望的医院，开始争相部署大模型。

仅春节后三周，全国就有92家三甲医院完成大模型的本地化部署，其中包括北上广多家顶级医院。百川也借此落地了标杆案例：3月20日，百川与北京儿童医院、小儿方健康共同发布了全球首个儿科大模型——“福棠·百川”儿科大模型。

“福棠·百川”儿科大模型及AI儿科医生产品发布现场，图片来源：百川智能

这也得益于百川前期的行业积淀：在2024年底前组建了高水平的医学部，能指导和支持百川医疗模型的研发工作，推动与高水平医疗机构的合作。目前北京十三家国家医学中心，有七家已经和百川建立了联系。

这些医疗机构也希望，借助大模型突破传统医疗的能力边界，能像专医生一样整合最佳医学证据，为患者制定科学、个性化的诊疗方案。

这也对医疗大模型的准确率提出了更高要求。以“福棠·百川”儿科大模型为例，在儿科多学科专家会诊中，其给出的诊疗方案与北京儿童医院专家会诊结果吻合率达95%。大模型参与会诊，使得顶级医疗机构结合AI形成新的医疗模式成为可能。

这种变化也体现在医生个体的诊疗行为转变上。

数据显示，一、二级医生中接近一半已使用过AI-CDSS软件，他们对AI医疗软件的接受程度逐步提高，且有将其引入临床工作的趋势。可以预见的是，随着年轻医生逐渐成为中坚力量，未来将有更多医生以开放的态度接受Al。

这一现状，是行业的长期主义者早就预见的，他们判断基于，医疗行业的瓶颈是优质的医生的培养和供给，大模型能力边界的不断跃迁带来破局的可能——大模型智能体能提供无限的AI医生供给，改善医疗行业的生产力难题。同时，医疗界长期存在的痛点问题，包括人员不足、效率不高、医疗资源配置不均等，让行业内外寄希望于找到新技术的解药。

2.AI是解药吗？

实际上，上述痛点都指向一个核心指标——医疗行业的生产力问题。行业缺乏全病程、全生命周期的真实数据和优质的医生的培养和供给。

另外，目前国内医疗资源呈现出典型的结构性失衡局面。最新统计表明，全国医疗机构中95%以上是基层医疗机构，三级甲等医院占比仅0.25%。由于患者就医选择的集中化倾向，这种供需矛盾表现得尤为突出。这种"基层冷、大医院热"的现象，不仅加剧了看病难问题，也制约着分级诊疗制度的有效实施。

AI如何才能触及这些核心问题？

百川的破局路径是“造医生-改路径-促医学”。

通过推广AI医生，解决供需失衡。他们重点培育最紧缺的科室方向，如全科、儿科，通过AI医生实现规模化供给。AI与真人医生协作，提升基层和专科医疗的可及性，缓解医疗资源分布不均问题。

例如，百川AI助诊仪在海淀区多个社区卫生服务中心上岗，“AI+真人”的双医模式累计服务7743人次。上文提到的“福棠·百川”AI儿科医生也针对性地开发了基层版，帮助基层医生实现儿童病毒性脑炎的初步诊断。

AI医生在基层医疗的应用，在提高基层医生诊疗水平的同时，改变就诊路径，从而助力分级诊疗体系建设。

AI医生具有丰富的医学知识以及媲美三甲主治医师的诊疗能力，其以双医模式的形式部署到基层医疗机构之后，能够为基层医生查漏补缺，相当于为每一位基层医生配备了一个三甲主治医师的助手。如此一来，很多常见病在基层医院就能解决，居民就不用小病也抢号挤三甲了，从而实现就诊路径的改变，助力分级诊疗体系建设。

另外，AI医生的普及也能解决就诊过程中的最大痛点——无法获取病人全周期数据。

当AI医生成为每个人生活中的标配后，它能够掌握用户全生命周期的数据，甚至比医生更加了解病人的整体健康情况，这有助于医院更准确地判断病情。

在这些服务中产生的数据和对话，将助力临床医学和流行病学突破性发展，并有望建立生命模型，最终走向个体化精准医疗。

从这个角度来说，在医疗领域，AI并不只是简单的工具，还有着扩展人脑认知边界和突破现有医疗范式天花板的可能，甚至能为全人类的健康做出贡献。

这一美好愿景，也是许多AI医疗从业者坚持前行的精神动力。

国内首次“AI儿科医生+多学科专家”的双医并行多学科会诊

目前，行业在这些方向上的探索，也已经初具雏形，基层医院也开始积极探索这些技术路径的深度应用，早在2024年底，海淀区就联合百川智能率先探索以AI 助力基层医疗发展的新路径，来共同打造“AI医生-真人医生双医协同”的基层医疗服务新模式。

这些案例也预示着，AI医疗普惠的愿景正在加速实现。

3.寻找通向星辰大海的最佳技术路径

在真实诊疗中，医生需要处理模糊的病情描述、动态的医患沟通、个性化的治疗决策，这对大模型的逻辑推理、知识整合、交互能力提出了更高要求。

百川智能最新发布的Baichuan-M2，也针对这些指标进行了性能及场景优化提升。

在Baichuan-M2的构建过程中，百川结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。其核心方法是通过来自医疗关键子场景的医生思维的数据训练，使其对齐医生思维。并且结合来源于真实世界的医疗任务，围绕Large Verifier System开展端到端强化学习，提升了模型解决复杂医疗场景任务上的能力。

得益于这些技术链路的改进，Baichuan-M2在HealthBench上的表现不错。HealthBench Hard的评测结果显示，Baichuan-M2和GPT-5是目前全球唯二超过32分的模型。

通过中期训练构建高质量医疗语料和通专兼顾的训练策略，使得Baichuan-M2在中国医疗场景的优势表现更为明显。在中国临床诊疗场景的问题评测中，对比gpt-oss系列模型，Baichuan-M2展现出更明显的可用性优势，例如针对临床诊疗的案例，M2更贴合中国医疗场景，更遵循中国权威指南推荐。

鲁棒性差也是AI医疗落地的一大痛点，这是因为真实临床医患对话场景中患者的表达往往具有种种噪声：症状描述因个体认知差异（年龄、文化、教育背景等）而带有偏见或是遗漏。

为了提升模型的鲁棒性和自适应性，百川构建了“患者模拟器”。

“患者模拟器”示意图

这是一个基于真实病例数据构建的AI系统，能够模拟具有特定疾病背景、个体特征和行为模式的虚拟患者，在医患对话中提供真实的症状表达和交互反应。结合患者模拟器，训练模型在信息不全、表述模糊、前后矛盾等真实医患对话中仍能作出合理决策。

尽管AI技术可以针对医疗环节的痛点“对症下药”，但这项技术能否最终落地，最终标准始终是临床实用性及ROI——模型能否真正服务于医生、优化诊疗流程、提升患者体验。这也要求模型能够在低算力成本部署下实现更准确的诊疗结果。

同时，医疗行业的特殊性决定了私有化低成本部署是刚需——医疗机构既需要高性能 AI，又受限于预算和算力，且对数据隐私极为敏感。针对这一痛点，Baichuan-M2以几乎最低的部署成本在HealthBench上取得了最优效果，相比于OpenAI最新开源的gpt-oss-120b，再一次前移了帕累托前沿，从而进一步提升了模型在真实医疗场景中的落地可能性与可扩展性。

北京儿童医院与百川智能联合研发的“AI儿科医生”

目前，百川已经与北京市海淀区卫健委、北京大学第三医院、国家儿童医学中心等合作伙伴展开对Baichuan-M2的探索应用。这也是百川一直以来致力的方向，在受众面最大、最紧缺的医生方向全科、儿科方向探索。

虽然星辰大海的终极愿景还很遥远，但模型的迭代、技术的迭代和行业共识的共同推动，让这条路径上的每个里程碑，都可能重构人类对抗疾病的方式。

道阻且长，行则将至。AI 医疗的发展仍面临诸多难题，但每一次突破都让我们离星辰大海更近一些。

（封面图来源：AI生成；文中图片来源：百川智能）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.