网易首页 > 网易号 > 正文 申请入驻

中国医疗大模型反超OpenAI,Baichuan-M2如何撕开行业天花板?|甲子光年

0
分享至



百川的破局路径是“造医生-改路径-促医学”。

作者|Iris

编辑|王博

GPT-5的发布将AI行业的增长焦虑摆在了台面——虽然GPT-5的效果并未达预期,但中美大模型之间的竞争依然焦灼。进入理性阵痛期的国内大模型公司仍在突围应变,各家都不希望在这场竞争中掉队。

“到了十年来最好的状态。”半个月前百川智能创始人、CEO王小川这样向「甲子光年」形容他的近况。

「甲子光年」和王小川结识多年,但这句话让我们有些意外,同时也有些期待。

今天,我们找到了他的“好状态”的来源——百川智能开源医疗增强大模型Baichuan-M2正式发布

百川不仅发了新模型,新模型还很强。

OpenAI发布的HealthBench是一个医疗健康领域的评估测试集,评估结果显示,在HealthBench上,Baichuan-M2全面超越了当前所有前沿开源模型。


HealthBench评估测试结果,Baichuan-M2在最顶端

而HealthBench Hard是一个专门设计的困难场景评测集。在评测HealthBench Hard发布时,没有任何模型可以超过32分,甚至很多前沿模型只能得到0分的成绩。Baichuan-M2和GPT-5是目前全球唯二超过32分的模型,这体现了Baichuan-M2在解决复杂医疗场景任务上的优秀能力。


HealthBench Hard评估测试结果

此外,在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2则展现出更明显的可用性优势。

两年前,在百川智能官宣成立当天,王小川就对我们说:“(OpenAI等公司)他们可以用几万张卡跑模型去通向AGI,但有些深水区他们就不碰了,比如医学,他们可能躲着走,但我要去碰这些东西,我需要更考虑落地应用。”

2024年7月战略会,百川决定聚焦医疗。2025年1月24日,百川发布了Baichuan-M1-preview同时开源了 Baichuan-M1 的小尺寸版模型Baichuan-M1-14B,该模型为行业首个医疗增强开源模型。它的医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。而这次发布的Baichuan-M2依旧延续开源路线,参数量32B,为真实世界的医疗推理任务设计。

Baichuan-M2的亮点之一是患者模拟器。今年1月,百川在arXiv上发表“AI患者模拟器”论文,并基于该范式开源Baichuan-M1。后来,百川升级了“AI患者模拟器”并引入模型端到端强化学习,训练发布了Baichuan-M2。

虽然AI医疗赛道远离大厂射程,不需要正面与其竞争,但这并不是一条容易的路。

数据、合规、技术落地等难题将很多公司挡在壁垒之外,聚焦医疗的百川在一条少有人走的路上行进,同行者寥寥,也时不时也会面临“为何选择这条窄路”的质疑。

但近期,行业的水温正在发生变化:AI的影响力逐渐传导到最末端场景,甚至成为了医院的新兴奋点。一方面,全国大三甲医院积极抢占新技术高地,积极拥抱AI来提高诊疗天花板;另一方面,进入医改深水期的医疗机构生存压力日渐增加,这也倒逼医疗机构通过新技术压缩成本来实现医疗普惠。

数据显示,2024年中国百强医院已累计发布至少60个专科大模型。昔日对人工智能持谨慎观望态度的公立医院,也担心错过新技术浪潮,开始接纳并引入大模型。

在大洋彼岸,新发布的GPT-5也加注了在医疗场景的筹码。英伟达、亚马逊、谷歌、IBM等科技巨头纷纷切入医疗领域,与相关企业寻求深度合作。

这些变化,也验证了百川此前的技术猜想——医疗是大模型皇冠上的明珠。他们坚信医疗健康是智能时代最大的应用之一,任何一个AI技术在医疗上都有用武之地。

1.从审视,到拥抱

虽然AI医疗前景广阔,甚至上限远超AGI,但一直被行业质疑这并不是一门“好生意”。

其中难点在于,医疗行业期待着“颠覆性技术”的横空出世,却受限于数据安全和临床容错低等问题,对AI技术持审视谨慎态度。

这增加了高质量医疗数据的获得门槛,同时各医疗机构之间标准不同,因此数据难以共享。有行业人士透露,由于缺乏高质量训练数据,约八成医疗大模型项目止步于基础研发,无法进入专业领域增强的实质研发阶段。

相对互联网行业,医疗、制药非常传统和封闭,这就导致了AI医疗赛道难以打开市场,渗透情况并不乐观。相比发展速度迅猛的AI Chatbot赛道,AI医疗发展要缓慢许多,因此行业认为医疗AI没有这么快到来,这也让百川在最初遭遇了不少质疑的声音。

然而,风险与机遇并存。躬身入局一个还未完全成熟的赛道,需要承受拓荒期的阵痛,但也代表着能在行业拐点来临时占据先发优势。

这个拐点,比大多数人预想得还要突然。2025年开年后,AI医疗行业的水温变了,AI医疗市场逐步被激活。由于DeepSeek等AI工具的崛起,让医疗行业对AI技术开始了从观望到拥抱的转变,他们担心的是,错失新一波的技术浪潮,在可能发生的行业洗牌中落后于人。

医保改革也加速了这一进程的到来。医保基金将逐步跳过医院,直接与药械企业结算,可能对公立医院的现金流造成更大冲击。医疗机构面临的生存压力,也迫使他们不得不将AI视作转型的“解药”。

这种心态的转变,使得一年前还在观望的医院,开始争相部署大模型。

仅春节后三周,全国就有92家三甲医院完成大模型的本地化部署,其中包括北上广多家顶级医院。百川也借此落地了标杆案例:3月20日,百川与北京儿童医院、小儿方健康共同发布了全球首个儿科大模型——“福棠·百川”儿科大模型。


“福棠·百川”儿科大模型及AI儿科医生产品发布现场,图片来源:百川智能

这也得益于百川前期的行业积淀:在2024年底前组建了高水平的医学部,能指导和支持百川医疗模型的研发工作,推动与高水平医疗机构的合作。目前北京十三家国家医学中心,有七家已经和百川建立了联系。

这些医疗机构也希望,借助大模型突破传统医疗的能力边界,能像专医生一样整合最佳医学证据,为患者制定科学、个性化的诊疗方案。

这也对医疗大模型的准确率提出了更高要求。以“福棠·百川”儿科大模型为例,在儿科多学科专家会诊中,其给出的诊疗方案与北京儿童医院专家会诊结果吻合率达95%。大模型参与会诊,使得顶级医疗机构结合AI形成新的医疗模式成为可能。

这种变化也体现在医生个体的诊疗行为转变上。

数据显示,一、二级医生中接近一半已使用过AI-CDSS软件,他们对AI医疗软件的接受程度逐步提高,且有将其引入临床工作的趋势。可以预见的是,随着年轻医生逐渐成为中坚力量,未来将有更多医生以开放的态度接受Al。

这一现状,是行业的长期主义者早就预见的,他们判断基于,医疗行业的瓶颈是优质的医生的培养和供给,大模型能力边界的不断跃迁带来破局的可能——大模型智能体能提供无限的AI医生供给,改善医疗行业的生产力难题。同时,医疗界长期存在的痛点问题,包括人员不足、效率不高、医疗资源配置不均等,让行业内外寄希望于找到新技术的解药。

2.AI是解药吗?

实际上,上述痛点都指向一个核心指标——医疗行业的生产力问题。行业缺乏全病程、全生命周期的真实数据和优质的医生的培养和供给。

另外,目前国内医疗资源呈现出典型的结构性失衡局面。最新统计表明,全国医疗机构中95%以上是基层医疗机构,三级甲等医院占比仅0.25%。由于患者就医选择的集中化倾向,这种供需矛盾表现得尤为突出。这种"基层冷、大医院热"的现象,不仅加剧了看病难问题,也制约着分级诊疗制度的有效实施。

AI如何才能触及这些核心问题?

百川的破局路径是“造医生-改路径-促医学”。

通过推广AI医生,解决供需失衡。他们重点培育最紧缺的科室方向,如全科、儿科,通过AI医生实现规模化供给。AI与真人医生协作,提升基层和专科医疗的可及性,缓解医疗资源分布不均问题。

例如,百川AI助诊仪在海淀区多个社区卫生服务中心上岗,“AI+真人”的双医模式累计服务7743人次。上文提到的“福棠·百川”AI儿科医生也针对性地开发了基层版,帮助基层医生实现儿童病毒性脑炎的初步诊断。

AI医生在基层医疗的应用,在提高基层医生诊疗水平的同时,改变就诊路径,从而助力分级诊疗体系建设。

AI医生具有丰富的医学知识以及媲美三甲主治医师的诊疗能力,其以双医模式的形式部署到基层医疗机构之后,能够为基层医生查漏补缺,相当于为每一位基层医生配备了一个三甲主治医师的助手。如此一来,很多常见病在基层医院就能解决,居民就不用小病也抢号挤三甲了,从而实现就诊路径的改变,助力分级诊疗体系建设。

另外,AI医生的普及也能解决就诊过程中的最大痛点——无法获取病人全周期数据。

当AI医生成为每个人生活中的标配后,它能够掌握用户全生命周期的数据,甚至比医生更加了解病人的整体健康情况,这有助于医院更准确地判断病情。

在这些服务中产生的数据和对话,将助力临床医学和流行病学突破性发展,并有望建立生命模型,最终走向个体化精准医疗。

从这个角度来说,在医疗领域,AI并不只是简单的工具,还有着扩展人脑认知边界和突破现有医疗范式天花板的可能,甚至能为全人类的健康做出贡献。

这一美好愿景,也是许多AI医疗从业者坚持前行的精神动力


国内首次“AI儿科医生+多学科专家”的双医并行多学科会诊

目前,行业在这些方向上的探索,也已经初具雏形,基层医院也开始积极探索这些技术路径的深度应用,早在2024年底,海淀区就联合百川智能率先探索以AI 助力基层医疗发展的新路径,来共同打造“AI医生-真人医生双医协同”的基层医疗服务新模式。

这些案例也预示着,AI医疗普惠的愿景正在加速实现。

3.寻找通向星辰大海的最佳技术路径

在真实诊疗中,医生需要处理模糊的病情描述、动态的医患沟通、个性化的治疗决策,这对大模型的逻辑推理、知识整合、交互能力提出了更高要求。

百川智能最新发布的Baichuan-M2,也针对这些指标进行了性能及场景优化提升。

在Baichuan-M2的构建过程中,百川结合医疗场景自身特点设计了一套较为全面的医疗Verifier系统。其核心方法是通过来自医疗关键子场景的医生思维的数据训练,使其对齐医生思维。并且结合来源于真实世界的医疗任务,围绕Large Verifier System开展端到端强化学习,提升了模型解决复杂医疗场景任务上的能力。

得益于这些技术链路的改进,Baichuan-M2在HealthBench上的表现不错。HealthBench Hard的评测结果显示,Baichuan-M2和GPT-5是目前全球唯二超过32分的模型。

通过中期训练构建高质量医疗语料和通专兼顾的训练策略,使得Baichuan-M2在中国医疗场景的优势表现更为明显。在中国临床诊疗场景的问题评测中,对比gpt-oss系列模型,Baichuan-M2展现出更明显的可用性优势,例如针对临床诊疗的案例,M2更贴合中国医疗场景,更遵循中国权威指南推荐。

鲁棒性差也是AI医疗落地的一大痛点,这是因为真实临床医患对话场景中患者的表达往往具有种种噪声:症状描述因个体认知差异(年龄、文化、教育背景等)而带有偏见或是遗漏。

为了提升模型的鲁棒性和自适应性,百川构建了“患者模拟器”。


“患者模拟器”示意图

这是一个基于真实病例数据构建的AI系统,能够模拟具有特定疾病背景、个体特征和行为模式的虚拟患者,在医患对话中提供真实的症状表达和交互反应。结合患者模拟器,训练模型在信息不全、表述模糊、前后矛盾等真实医患对话中仍能作出合理决策。

尽管AI技术可以针对医疗环节的痛点“对症下药”,但这项技术能否最终落地,最终标准始终是临床实用性及ROI——模型能否真正服务于医生、优化诊疗流程、提升患者体验。这也要求模型能够在低算力成本部署下实现更准确的诊疗结果。

同时,医疗行业的特殊性决定了私有化低成本部署是刚需——医疗机构既需要高性能 AI,又受限于预算和算力,且对数据隐私极为敏感。针对这一痛点,Baichuan-M2以几乎最低的部署成本在HealthBench上取得了最优效果,相比于OpenAI最新开源的gpt-oss-120b,再一次前移了帕累托前沿,从而进一步提升了模型在真实医疗场景中的落地可能性与可扩展性。


北京儿童医院与百川智能联合研发的“AI儿科医生”

目前,百川已经与北京市海淀区卫健委、北京大学第三医院、国家儿童医学中心等合作伙伴展开对Baichuan-M2的探索应用。这也是百川一直以来致力的方向,在受众面最大、最紧缺的医生方向全科、儿科方向探索。

虽然星辰大海的终极愿景还很遥远,但模型的迭代、技术的迭代和行业共识的共同推动,让这条路径上的每个里程碑,都可能重构人类对抗疾病的方式。

道阻且长,行则将至。AI 医疗的发展仍面临诸多难题,但每一次突破都让我们离星辰大海更近一些。

(封面图来源:AI生成;文中图片来源:百川智能)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
44岁梅根巴黎看秀!被媒体冷落显尴尬,穿搭效仿凯特王妃,很出圈

44岁梅根巴黎看秀!被媒体冷落显尴尬,穿搭效仿凯特王妃,很出圈

花心电影
2025-10-06 08:40:01
你的生日尾数是多少,就是什么命!

你的生日尾数是多少,就是什么命!

大禹小城
2025-11-01 20:36:49
浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

FM93浙江交通之声
2025-11-02 06:05:42
活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

活久见!山东一宝马汽车“穿棉袄”,网友:天冷,别冻着我的活爹

火山诗话
2025-11-01 13:41:41
英伟达亮出L4自动驾驶时间表:今年联合奔驰落地,2027年推出10万辆无人出租车

英伟达亮出L4自动驾驶时间表:今年联合奔驰落地,2027年推出10万辆无人出租车

车东西
2025-10-30 16:37:35
从宗教极端思想的泛滥到民族和睦团结的今天,我所经历的那些记忆片段

从宗教极端思想的泛滥到民族和睦团结的今天,我所经历的那些记忆片段

西域都护
2025-10-15 11:40:34
上海地铁回应“一老年乘客强坐女乘客腿上”

上海地铁回应“一老年乘客强坐女乘客腿上”

大象新闻
2025-11-01 19:22:05
荷兰抢夺中企后,掀开第二张底牌,不到48小时就被中方废掉

荷兰抢夺中企后,掀开第二张底牌,不到48小时就被中方废掉

据说说娱乐
2025-11-01 13:57:18
被遗忘的战役:20万德军血战190万苏军,杀伤110万,却打出了阴影

被遗忘的战役:20万德军血战190万苏军,杀伤110万,却打出了阴影

老闫侃史
2025-10-31 18:25:03
长期在广州的,建议办一下这3张证!工作生活都用得上!

长期在广州的,建议办一下这3张证!工作生活都用得上!

娱乐洞察点点
2025-11-02 00:42:33
哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

哇太漂亮了,俄罗斯顶级女神,五官绝美,完全符合东方的审美

陈意小可爱
2025-10-11 15:05:05
人刚走,葬礼的哀乐还没散干净。清华那边,一个决定就砸下来了。

人刚走,葬礼的哀乐还没散干净。清华那边,一个决定就砸下来了。

王晓爱体彩
2025-11-01 05:24:26
辽宁男篮揭幕战!杨鸣拒绝爆冷,韩德君确定出战,央视直播

辽宁男篮揭幕战!杨鸣拒绝爆冷,韩德君确定出战,央视直播

体坛瞎白话
2025-11-01 11:28:02
杜震宇:现在不想回亚泰看尔虞我诈,我是搞业务的不玩计谋

杜震宇:现在不想回亚泰看尔虞我诈,我是搞业务的不玩计谋

雷速体育
2025-11-01 20:08:25
国军师长逃亡台湾途中被俘,笑着和老同学打招呼:我是中央军委的

国军师长逃亡台湾途中被俘,笑着和老同学打招呼:我是中央军委的

小港哎历史
2025-11-01 10:39:09
自闭症男孩研学营走失身亡事件后续:四名带队老师处失联状态,家属将继续追责

自闭症男孩研学营走失身亡事件后续:四名带队老师处失联状态,家属将继续追责

扬子晚报
2025-11-01 17:33:16
WTT冠军赛:男单4强出炉!日韩法瑞各1人,大勒布伦恶战6局逆转

WTT冠军赛:男单4强出炉!日韩法瑞各1人,大勒布伦恶战6局逆转

全言作品
2025-11-02 05:55:57
来南宁看病别只认医科大!找准这几家王牌专科,省钱省力效率高!

来南宁看病别只认医科大!找准这几家王牌专科,省钱省力效率高!

普陀动物世界
2025-11-02 01:17:02
人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

人民日报专访,揭开32岁周深的真实处境,那英确实一个字都没说错

八斗小先生
2025-11-01 08:46:54
共和党无视特朗普呼吁废除参议院冗长辩论规则政府关门危机持续

共和党无视特朗普呼吁废除参议院冗长辩论规则政府关门危机持续

观星赏月
2025-11-02 06:05:53
2025-11-02 08:00:49
甲子光年
甲子光年
中国科技产业化前沿智库
3231文章数 9252关注度
往期回顾 全部

科技要闻

事关安世半导体,商务部最新发声!

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

头条要闻

4200万美国人吃饭成问题 有人让孩子吃饭自己喝水撑着

体育要闻

NBA球员,必须吃夜宵

娱乐要闻

王家卫这波录音,撕烂了遮羞布

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

艺术
房产
亲子
时尚
健康

艺术要闻

郑丰林:中国当代年轻女画家

房产要闻

实力破圈!这个豪宅交付,正在定义海口品质样本!

亲子要闻

父母对孩子的爱,孩子能感受 领域 感激,不接受的只是方法

伊姐周六热推:电视剧《树影迷宫》;电视剧《锦月令》......

核磁VS肌骨超声,谁更胜一筹?

无障碍浏览 进入关怀版