国产大模型MedGPT获国际顶刊认证，"未来医生"走进严肃医疗深水区|医学|胸外科|张文宏

分享至

2025年末到2026年初，医疗AI占据了AI圈的绝对C位。

国内，蚂蚁阿福线上线下全渠道“地毯式”推广，百川智能发布新一代医疗大模型Baichuan-M3；国外，OpenAI、Anthropic、谷歌三大巨头也如同事先写好剧本，在一周内先后发布各自的医疗健康AI应用。

据不完全统计，全球已发布的医学大模型数量超过300个。在这一轮AI引领的技术革新浪潮中，尽管各方开发者都谨慎地表示AI不会取代医生，但面对AI已经展现出的强大能力，几乎没人怀疑医疗行业将迎来深刻变革。AI不会甘心止步于外围的轻问诊和健康咨询，而是要进入严肃医疗，参与复杂疾病的临床诊疗。

当下最关键的问题是，在人命关天的医疗场景，如何克服大模型的“幻觉”，尽量规避安全隐患。

在国家传染病医学中心（上海）主任张文宏近日公开表达对AI的审慎态度之后，公众号“张强医生”也发文指出，当前医疗AI最容易制造的幻觉，不是“胡说八道”，而是“看起来完全正确”，甚至还能给出参考文献。不仅对患者极具说服力，对资历尚浅的年轻医生也极具诱惑力。

有临床专家指出，如同一名医生必须通过医师资格考试才能上岗，医疗大模型要进入临床，也必须建立科学严谨的评价标准。

目前，针对医疗AI的评价体系正在逐步构建。事实上，在这方面的探索，中国已经走在世界前列。

Nature旗下数字医学领域全球顶级期刊《npj Digital Medicine》近期发布了一项来自中国科研团队的最新成果——全球首个用于评估医疗AI临床适用性的标准：“临床安全-有效性双轨基准”（CSEDB，Clinical Safety-Effectiveness Dual-Track Benchmark）。

CSEDB由来自中国的未来医生科研团队联合32位国内顶尖临床专家共同制定，其核心价值在于，打破了过往以答题准确率评估医疗AI能力的模式，在全球范围内首次引入“安全性”与“有效性”双轨评价体系，全面贴合真实临床决策场景。

基于该标准对全球多个主流AI大模型开展的系统性测评中，由未来医生团队打造的MedGPT各项评分均位列第一。

这也意味着，作为国内最早发布的医疗大模型之一，MedGPT的底层架构、技术路线和临床数据沉淀，已然经得起模拟临床实战的严格测试，可以代表医疗AI在严肃医疗领域的发展方向。

同时，该项获得国际顶尖学术期刊验证的研究成果，还在某种程度上回应了医生群体对大模型可靠性的担忧，提供了抑制“幻觉”的参考样本，为医疗大模型的迭代优化指明了方向，也为医疗AI进入严肃诊疗场景奠定了基础。

全球医生组织中国总代表、GlobalMD创始人Tim Shi（时占祥）近日也在海外社交媒体上为此点赞：由中国推动的标准+MedGPT的表现=真正的差异化以及更聪明的风投资产。

顶刊背书，“实战”领先的大模型

CSEDB评估标准能在《npj Digital Medicine》发表，其学术含金量已毋庸置疑。

《npj Digital Medicine》目前属于中科院医学大类1区Top期刊（代表在所属学科的所有期刊中，影响力排名前5%），2024年影响因子15.1（超过10便已是国际顶尖水平）。

参与制定CSEDB的团队也堪称豪华，32位临床专家均来自北京协和医院、中国医学科学院肿瘤医院、北京大学口腔医院、中国医学科学院阜外医院、中国人民解放军总医院、复旦大学附属华山医院、上海市同济医院等顶尖医疗机构的23个核心专科。

研究团队指出，目前对医疗大模型临床能力的评估主要依赖USMLE式标准化医学考试和专业问答数据集，难以反映真实临床实践的复杂性。

“没有一个病人是按照指南去生病的，每个病人的疾病都是特异性、个体化的。”参与标准制定的专家团队成员、北京协和医院胸外科主任医师梁乃新教授指出，临床诊疗是遵循共性（指南）与运用经验、能力解决个体化问题相结合的过程，还需要平衡安全性和有效性。

为突破现有评估框架的局限，研究团队建立了涵盖26个专科和多样化患者群体（包括多重用药的老年患者和免疫缺陷个体）的QA框架，共计2069个开放式问题，全方位模拟临床诊疗的复杂场景。同时，聚焦安全性和有效性两大核心维度，基于临床专家对风险和获益关系的共识，设置了30项评估指标，包括17项安全性指标和13项有效性指标，并引入1-5级风险分层设计，对不同指标进行加权打分，使评估结果能更准确地反映大模型对临床结局的影响。

注：安全性和有效性指标参考了2002年卫生部发布的《医疗事故分级标准(试行)》

相比其他采用“标准问-标准答”模式的静态评测，CSEDB评估标准显然更贴近实际诊疗需求，也更具挑战性。

评估结果显示，作为医疗领域专用模型，MedGPT的表现显著优于通用模型，总体得分、安全性得分和有效性得分均位列第一。相比第二名，MedGPT总体得分高出15.3%，安全性得分高出19.8%。特别是在大多数模型安全性表现偏弱的情况下，只有MedGPT安全性得分高于有效性得分。这也与临床专家安全性大于有效性的价值取向保持了高度一致。

图片来自《npj Digital Medicine》发布论文《A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains（一种用于评估医疗大语言模型在临床领域安全性和有效性的新型评估基准）》

未来医生产研负责人廉泽良告诉健闻咨询，MedGPT从立项开始，就将临床专家奉为圭臬的安全性和有效性植入底层代码，致力于让医疗AI“像医生一样思考”。2023年发布之初，MedGPT在面向真实患者的试验中，便已展现出不俗的临床适配能力——与三甲医院主治医师的诊断一致性高达96%。

廉泽良表示，MedGPT在此次CSEDB评估中再度展现出的领先优势，主要源于两个方面：

一是模拟人脑认知逻辑的三层架构，即“快系统（类比大脑皮层执行语义任务）+慢系统（类比前额叶深度推理）+ACC层（类比前扣带皮层，调和快慢系统矛盾）”，三层架构形成强耦合闭环，少一层即退化为普通模型。其中，快系统调用通用模型，快速响应用户需求，负责理解与沟通；慢系统基于专家经验，可显著抑制通用模型的“幻觉”，负责准确诊断。慢系统还集成了双飞轮结构，小飞轮基于临床指南预设诊疗路径，大飞轮强化学习并复制专家临床经验，双飞轮协调联动，构建起可持续优化的完整闭环。

图片来自未来医生商业计划书

二是专家资源和优质的结构化验证数据。经过逾120位三甲医院专家验证的“症状-疾病-用药”三元组数据，已经嵌入MedGPT的知识底座。而在基于MedGPT打造的未来医生平台上，如今已有超过1万名医生与患者保持互动，每周可沉淀2万条真实诊疗反馈，通过“反馈即迭代”的飞轮机制，MedGPT的准确率每月可提升1.2%-1.5%。

在廉泽良看来，这些都构成了MedGPT不可复制的能力壁垒，可以至少领先同行2-3年。

人机协同的“未来医生”模式

用医联集团/未来医生创始人、CEO王仕锐的话说，未来医生的AI训练过程好比顶级专家指导“天才学生”。以此类比，未来医生平台的工作机制，就如同顶级专家带着“天才学生”一起会诊。

2025年8月，未来医生APP正式上线，并基于该平台推出权威专家在线免费问诊服务。据官方介绍，未来医生聚集了来自全国A++++级别医院（如解放军总医院、北京协和、华西、上海瑞金、复旦华山等）的专家团队，包括曾担任国家级学术委员会主委、副主委的行业权威专家及医疗团队，可覆盖95%的常见疾病和大多数疑难杂症。

不同于其他AI问诊平台，大模型应用只是作为线上服务的入口，起到导流的作用，始终聚焦严肃医疗的未来医生平台，构建起了一套精妙的人机协同“四级分诊体系”：AI初筛与结构化问诊、专科智能匹配、多学科会诊（MDT）介入、权威专家复核与决策。

该流程确保了病例在专业递进中得到精准处理，既避免患者走弯路贻误病情，也杜绝了医疗资源的浪费。

在此过程中，AI与医生分工明确，AI承担科普问答、信息整合、病例分拣、辅助决策等工作，而医生可以从繁杂的程序化工作中抽身，将精力集中于核心诊疗环节。专家及团队作为诊疗决策者与责任主体，会对AI生成的诊疗建议进行终审把控，并出具签字/签章的规范医嘱。通过“医生授权+技术辅助”，确保诊疗的安全性与有效性。

另一大亮点是，借助完整复制专家诊疗和沟通能力的智能体，目前在线下尚未形成体系，需要额外支付高额费用的MDT，在未来医生平台成为免费的常规服务。

在实际案例中，未来医生对急危重症和疑难病症的处理，均不乏出色表现。

据未来医生官方公众号披露，2025年9月，一位用户在父亲突发肢体无力、言语不清症状时，使用未来医生APP发出求助信息，13秒后便收到平台预警，提示疑似急性缺血性脑卒中。

图片来自微信公众号：未来医生官方号

随后，平台的四级分诊机制开始运行，在救护车赶到之前，一份就医指南已经发到该用户的手机。

图片来自微信公众号：未来医生官方号

“这份清晰的指引，让在慌乱中的我找到了方向。”用户在自述中这样写道。最终患者及时送医，转危为安，CT检查报告与平台会诊结果高度一致。

另一位用户，也是一位母亲，7岁女儿脚痛数月，多方求医仍未得到有效诊治，机缘巧合中下载使用了未来医生APP，提交孩子病历资料后，经过儿科、骨科和风湿免疫科专家智能体MDT会诊，最终得到北京协和医院风湿免疫科主任医师赵岩教授亲自给出的诊断建议：需排除幼年特发性关节炎。

当她带着孩子去医院检查时，连医生都感到吃惊：你们怎么想到要来查这个？听到赵岩的名字，那位医生当即打消疑问。不出意外，最终检查结果也证实了赵岩教授的推测。

通过这些案例也可以看到，AI赋能的互联网问诊，正在如何超越过去所谓的“轻问诊”“轻咨询”：线上平台能够完成的，不再是常见病、慢性病的复诊开药，对于急危重症和疑难病症，即使不能直接实施检验检查，但通过经验丰富的顶级专家团队与AI的紧密协作，已经能够给患者提供准确清晰的就医指南，其诊断建议甚至能与最终诊断结果高度匹配。至此，线上线下医疗资源也实现了高效协同。

过去十年来，国家一直力推分级诊疗，构建基层首诊、上下联动的有序格局，以解决医疗资源分布不均衡、大医院人满为患的痼疾。从这个角度看，未来医生的模式探索，还具有更深远的意义：它呈现了一种基于“AI首诊”的分级诊疗路径，有望弥补基层能力不足，化解上下联动中的利益分配难题。

边赛跑、边铺路的硬核“玩家”

今时今日，医疗AI赛道的热闹景象，很难不让人回想起十年前互联网医疗创业者的勃勃雄心。

AI大模型的横空出世，也让互联网医疗赛道充满新的想象空间——可以借助AI在高度复杂和专业的医疗领域再掘进一尺。

十多年前互联网医疗的行业愿景——打破地域时间限制、提升优质医疗资源可及性，本质上是线下医疗资源（包括医和药）向线上平移，相比之下，今天的医疗AI更有可能创造增量，实现优质医疗资源的“扩容”。比如大部分人都能首先想到的：将学习了大医院大专家临床经验的智能体推广到低资源地区或基层医疗机构。

在北京协和医院胸外科主任医师梁乃新教授看来，在大医院，AI可以让专科医生如虎添翼，但更重要的应用场景是在基层社区，通过AI去强化全科医生、家庭医生的能力，为上级大医院筛选专科病例，而不是让患者直接涌向大医院的专家诊室。

2025年11月，国家卫健委等多部门联合发布《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》，其中明确提出，到2030年，基层诊疗智能辅助应用基本实现全覆盖。

但正如张文宏、张强等医生所担心的，存在幻觉的医疗大模型，到了经验和资历都欠缺的年轻医生手里，结果可能适得其反。另外，健闻咨询此前也报道过，三甲医院训练出来的顶配大模型，在基层还可能“水土不服”。

基于这些行业痛点，更能看出未来医生团队正在开展的工作之可贵。当互联网大厂基于自身资源优势和商业基因，高举高打抢占用户心智、争夺AI流量入口时，他们则专注于修炼内功，试图解决AI进入严肃医疗面临的核心问题。

比如通过算法机制和优质医疗数据的协同，不断抑制大模型的“幻觉”产生率，尤其是在数据方面。

作为积极拥抱AI的临床专家，梁乃新教授对数据质量的观点极具代表性，在他看来，所谓AI（Artificial Intelligence），越是Intelligence的阶段，越要重视Artificial的data（数据）。

MedGPT在训练阶段，就对规则库质量、医生的权威性提出高要求，而不是单纯堆砌海量数据；在后续迭代中，也需专家每天根据真实病例给予额外的、在指南中无法体现的反馈。特别是指南之外的专家经验，更具含金量。因为指南相比最前沿的医学进展和临床中的鲜活经验，总是具有滞后性。

据王仕锐透露，对于那些不成文的专家经验，未来医生会跟专家反复交流。目前平台上刚上线的专家每天会对至少1个以上的案例给出明确回复，“专家需要非常了解和信任AI才能做到这一点。”

信任并非对AI放任不管，而是需要明确界定其能力与责任的范围，未来医生携手临床专家，探索建立临床适用性标准的重要意义也在于此。

正如研究团队在《npj Digital Medicine》发表的论文所言，CSEDB为模型优化和监管审批提供了科学依据，并为大模型从受控实验室环境安全有效地转化到真实临床实践铺平了道路。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.