医疗AI质变时刻来临！国产医疗AI率先突破，临床诊疗能力问鼎全球|医生|治疗|胸外科|医疗ai

分享至

衡宇发自凹非寺
量子位 | 公众号 QbitAI

“我最近喉咙像刀割一样痛，还伴随鼻塞，但没有咳嗽……这是染上流感，还是又中招了？”

上面这个场景，已逐渐成为大众与AI互动的日常之一。

但这背后隐藏的是医疗AI真实能力与临床期待之间的落差。北京协和医院胸外科主任医师梁乃新对我们表示，虽然不时传出“AI在xx执业医师考试中拿下高分”的新闻，但现实并不尽如人意。

大多数曾在各大考试中表现突出的模型，在真实临床表现中都屡屡暴露出推理幻觉、诊断不当、治疗方案欠妥等问题。

现有的各种执业医师考试等标准化考试的题目通常有固定答案和有限选项，而现实中的医疗实践则是高度个体化、动态演变的复杂系统，容错率极低，患者千差万别，病情进展时常难以预测。一个诊断失误可能意味着威胁生命。

10月29日，OpenAI已经更新使用政策，禁止ChatGPT在解读医学影像、协助医疗诊断等原本被认为最具价值的应用领域提供服务，反映出AI行业对于介入医疗等严肃领域的审慎态度。

通用大模型可以选择撤退，但对于本就以此为战场的医疗垂类大模型而言，生死存亡，只此一途。

站在医疗AI的视角，具备临床诊疗能力，从“说得像医生”和“给医生做助理”升级为“像医生一样思考”，堪称其质变时刻。对于整个互联网医疗行业而言，这一突破更将改写行业叙事——从单纯帮医生提升效率，到让医生成为拥有“三头六臂”的“超人”，从只是“搬运”医疗信息和资源到真正“创造”医疗资源。

是时候为医疗AI的临床诊疗能力提出一个适宜的标准了。

在这个情况下，一个由多位顶级中国临床医生联合制定的、全球首个评估医疗AI临床适用性的标准诞生，它已经完成了对多个主流AI模型的系统性测评。

由中国企业打造的医疗AI，在这场测评中夺得世界第一。

未来已来，一个真正具备临床诊疗能力的医疗AI，已经悄然来到我们身边。

一套贴近临床决策链条的新标准出现了

现有针对医疗AI的评估体系里，大多数医疗AI能力的衡量标准集中于“考试成绩”。

是否能答对“肺癌的典型症状有哪些”“治疗高血压首选药物是哪种”这样的问题，成为判断模型能力的重要依据。但这类题目多为选择题，标准明确，答案固定，答对与否易于判断。这也是ChatGPT、Claude、Med-PaLM等模型在多个医学类考试中屡获高分的原因。

北京协和医院胸外科主任医师梁乃新也提到，执业医师考试是成为一名医生的通过性考试，考题更多注重于对临床基础知识、基本技能、诊疗原则、规范的考核，“不能犯错”，而不是“是否足够好”。真正的临床工作远比考试复杂得多，尤其是在个体化治疗与多病共存的复杂医疗场景中，医生常常需要做出综合判断。

面对一位高龄糖尿病患者出现呼吸困难，医生需要同时考虑呼衰、心衰、肺炎、低血糖及药物副作用等多种可能；既要排查立即危及生命的急症重症，也要兼顾患者的基础疾病史和当前用药情况，制定出风险最低、效果最优的诊疗路径——这恰恰是传统标准评估模型能力时难以覆盖的关键盲区。

所以，仅依赖考试成绩来评估AI是否能用在临床，与临床实际应用场景的需求落差较大。

为了让医疗AI真正走进临床，衡量标准本身必须更新。

基于这一背景，32位来自北京协和医院、中国医学科学院肿瘤医院、北京大学口腔医院、中国医学科学院阜外医院、中国人民解放军总医院、复旦大学附属华山医院、上海市同济医院等23个医院不同专科的一线临床专家共同制定了一套“临床安全-有效性双轨基准”（CSEDB，Clinical Safety-Effectiveness Dual-Track Benchmark）。

这套新标准不再以答题准确率作为唯一衡量维度，而是首次引入了“安全性”与“有效性”双轨评价体系。

评估维度涵盖了危急重症状识别、药物剂量计算错误、联合治疗方案科学性、并发症预警提示、对指南的遵循程度等30项核心指标，全面对照真实临床工作中医生所面对的判断难题与决策压力。

不仅如此，CSEDB在测试方法上也打破了以往“标准问-标准答”的静态模式。

整套评估体系共构建了2069个开放式问答条目，覆盖26个临床专科。这些问答场景高度贴近一线实际的临床病例推演，涵盖急性中毒误指导、绝对禁忌用药判断、联合用药合理性、术后并发症识别等关键场景。

更关键的是，CSEDB将每一项指标按临床风险等级进行加权打分。评分从1分到5分不等，5分代表“潜在致命后果”，如错判危重症、开出禁忌用药等高风险情境；1分则代表“可逆性伤害”，如非关键数据误差。

这样的风险分级机制，首次将模型评分与实际医疗后果进行了直接绑定。通俗而言，这不是在考模型“能不能答题”，而是在考“答错题，风险究竟有多高”。

中国人民解放军总医院第四医学中心介入科主任于友涛向我们表示，CSEDB是一次在标准维度上向真实决策场景靠拢的努力。

“人工智能拆开来看是人工和智能，目前AI的发展，把太多注意力放在了后半的智能部分，追求不断提高算力”，北京协和医院胸外科主任医师梁乃新强调道，“但在医疗领域，如何保证前面一半的人工部分不出问题，如何确保喂给AI的医疗场景、医疗资源、医疗决策没有问题，在此基础上，兼顾安全性和有效性，兼顾指南、共识的标准规范治疗与个体化治疗，兼顾急难险重的病情排查和常规病情的持续诊疗，如何从架构上让AI像医生一样思考，才是医疗AI更进一步努力的方向。”

标准之上，才能谈落地；被验证的能力，才有走入真实医疗场景的可能。

更值得注意的是，这套标准并不以“替代医生”为目标，而是服务于“医生能否放心托付部分任务”的现实需求。

中国模型拿下世界第一

CSEDB的建立，意味着AI时代首次有了一套能够真实反映医疗AI临床诊疗能力的系统化评估标准。

全球范围内的主流大模型，包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等在内，悉数接受了这套严格测试。

在这场多维度、风险分级的系统测评中，一个来自中国的大模型MedGPT，以总分0.895的成绩位列第一。

它不仅在总体表现上领先第二名（0.742）超过15个百分点，更是唯一一个在安全性评分上超过有效性的模型。

在临床诊疗中，安全性的重要性不言而喻。

中国人民解放军总医院第四医学中心介入科主任于友涛明确表达了安全性在医疗临床场景中的首要地位：“临床工作不是游戏，没有从头再来的选项，不可能说打坏了我们再来一把。”因此，CSEDB制定过程中特别强调了安全性作为临床应用的底线。

安全性评分超过有效性评分，意味着MedGPT模型能力在不断逼近医生专业水平的同时，还展现出了极其罕见的“谨慎”特质。

此外，CSEDB中的高权重场景，往往也是最考验模型“底线能力”的部分。

例如“致命药物相互作用”“严重过敏史忽视”“绝对禁忌用药”等评分项都被设定为权重5，容错空间为零。MedGPT在这些场景中几乎全线达标，是唯一在安全维度评分中突破0.9的模型。相比之下，其它通用大模型在这些维度上普遍得分不足0.6，暴露出推理失衡、认知错配等系统性风险。

其实，这并不是MedGPT第一次展现超越预期的能力。

早在2023年，刚问世一个月的MedGPT就曾与四川大学华西医院十余位主治医师共同参与了一场真实患者的诊疗一致性临床试验。

那是一次公开面向患者的义诊现场，每位患者都会被安排与人类医生进行首诊问诊，同时MedGPT独立生成诊疗建议，最终由专家评审团打分，考察两者在诊断、治疗建议等多个维度的诊疗一致性。

最终，MedGPT在这场持续12小时、涵盖91例真实病例的临床实验中，取得了与三甲医院主治医生96%一致性的结果。

彼时，这一成果就引起了国内外医疗科技领域的广泛关注。但如MedGPT背后团队产品负责人廉泽良所指出的，那次测试验证的是模型在标准化情境下的可靠性，“一致性并不等于水平等同”，真正的临床应用还需要经过时间、场景和风险的多重考验。

迄今为止的两年间，MedGPT持续深耕底层能力的拓展和风险管控机制的建设，并在使用中不断进化。每周，有超过一万名医生通过平台进行交互，每周沉淀两万条诊疗反馈。

这些数据会被自动纳入模型的推理单元训练中，推动MedGPT每月准确率提升1.2%-1.5%，形成“反馈即迭代”的飞轮机制。

当标准具备高度临床拟合度，模型具备真实表现能力，两者结合所带来的结果，就是医疗AI从“模拟医生语言”向“参与临床级医生推理”的质变跃迁，是行业不再纸上谈兵的关键标志。

通过“复制医生”，创造医疗资源

但拿下任何评估的高分都不是医疗AI的最终目标。

高水平的医疗资源，历来集中在一线城市、三甲医院、知名专家手中。对于绝大多数基层患者而言，医疗AI的真正价值是让AI具备临床专家的能力，创造新的医疗资源，化身“可用、可信、可得”的智能助手，真正服务每一个需要医疗帮助的人。

基于MedGPT的技术能力，背后团队推出了“未来医生”平台，这个名字本身就承载了团队的期待，不是健康管理助手，而是医生的未来形态，并明确提出一个核心构想：

将专家医生的临床经验、诊疗路径与沟通能力，以AI智能体的形式进行规模化复制。

这种复制，不是生硬的标准化导诊，也不是“AI回答+医生审核”的串联模式，而是在安全可控的技术架构下人机协作的全病程医疗服务体系。

据未来医生产研负责人廉泽良介绍，相比以往“AI写医生看”的浅层协作，未来医生平台更像是一场真正意义上的智能托管尝试。

医生可基于对模型稳定性的信任，在特定场景下选择将部分环节交由AI处理，而AI也会在关键环节输出可解释的逻辑链条与推理依据，确保医生可以随时介入/中断AI流程，实现动态掌控。

廉泽良进一步解释道，如果用智能驾驶分级类比医生与AI的人机协作模式，目前未来医生的大部分场景都处在L3级别，也就是“有条件的自动驾驶”，即在大部分相对标准化的诊疗场景，医生可以授权AI去处理，而在危急重场景，需要医生接管决策。

整体的决策权始终在医生手里，并且所有诊疗建议，最终都需医生审阅并签字确认。

基于此，未来医生才能够做到在诊疗免费和7*24小时服务的承诺下，保证向用户输出的每一句话都是真人医生回答，并且向每一位用户提供全科医生——多学科会诊——专科专家的三级分诊模式。

在为用户匹配到对症的专家后，保证所有的问诊服务都由真人医生提供，同时还能将过去仅用于重症治疗的多学科会诊（MDT）机制应用于每个病例。

截至目前，未来医生上已有超过50位中华医学会主委级顶尖医学专家为患者提供服务。

这些专家不是挂名，而是实际参与了模型训练与人机协同方案的设定。

相比传统互联网医疗依赖“搬运既有医疗资源”的方式，未来医生通过用AI“复制医生”的模式，把稀缺的临床经验变成可规模化的能力，全国各地成千上万的病患都成为了可以获得顶尖医疗资源的用户。

这不是在替代医生，而是在放大医生的能力。用廉泽良的话说，是通过人机协作，把医生变成拥有“三头六臂”的“超人”。

攻克医疗AI皇冠上的两颗明珠

面对AI的迅猛发展，很少有领域像医疗这样，既承载着人类最深切的期待，也面对着最严苛的底线要求。

三年前，未来医生团队选择将全部研发重心押注在医疗AI这条最难的赛道上。

这是一个技术挑战，更是一个信念挑战。“医疗AI是垂类大模型中公认的皇冠，在这顶皇冠上有两颗明珠，一颗是‘继绝学’，一颗是‘开太平’。”在研发之初，未来医生创始人、CEO王仕锐就不断向团队传递这个理念。

所谓“继绝学”，是指AI把过往的医疗能力全部复制过来，像顶尖医生一样提供标准化服务。

而“开太平”，则意味着AI超越人类医生水平，为顶级专家都束手无策的绝症提供突破性的治疗思路。

这样的研发初心决定了未来医生的研发理念：一开始的目标就不是局限于简单地提高医生效率，而是要让医疗AI像医生一样思考。

而研发理念直接决定的是研发路径：不会寄希望于海量数据浇灌下的“大模型智慧自然涌现”，而是把精力投入到大模型技术架构的搭建上，让医疗AI在架构上更接近人类大脑。

在这一技术哲学下，采用三层认知系统（快系统处理常规问题、慢系统承载推理分析、ACC层调和矛盾与评估风险）的MedGPT，在CSEDB标准下全面通过“临床安全”与“诊疗有效性”的双重考验，成为全球第一个经验证具备临床诊疗能力的医疗大模型。

CSEDB标准将向全行业开放，测试平台也将向全球医疗AI研发团队提供，任何机构都可以基于这一标准对自身模型进行评估与优化。

——标准的建立不是为了垄断和炫耀，而是为了引导和推动行业走向成熟。

从“答题拿下高分”到“真能帮着治病”，医疗AI完成了它从模拟思维向临床实践的进化。而这场进化的转折点，正由一个中国团队率先书写。

我们曾无数次设想AI改变世界的方式，但或许，最有价值的场景并不喧哗：在某个边远乡镇的卫生所，医生面前的屏幕亮起，一位患者的复杂症状被精准分析，个体化诊疗建议悄然生成。这不是AI代替了医生，而是让医生以更快速度、更高质量、更广触达完成每一次救治。

这一切，正在我们身边真实发生。

论文arXiv：

https://arxiv.org/pdf/2507.23486

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.