深度 | 小模型打败大模型？患者挑战专家？医疗AI需要冷思考|医生|医学|模态|胡延平|医疗ai

分享至

在优质医疗资源稀缺的背景下，AI大模型的介入无疑正在改变传统的行业竞争格局和医患关系。

本月以来，多地公立和私立医院纷纷官宣接入DeepSeek并开启本地化部署，瑞金、中山、协和等头部大三甲医院接踵发布医疗垂直领域的大模型。而DeepSeek的开源路径，不仅打破了技术“黑箱”带来的应用钳制，也让“技术平权”的思路正植入医疗生态中。

但热潮之下也需要冷思考。医疗场景的严肃性、复杂性和低容错性，使得医院、医生、患者与AI的磨合之路，注定道阻且长。

悖论似乎正在增多：当普通患者、基层医生通过AI获取海量知识时，理论上有助于分级诊疗和精准医疗，但AI幻觉增加了医患间的冲突和不信任；大模型给医生减负也减轻了医院管理成本，但大模型的实施和维护成本高昂；生态开放降低了医疗大模型的入局门槛，但大模型的迭代需要大量高质量数据，强者恒强的故事仍在上演。

此外，开放式创新能否找到容他性知识产权保护机制和产业生态？在生态开放下，患者隐私和诊疗的准确性又由谁来兜底？

医疗“百模大战”迎来新入局者

“医疗机构自身投入行业大模型训练的趋势，正变得越来越明晰。”优实资本董事长邢杰在接受第一财经采访时说。

有数据显示，2024年涌入医疗领域的AI大模型公司已经过百。今年，国产推理大模型DeepSeek-R1推出后，掀起新一轮医疗行业大模型研发和应用热潮。如邢杰所言，通用大模型领域的“百模大战”在DeepSeek的V3和R1发布后喧嚣褪去、格局已定，但医疗行业大模型的“百模大战”正在迎来新入局者、曾经的AI应用“保守派”——医疗机构。

邢杰表示，在这背后的一个核心的原因在于大模型研发进入到第二个阶段，也即从预训练通用模型进入到后训练推理模型主导的阶段。医院尤其是在某些专病领域掌握权威数据资源又具备一定临床转化能力的“大三甲”医院逐渐意识到：后训练推理模型阶段的训练成本远低于预训练阶段，用于强化学习训练推理模型的数据量也远低于预训练阶段。

2月中旬以来，多家大型公立医院宣布大模型研发的最新成果。

上海交大医学院附属瑞金医院发布单模态大模型——“瑞智病理大模型”（RuiPath）；复旦大学附属中山医院发布心血管专病大模型“观心”称其则结合多模态数据深度推理能力；北京协和医院官宣“协和·太初”罕见病大模型进入临床应用阶段。第一财经了解到，该模型采取“数据＋知识”双轮驱动的“小样本学习”模式并结合了大模型的强推理能力。

但相较于科技企业、医疗AI公司和互联网医疗企业，这些大医院的研发投入更为谨慎，通常从单模型、单病种或特色病种入手。

“行业大模型研发是个循序渐进的过程，目前在医疗影像诊断等领域，AI诊断的成熟度和准确性之高，业界已经基本达成共识。所以，医院大都选择从文字或影像等单模态入手来训练细分行业模型，这样难度较低。”邢杰说。

当前，在诊疗方面，医疗机构所训练的小模型大体可分为两类：一类是综合考虑训练数据量、算力、与真实医疗场景中的适配度以及所需解决的实际医疗问题，而自研的模型；另一类是在如DeepSeek等通用大模型开源基础上，“蒸馏”并予以本地化部署的专用模型。

京东健康探索研究院（JDH XLab）首席科学家王国鑫对第一财经表示，对于前者，尽管DeepSeek让业界看到了通过算法优化和深度推理能力，可以以一种更具性价比的方式实现大模型训练，但模型“小样本学习”或者说实时学习的能力其实并不容易达成。在出现颠覆式训练方式之前，模型训练对于算力以及对于高质量、大体量的数据需求，仍然迫切。

对于后者，“大家有时候低估了大模型落地对于医院自身软硬件卓越程度的要求。”王国鑫举例说，比如医院算力消化情况、信息化基础设施投入等，这些都关乎大模型能发挥真实效力。

有医院人士告诉第一财经，由于算力受限，医院需要将大模型上数据部署在云平台上，而非医院内置服务器上。出于医疗数据隐私安全考虑，在大模型上问诊的患者无法直接跳转医院门诊预约平台，需要重新使用真实ID进行注册和预约，或者通过医务人员的人工介入，帮助患者与医院建立真实诊疗关系。如何让大模型诊疗与线下就诊渠道更“丝滑”？仍待医院信息化的持续变革。

小模型打败大模型？

在接受第一财经采访时，DCCI-未来智库与FutureLabs-未来实验室首席专家胡延平表达了一个观点：鉴于行业特殊性，医疗大模型的发展或是一个从“专用”到“通用”的过程。

现阶段，一方面，“很难说医疗领域拥有了所谓的通用大模型”，相反“越通用，可能在某个特定的方向能力越不突出”；另一方面，行业对大模型的泛化功能需求不太迫切，但更需要使用病理大模型提升检查效率，通过专病模型切实提升诊断准确率。

前述受访医院人士表达了类似看法。她举了一个例子：此前，OpenAI宣称通过“强化微调”技术，使通用型大模型O1为罕见疾病诊断提供了全新的解决方案。在官方示范案例中，O1模型从数百篇关于罕见疾病的科学病例报告中提取出一系列疾病信息，并据此预测可能引发遗传疾病的基因。

该医院人士认为，在前述案例中，所有疾病表型已知，相当于大模型在拥有了完整版的患者信息后，再进行决策，这是一种纯知识映射。而更贴近现实诊疗环节的模式，则是在医患双方都不知晓疾病种类的情况下，自由地进行人机交互。这一点已有垂类大模型可以做到。

一种普遍存在的业界看法是，部分通用大模型或能实现个别精准诊断，但个案的成功并不代表模型具备特定疾病精准诊断的能力。

“不过，这并不代表‘小模型打败大模型’。”胡延平认为，原因有两点：其一，专用（垂类）模型的训练离不开通用模型，或者说专用模型往往是在幻觉较低、推理能力较强的通用模型基础上微调、后训练或者模型蒸馏而成的；其二，专用模型的准确度从50分提升到70分容易，甚至目前已有不少专用模型宣称其疾病诊断能力达到80~90分。但再往上，专用模型的性能提升会遇到瓶颈。这时候就需要通用大模型的三个能力进行赋能——通识能力、思考推理能力以及多模态能力。

邢杰也认为，从疾病诊断来说，通常需要患者影像数据、检查检验数据、声音数据、文本数据等多模态数据以进行交叉验证，所以多模态大模型始终是行业趋势。

王国鑫表示，多模态的推理模型可以视为AI未来在绝大多数医疗场景中应用的根本技术。唯其如此，AI才能逐渐具备类似于人的能力，进入数字人阶段，乃至实现所谓的“强人工智能”，而不仅仅是一个对话工具。目前，在很多医院场景下，小体量、单模态和专病大模型的应用，更多是延续“AI改造原有的技术链路”的思路，而非“训练AI重新创造一种生产模式”。

生态开放

多名受访业界人士均提出，无论是如互联网医疗企业、AI医疗企业等先入局者，还是如医院等后入局者，均需要进行生态合作和数据开放。

“回到一个基本的逻辑，医疗行业在某种意义上就是一个数据驱动型行业。大模型和AI医生的训练过程需要大量医疗数据。但现在医疗数据不仅量少，而且质量欠缺。所以，医院间要合作、医院要与互联网医院合作，还要和患者端合作。”王国鑫说。

此外，王国鑫称，大模型天生具备“去ID化”特质，脱敏后的医疗数据往往可以达到更具精度的训练成果，加之目前数据安全和隐私计算等技术日趋成熟，医疗数据的生态开放在大模型训练上，有实现的可能性。

但医院的顾虑显然更多。“作为一个专业工具而言，医疗机构训练的疾病诊断大模型并不具备开源的背景和基础。因为医学诊疗的执行权不能交给AI工具。对于大模型生成推荐方案，需要医生的审核和决策。如果实现大模型的参数开放，大模型的数据和知识来源将不再可控，如果因为产生‘AI幻觉’，不仅患者诊疗结局可能受到影响，大模型研发单位的声誉和口碑也可能被殃及。”有受访医生表示。

所以，“可信、互信”是开源第一步。正如其他行业已出现的相关治理思路，邢杰认为，在很多医疗机构都开始训练自已的小、中、大细分行业模型的情况下，会出现几个权威的或官方的医疗健康行业AI模型评测体系，以验证各家行业模型的性能指标，如疾病诊断的准确度、稳定性等。在此背景下，医疗行业模型会逐步走向一个优胜劣汰的阶段。

医疗机构也能从开源中获益。鉴于目前一些医疗机构训练出的小模型或专病模型，在某些疾病诊疗领域已显露出比通用模型更高的准确性和实用价值，邢杰认为，即便后续出现了全行业、更有权威性的行业通用模型，这些专病模型也有足够的价值与这些行业通用模型展开各种合作，细分领域优质数据永远是模型训练的稀缺资源。

而从现阶段来看，医疗机构的数据开放依然推进艰难。相比之下，企业侧的开源生态已初露端倪。

今年，在DeepSeek开源后，国内多家科技公司相继宣布实施大模型开源。在医疗AI行业，包括在AI制药、AI诊断等细分赛道上，企业的开源动作虽然不多，但已经开始有。

比如，京东健康近日官宣旗下“京医千询”医疗大模型成为国内医疗行业首个全面开源的垂类大模型。对此，王国鑫表示，目前无论是大模型技术还是医疗AI行业，都在发展的早期阶段。此时，开源和透明的合作方式能够快速推动技术的使用和接纳，培植行业生态。

患者挑战专家？

当DeepSeek所引发的“技术平权”浪潮席卷医疗领域，不仅医疗服务供给侧的生态竞争格局出现变化，医患关系也正悄然发生改变。

近日，广东一名医学博主在社交媒体上发贴表示，自己为病人开出治疗方案，对方查询DeepSeek后反馈有问题，自己“气得又查了一遍医学指南”，结果发现医学指南更新了。为此，他无奈自嘲：感觉“天塌了”。

于是在医生群体中，“一石激起千层浪”，有的医生产生了危机感，有的医生则认为大模型的诊断结果“大而全，但不一定有用”，有的医生谴责AI幻觉，还有的医生认为大模型可以训练基层医生、提升诊疗同质化水平。

在胡延平看来，“患者挑战专家”不失为一件好事。长期以来，医疗市场是个医患双方信息高度不对等的市场，患者知识储备的增强，既能倒逼医生提升专业能力，也能在一定程度上避免过度诊疗，或者因观念、利益等因素选择并不是最有利于患者的治疗方案。

从更宏观的维度，胡延平认为，AI大模型的应用也有利于医疗的“去中心化”，赋能基层医疗，并帮助互联网医疗等市场化主体参与到医疗市场的竞争中，从而减少优质医疗资源的垄断和稀缺问题。

他认为，诚然如“医生有了AI，变懒了”“病人有了AI，不找医生”等现象，确实有可能发生，但从更长周期来看，大模型能够让优质医疗资源更普惠和可及。

在受访专家中，无论是“技术审慎主义者”还是“技术乐观派”均认为，目前距离“AI开处方”还言之过早。

持审慎态度的受访专家认为，医学诊疗的执行权不能交给AI工具，医生需要对患者负责，医生问诊过程也是与患者情感交互过程，可以给予患者更个性化的诊疗方案，更勿宁说，AI幻觉还难以抑制。

持乐观态度的受访专家则认为，当AI成为一个被医患双方广泛认可的技术之后，有关AI处方权、AI诊疗支付价格标准问题等，均会被监管层重视并予以解决。但目前还处于技术发展的初期，医疗大模型的应用场景还有待拓宽。

而要想提升医患双方对AI技术的信任程度，核心之一在于抑制AI幻觉。

邢杰分析说，大模型“幻觉”产生主要有六点原因：一是训练数据偏差；二是作为概率模型，大模型不可能实现100％精准；三是在泛化过程中会产生幻觉；四是大模型训练数据通常是非实时的；五是对话长度和上下长度都可能导致幻觉问题；六是在反馈微调过程中，不同公司的偏好也会带来一定幻觉。

王国鑫认为，AI幻觉可以得到抑制。“一定要把诊断流程的推理过程白盒化，这不仅仅是让医生队伍产生信任，更重要的是让技术有进步。”

在他看来，今天的大模型技术，还是一个“学生”，但可以通过拉长推理过程，使其自己反复校验，从而达到一个更好的结果。换言之，在技术层面，AI幻觉不是不能解决的问题，AI会无限逼近那个准确性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.