默西医院团队：如何实现本地医疗AI？|医生|医学|内分泌

默西医院团队：如何实现本地医疗AI？

2025-07-18 00:33:26　来源: 至顶科技

北京举报

分享至

这项由美国密苏里州默西医院内分泌科的约翰逊·托马斯（Johnson Thomas）博士领导的研究团队，联合Starfishdata.ai、alignmentlab.ai和Solo Tech公司的专家共同完成。该研究发表于2025年，详细探讨了如何利用小型人工智能模型在浏览器中直接处理医疗转录，生成结构化病历。有兴趣深入了解的读者可以通过研究团队公开的数据集和模型访问完整研究成果。

医生们每天都在为一件事情头疼不已：写病历。据统计，医生们每天要花费2个小时在各种文书工作上，这几乎占据了他们一半的工作时间。每看一个病人1小时，就要花将近2小时来整理电子病历系统中的各种记录。这种情况就像是让一个厨师花一半时间做菜，另一半时间写菜谱和记录用料一样令人沮丧。

近年来，大型语言模型（就是类似ChatGPT这样的AI系统）的出现给医疗文档处理带来了曙光。这些AI就像是智能的秘书，能够听懂医生和病人的对话，然后自动整理成规范的病历。但是，现有的解决方案面临着三个严重的问题。

首先是隐私问题。目前大多数AI系统都需要把病人的对话录音上传到云端服务器进行处理，这就像是把病人的私密医疗信息交给了远程的陌生人处理。在美国，这样的做法必须严格遵守HIPAA（健康保险可携带性和问责法案）等法律法规，一旦发生数据泄露，后果不堪设想。

其次是成本问题。这些强大的AI系统需要昂贵的计算资源，通常需要按月付费订阅，对于小型诊所来说这笔费用相当可观。这就像是为了写几封信而雇佣一个全职秘书一样不划算。

最后是技术门槛问题。这些系统通常需要专业的技术人员来部署和维护，对于许多医疗机构来说过于复杂。

面对这些挑战，托马斯博士的研究团队提出了一个创新的解决方案：开发一个能够完全在浏览器中运行的小型AI模型，专门用于医疗转录和病历生成。这个方案的核心思想是"小而精"——虽然模型规模较小，但通过专门的训练，它能够在保证隐私安全的前提下，在普通电脑的浏览器中直接处理医疗转录任务。

研究团队选择了Meta公司开发的Llama 3.2 1B模型作为基础。这个模型只有10亿个参数，相比那些动辄数千亿参数的大型模型来说，它就像是一台紧凑型汽车，虽然不如大型豪华车那样功能全面，但足够满足日常通勤需求，而且更加经济实用。

为了让这个通用的AI模型变成医疗专家，研究团队采用了一种叫做"参数高效微调"的技术，具体使用了LoRA（Low-Rank Adaptation）方法。这种方法就像是给一个通用工具箱添加专业工具一样，不需要重新制造整个工具箱，只需要添加一些专门的工具就能让它胜任特定的工作。

训练数据的准备是这项研究的另一个重要环节。研究团队创建了1500对合成的医疗转录和对应的结构化病历，这些数据主要聚焦于内分泌科的病例。这个过程就像是为一个医学生准备教材，需要包含各种常见的病例、症状讨论、治疗方案和随访指导。

数据生成过程经过了精心设计。研究团队首先创建了真实的内分泌科咨询话题，涵盖了常见的内分泌疾病、症状、治疗方法和生活方式讨论。然后，他们为每个话题制定了详细的背景描述，以确保生成的对话内容准确且相关。

接下来，研究团队使用高级的AI提示技术，生成了自然且真实的内分泌科医患对话。这些对话包含了实验室检查结果、病情讨论、用药计划和随访指导，同时还加入了真实对话中常见的打断、澄清等自然语言特征。

为了确保数据质量，每个生成的转录都经过了自动化的批评和修订循环。系统会评估内容的完整性、临床相关性和真实性，并根据反馈进行迭代改进。最终，这些精心制作的转录被转换成标准化的结构化内分泌科病历。

特别值得一提的是，研究团队在扩大数据集规模之前，先生成了20个样本，并请内分泌科专家进行评估。只有在确认这些样本的医学准确性、临床真实性和文档标准符合专业要求后，他们才继续生成完整的1500个样本数据集。这种做法就像是在大规模生产前先制作样品让专家验收一样谨慎。

为了全面评估模型的性能，研究团队设计了两套不同的评估数据集。第一套是100个内部评估数据集，包含合成的转录和结构化病历。第二套是修改后的ACI基准测试，包含140个转录，这些转录的结构化病历格式经过调整以匹配训练数据的格式。

评估方法也非常全面，包括了多个维度。在文本相似性方面，研究团队使用了ROUGE、BERTScore和BLEURT等指标来衡量生成的病历与参考病历之间的相似度。这些指标就像是不同角度的放大镜，能够从词汇重叠、语义相似性和整体质量等方面全面评估模型性能。

除了自动化评估，研究团队还采用了"AI评委"的方法，使用GPT-4.1 mini对生成的病历进行全面的临床质量评估。这个评估涵盖了事实正确性、完整性、临床相关性、逻辑连贯性、否定检测、术语准确性、可读性和整体质量等多个维度，每个维度都使用1-5分的评分标准。

临床安全性评估是这项研究的重中之重。研究团队特别关注了两个关键指标：幻觉（AI生成不存在的医疗信息）和遗漏（AI忽略了重要的医疗信息）。这些问题在医疗应用中可能造成严重后果，因此研究团队将其分为轻微、中等和严重三个级别进行详细分析。

经过精心的训练和优化，研究团队开发的OnDevice模型在各项评估中都表现出了显著的改进。在ACI基准测试中，ROUGE-1分数从基础模型的0.346提升到0.496，增长了43.3%。ROUGE-2分数更是从0.118提升到0.227，增长了92.7%。这些数字意味着优化后的模型生成的病历在内容覆盖和准确性方面都有了大幅提升。

在内部评估数据集上，改进效果更加明显。ROUGE-1分数从0.363提升到0.653，增长了79.9%。ROUGE-2分数从0.135提升到0.390，增长了188.5%。BERTScore F1分数也从0.827提升到0.907，这表明生成的病历在语义理解方面有了显著提升。

临床质量评估结果同样令人鼓舞。在事实正确性方面，模型在ACI基准测试中的得分从2.81提升到3.54，在内部评估中从3.28提升到4.42。完整性评分也有类似的提升，从2.26提升到3.23（ACI基准），从2.50提升到3.90（内部评估）。这些改进意味着优化后的模型能够生成更加准确、完整的医疗记录。

最重要的是，在临床安全性方面，OnDevice模型表现出了显著的改进。严重幻觉的案例数从85个减少到35个，降低了58.8%。在内部评估中，严重幻觉更是从33个减少到5个，降低了84.8%。严重遗漏的情况也得到了大幅改善，从107个减少到21个，降低了80.4%。在内部评估中，严重遗漏几乎完全消除，从71个减少到1个，降低了98.6%。

这些改进数字的背后，反映的是模型在理解医疗语言和生成准确病历方面的显著进步。研究团队的方法证明了通过专门的训练，即使是较小的AI模型也能在特定领域达到很高的专业水准。

研究团队还特别强调了他们方案的三个核心优势。首先是隐私保护。由于整个处理过程都在用户的浏览器中完成，病人的医疗信息永远不会离开本地设备，这就像是在自己家里处理机密文件一样安全。这种方法完全符合HIPAA等隐私法规的要求，为医疗机构提供了完全的数据主权。

其次是成本效益。传统的云端AI服务需要持续的订阅费用，而这个方案一旦部署就可以无限期使用，不需要额外的运营成本。这就像是购买一台设备而不是租用服务，长期来看更加经济实用。

第三是可及性。这个方案不需要专业的技术人员来部署和维护，普通的医疗机构只需要一台能够运行现代浏览器的电脑就可以使用。这大大降低了技术门槛，让更多的医疗机构能够享受到AI技术带来的便利。

当然，这项研究也存在一些局限性。首先，评估主要集中在内分泌科病例上，对其他医学专科的适用性还需要进一步验证。其次，虽然1500个训练样本对于参数高效微调来说已经足够，但可能限制了模型接触更多样化临床场景的机会。此外，尽管LLM评委评估很全面，但可能无法捕捉到人类临床医生才能察觉的所有实用性方面。最后，评估是在精心准备的数据集上进行的，可能无法完全反映真实临床转录环境的挑战。

研究团队为了确保研究的可重复性和推广性，已经将评估代码、GPT-4.1评委的提示词以及所有相关资源公开发布。这种开放的态度为其他研究者复制和改进这项工作提供了便利。

展望未来，研究团队指出了几个重要的发展方向。首先是将评估扩展到多个医学专科，以评估模型在内分泌科以外的泛化能力。其次是进行真实临床环境的试验，让执业医师实际使用这个系统，从而获得对实用性和工作流程整合挑战的重要洞察。最后是开发持续学习框架，使模型能够根据临床反馈不断改进，同时保持病人隐私。

这项研究的意义不仅仅在于技术创新，更在于它为医疗AI的发展指出了一条可行的道路。通过证明小型化、专业化的AI模型可以在保证隐私安全的前提下实现高质量的医疗文档处理，这项工作为医疗AI的普及和应用奠定了重要基础。

研究团队已经将完整的模型、训练数据、评估框架和基于浏览器的部署软件开源发布，为更广泛的应用和进一步研究提供了基础。这种开放的做法体现了科学研究的共享精神，也为隐私保护、设备端AI在医疗工作流程中的应用提供了重要参考。

说到底，这项研究解决的是一个非常实际的问题：如何让AI技术真正服务于医疗实践，而不是成为另一个技术负担。通过开发一个能够在普通浏览器中运行的专业医疗AI助手，研究团队为减轻医生的文书工作负担、提高医疗效率、同时保护病人隐私提供了一个可行的解决方案。这种方法不仅技术上可行，经济上也更加可持续，为医疗AI的广泛应用开辟了新的道路。

归根结底，这项研究证明了在医疗AI发展中，有时候"小而精"比"大而全"更有价值。通过专门的训练和优化，即使是参数相对较少的AI模型也能够在特定领域达到很高的专业水准，同时避免了大型模型带来的隐私、成本和部署复杂性问题。这为未来医疗AI的发展提供了重要的参考方向，也为其他需要隐私保护和本地部署的AI应用场景提供了宝贵的经验。

Q&A

Q1：这个OnDevice模型能够处理哪些类型的医疗记录？ A：目前主要针对内分泌科的医疗转录和病历生成进行了优化，能够处理常见的内分泌疾病、症状讨论、治疗方案和随访指导。研究团队使用了1500个内分泌科的医患对话样本进行训练，虽然理论上可以适用于其他科室，但效果可能会有所不同。

Q2：在浏览器中运行AI模型会不会很慢或者不稳定？ A：研究团队选择了只有10亿参数的Llama 3.2 1B模型作为基础，这个规模能够在普通电脑的浏览器中稳定运行。通过参数高效微调技术，模型在保持较小体积的同时实现了专业化的性能。测试结果显示，模型在文本相似性和临床质量评估方面都有显著提升。

Q3：这个系统的隐私保护能力真的可靠吗？ A：是的，这是该系统的核心优势之一。所有的数据处理都在用户的浏览器中完成，病人的医疗信息永远不会上传到云端服务器，完全符合HIPAA等隐私法规要求。这种本地处理方式为医疗机构提供了完全的数据主权，避免了数据泄露的风险。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.