网易首页 > 网易号 > 正文 申请入驻

默西医院团队:如何实现本地医疗AI?

0
分享至

这项由美国密苏里州默西医院内分泌科的约翰逊·托马斯(Johnson Thomas)博士领导的研究团队,联合Starfishdata.ai、alignmentlab.ai和Solo Tech公司的专家共同完成。该研究发表于2025年,详细探讨了如何利用小型人工智能模型在浏览器中直接处理医疗转录,生成结构化病历。有兴趣深入了解的读者可以通过研究团队公开的数据集和模型访问完整研究成果。

医生们每天都在为一件事情头疼不已:写病历。据统计,医生们每天要花费2个小时在各种文书工作上,这几乎占据了他们一半的工作时间。每看一个病人1小时,就要花将近2小时来整理电子病历系统中的各种记录。这种情况就像是让一个厨师花一半时间做菜,另一半时间写菜谱和记录用料一样令人沮丧。

近年来,大型语言模型(就是类似ChatGPT这样的AI系统)的出现给医疗文档处理带来了曙光。这些AI就像是智能的秘书,能够听懂医生和病人的对话,然后自动整理成规范的病历。但是,现有的解决方案面临着三个严重的问题。

首先是隐私问题。目前大多数AI系统都需要把病人的对话录音上传到云端服务器进行处理,这就像是把病人的私密医疗信息交给了远程的陌生人处理。在美国,这样的做法必须严格遵守HIPAA(健康保险可携带性和问责法案)等法律法规,一旦发生数据泄露,后果不堪设想。

其次是成本问题。这些强大的AI系统需要昂贵的计算资源,通常需要按月付费订阅,对于小型诊所来说这笔费用相当可观。这就像是为了写几封信而雇佣一个全职秘书一样不划算。

最后是技术门槛问题。这些系统通常需要专业的技术人员来部署和维护,对于许多医疗机构来说过于复杂。

面对这些挑战,托马斯博士的研究团队提出了一个创新的解决方案:开发一个能够完全在浏览器中运行的小型AI模型,专门用于医疗转录和病历生成。这个方案的核心思想是"小而精"——虽然模型规模较小,但通过专门的训练,它能够在保证隐私安全的前提下,在普通电脑的浏览器中直接处理医疗转录任务。

研究团队选择了Meta公司开发的Llama 3.2 1B模型作为基础。这个模型只有10亿个参数,相比那些动辄数千亿参数的大型模型来说,它就像是一台紧凑型汽车,虽然不如大型豪华车那样功能全面,但足够满足日常通勤需求,而且更加经济实用。

为了让这个通用的AI模型变成医疗专家,研究团队采用了一种叫做"参数高效微调"的技术,具体使用了LoRA(Low-Rank Adaptation)方法。这种方法就像是给一个通用工具箱添加专业工具一样,不需要重新制造整个工具箱,只需要添加一些专门的工具就能让它胜任特定的工作。

训练数据的准备是这项研究的另一个重要环节。研究团队创建了1500对合成的医疗转录和对应的结构化病历,这些数据主要聚焦于内分泌科的病例。这个过程就像是为一个医学生准备教材,需要包含各种常见的病例、症状讨论、治疗方案和随访指导。

数据生成过程经过了精心设计。研究团队首先创建了真实的内分泌科咨询话题,涵盖了常见的内分泌疾病、症状、治疗方法和生活方式讨论。然后,他们为每个话题制定了详细的背景描述,以确保生成的对话内容准确且相关。

接下来,研究团队使用高级的AI提示技术,生成了自然且真实的内分泌科医患对话。这些对话包含了实验室检查结果、病情讨论、用药计划和随访指导,同时还加入了真实对话中常见的打断、澄清等自然语言特征。

为了确保数据质量,每个生成的转录都经过了自动化的批评和修订循环。系统会评估内容的完整性、临床相关性和真实性,并根据反馈进行迭代改进。最终,这些精心制作的转录被转换成标准化的结构化内分泌科病历。

特别值得一提的是,研究团队在扩大数据集规模之前,先生成了20个样本,并请内分泌科专家进行评估。只有在确认这些样本的医学准确性、临床真实性和文档标准符合专业要求后,他们才继续生成完整的1500个样本数据集。这种做法就像是在大规模生产前先制作样品让专家验收一样谨慎。

为了全面评估模型的性能,研究团队设计了两套不同的评估数据集。第一套是100个内部评估数据集,包含合成的转录和结构化病历。第二套是修改后的ACI基准测试,包含140个转录,这些转录的结构化病历格式经过调整以匹配训练数据的格式。

评估方法也非常全面,包括了多个维度。在文本相似性方面,研究团队使用了ROUGE、BERTScore和BLEURT等指标来衡量生成的病历与参考病历之间的相似度。这些指标就像是不同角度的放大镜,能够从词汇重叠、语义相似性和整体质量等方面全面评估模型性能。

除了自动化评估,研究团队还采用了"AI评委"的方法,使用GPT-4.1 mini对生成的病历进行全面的临床质量评估。这个评估涵盖了事实正确性、完整性、临床相关性、逻辑连贯性、否定检测、术语准确性、可读性和整体质量等多个维度,每个维度都使用1-5分的评分标准。

临床安全性评估是这项研究的重中之重。研究团队特别关注了两个关键指标:幻觉(AI生成不存在的医疗信息)和遗漏(AI忽略了重要的医疗信息)。这些问题在医疗应用中可能造成严重后果,因此研究团队将其分为轻微、中等和严重三个级别进行详细分析。

经过精心的训练和优化,研究团队开发的OnDevice模型在各项评估中都表现出了显著的改进。在ACI基准测试中,ROUGE-1分数从基础模型的0.346提升到0.496,增长了43.3%。ROUGE-2分数更是从0.118提升到0.227,增长了92.7%。这些数字意味着优化后的模型生成的病历在内容覆盖和准确性方面都有了大幅提升。

在内部评估数据集上,改进效果更加明显。ROUGE-1分数从0.363提升到0.653,增长了79.9%。ROUGE-2分数从0.135提升到0.390,增长了188.5%。BERTScore F1分数也从0.827提升到0.907,这表明生成的病历在语义理解方面有了显著提升。

临床质量评估结果同样令人鼓舞。在事实正确性方面,模型在ACI基准测试中的得分从2.81提升到3.54,在内部评估中从3.28提升到4.42。完整性评分也有类似的提升,从2.26提升到3.23(ACI基准),从2.50提升到3.90(内部评估)。这些改进意味着优化后的模型能够生成更加准确、完整的医疗记录。

最重要的是,在临床安全性方面,OnDevice模型表现出了显著的改进。严重幻觉的案例数从85个减少到35个,降低了58.8%。在内部评估中,严重幻觉更是从33个减少到5个,降低了84.8%。严重遗漏的情况也得到了大幅改善,从107个减少到21个,降低了80.4%。在内部评估中,严重遗漏几乎完全消除,从71个减少到1个,降低了98.6%。

这些改进数字的背后,反映的是模型在理解医疗语言和生成准确病历方面的显著进步。研究团队的方法证明了通过专门的训练,即使是较小的AI模型也能在特定领域达到很高的专业水准。

研究团队还特别强调了他们方案的三个核心优势。首先是隐私保护。由于整个处理过程都在用户的浏览器中完成,病人的医疗信息永远不会离开本地设备,这就像是在自己家里处理机密文件一样安全。这种方法完全符合HIPAA等隐私法规的要求,为医疗机构提供了完全的数据主权。

其次是成本效益。传统的云端AI服务需要持续的订阅费用,而这个方案一旦部署就可以无限期使用,不需要额外的运营成本。这就像是购买一台设备而不是租用服务,长期来看更加经济实用。

第三是可及性。这个方案不需要专业的技术人员来部署和维护,普通的医疗机构只需要一台能够运行现代浏览器的电脑就可以使用。这大大降低了技术门槛,让更多的医疗机构能够享受到AI技术带来的便利。

当然,这项研究也存在一些局限性。首先,评估主要集中在内分泌科病例上,对其他医学专科的适用性还需要进一步验证。其次,虽然1500个训练样本对于参数高效微调来说已经足够,但可能限制了模型接触更多样化临床场景的机会。此外,尽管LLM评委评估很全面,但可能无法捕捉到人类临床医生才能察觉的所有实用性方面。最后,评估是在精心准备的数据集上进行的,可能无法完全反映真实临床转录环境的挑战。

研究团队为了确保研究的可重复性和推广性,已经将评估代码、GPT-4.1评委的提示词以及所有相关资源公开发布。这种开放的态度为其他研究者复制和改进这项工作提供了便利。

展望未来,研究团队指出了几个重要的发展方向。首先是将评估扩展到多个医学专科,以评估模型在内分泌科以外的泛化能力。其次是进行真实临床环境的试验,让执业医师实际使用这个系统,从而获得对实用性和工作流程整合挑战的重要洞察。最后是开发持续学习框架,使模型能够根据临床反馈不断改进,同时保持病人隐私。

这项研究的意义不仅仅在于技术创新,更在于它为医疗AI的发展指出了一条可行的道路。通过证明小型化、专业化的AI模型可以在保证隐私安全的前提下实现高质量的医疗文档处理,这项工作为医疗AI的普及和应用奠定了重要基础。

研究团队已经将完整的模型、训练数据、评估框架和基于浏览器的部署软件开源发布,为更广泛的应用和进一步研究提供了基础。这种开放的做法体现了科学研究的共享精神,也为隐私保护、设备端AI在医疗工作流程中的应用提供了重要参考。

说到底,这项研究解决的是一个非常实际的问题:如何让AI技术真正服务于医疗实践,而不是成为另一个技术负担。通过开发一个能够在普通浏览器中运行的专业医疗AI助手,研究团队为减轻医生的文书工作负担、提高医疗效率、同时保护病人隐私提供了一个可行的解决方案。这种方法不仅技术上可行,经济上也更加可持续,为医疗AI的广泛应用开辟了新的道路。

归根结底,这项研究证明了在医疗AI发展中,有时候"小而精"比"大而全"更有价值。通过专门的训练和优化,即使是参数相对较少的AI模型也能够在特定领域达到很高的专业水准,同时避免了大型模型带来的隐私、成本和部署复杂性问题。这为未来医疗AI的发展提供了重要的参考方向,也为其他需要隐私保护和本地部署的AI应用场景提供了宝贵的经验。

Q&A

Q1:这个OnDevice模型能够处理哪些类型的医疗记录? A:目前主要针对内分泌科的医疗转录和病历生成进行了优化,能够处理常见的内分泌疾病、症状讨论、治疗方案和随访指导。研究团队使用了1500个内分泌科的医患对话样本进行训练,虽然理论上可以适用于其他科室,但效果可能会有所不同。

Q2:在浏览器中运行AI模型会不会很慢或者不稳定? A:研究团队选择了只有10亿参数的Llama 3.2 1B模型作为基础,这个规模能够在普通电脑的浏览器中稳定运行。通过参数高效微调技术,模型在保持较小体积的同时实现了专业化的性能。测试结果显示,模型在文本相似性和临床质量评估方面都有显著提升。

Q3:这个系统的隐私保护能力真的可靠吗? A:是的,这是该系统的核心优势之一。所有的数据处理都在用户的浏览器中完成,病人的医疗信息永远不会上传到云端服务器,完全符合HIPAA等隐私法规要求。这种本地处理方式为医疗机构提供了完全的数据主权,避免了数据泄露的风险。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第一批独生子女的扎心现实:父母去世后,成了举目无亲的“孤儿”

第一批独生子女的扎心现实:父母去世后,成了举目无亲的“孤儿”

千秋文化
2026-02-01 20:31:47
近40岁的金刻羽,为何甘愿被浙江土豪围猎而非婚生女?

近40岁的金刻羽,为何甘愿被浙江土豪围猎而非婚生女?

波哥看楼市
2026-02-05 23:51:51
日本一男子潜入烤肉店偷16斤牛肉全吃光被抓,该男子回应表示“因为辞职后没有收入才这么做”

日本一男子潜入烤肉店偷16斤牛肉全吃光被抓,该男子回应表示“因为辞职后没有收入才这么做”

都市快报橙柿互动
2026-02-06 13:52:32
牛市涨疯了,景顺长城的刘彦春还在亏……

牛市涨疯了,景顺长城的刘彦春还在亏……

包不同
2026-02-06 20:03:05
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
央视太解气!烟花爆竹终于正名,告别一刀切,年味这下真回来了

央视太解气!烟花爆竹终于正名,告别一刀切,年味这下真回来了

老特有话说
2026-02-06 22:37:15
巨头砸钱6500亿加剧担忧,黄仁勋“灭火”:AI需求火爆,庞大支出合理、可持续

巨头砸钱6500亿加剧担忧,黄仁勋“灭火”:AI需求火爆,庞大支出合理、可持续

华尔街见闻官方
2026-02-07 06:38:26
车主吐槽高速服务区充电太贵 100元都充不满!网友神回复

车主吐槽高速服务区充电太贵 100元都充不满!网友神回复

快科技
2026-02-06 08:57:05
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

时光在作祟
2026-02-04 13:40:17
谷爱凌:我并列奥运会奖牌榜榜首,已无需再证明什么

谷爱凌:我并列奥运会奖牌榜榜首,已无需再证明什么

懂球帝
2026-02-06 22:47:41
人民日报“点名”董明珠,释放三个强烈信号,雷军的话真没说错

人民日报“点名”董明珠,释放三个强烈信号,雷军的话真没说错

书写传奇
2026-02-07 11:45:11
杨子姗夫妇北京搬家,在上海租房家里乱成堆,有洁癖衣服都放纸箱

杨子姗夫妇北京搬家,在上海租房家里乱成堆,有洁癖衣服都放纸箱

潘殤旅行浪子
2026-02-05 11:41:12
仅让篠塚三局19分!张本智和队内只惧怕松岛一人?世界第五又怒吼

仅让篠塚三局19分!张本智和队内只惧怕松岛一人?世界第五又怒吼

颜小白的篮球梦
2026-02-07 13:27:45
CBA最新消息!新疆男篮大将赛季报销,广东宏远寻找大外援

CBA最新消息!新疆男篮大将赛季报销,广东宏远寻找大外援

体坛瞎白话
2026-02-07 13:37:34
004航母全力冲刺,4艘航母摆开,西太收入囊中,瘫痪美军最后优势

004航母全力冲刺,4艘航母摆开,西太收入囊中,瘫痪美军最后优势

东方点兵
2026-02-06 18:45:02
AI之争又打成了奶茶大战

AI之争又打成了奶茶大战

界面新闻
2026-02-06 20:48:41
乒乓亚洲杯:女单8强首诞生,国乒小将陈熠大胜早田希娜

乒乓亚洲杯:女单8强首诞生,国乒小将陈熠大胜早田希娜

范动舍长
2026-02-07 12:23:17
66岁山口百惠的残酷家规:儿子40岁,仍在挤电车。

66岁山口百惠的残酷家规:儿子40岁,仍在挤电车。

果妈聊军事
2026-02-05 15:31:06
黑龙江虎林教育局通报第五小学校教师行为调查处理情况:学生家长已提起民事诉讼

黑龙江虎林教育局通报第五小学校教师行为调查处理情况:学生家长已提起民事诉讼

界面新闻
2026-02-07 12:29:22
缅北七年亲历者讲述:男女都会遭性侵,坐水牢放毒蛇,伤口撒辣椒

缅北七年亲历者讲述:男女都会遭性侵,坐水牢放毒蛇,伤口撒辣椒

今朝牛马
2026-02-06 17:57:17
2026-02-07 14:32:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15993文章数 49689关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

艺术
数码
本地
手机
公开课

艺术要闻

江西省美协 | 2026年度作品展油画选刊

数码要闻

德国电商发货AMD 9800X3D处理器约4万颗返修率仅0.71%

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

手机要闻

1月性价比榜分析,一加、iQOO、REDMI、realme谁会笑到最后

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版