![]()
随着越来越多的美国人开始使用大语言模型寻求健康建议,全国各地的医疗机构纷纷着手推出或已经上线各自品牌的聊天机器人,试图借助这一广受欢迎的工具吸引更多用户并引导其使用自家服务。然而,这一新兴趋势也在美国本已复杂且整体表现欠佳的医疗体系中引发了一系列问题与争议。
医疗机构的高管们将这些新产品定位为便民之举,认为此举能够满足患者的数字化需求,提供更具包容性的服务体验,同时也声称这些专属聊天机器人将比患者现在使用的商业版产品更加安全可靠。
"医疗行业正处于一个重要的拐点。"临床AI公司K Health的首席执行官Allon Bloch表示,"需求正在加速增长,患者已经在用AI来管理自己的生活了。"
K Health正与其在康涅狄格州的合作伙伴哈特福德医疗(Hartford HealthCare)合作,计划向数万名现有患者推出其PatientGPT聊天机器人。
"问题不在于AI是否会影响医疗行业,而在于我们如何以安全、透明的方式,在一个能够连接患者病历和医疗团队的医疗系统内落地。PatientGPT代表的正是这个转折点。"
不过,部分专家对这些密集上线的产品持审慎态度,他们对聊天机器人是否已为正式亮相做好准备、监督机制是否健全、责任归属如何界定,以及这究竟是不是真正解决患者就医困境的方法,提出了诸多质疑。
在这些风险与疑问尚未消散之际,聊天机器人对患者的实际益处仍停留在假设层面。"这个想法很诱人,"波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)的临床推理研究员兼内科医生Adam Rodman近日对Stat News表示,但目前尚无证据表明将聊天机器人整合进医疗系统能够改善患者的健康结果,"我们还没走到那一步。"
背景解读
要评估AI在医疗领域的潜在作用,首先需要了解美国医疗体系的宏观背景。美国是世界上最富裕的国家之一,但其医疗体系在与其他高收入国家的横向比较中,表现始终明显落后。美国人的预期寿命更短,可预防性死亡更多,孕产妇和婴儿死亡率更高,肥胖及慢性病发病率也居高不下。美国人就医渠道有限,健康结果也相对较差。美国是少数未能实现全民医疗覆盖的发达国家之一。2023年的一项报告显示,近三分之一的美国人——超过1亿人——没有固定的基层医疗服务提供者。
如今,人工智能正式加入这一复杂局面。任何拥有网络连接的人都可以访问那些令人感到安慰、表述信心十足的大语言模型驱动聊天机器人,越来越多的美国人正纷纷借助这些新工具咨询健康和医疗问题。KFF上月发布的一项民调显示,三分之一的美国成年人曾使用AI聊天机器人获取健康信息。
在使用AI的人群中,41%的人表示曾将个人医疗信息(如检查结果)上传至相关工具。在被问及转向AI的"主要原因"时,19%的人表示是因为负担不起医疗费用,18%的人则表示没有固定的医疗服务提供者或无法预约到诊。与此同时,65%的人表示只是想快速获得一个答案。最终,许多人在进行AI咨询后并未进一步就医复诊,其中包括58%咨询过心理健康问题的人,以及42%咨询过身体健康问题的人。
潜在隐患不可忽视
在如此多的美国人转向AI填补医疗空白的背景下,各种警示案例和负面故事正在不断涌现,凸显出大语言模型在被询问内容及信息采集方面存在的双重风险。
今年2月,《自然医学》(Nature Medicine)发表了一项涉及近1300名参与者的研究,尝试评估大语言模型(具体包括GPT-4o、Llama 3和Command R+)在真实交互场景中的医疗准确性。研究人员向大语言模型提供特定医疗场景的文字描述时,模型能够正确识别病情的概率约为95%,正确判断下一步行动(例如前往急诊)的概率约为56%。然而,当参与者用自己的语言描述相同场景时,模型仅能帮助正确识别病情约三分之一的时间,引导参与者采取正确下一步行动的比例也仅为43%。
该研究实质上表明,"人们并不知道应该告诉模型什么信息,"首席作者、牛津大学AI研究员Andrew Bean近日对美国国家公共广播电台(NPR)表示。
高级作者Adam Mahdi补充道:"基准测试得分与真实场景表现之间的落差,应当成为AI开发者和监管机构的警醒。"
此外,医疗信息质量问题同样令人担忧。就在上周,《自然》新闻报道称,有大语言模型向用户介绍了一种名为"bixonimania"的皮肤病,而这种病完全是由瑞典研究人员凭空捏造的。研究团队将两篇关于这一虚构疾病的伪造论文发布到网上,以测试医疗错误信息在AI工具中的传播速度——结果令人警惕:这些信息被迅速吸收并传播。目前,这两篇伪造论文已被删除。
产品接连上线
尽管如此,多个医疗系统仍在推进各自聊天机器人的部署。据Stat报道,哈特福德医疗与K Health合作的PatientGPT上月已向部分患者推出测试版,计划本周进一步扩大至数万名患者。
哈特福德方面发布了一项针对75名参与者的预印本研究(未经同行评审),结果显示其迭代压力测试(即红队测试方法)随着时间推移有效降低了失败率,尤其是在"高风险"场景中表现明显改善——高风险场景下的失败率从30%降至8.5%。然而,这一数据在真实应用环境中意味着什么,以及那8.5%的失败案例可能带来多大危害,目前仍不明朗。
据Stat报道,PatientGPT目前提供两种使用模式:一种是通用医疗问答模式,可能会整合患者的个人信息;另一种是"医疗接诊"模式,患者开始描述症状后,聊天机器人将减少闲聊,转而按照临床流程图逐步引导。当AI智能体在接诊模式下收集到足够信息后,将给出下一步建议,包括预约基层医疗随诊,或寻求紧急/急诊救治。若建议就急诊,聊天机器人将停止回应后续问题。
哈特福德表示,将在更大规模推广的过程中持续监控聊天机器人的表现。在试运行阶段,系统对每次交互都进行了人工审查。但随着规模扩大,人工审查数量将压缩至每天20条,其余交互将由另一个AI智能体进行监控,同时每1000次对话还会进行一次批量研究。
"我们的使命是成为全国最以消费者为中心的医疗系统,"哈特福德医疗总裁兼首席执行官Jeff Flaks上月表示,"长期以来,医疗服务体系过于围绕医疗提供者来组织,但显然我们必须转变方向,去主动满足患者的需求。PatientGPT正是我们推出的一款新工具,它能够在保护医患核心关系的同时,支持您的健康管理,并提供全天候的医疗团队接入服务。"
更为审慎的工具
除PatientGPT外,还有一款名为Emmie的AI聊天助手,由电子病历巨头Epic旗下的MyChart平台推出。目前,加州萨特健康(Sutter Health)和印第安纳州里德健康(Reid Health)等多个医疗系统正在逐步通过线上门户向用户推广Emmie。
据Becker's Hospital Review报道,Epic创始人兼首席执行官Judy Faulkner在去年的一次高管演讲中将Emmie描述为一款助手工具,可帮助患者通过起草就诊议程来为预约做准备,并在就诊结束后协助患者理解检查结果、解答后续疑问。
萨特健康关于Emmie的常见问题页面注明,该聊天机器人可以"回答一般性健康问题,并查找或汇总您病历中已有的信息,例如诊疗记录、检查结果、既往就诊记录或消息。"但页面同时强调,Emmie"不提供个性化医疗建议,也不作出医疗决策。Emmie并非用于疾病或其他状况的诊断,也不用于疾病的治愈、缓解、治疗或预防。Emmie同样无意取代、修改或替代医生的专业临床判断。"
目前,Emmie仅向萨特健康的一小部分患者开放。这些患者可以通过简单的点赞或点踩方式对Emmie的回复提供反馈。
里德健康成为继萨特健康之后的第二家引入Emmie的机构。里德健康首席信息官Muhammad Siddiqui上周接受Becker's采访时表示,里德健康的服务对象主要是农村社区,公司将Emmie视为扩大医疗服务可及性、帮助患者更好就医导航的重要途径。
"患者希望得到更清晰的答案、更便捷的就医渠道,以及两次就诊之间更多的指引,"Siddiqui说,"如果我们能够在医疗系统内部、以连接可信临床工作流程的方式提供这些服务,这肯定远比让患者独自使用那些准确性无从保证的公共工具要好得多。"
Q&A
Q1:PatientGPT聊天机器人是怎么工作的?
A:PatientGPT提供两种使用模式:一种是通用医疗问答模式,可整合患者的个人信息;另一种是"医疗接诊"模式,患者描述症状后,系统将按照临床流程图逐步引导,收集足够信息后给出下一步建议,如预约基层医疗随诊或寻求急诊救治。若建议就急诊,聊天机器人将停止回应后续问题。
Q2:大语言模型在医疗咨询中的准确率有多高?
A:根据《自然医学》的研究,当研究人员以标准化文字描述医疗场景时,大语言模型正确识别病情的概率约为95%,正确判断下一步行动的概率约为56%。但当普通用户用自己的语言描述时,模型仅能正确识别病情约三分之一的时间,给出正确下一步建议的比例也仅为43%,显示出真实使用场景下的明显局限性。
Q3:Epic推出的Emmie和PatientGPT有什么区别?
A:两者定位有所不同。PatientGPT功能更为主动,可进行症状收集并给出就医建议。Emmie则更为保守,主要帮助患者准备就诊议程、理解检查结果和回答随访问题,明确声明不提供个性化医疗建议,不参与疾病诊断或治疗决策,强调辅助而非替代医生判断。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.