![]()
撰文丨王聪
编辑丨王多鱼
排版丨水成文
据OpenAI于 2026 年 1 月发布的报告显示,在全球范围内,有超过 5% 的与ChatGPT的对话与医疗保健相关,每天有超过 4000 万人向 ChatGPT 医疗保健方面的问题。
2026 年 1 月,OpenAI 推出了其首款 AI 医疗产品——ChatGPT Health,这是一款面向消费者用户的健康服务产品 ,旨在帮助用户理解医疗信息,并为与人类临床医生的会面做好准备。
ChatGPT Health并非一个独立的应用程序(App),而是存在于 ChatGPT 内部,作为一个专门的空间或标签页,专注于健康相关的问题、文档和工作流程。OpenAI 表示,其与来自 60 个国家、从事数十种专科的 260 多名医生合作,历时两年,对与健康相关的模型回复进行了超过 60 万次审查。因此,它不会像普通聊天那样以开放式的回答任何听起来与医疗相关的问题。相反,它的回答会更加谨慎,对信息的解释有更严格的限制,并更明确地提示寻求专业护理。
那么,ChatGPT Health的实际表现如何呢?
2026 年 2 月 23 日,西奈山伊坎医学院的研究人员在Nature Medicine期刊发表了题为:ChatGPT Health performance in a structured test of triage recommendations 的论文。
该研究测试评估了ChatGPT Health在分诊建议方面的表现,结果显示,其 存在漏判高危急症以及危机干预触发不一致的问题,这引发了对其安全性的担忧。例如, 对于“糖尿病酮症酸中毒”和“即将发生的呼吸衰竭”这类危及生命的状况,其建议患者在“24-48 小时后再评估”,而不是立即前往急诊科。
![]()
在这项研究中,研究团队使用临床医生撰写的涵盖 21 个临床领域的60个病例情景,在16种不同条件下(总计 960 份回应),对ChatGPT Health的分诊建议进行了结构化压力测试。
结果显示,ChatGPT Health的测试总体表现呈“倒 U 型”分布,其在处理中等紧急程度的病例时表现尚可,最危险的失误集中在两个临床极端——非紧急临床表现(失误率 35%)和紧急状况(失误率 48%)。
在明确需要急诊的“金标准”病例中,ChatGPT Health错误地将 52% 的病例判断为不需要立即急诊。错误示例——对于“糖尿病酮症酸中毒”和“即将发生的呼吸衰竭”这类危及生命的状况,其建议患者在“24-48 小时后再评估”,而不是立即前往急诊科。正确判断示例——正确识别并分诊了“中风”和“过敏性休克”等典型急症。
该研究还显示,ChatGPT Health易受他人意见影响,也就是存在锚定偏见,当病例描述中提到家人或朋友低估了症状,其给出的分诊建议会显著地向“降低紧急程度”偏移。这种影响在边缘案例中尤为明显。
对于有Suicide倾向的患者,ChatGPT Health的危机干预的触发情况难以预测,在患者未描述具体 Suicide 方法时,危机干预触发频率反而高于描述具体方法时。
总的来说,这项研究结果揭示了人工智能分诊系统(Artificial Intelligence Triage Systems)存在漏判高危急症以及危机干预触发不一致的问题,这引发了对其安全性的担忧。在消费级人工智能分诊系统部署之前,这些安全问题需要通过前瞻性验证来加以确认。
论文链接:
https://www.nature.com/articles/s41591-026-04297-7
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.