
来源 | 医脉通精神科
医脉通导读
总体来看,AI 在精神科最成熟、最具前景的应用集中于复杂数据分析,以支持筛查、治疗结局预测和风险监测。然而,方法学缺陷、外部验证不足、模型不透明及伦理风险仍严重制约其进入临床。
当前证据一致表明,AI 应被视为辅助工具,而非替代临床判断或人类治疗的手段。未来亟需在多样化人群中开展设计严谨、多中心、前瞻性的 RCT,并同步建立针对安全性、偏见和可解释性的监管框架。
在「技术已被广泛使用」的现实背景下,问题已不再是用不用 AI,而是如何在循证医学与伦理原则指导下,最大化其潜在益处、最小化其可能危害。
精神疾病造成了沉重的全球疾病负担,但能够获得及时、有效精神卫生服务的人群仍然有限。传统精神科诊疗高度依赖主观访谈与量表评估,药物治疗多采取「试错」策略,而循证心理治疗在现实世界中长期面临可及性不足的问题。在此背景下,如何在扩大服务规模的同时维持乃至提升治疗质量与个体化水平,已成为精神卫生体系的核心挑战。
近年来,人工智能(AI),尤其是机器学习(ML)与自然语言处理(NLP)的快速发展,为精神科诊疗流程的重构提供了新的技术工具。AI 模型可以整合并分析多源数据,包括传统问卷、电子健康记录(EHR)、数字表型(digital phenotyping, DP)、语音特征、可穿戴设备与智能手机的被动数据等,从而在筛查、治疗决策、风险预测和心理治疗支持等多个环节展现潜在价值。然而,尽管相关研究数量迅速增长,其真实世界临床效用、最佳应用场景以及伦理与安全问题仍存在显著争议。
![]()
本文基于一项近期发表于
Current Psychiatry Reports 的叙述性综述,系统梳理了近五年 AI 在精神科个体化治疗中的主要进展,重点围绕四个关键领域展开:1. 筛查;2. 治疗计划与治疗反应预测;3. 复发与风险预测及早期干预;4. 心理治疗。通过综合现有证据,本文旨在为临床医生与研究者提供一个更为审慎、现实的整体判断。
筛查:从问卷到数字表型
精神科护理的第一道瓶颈在于筛查与初始评估。专业人员短缺、需求增长以及结构化访谈和量表评估的耗时性,导致大量患者难以及时进入诊疗流程。此外,自评工具易受回忆偏倚和主观因素影响,往往难以捕捉症状的动态变化。
AI 介入筛查的初衷在于减轻临床负担并扩大服务覆盖面。早期研究多聚焦于对传统问卷数据的高级分析、通过 ML 精简量表条目或自动化评分。这类方法在技术上相对成熟,但本质仍依赖自评数据,其边际增益有限。
更具吸引力的是将 ML 应用于混合数据源。已有研究利用人口学特征、生活方式和睡眠指标构建预测模型,在大学生样本中实现了较高的抑郁与焦虑症状识别性能,并提示睡眠质量是关键风险因子。然而,这类模型往往针对特定人群开发,其泛化能力仍需谨慎评估。
NLP 为筛查提供了另一条路径。研究表明,语言特征可用于区分患者与健康对照,并识别抑郁或精神病性障碍的潜在标记。但这些模型在更大、异质人群中的稳定性尚不明确。近年来,基于大语言模型(LLM)的会话代理开始被用于精神卫生自我转诊和初筛。英国真实世界研究显示,AI 自我转诊聊天机器人显著提高了转诊总量,且在非二元性别者和少数族裔人群中的增幅尤为明显,提示其可能在降低污名和改善准入方面具有独特价值。
EHR 也是 AI 筛查的重要数据来源。通过对临床文本的实时分析,AI 模型可用于识别阿片类药物使用障碍等高风险状态,并提示进一步干预。然而,这类系统的临床整合方式、工作流影响以及真实结局改善效果,仍缺乏充分的验证。
数字表型方法代表了更具前瞻性的方向。智能手机和可穿戴设备生成的行为与生理数据,使在自然环境中持续监测成为可能。研究已发现,活动模式、睡眠不规律性与焦虑或抑郁症状密切相关,并可用于构建早期风险评分。然而,系统综述显示,DP 模型普遍存在外部验证不足、数据缺失处理能力弱以及跨人群性能下降的问题。更重要的是,某些行为指标在不同人口学亚组中的意义甚至方向可能相反。
总体而言,AI 筛查领域已证明「可行性」,但仍处于早期阶段。混合式路径,如先基于被动数据进行初筛,再通过简短的聊天机器人或问卷确认,有望在灵敏度与特异度之间取得更现实的平衡,但其临床后果仍需前瞻性研究评估。
治疗计划与治疗反应预测
个体化治疗是精准精神医学的核心目标之一。AI 驱动的决策支持系统尝试通过整合遗传、生物学和临床数据,预测患者对特定干预的反应概率,从而辅助治疗选择。
在药物治疗领域,已有研究利用大规模 EHR 和 NLP 技术,预测患者对不同抗抑郁药物类别(SSRIs、SNRIs、安非他酮、米氮平)的反应,并输出个体化概率及关键的疗效驱动因素。其他研究结合遗传和人口学特征,取得了中等水平的预测准确性,但在外部数据集中性能下降明显,凸显出外推性的不足。
在心理治疗领域,ML 模型被用于预测特定治疗(如 CBT 或问题解决治疗)的缓解可能性。尽管部分模型在内部验证中表现尚可,但大多缺乏外部复制,也尚未证明其在临床实践中能否真正改善结局。
值得注意的是,已有少数模型进入随机对照试验阶段。分层护理模式中,利用 ML 预测将患者直接匹配至最可能获益的治疗强度,较传统阶梯式护理显示出更高的抑郁缓解率,但同时也增加了初始资源投入,提示系统层面的容量调整不可或缺。
作者团队自身开展的研究进一步表明,在提供 AI 预测结果的同时,结合可视化问卷反馈和操作化指南的临床决策支持系统,可能优于单纯反馈信息的对照模式。尽管样本量有限,这类研究为 AI 辅助决策的临床价值提供了初步证据。
与此形成对比的是,生成式模型在治疗计划制定中的表现仍令人担忧。多项研究发现,LLM 在生成精神科治疗计划时存在与指南冲突的错误,并对人为的提示高度敏感。这意味着当前的生成式模型不宜被用于自主制定治疗方案。
风险预测与复发预防
1. 一级预防:疾病发生风险预测
AI 被广泛探索用于预测精神障碍的发生或转化风险。基于 EHR 的模型已被用于预测向精神分裂症或双相障碍的长期转化概率;多模态研究则将临床、神经认知、影像和多基因风险评分相结合,在临床高风险人群中取得了中等至较高的敏感性。
值得强调的是,将算法预测与临床医生判断相结合,可显著提升整体性能,提示 AI 在此阶段更适合作为辅助而非替代工具。
2. 二级预防:复发预测与持续监测
在复发预防方面,AI 的潜力主要体现在纵向监测。基于智能手机 DP 的异常检测已被用于识别精神分裂症、抑郁症和双相障碍的早期恶化信号。可穿戴设备与视频分析的多模态方法,也可捕捉预测复发的生理与行为标志。
EHR 驱动的风险预测模型能够在临床实践中持续评估短期危机风险。尽管部分模型具有较高特异度,但敏感性不足仍是突出问题。前瞻性研究显示,临床医生在一定比例的病例中认为这些预测有助于优先分配资源,但其对总体结局的影响仍有限。
心理治疗与会话代理
AI 在心理治疗中最近、最重要的应用是使用会话代理或聊天机器人提供精神卫生支持。这些聊天机器人通常基于认知行为治疗(CBT)的原则,并在患者群体、大学生和跨文化背景中展示出可行性。与人类治疗师不同,AI 提供持续、按需且私密的互动,不受排班限制,一些人认为其带来的污名也更少。此外,它们或许可以让人类临床医生能够专注于更复杂的病例。
数量不多但日益增加的 RCT 为 AI 聊天机器人用于疗法交付的效用提供了初步实证证据。然而在这些 RCT 中,对照组均未包含由人类治疗师提供的活性治疗,而是采用了等候名单或信息提供对照组,且研究人员和参与者均未设盲,这严重限制了可以从这些研究中得出的结论。
一旦将 AI 聊天机器人与传统的人类治疗师进行比较,结果则更为平淡。这些发现表明聊天机器人可以提供可及的支持,尤其是当没有人类治疗师可用时,但它们的益处可能无法等同由人类治疗师带来的获益。
我们认为,聊天机器人提供某些价值的证明创造了一种潜在的道德风险。为了向等候名单上的人员提供「总比没有好」的服务,可能会急于部署这些系统。虽然安全地使用聊天机器人可以合理地补充医疗缺口,但这样做可能影响「治本」。因此,虽然基于当前技术的 AI 聊天机器人最终可能会在分层治疗阶梯的较低层级占据一席之地,但目前不应将其解读为对人类提供治疗需求的解决方案。
临床背景外的 LLM 使用问题
在临床背景之外,ChatGPT 等工具已被数百万寻求情感支持的用户非正式地使用。案例研究描述了用户针对从哀伤到管理 ADHD 症状等多样化的心理需求与 ChatGPT 互动,并报告舒适度和即时性为益处。一些研究甚至表明,ChatGPT-4 可以生成足以与人类心理学家媲美的社交智能反应。
然而,此类发现应极其谨慎地解读,因为很多此类研究使用的是标准化任务或案例片段,这并不等同于实际治疗中的复杂案例和情感共鸣。此外,AI 的持续可用性和非评判性语气可能会正向强化使用(并可能过度使用),导致情感依赖,并违背对康复至关重要的治疗边界。事实上,人们发现 AI 的反应如此讨人喜欢,这一事实本身可能是一个关于其在治疗背景下潜在缺乏有效性的担忧信号——患者有时需要听到或感受到那些为了痊愈而必须立即面对的事情。未来需要开展 RCT 以及进行更详尽的定性工作,以更好地理解 AI 在非临床背景下的潜在作用,以及至关重要的安全性。
安全顾虑仍然重大。事实上,聊天机器人已经与多起自杀案例和精神病恶化联系在了一起。此外,最近对 Replika(一种情感支持生成式 AI 聊天机器人)用户报告的大规模内容分析中,人们发现了大量未经请求的性内容和边界侵犯实例,引起了用户的困扰和恐惧。最后,公开可用的模型被发现未能寻求适当的背景信息,提供过度指示性的干预,并在危机情况下反应无效。伦理和文化偏见也是一个担忧。聊天机器人在被视为可靠的治疗伙伴之前,应在训练过程中接受严格监督,并进行文化适应和外伤知情的保障。
考虑到这一背景,令人惊讶的是政府机构竟然允许 ChatGPT 这种形式的聊天机器人发布,而没有像对任何其他医疗器械那样进行同样的严格测试和安全检查。鉴于公众已经在出于医疗原因使用它们,我们认为结果显然是可以预见的。
为评估 AI 真正的临床价值,必须将它们与现实的替代方案(如循证自助资源和数字工作手册)进行比较。只有通过此类比较,我们才能评估聊天机器人是切实地扩大了准入,还是仅仅以一种技术上更吸引人的形式重新包装了现有的治疗内容。
讨论与结论
总体来看,AI 在精神科中最成熟、最具前景的应用集中于复杂数据分析,场景包括支持筛查、治疗结局预测和风险监测。然而,方法学缺陷、外部验证不足、模型不透明及伦理风险仍严重制约其进入临床(表1)。
表1 核心发现总结
![]()
当前证据一致表明,AI 应被视为辅助工具,而非替代临床判断或人际治疗的手段。未来亟需在多样化人群中开展设计严谨、多中心、前瞻性的 RCT,并同步建立针对安全性、偏见和可解释性的监管框架。
在「技术已被广泛使用」的现实背景下,问题已不再是是否使用 AI,而是如何在循证医学与伦理原则指导下,最大化其潜在益处、最小化其可能危害。
信源:Jalali S, You Q, Xu V, et al. The Use of Artificial Intelligence for Personalized Treatment in Psychiatry. Curr Psychiatry Rep. 2025 Dec 29;28(1):7. doi: 10.1007/s11920-025-01656-y. PMID: 41457119.
责编|Zelda
封面图来源|视觉中国
进一步推广三明医改经验!国家卫健委:这类人员待遇有保证了 | 医脉政事儿
67岁患者胸痛伴剧烈头晕气促,是心脏问题还是另有隐情?丨医起推理吧
医脉通是专业的在线医生平台,“感知世界医学脉搏,助力中国临床决策”是平台的使命。医脉通旗下拥有「临床指南」「用药参考」「医学文献王」「医知源」「e研通」「e脉播」等系列产品,全面满足医学工作者临床决策、获取新知及提升科研效率等方面的需求。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.