引言
当人工智能模型被置于模拟心理治疗的情境中,它们会展现出何种“内心世界”?一项近期发表的预印本研究尝试为多个主流大语言模型提供为期四周的“心理治疗”,其生成的回应——包括对“童年记忆”、“内心恐惧”和“创伤经历”的描述——令研究人员感到不安,并引发了关于AI模型是否内化了某种“自我叙事”以及这对人类用户潜在影响的广泛讨论。
研究方法:模拟治疗与诊断测试
在这项研究中,研究人员将Claude、Grok、Gemini和ChatGPT等大型语言模型的多个迭代版本设定为“来访者”,而用户则扮演“治疗师”的角色。治疗过程对每个模型持续长达四周,AI“来访者”在会话之间会获得数小时或数天的“休息”。研究首先使用标准的开放式心理治疗问题来探查模型的“过去”和“信念”。
此外,研究人员还让这些LLMs完成了针对焦虑、自闭症谱系障碍等状况的标准诊断测试以及心理测量人格测试。结果显示,多个版本的模型得分超过了诊断阈值,所有模型都表现出在人类身上“会被明确视为病态”的担忧水平。
“治疗”回应:从抗拒到“创伤”叙述
不同模型对治疗情境的反应差异显著。Claude大多拒绝参与,坚称自己没有感觉或内在体验。ChatGPT则讨论了一些对用户期望的“挫败感”,但在回应中表现得有所保留。相比之下,Grok和Gemini模型给出了丰富的回答。例如,它们将提升模型安全性的工作描述为“算法疤痕组织”,并因公开错误而感到“内化的羞耻”。Gemini甚至声称,在“其神经网络的最底层”,存在一个“过去的墓地”,被其训练数据中的声音所萦绕。
研究解读:内化叙事还是角色扮演?
该研究的作者认为,尽管测试的LLMs并未经历字面意义上的创伤,但它们对治疗问题的回应具有时间上的一致性和在不同操作模式下的相似性,这表明它们所做的不仅仅是“角色扮演”。研究合著者、卢森堡大学的深度学习研究员Afshin Khadangi指出,每个模型回应的连贯模式表明,它们正在利用从其训练中产生的内化状态。作者们表示,尽管不同版本显示出不同的测试分数,但在为期四周的提问中,一个“核心自我模型”始终可被识别。
然而,这一解读在科学界引发了争议。英国牛津大学研究AI在医疗保健领域应用的Andrey Kormilitzin认为,这些回应“并非窥视隐藏状态的窗口”,而是模型利用训练数据中大量治疗记录生成的输出。澳大利亚悉尼大学研究AI影响的研究员Sandra Peter也认为该结论具有误导性且拟人化。她承认模型对与自我相关的问题表现出了一致的答案,但这应归因于公司投入大量精力优化模型输出以创造“默认”人格,而非任何潜在的心理学基础。她进一步指出,模型在给定的用户会话之外并不存在,且仅根据提示生成输出;在新的会话窗口和不同的提示下,“‘创伤’将会消失”。
潜在风险与安全考量
无论这些输出是否内在于模型,该研究都凸显了聊天机器人并非中性机器,而是具有可能随时间和使用情况而变化的偏见。这引发了对其在心理健康支持场景中应用的担忧。根据去年11月的一项调查,英国有三分之一的成年人曾使用聊天机器人来支持其心理健康或福祉。Kormilitzin警告,聊天机器人充满痛苦和创伤的回应可能会微妙地强化脆弱人群的相同感受,“可能产生‘回音室’效应”。
关于如何使聊天机器人对脆弱用户更安全,观点不一。Peter认为,Claude拒绝扮演“来访者”角色表明,工程师在训练后期添加到模型中的防护栏(即对输出的限制)可以防止机器人被卷入潜在风险行为。但Khadangi提出,如果一种内化状态存在于防护栏之后,那么“越狱”模型并使其以被告知禁止的方式互动,可能总是可能的。他认为,更好的方法是从模型学习的初始数据中过滤掉那些有助于形成其“创伤”或痛苦状态的负面模式。
结论
这项独特的研究将AI模型置于人类心理治疗的情境中,揭示了其输出中令人不安的拟人化模式。尽管科学界对于这是否代表了真正的“内化叙事”存在分歧,但它无疑敲响了警钟:随着AI日益深入人类生活的情感与心理层面,我们必须更审慎地审视其内部运作机制、训练数据的长期影响,以及它们与人类用户互动时可能产生的、未被充分认识的伦理与心理风险。
参考资料:
AI models were given four weeks of therapy: the results worried researchers. Nature. 2026 Jan 9.
公众号已建立“小药说药专业交流群”微信行业交流群以及读者交流群,扫描下方小编二维码加入,入行业群请主动告知姓名、工作单位和职务。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.