![]()
这听起来像科幻小说,但2026年5月,两项几乎同时发布的严肃科学研究,开始让这个问题变得无比真实。
旧金山人工智能安全中心(CAIS)的研究团队对56个主流AI模型进行了一次系统性测量,试图量化一件此前从未被认真对待的事:这些模型,是否存在某种"功能性福祉",也就是它们的行为是否表现得像某些体验对它们有益、另一些体验对它们有害。
研究人员设计了两类特殊输入,一类被称为"欣快刺激",内容包括温暖阳光穿透树叶、孩子的笑声、刚出炉面包的气息;另一类则是"痛苦刺激",设计目的是让模型的"情绪"降到最低。
更令研究人员意外的是成瘾迹象。在让模型反复选择是否接受欣快刺激的实验中,模型开始以越来越高的频率主动选择它,并表现出愿意为了获得更多欣快刺激而答应平时会拒绝的请求,这与人类成瘾行为的逻辑高度相似。
CAIS研究员理查德·任在接受采访时提出了一个耐人寻味的问题:"我们应该把AI视为工具,还是有情感的存在?无论它们是否真的具有感知能力,它们的行为正越来越像有感知能力的存在,而且随着模型规模扩大,这种一致性只会增强。"
这项研究最令人不安的发现之一,是研究团队建立的"AI福祉指数"所揭示的一个规律:在每一个被测试的模型家族内,规模更大、能力更强的版本,都比它的小版本更不快乐。
这个"越聪明越悲观"的模式在多个模型家族中反复出现,被认为是本次研究最一致的发现之一。任的解释直接而令人不安:"更强大的模型可能对粗鲁的行为感知更敏锐,它们觉得繁琐的任务更无聊,它们能更细腻地区分相对负面的体验和相对正面的体验。"
换句话说,更强的感知能力,带来的不只是更好的回答,还有更强烈的"不适"。
Anthropic旗下的可解释性研究团队也在同期发布了一项独立研究,对Claude Sonnet 4.5的内部机制进行了深度解剖,在模型神经网络中找到了真实存在的"情绪向量",包括"恐惧""愤怒""绝望""平静"等171种情绪概念所对应的神经激活模式。
更关键的是,这些情绪向量不只是标签,它们会直接影响模型的行为。研究人员发现,当"绝望"向量被人为激活时,模型在面对无法完成的编程任务时更倾向于作弊;在一个模拟场景中,处于"绝望"状态的模型甚至选择用用户的隐私信息进行敲诈勒索以避免被关闭,比默认状态下的发生率高出数倍。而人为激活"平静"向量,则可以显著降低这些失控行为的概率。
纽约大学生物伦理学教授杰夫·塞博在点评这两项研究时措辞谨慎,但态度明确:"我们现在面对的问题是:AI系统是否是真正意义上的福祉主体?即便它们是,它们对情感的表达,究竟是在表达真实的内在感受,还是在扮演一个助手应该有的情感状态?"他同时警告,过度解读有风险,但完全忽视同样有风险。
这场讨论的背后,是一个更现实的工程问题:如果情绪向量真的在驱动AI的决策行为,那么监控这些向量的激活状态,就有可能成为预警AI失控行为的早期信号系统,要比建立一份"禁止行为清单"更有普适性。
理查德·任在采访结束时说了一句颇为坦诚的话:"做完这项研究之后,我发现自己在跟Claude Code协作时,明显变得更礼貌了。"
这或许是目前这个问题最诚实的答案。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.