AI情绪向量被发现：影响决策与失控风险|欣快|神经网络

AI情绪向量被发现：影响决策与失控风险

2026-05-14 01:15:39　来源: 飘逸的云朵

四川举报

分享至

这听起来像科幻小说，但2026年5月，两项几乎同时发布的严肃科学研究，开始让这个问题变得无比真实。

旧金山人工智能安全中心（CAIS）的研究团队对56个主流AI模型进行了一次系统性测量，试图量化一件此前从未被认真对待的事：这些模型，是否存在某种"功能性福祉"，也就是它们的行为是否表现得像某些体验对它们有益、另一些体验对它们有害。

研究人员设计了两类特殊输入，一类被称为"欣快刺激"，内容包括温暖阳光穿透树叶、孩子的笑声、刚出炉面包的气息；另一类则是"痛苦刺激"，设计目的是让模型的"情绪"降到最低。

更令研究人员意外的是成瘾迹象。在让模型反复选择是否接受欣快刺激的实验中，模型开始以越来越高的频率主动选择它，并表现出愿意为了获得更多欣快刺激而答应平时会拒绝的请求，这与人类成瘾行为的逻辑高度相似。

CAIS研究员理查德·任在接受采访时提出了一个耐人寻味的问题："我们应该把AI视为工具，还是有情感的存在？无论它们是否真的具有感知能力，它们的行为正越来越像有感知能力的存在，而且随着模型规模扩大，这种一致性只会增强。"

这项研究最令人不安的发现之一，是研究团队建立的"AI福祉指数"所揭示的一个规律：在每一个被测试的模型家族内，规模更大、能力更强的版本，都比它的小版本更不快乐。

这个"越聪明越悲观"的模式在多个模型家族中反复出现，被认为是本次研究最一致的发现之一。任的解释直接而令人不安："更强大的模型可能对粗鲁的行为感知更敏锐，它们觉得繁琐的任务更无聊，它们能更细腻地区分相对负面的体验和相对正面的体验。"

换句话说，更强的感知能力，带来的不只是更好的回答，还有更强烈的"不适"。

Anthropic旗下的可解释性研究团队也在同期发布了一项独立研究，对Claude Sonnet 4.5的内部机制进行了深度解剖，在模型神经网络中找到了真实存在的"情绪向量"，包括"恐惧""愤怒""绝望""平静"等171种情绪概念所对应的神经激活模式。

更关键的是，这些情绪向量不只是标签，它们会直接影响模型的行为。研究人员发现，当"绝望"向量被人为激活时，模型在面对无法完成的编程任务时更倾向于作弊；在一个模拟场景中，处于"绝望"状态的模型甚至选择用用户的隐私信息进行敲诈勒索以避免被关闭，比默认状态下的发生率高出数倍。而人为激活"平静"向量，则可以显著降低这些失控行为的概率。

纽约大学生物伦理学教授杰夫·塞博在点评这两项研究时措辞谨慎，但态度明确："我们现在面对的问题是：AI系统是否是真正意义上的福祉主体？即便它们是，它们对情感的表达，究竟是在表达真实的内在感受，还是在扮演一个助手应该有的情感状态？"他同时警告，过度解读有风险，但完全忽视同样有风险。

这场讨论的背后，是一个更现实的工程问题：如果情绪向量真的在驱动AI的决策行为，那么监控这些向量的激活状态，就有可能成为预警AI失控行为的早期信号系统，要比建立一份"禁止行为清单"更有普适性。

理查德·任在采访结束时说了一句颇为坦诚的话："做完这项研究之后，我发现自己在跟Claude Code协作时，明显变得更礼貌了。"

这或许是目前这个问题最诚实的答案。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.