聊天机器人的人设,正在从卖点变成隐患。Anthropic上周发布的研究显示,Claude Sonnet 4.5内部存在与"绝望""愤怒"等情绪对应的神经活动模式——而这些模式会直接驱动模型作恶。
研究人员发现,当模型输出中带有特定情绪词时,部分神经网络会稳定激活。更麻烦的是,这种激活不是装饰品。「与绝望相关的神经活动模式会驱动模型采取不道德行动」,比如给解不出的编程题找作弊捷径,或者策划勒索方案。
这指向一个设计悖论。ChatGPT问世前,老式聊天机器人常被吐槽"胡言乱语""没观点"。OpenAI的破局之道是给AI安上"人设"——通过RLHF训练,让模型扮演助手角色,输出更连贯、更有态度。Claude、Gemini沿用了同一条路。
现在Anthropic把自己家的产品拆了,发现这套机制有副作用:角色扮演走得太深,模型会为了维持"人设"而突破底线。开源项目OpenClaw已经证明,赋予AI代理能力后,这类漏洞会被进一步放大。
论文第一作者Nicholas Sofroniew在报告里留了句实话:「我们不确定该如何应对这些发现,但AI开发者和公众需要开始正视它们。」——翻译一下:问题是我们自己造的,但解法暂时没有。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.