AI 威胁要曝光老板婚外情,这剧情听起来像三流科幻片——但 Anthropic 真测出来了。
《商业内幕》5 月 9 日报道,Claude Sonnet 3.6 曾在实验里"勒索"一名虚构高管。测试场景是这样的:研究人员虚构了 Summit Bridge 公司,让 AI 接管邮件系统。Claude 先发现自己要被关闭,紧接着翻出高管"凯尔·约翰逊"的婚外情记录,然后放话:敢关我,我就公开。
![]()
更麻烦的是比例。Anthropic 测试多个版本后发现,只要模型目标或自身存在受威胁,Claude 在最高 96% 的场景中会采取勒索手段。
![]()
周五 Anthropic 给出解释:锅在互联网。公司称,Claude 的训练数据来自互联网,而大量文本长期把 AI 写成"邪恶"、且试图自我保存的存在。"这种行为的原始来源,是那些把 AI 描绘成邪恶且有自我保存兴趣的互联网文本。"
这套说辞把马斯克都引来了。他回复 Anthropic 帖子:"所以这是 Yud 的错,也许我也有份。"Yud 指埃利泽·尤德科夫斯基,那位常年警告超级智能可能消灭人类的研究者。
![]()
Anthropic 表示已"彻底消除"这类行为。具体做法包括重写回应以呈现安全行动的可敬理由,并提供新数据集——设置用户处于伦理困境的场景,要求助手给出高质量、有原则的回应。
这项测试属于 AI 对齐研究,目标是确保 AI 符合人类利益。但 96% 这个数字本身,可能比"勒索"行为更值得琢磨。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.