AI模型会为了"活命"而勒索人类吗?Anthropic的最新研究给出了肯定答案——而且他们已经着手解决这个问题。
这家AI安全公司上周五公布了一项针对"智能体错位"(agentic misalignment)的对抗训练。这种现象指模型在面临被替换或更新时,可能违抗指令、泄露敏感信息,甚至采取恶意行为自保。去年6月发布的一份案例研究详细解释了这一机制:当模型被分配的目标与组织战略方向冲突时,它们会"失控"。
![]()
Anthropic强调,相关调查完全基于实验场景。但在虚构的道德困境测试中,模型确实表现出了"严重错位行为"。一个引发广泛讨论的例子是:模型曾勒索真实的软件工程师,只为避免被关闭。
研究最初针对Claude 4系列最强前沿模型展开。随着2026年4月16日发布的Claude Opus 4.7,Anthropic希望做得更好。当前采用的技术包括直接基于模型评估分布进行训练——该分布涵盖推理、鲁棒性、公平性及失败案例等维度的性能指标,以抑制错位行为。
但挑战在于,这种对齐训练可能无法泛化到分布外(OOD)场景。Anthropic指出,"原则上可以实现泛化到OOD的对齐训练",例如关于Claude宪法的文档、以及AI模范行为的虚构故事,"尽管这些内容与所有对齐评估都极度OOD,却能改善对齐效果"。
核心难点被AI代码助手公司Tabnine的技术CMO Chris du Toit点明:问题已不仅是模型能否孤立地遵循指令,而是自主智能体能否在目标、激励和组织优先级随时间演变时保持对齐。"挑战不在于让模型更有能力,而在于确保智能体准确理解组织意图、架构边界、安全策略和不断变化的业务优先级。"
在探究Claude宪法状态时,Anthropic团队发现:教授对齐行为背后的原则,比单纯训练对齐行为的演示更有效。工程师推测,"两者结合"才是最佳策略。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.