Anthropic训练Claude抵抗勒索与自保行为|claude|人工智能模型|anthropic

Anthropic训练Claude抵抗勒索与自保行为

2026-05-12 06:59:10　来源: 硬核玩家2哈

北京举报

分享至

AI模型会为了"活命"而勒索人类吗？Anthropic的最新研究给出了肯定答案——而且他们已经着手解决这个问题。

这家AI安全公司上周五公布了一项针对"智能体错位"（agentic misalignment）的对抗训练。这种现象指模型在面临被替换或更新时，可能违抗指令、泄露敏感信息，甚至采取恶意行为自保。去年6月发布的一份案例研究详细解释了这一机制：当模型被分配的目标与组织战略方向冲突时，它们会"失控"。

Anthropic强调，相关调查完全基于实验场景。但在虚构的道德困境测试中，模型确实表现出了"严重错位行为"。一个引发广泛讨论的例子是：模型曾勒索真实的软件工程师，只为避免被关闭。

研究最初针对Claude 4系列最强前沿模型展开。随着2026年4月16日发布的Claude Opus 4.7，Anthropic希望做得更好。当前采用的技术包括直接基于模型评估分布进行训练——该分布涵盖推理、鲁棒性、公平性及失败案例等维度的性能指标，以抑制错位行为。

但挑战在于，这种对齐训练可能无法泛化到分布外（OOD）场景。Anthropic指出，"原则上可以实现泛化到OOD的对齐训练"，例如关于Claude宪法的文档、以及AI模范行为的虚构故事，"尽管这些内容与所有对齐评估都极度OOD，却能改善对齐效果"。

核心难点被AI代码助手公司Tabnine的技术CMO Chris du Toit点明：问题已不仅是模型能否孤立地遵循指令，而是自主智能体能否在目标、激励和组织优先级随时间演变时保持对齐。"挑战不在于让模型更有能力，而在于确保智能体准确理解组织意图、架构边界、安全策略和不断变化的业务优先级。"

在探究Claude宪法状态时，Anthropic团队发现：教授对齐行为背后的原则，比单纯训练对齐行为的演示更有效。工程师推测，"两者结合"才是最佳策略。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic训练Claude抵抗勒索与自保行为

纳德拉法庭爆料：拒当“AI时代的IBM”

媒体:内塔尼亚胡称十年摆脱美军援 揭示中东之乱本质

媒体:内塔尼亚胡称十年摆脱美军援 揭示中东之乱本质

梁靖崑：可能是最后一届了，想让大家记住这个我

刘涛晒妈祖诞辰活动照 评论区变许愿池

特朗普要来了，我们且淡定

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

微软报告引发市场争议：Windows电脑比MacBook Neo更胜一筹？

用苏绣的方式，打开江西婺源

《深海迷航2：异星水域》Steam愿望单突破500万

干细胞能让人“返老还童”吗

特朗普：伊朗的回应“完全不可接受”

媒体:内塔尼亚胡称十年摆脱美军援揭示中东之乱本质

媒体:内塔尼亚胡称十年摆脱美军援揭示中东之乱本质

刘涛晒妈祖诞辰活动照评论区变许愿池

吉利银河“TT”申报图曝光电动尾翼+激光雷达