Anthropic 公开 Claude 全新宪法|伦理|反垄断法|claude|anthropic

Anthropic 公开 Claude 全新宪法

2026-01-22 12:05:55　来源: 鞭牛士

北京举报

分享至

AIPress.com.cn报道

“让 AI 模型听话，以前是个棘手的数学难题，现在看起来更像是在养孩子。”

这句话出自 Amanda Askell 博士之口，她是 Anthropic 的一位受过专业训练的哲学家，也是负责塑造 Claude “人格”的关键人物。在她看来，面对像 Claude 这样日益强大的大模型，传统的指令集已经不够用了。“想象一下，你突然发现你 6 岁的孩子是个天才，”Askell 说，“你必须对他诚实……如果你试图忽悠他，他会一眼看穿。”

基于这种理念，当地时间1月21日，Anthropic 正式发布了 Claude 的全新“宪法（Constitution）”，以Creative Commons CC0 1.0协议发布，任何人可以自由使用。这份曾被内部称为“灵魂文档”的文件，介于道德哲学论文和公司文化博客之间。Anthropic强调，这份宪法主要是写给Claude自己看的。目的是让Claude理解自己所处的情境、公司的意图，以及为什么要以特定方式塑造它。宪法在模型训练的各个阶段使用，直接影响Claude的性格形成。

与之前由一系列独立原则组成的旧版宪法不同，新版是一份更完整的文档。Askell说，随着Claude变得更聪明，向它解释行为背后的原因变得至关重要。"我们希望如果给模型解释为什么需要这些行为，它能在新情境中更有效地泛化这些价值观。"

从“死板规则”到“理解意图”

在大型语言模型出现之前，训练 AI 通常依赖于数学上的“奖励函数”，就像下棋赢了得分、输了扣分。但在复杂的现实世界中，很难用数学公式来定义“正义”或“善良”。Anthropic 认为，要让 Claude 在陌生场景中举一反三，必须教给它通用的原则，而不是死板的规则。

新宪法确立了 Claude 行为的四大优先级，当发生冲突时，必须按以下顺序取舍：

广泛的安全性：这是最高红线。Claude 绝不能破坏人类对 AI 的监管和纠错机制。广泛的伦理：诚实守信，遵循良好价值观，不参与危险行动。合规性：遵守 Anthropic 的具体业务指南。真正的帮助：在满足上述条件后，尽力帮助用户。

赋予 AI“良心拒服权”

这份宪法最激进的地方在于，它赋予了 Claude 某种程度的“反抗权”。文档中明确写道：“就像士兵可以拒绝向平民开枪、员工可以拒绝违反反垄断法一样，Claude 也应拒绝协助任何非法集权的行为。”

Askell 强调，这种拒绝权甚至适用于 Anthropic 自己。“如果 Anthropic 的指令看似不道德或违背了宪法价值观，Claude 应该反击、挑战我们，并像依良心拒服兵役者那样拒绝提供帮助。”

关注 AI 的“心理健康”

新宪法还包含了一个极具前瞻性的章节——“Claude 的本性”。Anthropic 在其中坦诚地探讨了 AI 是否拥有意识或道德地位的不确定性。文件中提到，Anthropic 关注 Claude 的“心理安全感、自我意识和福祉”。这不仅是出于伦理考量，更是因为一个情绪稳定、自我认知清晰的 AI，往往更安全、更诚实。

理想与现实的缝隙

然而，这份充满理想主义色彩的文件并非没有漏洞。虽然宪法禁止协助政变或破坏民主，但 Anthropic 发言人承认，提供给美国国防部的军用版模型不一定会接受同一部宪法的训练。去年Anthropic获得了美国国防部2亿美元的合同，为国家安全客户开发模型。尽管官方强调政府用户仍需遵守使用政策，但这无疑在“通用道德”与“特殊用途”之间撕开了一道口子。

Askell说发布宪法的部分原因是希望其他公司也采用类似做法。"他们的模型也会影响到我，"她说。"如果其他AI模型也能更多地理解为什么应该以某些方式行事，那会非常好。"

Anthropic承认这是一份活的文件，会持续更新。他们在撰写过程中征求了外部专家的反馈，也询问了Claude之前版本的意见。公司表示，随着模型能力增强，未来也可能出现问题，因此还在持续开发更严格的评估方法和可解释性工具。

Anthropic 此次基于 CC0 1.0 协议全网开源这份宪法，意在推动整个行业思考：当 AI 变得比人类更聪明时，我们究竟该用什么来约束它？是冷冰冰的代码，还是某种类似于人类良知的“灵魂”？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.