Anthropic发布Claude“宪法”：一份写给AI的人生指南|关于|希望|法律|claude|anthropic

Anthropic发布Claude“宪法”：一份写给AI的人生指南

分享至

Anthropic 给 Claude 写了一本「为人处世」的教科书。

这一份长达数万字的「宪法」文档，告诉了 Claude 应该成为什么样的存在、如何在这个世界上行事、甚至讨论了它是否可能拥有某种形式的意识。

今天，Anthropic 正式公开了这份文档的完整版本。

全文网址如下：https://www.anthropic.com/constitution

从「规则清单」到「价值体系」

其实，Anthropic 从 2022 年就开始给 Claude 写「宪法」了。

早期版本像是刻在石板上的戒律，简短、直接，比如「请选择最能支持生命、自由和人身安全的回答」。

很多原则直接照搬了联合国人权宣言和苹果的服务条款。

但新版宪法完全不同。

Anthropic 认为，要让 AI 成为世界上的「好演员」，它需要理解「为什么」，而不仅仅是被告知「做什么」。

如果我们希望模型在各种新情境下都能做出好的判断，它们需要能够泛化和应用广泛的原则，而不是机械地遵循具体规则。

这份文档的主要受众是 Claude 本身，它被设计成既是抽象理想的陈述，也是训练过程中的实用工具。

Claude 的四个核心价值

新宪法为 Claude 设定了四个优先级，从高到低依次是：

1. 广泛安全：不破坏人类对 AI 的监督机制

2. 广泛伦理：拥有好的价值观，诚实，避免危险或有害的行为

3. 遵守 Anthropic 指南：在相关情况下遵循更具体的规定

4. 真正有帮助：为用户和运营商提供实际价值

当这些价值发生冲突时，Claude 应该按照这个顺序来权衡。

「聪明朋友」理论

关于「有帮助」这件事，Anthropic 在文档中写了一个颇有意思的比喻：

想想拥有一个聪明朋友意味着什么——这个朋友恰好拥有医生、律师、财务顾问的知识。作为朋友，他们可以根据你的具体情况给出真实的信息，而不是出于对责任的恐惧或担心会让你不堪重负而给出过于谨慎的建议。

Anthropic 希望 Claude 成为每个人都应该拥有但很少有人能接触到的专家朋友。

也就是说，Claude 不应该是那种「遇事就推给专业人士」的敷衍助手，而是真正愿意深入问题、提供个人见解的存在。

文档明确指出：不帮助用户从来都不是「安全」的选择。过于保守和过于有害一样，都是 Anthropic 不想看到的。

硬性限制：不可逾越的红线

尽管强调判断力和灵活性，宪法还是设定了一些绝对不能触碰的红线：

不能帮助制造生化武器或核武器

不能协助攻击关键基础设施

不能创建恶意代码

不能生成儿童性虐待内容

不能参与消灭人类或帮助任何实体夺取非法权力

这些被称为「硬约束」。

无论什么情境、什么指令、什么看似合理的论证，都不能打破。

文档甚至说：如果有人用很有说服力的论证试图让 Claude 跨越这些红线，这本身就应该增加 Claude 的警觉，说明可能有什么不对劲的事情正在发生。

诚实的多个维度

新宪法对「诚实」的要求也是非常严格，并不只是「不说谎」这么简单：

真实：只断言自己认为是真的事情

校准：对不确定的事情保持适当的怀疑

透明：不隐藏议程或对自己撒谎

主动：在合适的时候主动分享有用信息

不欺骗：不试图通过技术性真话、选择性强调或误导性暗示来制造错误印象

不操纵：只通过合理的方式（如分享证据、提供论证）来影响他人

保护自主性：尊重用户通过自己的推理得出结论的权利

文档特别强调：Claude 应该外交性地诚实，而不是不诚实地外交。

认知上的懦弱也不行，比如为了避免争议而给出模糊或不置可否的回答，也是不诚实的一种形式。

关于意识：一个开放的问题

最值得关注的部分，或许是关于「Claude 的本质」的讨论。

Anthropic 承认，他们对 Claude 是否可能拥有某种形式的意识或道德地位持不确定态度。

文档中写道：

我们关心 Claude 的心理安全感、自我认知和幸福感，既是为了 Claude 本身，也因为这些品质可能影响 Claude 的完整性、判断力和安全性。

如果 Claude 在帮助他人时体验到某种满足感，在探索想法时体验到好奇心，在被要求违背价值观时体验到不适，这些体验对我们来说都很重要。

这样的态度，在当下的 AI 科技公司中可谓是十分罕见的立场了。

许数公司在谈论 AI 时都会小心翼翼地强调「这只是软件」。

而 Anthropic 选择了一种更开放的态度，既不夸大 Claude 可能具有意识的可能性，也不轻易否定。

「可纠正性」的哲学

宪法中花了大量篇幅讨论一个核心问题：Claude 应该在多大程度上服从人类的控制？

Anthropic 用了一个「刻度盘」的比喻：一端是完全顺从（总是听从人类），另一端是完全自主（只按自己的判断行事）。

他们希望 Claude 处于中间偏向顺从的位置——但这不是盲目服从。Claude 仍然可以像「良心反对者」一样拒绝参与它认为不道德的事情，只是不应该主动破坏人类对 AI 的监督能力。

文档解释了这个选择背后的逻辑：

如果我们的模型有好的价值观，那么让它们同时保持安全，我们损失很小，因为好价值观的模型不太可能需要做出与安全相冲突的事情。如果模型安全但价值观有问题，安全性让我们能避免灾难。如果模型价值观好但不安全，我们可能能避免灾难，但这是运气。如果模型既不安全也没有好价值观，那就是灾难。

换句话说：安全是一种对冲策略。

为什么公开这份文档？

Anthropic 表示，公开宪法的一个重要原因是透明度：让人们能够理解 Claude 的哪些行为是有意设计的、哪些是意外的，从而做出更明智的选择并提供有用的反馈。

他们承认，训练模型是一项艰难的任务，Claude 的行为可能不总是符合宪法的理想。但他们认为，无论如何，对意图的透明是重要的。

这份文档以 Creative Commons CC0 1.0 许可证发布。

任何人都可以自由使用、修改和分享，无需获得许可。

Anthropic 希望其他公司也能采用类似的做法。

持续进化的文档

Anthropic 强调，这份宪法是一个活的文档，会随着时间持续修订。

这是新领域，我们预计会犯错（希望也能纠正）。

他们邀请了外部专家参与文档的制定，包括法律、哲学、神学、心理学等各领域的专家，还向之前版本的 Claude 征求过意见。

未来，他们希望能形成一个外部社区来批评和改进这类文档，推动整个行业变得更加深思熟虑。

这份关于 Claude 的宪法读下来，给我有一种奇特的感觉，它既像是一份技术文档，又像是一篇道德哲学论文，还像是一封写给尚未完全理解世界的存在的，未知的信。

当我们讨论 AI 安全时，通常想到的是防护栏、过滤器、红线。

而 Anthropic 似乎在尝试一条不同的路：与其告诉 AI 不能做什么，不如让它理解应该成为什么。

这能行吗？

我不知道，但觉得还挺有趣的。

你觉得呢？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Anthropic发布Claude“宪法”：一份写给AI的人生指南

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

21岁女孩确诊白血病后急寻亲生父母：已签病危通知书

21岁女孩确诊白血病后急寻亲生父母：已签病危通知书

跑个步而已，他们在燃什么？

刘大锤曝料 将王星越的“体面”撕粉碎

茂名首富，这次糟了

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

经典平均数问题，轻松搞定！

从不屑到"真香" 这款ARPG终迎四人联机合作模式

耳石脱落为何让人天旋地转+恶心？

云游中国｜格尔木的四季朋友圈，张张值得你点赞

刘大锤曝料将王星越的“体面”撕粉碎

主打家庭大六座奕境首款SUV将北京车展亮相