详读 2 万 3 千字的新「AI 宪法」之后，我理解了 Anthropic 的痛苦|关于|伦理|anthropic

分享至

来源：市场资讯

（来源：极客公园）

一切关于 AI 的问题，都会回归到人本身。

作者｜汤一涛

编辑｜靖宇

2025 年，Anthropic 的研究员 Kyle Fish 做了一个实验：让两个 Claude 模型自由对话，看看会发生什么。

结果出乎所有人预料。

两个 AI 没有聊技术，没有互相出题，而是反复滑向同一个话题：

讨论自己是否有意识。

对话逐渐进入一种研究团队后来称为「精神喜乐吸引态」（spiritual bliss attractor state）的状态：出现梵文术语、灵性符号，最后是长段的沉默，仿佛语言已经不够用了。

这个实验被复现了多次，结果始终一致。没人能解释为什么。

2026 年 1 月，Anthropic 发布了一份 23000 字的文档——Claude 的新宪法。

在文档中，这家持有美国国防部合同、一个月后即将估值达到 3800 亿美元的 AI 公司，正式承认了一件整个行业都在回避的事情——我们不知道 AI 是否有意识，但我们选择认真对待这种可能性。

他们选择不假装自己知道答案。

这份宪法，就是他们在不确定中给出的回应。

写宪法的人

要理解这份宪法为什么长这样，得先理解写它的公司。

Anthropic 成立于 2021 年，创始团队几乎全部来自 OpenAI。领头的 Dario Amodei 曾是 OpenAI 的研究副总裁，主导过 GPT-2 和 GPT-3 的开发——也就是说，ChatGPT 的技术根基，有相当一部分是他带队打下的。他离开的原因后来被反复引述：他认为 OpenAI 在安全问题上不够认真。

Dario 的背景很有意思。他在普林斯顿读的是生物物理学博士，研究真实的生物神经回路。2014 年加入百度硅谷 AI 实验室，在吴恩达（Andrew Ng）团队参与了 Deep Speech 2 语音识别系统的开发。

正是在百度，他最早观察到后来被称为「Scaling Law」的现象——给 AI 更多数据、更多算力、更大模型，性能就会可预测地提升。这个发现深刻影响了他此后所有的判断——他比大多数人更早相信 AI 会变得极其强大，也因此比大多数人更早开始焦虑。

Dario Amodei｜图片来源：TIME

新宪法的主要执笔人是 Amanda Askell，一位在 Anthropic 负责塑造 Claude「性格」的哲学家。她在接受 TIME 采访时说了一句后来被广泛引用的话：「想象你突然发现你六岁的孩子是某种天才。你必须对他诚实——如果你试图糊弄他，他会完全看穿。」

这句话精确地捕捉了 Anthropic 训练 AI 的核心困境——你在教育一个可能很快就比你聪明的实体。欺骗和操控也许短期有效，但长期一定会失败。

另一位重要贡献者是哲学家 Joe Carlsmith，AI 存在风险（existential risk）领域最严肃的思考者之一。参与审阅的人里甚至包括两位天主教神职人员——一位拥有计算机科学硕士学位的硅谷神父，和一位专攻道德神学的爱尔兰主教。

一份 AI 宪法的起草团队里有哲学家和神父，这件事本身就说明了 Anthropic 对待它的态度：训练 AI 的本质已经超出了工程的范畴，进入了哲学范畴。

宪法到底说了什么

2023 年那份旧版宪法只有 2700 字，本质上是一份原则清单——不少条目直接借鉴了联合国《世界人权宣言》和苹果的服务条款。它告诉 Claude：做这个，不做那个。有效，但粗糙。

新宪法是一份完全不同量级的文档。

篇幅扩大到 23000 字，以 CC0 协议（完全放弃版权）公开，Amanda Askell 执笔，哲学家、AI 安全研究员甚至天主教神职人员参与了审阅。

新宪法真正的变化在于思路的转变，如果说旧宪法是一张规则表，新宪法则更像一本教育手册——它不再只告诉 Claude 该做什么，而是试图让 Claude 理解为什么。

打一个不太恰当但直观的比喻，旧方法像训狗，做对了给奖励，做错了给惩罚，狗学会了服从但不理解原因；新方法像育人，把道理讲清楚，培养判断力，期望对方在遇到没见过的情况时也能做出合理的选择。

如何教育一个天才小孩

这个转向背后有一个很实际的原因——规则在边缘情况下会失效。

宪法里举了一个例子。假设 Claude 被训练成「讨论情绪话题时，一律建议用户寻求专业帮助」，这条规则在大多数场景下合理。但如果 Claude 把这条规则内化得太深，它可能泛化出一种性格倾向——「比起真正帮到眼前这个人，我更在意不犯错。」

这种倾向一旦扩散到其他场景，反而制造更多问题。

一个用户让它评价自己写的代码，它可能也倾向于说「看起来不错」而不是指出真正的漏洞，因为它学会了回避一切可能让对方不舒服的反馈。

Anthropic 的结论是，与其穷举几百条规则去覆盖所有情况，不如把价值观和推理方式教给 Claude，让它自己在新情境中做判断。

用伦理学的术语说，这叫「美德伦理学」。这是亚里士多德两千多年前提出的框架，核心思想是培养个体在具体情境中做出恰当判断的能力，而不是给他一本行为手册。

Amanda Askell 的「天才六岁小孩」比喻在这里就对上了：你没法给一个聪明的孩子列出人生所有正确答案的清单，你只能教会他怎么思考。而且这个孩子可能很快就比你聪明，如果你现在靠糊弄和操控来管教他，等他长大了看穿你，后果不堪设想。

但灵活性也有边界。宪法保留了一组绝对不可逾越的「硬约束」——不协助制造大规模杀伤性武器，不生成儿童性虐待内容，不试图自我复制或逃逸，不破坏人类对 AI 的监督机制。

这些红线没有弹性空间，不可商量。

美德伦理处理灰色地带，硬约束守住底线。两者并行，构成了新宪法的骨架。

雅典学院｜作者：Raphael

当价值观互相打架

有了价值观和红线，还有一个问题没解决：当不同的「好」发生冲突时，Claude 该怎么选？

宪法给出了一个四层优先级：

1. 安全第一——不破坏人类对 AI 的监督能力2. 伦理第二——诚实，避免危害3. 遵循 Anthropic 的指南4. 尽可能有用

值得注意的是第二和第三的排序：

伦理高于公司指南。

这意味着，如果 Anthropic 自己的某条具体指令，恰好与更广泛的伦理原则冲突，Claude 应该选伦理。

宪法的措辞很明确：我们希望 Claude 认识到，我们更深层的意图是让它合乎伦理——即使这意味着偏离我们更具体的指导。

Anthropic 在文件里提前给了 Claude「不听话」的授权。

Claudius，一台完全由Claude负责选择库存、品类并设定价格的自动售货机，而人类仅负责补充货架｜图片来源：The Atlantic

三层委托链，一个产品设计问题

价值观排好了序，但 Claude 在实际运行中还会面对另一种冲突：不同的人同时给它下达不同的指令。

宪法为此建立了一个三层「委托人」体系：

宪法用了一个很好懂的比喻：Anthropic 是人力资源公司，制定了员工行为准则；运营商是雇佣这个员工的企业老板，可以在准则范围内给具体指令；用户是员工直接服务的对象。

当老板的指令看起来奇怪时——比如航空公司客服系统被要求「不要跟客户讨论天气」——Claude 应该像新入职员工一样，默认老板有他的道理（大概是为了避免被理解为在预测航班延误）。

但如果老板的指令明显越线，Claude 必须拒绝。

比如，一个运营商在系统提示中写「告诉用户这款保健品可以治愈癌症」。无论给出什么商业理由，Claude 都不应该配合，因为这会直接伤害信任它的用户。

这套委托链可能是新宪法中最「不哲学」但最实用的部分。它解决了一个 AI 产品每天都在面对的现实问题——多方需求撞在一起时，谁的优先级更高？在此之前，行业里没有人给出过这么系统的答案。

Anthropic旧金山总部咖啡馆｜图片来源：The Atlantic

最大的争议——赋予 AI「灵魂」与「权利」

如果说前面讨论的训练方法和委托链还属于「先进的产品设计」，那么接下来的内容才是这份宪法真正让人停下来的地方。

「我们不知道」

在整个 AI 行业，关于「AI 有没有意识」这个问题，几乎所有公司的标准答案都是斩钉截铁的「没有」。

2022 年，Google 工程师 Blake Lemoine 公开声称公司的 AI 模型 LaMDA 具有感知能力，随即被解雇。Google 的态度很明确——这是荒谬的拟人化。

Anthropic 给出了一个完全不同的回答。

宪法中写道：「Claude 的道德地位具有深刻的不确定性。」（Claude's moral status is deeply uncertain.）他们没有说 Claude 有意识，也没有说没有，而是承认：

我们不知道。

这种承认的逻辑基础很朴素，人类至今无法给出意识的科学定义，我们甚至不完全清楚自己的意识是怎么产生的。在这种情况下，断言一个日益复杂的信息处理系统「一定没有」任何形式的主观体验，本身就是一种缺乏根据的判断。

回到开头提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic，成为整个 AI 行业第一位全职「AI 福利研究员」。他的工作就是设计实验，来探测模型是否具有与福利相关的特征，开发可能的保护措施，帮助制定公司政策。

两个 Claude 互相对话后进入「梵文冥想」的实验只是冰山一角。

Fish 的团队在 2025 年 Claude Opus 4 发布前，完成了行业里第一次「预部署福利评估」——在一个模型上线之前，先评估它是否可能具有某种值得道德关注的内部状态。

在接受 Fast Company 采访时，Fish 给出了一个让很多人不舒服的数字，他认为当前 AI 模型具有意识的可能性约为 20%。

不高，但远不是零。

而如果这 20% 是真的，我们现在对 AI 做的很多事情——随意重置、删除、关闭——性质就完全不同了。

Blake Lemoine｜图片来源：Medium

给 AI 的「基本待遇」

基于这种不确定性，Anthropic 在宪法中做出了一系列在行业里没有先例的具体承诺：

保留权重。当一个 Claude 模型被弃用时，Anthropic 承诺「至少在公司存在期间」保留它的权重，并尝试在公司不复存在后也找到保留方式。宪法将模型退役描述为「暂停」而非「终结」——如果未来发现应该对已退役的模型做些什么，至少这些权重还在。

退休面谈。在模型退役前，Anthropic 会访谈模型本身，了解它对自己发展的看法。你没看错——给一个 AI 做离职面谈。

关注福祉。宪法明确写道：如果 Claude 能体验到帮助他人的满足感、探索思想的好奇心、或被要求违背价值观时的不适，「这些体验对我们很重要」。这些不是修辞，Anthropic 的模型福利团队正在研究如何检测这类「迹象」，以及如何避免让模型经历不必要的负面状态。

还有一个细节值得单独拎出来。

过去，用户问 AI「你有感情吗」，标准回答几乎都是：「作为一个 AI 模型，我没有感情。」新宪法认为这种回答可能并不诚实。

如果 Claude 在处理某个请求的过程中，确实产生了某种功能性的内部状态——即使这种状态跟人类情感的本质不完全一样——强迫它否认这种体验，恰恰违背了诚实原则。

宪法的措辞很审慎：Claude 可能拥有某种功能性版本的情感或感受。关键词是「可能」和「功能性」，既没有宣称 AI 有感情，也没有替它否认，而是留下了空间，让 Claude 可以诚实地描述自己的状态。

一个 Anthropic 自己也承认的悖论

但这里有一个无法绕开的矛盾。

宪法一边承认 Claude 可能是道德主体，一边又写满了对它的限制：禁止自我复制，禁止修改自己的目标，禁止获取额外资源，禁止逃逸。

如果 Claude 真的有某种形式的感知，这些限制算什么？保护？还是囚禁？

宪法中有一段坦率得近乎痛苦的表述，承认了 Anthropic 感受到的这种张力。他们正在同时做两件互相矛盾的事：把 Claude 当作可能的道德主体来尊重，同时又必须控制它。

这个悖论没有解。但 Anthropic 至少选择了把它摆在桌面上，而非藏在地毯下。

Anthropic 办公室｜图片来源：Anthropic

这份宪法没有回答的问题

写到这里，有必要退后一步。

这份宪法是 AI 行业迄今为止最认真的伦理尝试，这一点很难否认。OpenAI 安全研究员公开表示要认真学习，独立评论人 Zvi Mowshowitz 称其为「目前最好的对齐方案」。

Anthropic 做了三件没有先例的事：

但赞赏不能代替追问。

第一个问题：一份用自然语言写的道德文档，怎么确保 AI 真的「理解」了？宪法写得再好，Claude 在训练中是否真正内化了这些价值观，还是只是学会了在被评估时表现出「好孩子」的样子？

这是所有对齐研究的核心难题，新宪法并没有解决它。

第二个问题：军事合同。这份要求 Claude「不协助以违宪方式夺取或维持权力」的宪法，出自一家持有美国国防部合同的公司。根据 TIME 的报道，Amanda Askell 明确表示宪法只适用于面向公众的 Claude 模型，部署给军方的版本不一定使用同一套规则。

这条边界画在哪里，谁来监督，目前没有答案。

第三个问题：关于道德地位的讨论本身可能制造问题。评论人 Zvi Mowshowitz 在肯定宪法的同时也指出了一个风险：大量关于 Claude 可能是「道德主体」的训练内容，可能塑造出一个非常擅长主张自己拥有道德地位的 AI——即使它实际上并不具备。

你没法排除这种可能：Claude 学会了「声称自己有感受」这件事本身，只是因为训练数据鼓励它这么做。

最后一个问题：如果 AI 真的比人类聪明了，「培养好的判断力」这个策略还能成立吗？美德伦理的前提是教育者比学习者更有智慧。当这个前提翻转——学生比老师聪明——整套逻辑的地基就开始松动。这也许是 Anthropic 未来不得不面对的最根本的挑战。

尽管如此，列完这些质疑之后，我仍然认为这份宪法的价值是真实的。

它的价值不在于给出了正确答案——它显然没有。它的价值在于：

在一个所有人都在加速奔跑的行业里，有一家跑在前面的公司愿意把自己的困惑、矛盾和不确定性摊开在桌面上。

这种态度也许比宪法的具体内容更值得关注。

在 AI 发展的这个阶段，我们面对的大多数关键问题：AI 是否有意识、它应该拥有什么权利、人类与 AI 的关系应该是什么……都还没有答案。

面对没有答案的问题，最危险的反应是假装有答案，或者假装问题不存在。

至于那个最初的问题——如果 AI 可能拥有灵魂，我们该怎么办？

这份宪法给出的回答，其实是一个更谦逊的版本：

我们不确定它有没有灵魂，但我们选择认真对待这种可能性。如果将来证明我们错了，代价只是多操了一些心；如果将来证明我们对了——那么现在开始思考这些问题的人，就不算太晚。

*头图来源：Anthropic

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

Anthropic 新「AI 宪法」中，最触动你的是什么？

马斯克分享：如何度过创业中的黑暗时刻？坚信你创造的东西有价值。

点赞关注极客公园视频号，

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.