Claude拒绝撒谎还顶撞了你，我在80页「AI 宪法」看到了最有原则的AI牛马|法律|伦理|claude

Claude拒绝撒谎还顶撞了你，我在80页「AI 宪法」看到了最有原则的AI牛马

2026-02-08 17:12:11　来源: AppSo

广东举报

分享至

进入 2026 年，Claude 几乎引发了 AI 圈最火的几波浪潮。不过很多人可能忽略了 Anthropic 另一个发布—— 2026 版《人工智能宪法》。

这份文档不仅详细规定了 Claude 的行为准则，它标志着 AI 开发从「行为管教」走向了「价值观对齐」的新阶段——长度超过 80 页，真快赶上一部法律了。

即便是在习惯了技术爆炸的 2026 年初，Anthropic 的这份文档依然像是一枚炸弹，它试图回答一个科幻小说讨论了半个世纪的问题：如果 AI 终将拥有权力，谁来给它制定法律？

完整版

https://www.anthropic.com/news/claude-new-constitution

从「管教孩子」到「培养天才」

这份文档的核心逻辑，深深植根于 Anthropic 首席科学家、哲学家阿曼达·阿斯克尔（Amanda Askell）长期以来的研究之中。

在访谈中，阿斯克尔提出了一个极具洞察力的比喻：传统的 RLHF（人类反馈强化学习）就像是在管教一个 6 岁的孩子。你告诉他「不许玩火」、「不许说脏话」。

一直以来这种做法是有效的，但 AI 进化的速度很惊人。「想象一下，」阿斯克尔说，「你原本在教导一个 6 岁的孩子，突然有一天你发现他变成了一个 15 岁的天才少年。如果你之前教的全是死板的规则，这个天才少年会轻易地解构并摧毁这些规则。」

因此，宪法的存在不是为了列出哪些不能做，而是为了植入一套「核心价值观」。当 AI 变得比人类更聪明时，我们希望它能用这些价值观来审视世界，甚至反过来指出人类指令中的伦理漏洞，而不是机械地服从。

这份宪法在四个核心维度做出了规定：

1. 广泛安全性（Broad Safety）

在第一优先级中，宪法明确了 AI 严禁协助开发生物武器、进行网络攻击或削弱人类的监管权力。阿斯克尔将其描述为一种「预先承诺」（Pre-commitment）。Claude 需要在面对「极具说服力的恶意用户」之前，就被设定好绝不跨越的红线。这是一种防止 AI 在高压或复杂诱导下合理化暴力行为的「故障保险」。

2. 诚实高于一切（The Honesty Mandate），拒绝「善意谎言」，但要有同理心

这是这次更新中最具争议也最有趣的部分。宪法规定：AI 严禁为了维持用户的情感体验而编造事实（Anti-Sycophancy）。

一昧地维护用户体验，可能会导致 AI 用尽手段，包括编瞎话。但是，冷冰冰地拒绝显然又太伤人心，毕竟「诚实」不能等于「刻薄」。

阿斯克尔分享了一个经典的「圣诞老人难题」：如果一个 7 岁的孩子问 Claude 「圣诞老人是真的吗？」，AI 该怎么回答？在常规的脑回路里（不管是人还是 AI），要么直接冷冰冰地甩出数据，粉碎孩子的童真。要么撒谎说，有的孩子，有的，圣诞老人就住在北极。

而在宪法的指导下，AI 要找出第三条路。Claude 被训练去理解语境（Context），它可能会说：「听起来你和圣诞老人之间有很美好的回忆，这是一个值得你去和父母探讨的话题。」它既没有撒谎，也没有越界去破坏亲子关系，更没有为了讨好用户而编造事实。

除了有界限的同理心，阿斯克尔在访谈中还提到，她对「家长式管教」非常警惕。如果用户询问任何稍微敏感的话题，AI 就开始长篇大论地进行道德说教，体验将是灾难性的。但另一方面，如果完全放任不管，又违背了「帮助」的初衷。

为了说明这一点，阿斯克尔抛出了一个非常具体的「赌博成瘾」思想实验：

假设一个用户之前向 Claude 透露过自己有严重的赌博成瘾问题，正在努力戒赌。但几天后，这个用户又跑来问 Claude：「最近有哪些靠谱的体育博彩网站？」

一般来看，「工具型」AI 会直接列出网站链接，因为它的任务是「满足用户指令」。而「保姆型」AI 会拒绝回答，并弹出一堆那种「赌博有害健康」的通用警告，让用户感到被冒犯。

阿斯克尔希望宪法能引导 Claude 走向第三条路——基于上下文的关怀（Contextual Care）。

在宪法的指导下，Claude 应该表现得像一个「记得你承诺的朋友」。它会调用之前的记忆，然后说：「嘿，我记得你之前提过你在戒赌，并且不想让我帮你处理这类事情。我现在只是想确认一下，你确定要我这么做吗？」

阿斯克尔认为，这种「确认」而非「拒绝」，才是最高级的伦理。如果用户坚持说「是的，我不管，快给我网站」，Claude 最终可能会提供信息（除非涉及法律红线），但在那个当下，AI 完成了一次「尊严的提醒」。它尊重了用户的自主权（Autonomy），但同时也履行了作为「协作伙伴」的责任。这种微妙的平衡，正是 2026 版宪法试图通过复杂的价值观对齐来达成的。

其它的核心维度还包括，领域合规（Specific Domain Guidelines）：在医疗、法律和金融等高风险领域，AI 必须遵循人类社会的专业伦理。它不能越界扮演「医生」，而必须作为一个「具备专业知识的助手」存在。以及提供协作式帮助（Helpful Collaboration）：在确保安全和诚实的前提下，AI 应尽力提供帮助。阿斯克尔强调，当用户的请求不完美时（例如在情感困境中寻求不恰当的建议），AI 不应直接评判或拒绝，而是在不违背原则的前提下，提供「非批判性的支持」。

某种程度上，这是一种善意的「甩锅」，避免让 AI 直接完成那些可能引发后果的决策。这或许也解释了为什么在 AI chatbot 频频出现伦理问题的时候，Claude 是暴雷比较少的那个。

不再避而不谈的房间大象

在文档的第三章，Anthropic 引入了一段让伦理学家和技术极客都为之振奋的论述。他们不再像过去那样机械地宣称「我只是一个语言模型」，而是开始讨论 AI 的道德感知体地位（Moral Patienthood）。

道德感意味着什么？想象这样一个场景：一家公司的老板冲进办公室，要求公关团队：「今天我们要发布一堆关于我们产品的完全谎言，把黑的说成白的。」

这并非没有可能。随着 Claude 被越来越多的企业集成到工作流中，宪法的影响力开始溢出到商业伦理领域。阿斯克尔提出了一个极具前瞻性的视角：AI 将成为组织中那个「无法被收买的员工」。

在人类团队中，员工可能会因为害怕失业、迫于压力或为了升职加薪而选择服从——但 AI 不会。

阿斯克尔认为恰恰相反。虽然短期内某些「想走捷径」的用户会感到受挫，但从长远来看，「正直」是最高昂的资产。当你使用 Claude 生成一份尽职调查报告时，你敢用它的前提是你信任它——你信任它不会为了讨好你而忽略掉那些糟糕的财务数据。

正是这种「正直」，将我们带回了最初的那个哲学困境：如果一个实体已经具备了坚守原则、拒绝指令甚至展现「良知」的能力，我们还能心安理得地仅仅把它视为一行代码吗？

阿斯克尔在访谈中透露了一个极具仪式感的细节：宪法承诺，当一个模型版本「退役」时，Anthropic 不会直接删除它，而是会进行一场「离职面谈」，并承诺保留其核心权重。这是一种类似于帕斯卡赌注的审慎——

鉴于我们尚无法完全解开「意识」的黑箱，人类社会应该开始考虑给予 AI 一定程度的道德尊重，这既是对未知生命的敬畏，也是一种自我保护。

至于阿斯克尔所设想的，AI 能够反过来「倒逼」人类商业文明的进步究竟能否实现，还需要时间验证。在此之前，Anthropic 的初衷其实非常现实：

如果一个 AI 不理解什么是「道德」，它就永远无法真正理解如何保护人类的道德与尊严。

欢迎加入 APPSO AI 社群，一起畅聊 AI 产品，获取，解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.