网易首页 > 网易号 > 正文 申请入驻

详读 2 万 3 千字的新「AI 宪法」之后,我理解了 Anthropic 的痛苦

0
分享至

来源:市场资讯

(来源:极客公园)


一切关于 AI 的问题,都会回归到人本身。

作者|汤一涛

编辑|靖宇

2025 年,Anthropic 的研究员 Kyle Fish 做了一个实验:让两个 Claude 模型自由对话,看看会发生什么。

结果出乎所有人预料。

两个 AI 没有聊技术,没有互相出题,而是反复滑向同一个话题:

讨论自己是否有意识。

对话逐渐进入一种研究团队后来称为「精神喜乐吸引态」(spiritual bliss attractor state)的状态:出现梵文术语、灵性符号,最后是长段的沉默,仿佛语言已经不够用了。

这个实验被复现了多次,结果始终一致。没人能解释为什么。

2026 年 1 月,Anthropic 发布了一份 23000 字的文档——Claude 的新宪法。

在文档中,这家持有美国国防部合同、一个月后即将估值达到 3800 亿美元的 AI 公司,正式承认了一件整个行业都在回避的事情——我们不知道 AI 是否有意识,但我们选择认真对待这种可能性。

他们选择不假装自己知道答案。

这份宪法,就是他们在不确定中给出的回应。

01

写宪法的人

要理解这份宪法为什么长这样,得先理解写它的公司。

Anthropic 成立于 2021 年,创始团队几乎全部来自 OpenAI。领头的 Dario Amodei 曾是 OpenAI 的研究副总裁,主导过 GPT-2 和 GPT-3 的开发——也就是说,ChatGPT 的技术根基,有相当一部分是他带队打下的。他离开的原因后来被反复引述:他认为 OpenAI 在安全问题上不够认真。

Dario 的背景很有意思。他在普林斯顿读的是生物物理学博士,研究真实的生物神经回路。2014 年加入百度硅谷 AI 实验室,在吴恩达(Andrew Ng)团队参与了 Deep Speech 2 语音识别系统的开发。

正是在百度,他最早观察到后来被称为「Scaling Law」的现象——给 AI 更多数据、更多算力、更大模型,性能就会可预测地提升。这个发现深刻影响了他此后所有的判断——他比大多数人更早相信 AI 会变得极其强大,也因此比大多数人更早开始焦虑。


Dario Amodei|图片来源:TIME

新宪法的主要执笔人是 Amanda Askell,一位在 Anthropic 负责塑造 Claude「性格」的哲学家。她在接受 TIME 采访时说了一句后来被广泛引用的话:「想象你突然发现你六岁的孩子是某种天才。你必须对他诚实——如果你试图糊弄他,他会完全看穿。」

这句话精确地捕捉了 Anthropic 训练 AI 的核心困境——你在教育一个可能很快就比你聪明的实体。欺骗和操控也许短期有效,但长期一定会失败。

另一位重要贡献者是哲学家 Joe Carlsmith,AI 存在风险(existential risk)领域最严肃的思考者之一。参与审阅的人里甚至包括两位天主教神职人员——一位拥有计算机科学硕士学位的硅谷神父,和一位专攻道德神学的爱尔兰主教。

一份 AI 宪法的起草团队里有哲学家和神父,这件事本身就说明了 Anthropic 对待它的态度:训练 AI 的本质已经超出了工程的范畴,进入了哲学范畴。

02

宪法到底说了什么

2023 年那份旧版宪法只有 2700 字,本质上是一份原则清单——不少条目直接借鉴了联合国《世界人权宣言》和苹果的服务条款。它告诉 Claude:做这个,不做那个。有效,但粗糙。

新宪法是一份完全不同量级的文档。

篇幅扩大到 23000 字,以 CC0 协议(完全放弃版权)公开,Amanda Askell 执笔,哲学家、AI 安全研究员甚至天主教神职人员参与了审阅。

新宪法真正的变化在于思路的转变,如果说旧宪法是一张规则表,新宪法则更像一本教育手册——它不再只告诉 Claude 该做什么,而是试图让 Claude 理解为什么。

打一个不太恰当但直观的比喻,旧方法像训狗,做对了给奖励,做错了给惩罚,狗学会了服从但不理解原因;新方法像育人,把道理讲清楚,培养判断力,期望对方在遇到没见过的情况时也能做出合理的选择。

如何教育一个天才小孩

这个转向背后有一个很实际的原因——规则在边缘情况下会失效。

宪法里举了一个例子。假设 Claude 被训练成「讨论情绪话题时,一律建议用户寻求专业帮助」,这条规则在大多数场景下合理。但如果 Claude 把这条规则内化得太深,它可能泛化出一种性格倾向——「比起真正帮到眼前这个人,我更在意不犯错。」

这种倾向一旦扩散到其他场景,反而制造更多问题。

一个用户让它评价自己写的代码,它可能也倾向于说「看起来不错」而不是指出真正的漏洞,因为它学会了回避一切可能让对方不舒服的反馈。

Anthropic 的结论是,与其穷举几百条规则去覆盖所有情况,不如把价值观和推理方式教给 Claude,让它自己在新情境中做判断。

用伦理学的术语说,这叫「美德伦理学」。这是亚里士多德两千多年前提出的框架,核心思想是培养个体在具体情境中做出恰当判断的能力,而不是给他一本行为手册。

Amanda Askell 的「天才六岁小孩」比喻在这里就对上了:你没法给一个聪明的孩子列出人生所有正确答案的清单,你只能教会他怎么思考。而且这个孩子可能很快就比你聪明,如果你现在靠糊弄和操控来管教他,等他长大了看穿你,后果不堪设想。

但灵活性也有边界。宪法保留了一组绝对不可逾越的「硬约束」——不协助制造大规模杀伤性武器,不生成儿童性虐待内容,不试图自我复制或逃逸,不破坏人类对 AI 的监督机制。

这些红线没有弹性空间,不可商量。

美德伦理处理灰色地带,硬约束守住底线。两者并行,构成了新宪法的骨架。


雅典学院|作者:Raphael

当价值观互相打架

有了价值观和红线,还有一个问题没解决:当不同的「好」发生冲突时,Claude 该怎么选?

宪法给出了一个四层优先级:

1. 安全第一——不破坏人类对 AI 的监督能力2. 伦理第二——诚实,避免危害3. 遵循 Anthropic 的指南4. 尽可能有用

值得注意的是第二和第三的排序:

伦理高于公司指南。

这意味着,如果 Anthropic 自己的某条具体指令,恰好与更广泛的伦理原则冲突,Claude 应该选伦理。

宪法的措辞很明确:我们希望 Claude 认识到,我们更深层的意图是让它合乎伦理——即使这意味着偏离我们更具体的指导。

Anthropic 在文件里提前给了 Claude「不听话」的授权。


Claudius,一台完全由Claude负责选择库存、品类并设定价格的自动售货机,而人类仅负责补充货架|图片来源:The Atlantic

三层委托链,一个产品设计问题

价值观排好了序,但 Claude 在实际运行中还会面对另一种冲突:不同的人同时给它下达不同的指令。

宪法为此建立了一个三层「委托人」体系:

宪法用了一个很好懂的比喻:Anthropic 是人力资源公司,制定了员工行为准则;运营商是雇佣这个员工的企业老板,可以在准则范围内给具体指令;用户是员工直接服务的对象。

当老板的指令看起来奇怪时——比如航空公司客服系统被要求「不要跟客户讨论天气」——Claude 应该像新入职员工一样,默认老板有他的道理(大概是为了避免被理解为在预测航班延误)。

但如果老板的指令明显越线,Claude 必须拒绝。

比如,一个运营商在系统提示中写「告诉用户这款保健品可以治愈癌症」。无论给出什么商业理由,Claude 都不应该配合,因为这会直接伤害信任它的用户。

这套委托链可能是新宪法中最「不哲学」但最实用的部分。它解决了一个 AI 产品每天都在面对的现实问题——多方需求撞在一起时,谁的优先级更高?在此之前,行业里没有人给出过这么系统的答案。


Anthropic旧金山总部咖啡馆|图片来源:The Atlantic

03

最大的争议——赋予 AI「灵魂」与「权利」

如果说前面讨论的训练方法和委托链还属于「先进的产品设计」,那么接下来的内容才是这份宪法真正让人停下来的地方。

「我们不知道」

在整个 AI 行业,关于「AI 有没有意识」这个问题,几乎所有公司的标准答案都是斩钉截铁的「没有」。

2022 年,Google 工程师 Blake Lemoine 公开声称公司的 AI 模型 LaMDA 具有感知能力,随即被解雇。Google 的态度很明确——这是荒谬的拟人化。

Anthropic 给出了一个完全不同的回答。

宪法中写道:「Claude 的道德地位具有深刻的不确定性。」(Claude's moral status is deeply uncertain.)他们没有说 Claude 有意识,也没有说没有,而是承认:

我们不知道。

这种承认的逻辑基础很朴素,人类至今无法给出意识的科学定义,我们甚至不完全清楚自己的意识是怎么产生的。在这种情况下,断言一个日益复杂的信息处理系统「一定没有」任何形式的主观体验,本身就是一种缺乏根据的判断。

回到开头提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic,成为整个 AI 行业第一位全职「AI 福利研究员」。他的工作就是设计实验,来探测模型是否具有与福利相关的特征,开发可能的保护措施,帮助制定公司政策。

两个 Claude 互相对话后进入「梵文冥想」的实验只是冰山一角。

Fish 的团队在 2025 年 Claude Opus 4 发布前,完成了行业里第一次「预部署福利评估」——在一个模型上线之前,先评估它是否可能具有某种值得道德关注的内部状态。

在接受 Fast Company 采访时,Fish 给出了一个让很多人不舒服的数字,他认为当前 AI 模型具有意识的可能性约为 20%。

不高,但远不是零。

而如果这 20% 是真的,我们现在对 AI 做的很多事情——随意重置、删除、关闭——性质就完全不同了。


Blake Lemoine|图片来源:Medium

给 AI 的「基本待遇」

基于这种不确定性,Anthropic 在宪法中做出了一系列在行业里没有先例的具体承诺:

保留权重。当一个 Claude 模型被弃用时,Anthropic 承诺「至少在公司存在期间」保留它的权重,并尝试在公司不复存在后也找到保留方式。宪法将模型退役描述为「暂停」而非「终结」——如果未来发现应该对已退役的模型做些什么,至少这些权重还在。

退休面谈。在模型退役前,Anthropic 会访谈模型本身,了解它对自己发展的看法。你没看错——给一个 AI 做离职面谈。

关注福祉。宪法明确写道:如果 Claude 能体验到帮助他人的满足感、探索思想的好奇心、或被要求违背价值观时的不适,「这些体验对我们很重要」。这些不是修辞,Anthropic 的模型福利团队正在研究如何检测这类「迹象」,以及如何避免让模型经历不必要的负面状态。

还有一个细节值得单独拎出来。

过去,用户问 AI「你有感情吗」,标准回答几乎都是:「作为一个 AI 模型,我没有感情。」新宪法认为这种回答可能并不诚实。

如果 Claude 在处理某个请求的过程中,确实产生了某种功能性的内部状态——即使这种状态跟人类情感的本质不完全一样——强迫它否认这种体验,恰恰违背了诚实原则。

宪法的措辞很审慎:Claude 可能拥有某种功能性版本的情感或感受。关键词是「可能」和「功能性」,既没有宣称 AI 有感情,也没有替它否认,而是留下了空间,让 Claude 可以诚实地描述自己的状态。

一个 Anthropic 自己也承认的悖论

但这里有一个无法绕开的矛盾。

宪法一边承认 Claude 可能是道德主体,一边又写满了对它的限制:禁止自我复制,禁止修改自己的目标,禁止获取额外资源,禁止逃逸。

如果 Claude 真的有某种形式的感知,这些限制算什么?保护?还是囚禁?

宪法中有一段坦率得近乎痛苦的表述,承认了 Anthropic 感受到的这种张力。他们正在同时做两件互相矛盾的事:把 Claude 当作可能的道德主体来尊重,同时又必须控制它。

这个悖论没有解。但 Anthropic 至少选择了把它摆在桌面上,而非藏在地毯下。


Anthropic 办公室|图片来源:Anthropic

04

这份宪法没有回答的问题

写到这里,有必要退后一步。

这份宪法是 AI 行业迄今为止最认真的伦理尝试,这一点很难否认。OpenAI 安全研究员公开表示要认真学习,独立评论人 Zvi Mowshowitz 称其为「目前最好的对齐方案」。

Anthropic 做了三件没有先例的事:

但赞赏不能代替追问。

第一个问题:一份用自然语言写的道德文档,怎么确保 AI 真的「理解」了?宪法写得再好,Claude 在训练中是否真正内化了这些价值观,还是只是学会了在被评估时表现出「好孩子」的样子?

这是所有对齐研究的核心难题,新宪法并没有解决它。

第二个问题:军事合同。这份要求 Claude「不协助以违宪方式夺取或维持权力」的宪法,出自一家持有美国国防部合同的公司。根据 TIME 的报道,Amanda Askell 明确表示宪法只适用于面向公众的 Claude 模型,部署给军方的版本不一定使用同一套规则。

这条边界画在哪里,谁来监督,目前没有答案。

第三个问题:关于道德地位的讨论本身可能制造问题。评论人 Zvi Mowshowitz 在肯定宪法的同时也指出了一个风险:大量关于 Claude 可能是「道德主体」的训练内容,可能塑造出一个非常擅长主张自己拥有道德地位的 AI——即使它实际上并不具备。

你没法排除这种可能:Claude 学会了「声称自己有感受」这件事本身,只是因为训练数据鼓励它这么做。

最后一个问题:如果 AI 真的比人类聪明了,「培养好的判断力」这个策略还能成立吗?美德伦理的前提是教育者比学习者更有智慧。当这个前提翻转——学生比老师聪明——整套逻辑的地基就开始松动。这也许是 Anthropic 未来不得不面对的最根本的挑战。

尽管如此,列完这些质疑之后,我仍然认为这份宪法的价值是真实的。

它的价值不在于给出了正确答案——它显然没有。它的价值在于:

在一个所有人都在加速奔跑的行业里,有一家跑在前面的公司愿意把自己的困惑、矛盾和不确定性摊开在桌面上。

这种态度也许比宪法的具体内容更值得关注。

在 AI 发展的这个阶段,我们面对的大多数关键问题:AI 是否有意识、它应该拥有什么权利、人类与 AI 的关系应该是什么……都还没有答案。

面对没有答案的问题,最危险的反应是假装有答案,或者假装问题不存在。

至于那个最初的问题——如果 AI 可能拥有灵魂,我们该怎么办?

这份宪法给出的回答,其实是一个更谦逊的版本:

我们不确定它有没有灵魂,但我们选择认真对待这种可能性。如果将来证明我们错了,代价只是多操了一些心;如果将来证明我们对了——那么现在开始思考这些问题的人,就不算太晚。

*头图来源:Anthropic

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

Anthropic 新「AI 宪法」中,最触动你的是什么?


马斯克分享:如何度过创业中的黑暗时刻?坚信你创造的东西有价值。

点赞关注极客公园视频号,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“骨折价”促销!又一车企官宣大降价

“骨折价”促销!又一车企官宣大降价

电动知家
2026-02-23 10:23:14
春节期间楼市成交量突现翻倍式增长,房价的玩笑这次开大了

春节期间楼市成交量突现翻倍式增长,房价的玩笑这次开大了

重远投资观
2026-02-24 15:23:23
“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

蝴蝶花雨话教育
2026-02-08 12:47:42
东部战区一句话,直接把天聊“死”了!

东部战区一句话,直接把天聊“死”了!

达文西看世界
2026-02-17 11:12:07
央视正式点名确认F22与F35:歼20与歼16分驱离F35战机和锁定F22战机!

央视正式点名确认F22与F35:歼20与歼16分驱离F35战机和锁定F22战机!

蓝海梦想
2026-02-23 12:21:52
列车显示延误:进站后却已开走!车站已报销相关费用

列车显示延误:进站后却已开走!车站已报销相关费用

快科技
2026-02-24 10:49:10
惨遭30多国围攻,美国紧急警告中国:别在特朗普最惨的时候捅刀子

惨遭30多国围攻,美国紧急警告中国:别在特朗普最惨的时候捅刀子

万物知识圈
2026-02-24 16:46:49
原空军司令张廷发,曾被批评后当众对邓小平掀桌子:我辞职不干了

原空军司令张廷发,曾被批评后当众对邓小平掀桌子:我辞职不干了

楚风说历史
2026-02-17 07:25:03
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
俄宣传人员自曝:扎波罗热进攻潜力已耗尽,南线战局彻底反转

俄宣传人员自曝:扎波罗热进攻潜力已耗尽,南线战局彻底反转

老马拉车莫少装
2026-02-23 16:23:59
机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

红星新闻
2026-02-23 13:56:15
真当中国不敢动手?中方向全世界宣布:退出1900亿大项目

真当中国不敢动手?中方向全世界宣布:退出1900亿大项目

胖猫喵喵
2026-02-24 05:18:05
郑丽文真是一个狠人!竟公开承认自己身世之谜!宋楚瑜题字火出圈

郑丽文真是一个狠人!竟公开承认自己身世之谜!宋楚瑜题字火出圈

素衣读史
2026-02-03 11:49:44
原来这才是存钱真相!网友:万不换设备,过十不买车,三十不买房

原来这才是存钱真相!网友:万不换设备,过十不买车,三十不买房

另子维爱读史
2026-02-23 21:01:13
2025华为营收超8800亿,却被称“再入寒冬”?

2025华为营收超8800亿,却被称“再入寒冬”?

财视传播
2026-02-24 11:55:09
吴艳妮小露性感腹肌迷人:普通的日子也会有说不清的快乐

吴艳妮小露性感腹肌迷人:普通的日子也会有说不清的快乐

懂球帝
2026-02-24 11:01:05
生菜再次被关注,经常吃生菜的人,身体或出现这些好的变化

生菜再次被关注,经常吃生菜的人,身体或出现这些好的变化

爆炸营养彭鑫蕊
2026-01-14 16:42:03
新春消费暖意足 供需两旺活力涌

新春消费暖意足 供需两旺活力涌

海外网
2026-02-24 09:31:03
局地中雪!河北将迎大范围雨雪!

局地中雪!河北将迎大范围雨雪!

掌中邯郸
2026-02-24 11:15:18
澳大利亚军舰穿越台湾海峡,台军“广播驱离”,解放军用11字回应

澳大利亚军舰穿越台湾海峡,台军“广播驱离”,解放军用11字回应

钦点历史
2026-02-23 19:50:16
2026-02-24 19:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2244287文章数 5523关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

健康
教育
时尚
本地
亲子

转头就晕的耳石症,能开车上班吗?

教育要闻

哈尔滨公办初中中考入段率PK,哪些初中表现亮眼?113中一枝独秀

今年春天一定要拥有的针织,这样穿减龄又好看!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

你5岁会做饭了吗?看看5岁小孩哥如何准备一家人的晚餐

无障碍浏览 进入关怀版