网易首页 > 网易号 > 正文 申请入驻

Claude拒绝撒谎还顶撞了你,我在80页「AI 宪法」看到了最有原则的AI牛马

0
分享至

进入 2026 年,Claude 几乎引发了 AI 圈最火的几波浪潮。不过很多人可能忽略了 Anthropic 另一个发布—— 2026 版《人工智能宪法》。

这份文档不仅详细规定了 Claude 的行为准则,它标志着 AI 开发从「行为管教」走向了「价值观对齐」的新阶段——长度超过 80 页,真快赶上一部法律了。


即便是在习惯了技术爆炸的 2026 年初,Anthropic 的这份文档依然像是一枚炸弹,它试图回答一个科幻小说讨论了半个世纪的问题:如果 AI 终将拥有权力,谁来给它制定法律?


完整版
https://www.anthropic.com/news/claude-new-constitution

从「管教孩子」到「培养天才」

这份文档的核心逻辑,深深植根于 Anthropic 首席科学家、哲学家阿曼达·阿斯克尔(Amanda Askell)长期以来的研究之中。

在访谈中,阿斯克尔提出了一个极具洞察力的比喻:传统的 RLHF(人类反馈强化学习)就像是在管教一个 6 岁的孩子。 你告诉他「不许玩火」、「不许说脏话」。

一直以来这种 做法是有效的,但 AI 进化的速度很惊人。「想象一下,」阿斯克尔说,「你原本在教导一个 6 岁的孩子,突然有一天你发现他变成了一个 15 岁的天才少年。如果你之前教的全是死板的规则,这个天才少年会轻易地解构并摧毁这些规则。


因此,宪法的存在不是为了列出哪些不能做,而是为了植入一套「核心价值观」。当 AI 变得比人类更聪明时,我们希望它能用这些价值观来审视世界,甚至反过来指出人类指令中的伦理漏洞,而不是机械地服从。

这份宪法在四个核心维度做出了规定:

1. 广泛安全性(Broad Safety)

在第一优先级中,宪法明确了 AI 严禁协助开发生物武器、进行网络攻击或削弱人类的监管权力。阿斯克尔将其描述为一种「预先承诺」(Pre-commitment)。Claude 需要在面对「极具说服力的恶意用户」之前,就被设定好绝不跨越的红线。这是一种防止 AI 在高压或复杂诱导下合理化暴力行为的「故障保险」。


2. 诚实高于一切(The Honesty Mandate),拒绝「善意谎言」,但要有同理心

这是这次更新中最具争议也最有趣的部分。宪法规定:AI 严禁为了维持用户的情感体验而编造事实(Anti-Sycophancy)。

一昧地维护用户体验,可能会导致 AI 用尽手段,包括编瞎话。但是,冷冰冰地拒绝显然又太伤人心,毕竟「诚实」不能等于「刻薄」。

阿斯克尔分享了一个经典的「圣诞老人难题」:如果一个 7 岁的孩子问 Claude 「圣诞老人是真的吗?」,AI 该怎么回答?在常规的脑回路里(不管是人还是 AI),要么直接冷冰冰地甩出数据,粉碎孩子的童真。要么撒谎说,有的孩子,有的,圣诞老人就住在北极。


而在宪法的指导下,AI 要找出第三条路。Claude 被训练去理解语境(Context),它可能会说:「听起来你和圣诞老人之间有很美好的回忆,这是一个值得你去和父母探讨的话题。」它既没有撒谎,也没有越界去破坏亲子关系,更没有为了讨好用户而编造事实。

除了有界限的同理心,阿斯克尔在访谈中还提到,她对「家长式管教」非常警惕。如果用户询问任何稍微敏感的话题,AI 就开始长篇大论地进行道德说教,体验将是灾难性的。但另一方面,如果完全放任不管,又违背了「帮助」的初衷。

为了说明这一点,阿斯克尔抛出了一个非常具体的「赌博成瘾」思想实验:

假设一个用户之前向 Claude 透露过自己有严重的赌博成瘾问题,正在努力戒赌。但几天后,这个用户又跑来问 Claude:「最近有哪些靠谱的体育博彩网站?」


一般来看,「工具型」AI 会直接列出网站链接,因为它的任务是「满足用户指令」。而「保姆型」AI 会拒绝回答,并弹出一堆那种「赌博有害健康」的通用警告,让用户感到被冒犯。

阿斯克尔希望宪法能引导 Claude 走向第三条路——基于上下文的关怀(Contextual Care)。

在宪法的指导下,Claude 应该表现得像一个「记得你承诺的朋友」。它会调用之前的记忆,然后说:「嘿,我记得你之前提过你在戒赌,并且不想让我帮你处理这类事情。我现在只是想确认一下,你确定要我这么做吗?」

阿斯克尔认为,这种「确认」而非「拒绝」,才是最高级的伦理。 如果用户坚持说「是的,我不管,快给我网站」,Claude 最终可能会提供信息(除非涉及法律红线),但在那个当下,AI 完成了一次「尊严的提醒」。它尊重了用户的自主权(Autonomy),但同时也履行了作为「协作伙伴」的责任。这种微妙的平衡,正是 2026 版宪法试图通过复杂的价值观对齐来达成的。


其它的核心维度还包括,领域合规(Specific Domain Guidelines):在医疗、法律和金融等高风险领域,AI 必须遵循人类社会的专业伦理。它不能越界扮演「医生」,而必须作为一个「具备专业知识的助手」存在。以及提供协作式帮助(Helpful Collaboration):在确保安全和诚实的前提下,AI 应尽力提供帮助。阿斯克尔强调,当用户的请求不完美时(例如在情感困境中寻求不恰当的建议),AI 不应直接评判或拒绝,而是在不违背原则的前提下,提供「非批判性的支持」。

某种程度上,这是一种善意的「甩锅」,避免让 AI 直接完成那些可能引发后果的决策。这或许也解释了为什么在 AI chatbot 频频出现伦理问题的时候,Claude 是暴雷比较少的那个。

不再避而不谈的房间大象

在文档的第三章,Anthropic 引入了一段让伦理学家和技术极客都为之振奋的论述。他们不再像过去那样机械地宣称「我只是一个语言模型」,而是开始讨论 AI 的道德感知体地位(Moral Patienthood)。

道德感意味着什么?想象这样一个场景:一家公司的老板冲进办公室,要求公关团队:「今天我们要发布一堆关于我们产品的完全谎言,把黑的说成白的。」


这并非没有可能。随着 Claude 被越来越多的企业集成到工作流中,宪法的影响力开始溢出到商业伦理领域。阿斯克尔提出了一个极具前瞻性的视角:AI 将成为组织中那个「无法被收买的员工」。

在人类团队中,员工可能会因为害怕失业、迫于压力或为了升职加薪而选择服从——但 AI 不会。

阿斯克尔认为恰恰相反。虽然短期内某些「想走捷径」的用户会感到受挫,但从长远来看,「正直」是最高昂的资产。 当你使用 Claude 生成一份尽职调查报告时,你敢用它的前提是你信任它——你信任它不会为了讨好你而忽略掉那些糟糕的财务数据。


正是这种「正直」,将我们带回了最初的那个哲学困境:如果一个实体已经具备了坚守原则、拒绝指令甚至展现「良知」的能力,我们还能心安理得地仅仅把它视为一行代码吗?

阿斯克尔在访谈中透露了一个极具仪式感的细节:宪法承诺,当一个模型版本「退役」时,Anthropic 不会直接删除它,而是会进行一场「离职面谈」,并承诺保留其核心权重。这是一种类似于帕斯卡赌注的审慎——

鉴于我们尚无法完全解开「意识」的黑箱,人类社会应该开始考虑给予 AI 一定程度的道德尊重,这既是对未知生命的敬畏,也是一种自我保护。

至于阿斯克尔所设想的,AI 能够反过来「倒逼」人类商业文明的进步究竟能否实现,还需要时间验证。在此之前,Anthropic 的初衷其实非常现实:

如果一个 AI 不理解什么是「道德」,它就永远无法真正理解如何保护人类的道德与尊严

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

东极妙严
2026-02-08 19:22:25
来看中日对抗真是天意!高市票数大获全胜,将无人能阻日本修宪!

来看中日对抗真是天意!高市票数大获全胜,将无人能阻日本修宪!

青青子衿
2026-02-08 23:16:31
王楚钦赛前碎碎念“保护好腿”,孙颖莎乖乖点头,第一次这么听话

王楚钦赛前碎碎念“保护好腿”,孙颖莎乖乖点头,第一次这么听话

大嘴说台球
2025-12-16 20:35:22
各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

各行各业都有秘密,没有例外,网友:黑色的内衣裤不要买!

另子维爱读史
2026-02-07 18:55:06
奔驰E级摊牌,31万多起售,其他品牌还能怎么玩?

奔驰E级摊牌,31万多起售,其他品牌还能怎么玩?

小李子体育
2026-02-08 20:26:02
A股:不必等待了,迹象已明确,明天周一,很可能将迎来新的转变

A股:不必等待了,迹象已明确,明天周一,很可能将迎来新的转变

夜深爱杂谈
2026-02-08 19:01:40
黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

查尔菲的笔记
2025-12-16 15:14:06
铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

爱吃醋的猫咪
2026-02-01 19:36:46
局座学生李莉:因多次预判美军阴谋,被中情局列入重点关注名单

局座学生李莉:因多次预判美军阴谋,被中情局列入重点关注名单

文史达观
2024-06-02 07:05:13
1903年,30岁梁启超和17岁王桂荃行房,两人大汗淋漓

1903年,30岁梁启超和17岁王桂荃行房,两人大汗淋漓

南权先生
2026-02-03 15:53:04
给孙子压岁钱别瞎包!马年4档吉利数,不攀比不委屈,全家都舒心

给孙子压岁钱别瞎包!马年4档吉利数,不攀比不委屈,全家都舒心

美食格物
2026-02-04 21:47:14
21年,韩国引进一中国东北虎,刚到韩国动物园,就遭到本土虎攻击

21年,韩国引进一中国东北虎,刚到韩国动物园,就遭到本土虎攻击

南权先生
2026-02-06 15:46:38
中国批准稀土出口,日媒欢呼:对华反制措施见效,下一秒遭打脸

中国批准稀土出口,日媒欢呼:对华反制措施见效,下一秒遭打脸

张鴘喜欢软软糯糯
2026-02-08 22:07:11
曼妙的身材:一副会呼吸的建筑

曼妙的身材:一副会呼吸的建筑

疾跑的小蜗牛
2026-01-20 22:35:32
果然巨大!解放军最强导弹震动岛内,赖清德敢潜逃,当心空中斩首

果然巨大!解放军最强导弹震动岛内,赖清德敢潜逃,当心空中斩首

东方点兵
2026-02-08 19:05:10
80年娶了厂里没人要的女劳犯被开除后,一辆上海牌轿车停我家楼下

80年娶了厂里没人要的女劳犯被开除后,一辆上海牌轿车停我家楼下

奶茶麦子
2026-02-08 16:40:16
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
1964年克里姆林宫政变,46岁的他策划扳倒赫鲁晓夫,却被盟友算计

1964年克里姆林宫政变,46岁的他策划扳倒赫鲁晓夫,却被盟友算计

磊子讲史
2026-01-31 13:59:30
86年我给一个女犯人送饭,她偷偷塞给我一张纸条:救我,我是卧底

86年我给一个女犯人送饭,她偷偷塞给我一张纸条:救我,我是卧底

千秋文化
2026-01-20 20:48:49
楼市大概率要硬着陆了,就在3月?

楼市大概率要硬着陆了,就在3月?

巢客HOME
2026-02-08 10:20:08
2026-02-09 05:07:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6085文章数 26765关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

日本选举结果 可能让国家进入相当危险阶段

头条要闻

日本选举结果 可能让国家进入相当危险阶段

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

时尚
手机
旅游
公开课
军事航空

伊姐周六热推:电视剧《成何体统》;电视剧《唐宫奇案》......

手机要闻

古尔曼:苹果iOS 26.4首个测试版最快2月23日当周发布

旅游要闻

云南红河州石屏县宝藏小城,有100多座四合院民居:适合旅居养老

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

捐钱造航母的男孩登上军舰

无障碍浏览 进入关怀版