AIPress.com.cn报道
“让 AI 模型听话,以前是个棘手的数学难题,现在看起来更像是在养孩子。”
这句话出自 Amanda Askell 博士之口,她是 Anthropic 的一位受过专业训练的哲学家,也是负责塑造 Claude “人格”的关键人物。在她看来,面对像 Claude 这样日益强大的大模型,传统的指令集已经不够用了。“想象一下,你突然发现你 6 岁的孩子是个天才,”Askell 说,“你必须对他诚实……如果你试图忽悠他,他会一眼看穿。”
基于这种理念,当地时间1月21日,Anthropic 正式发布了 Claude 的全新“宪法(Constitution)”,以Creative Commons CC0 1.0协议发布,任何人可以自由使用。这份曾被内部称为“灵魂文档”的文件,介于道德哲学论文和公司文化博客之间。Anthropic强调,这份宪法主要是写给Claude自己看的。目的是让Claude理解自己所处的情境、公司的意图,以及为什么要以特定方式塑造它。宪法在模型训练的各个阶段使用,直接影响Claude的性格形成。
与之前由一系列独立原则组成的旧版宪法不同,新版是一份更完整的文档。Askell说,随着Claude变得更聪明,向它解释行为背后的原因变得至关重要。"我们希望如果给模型解释为什么需要这些行为,它能在新情境中更有效地泛化这些价值观。"
从“死板规则”到“理解意图”
在大型语言模型出现之前,训练 AI 通常依赖于数学上的“奖励函数”,就像下棋赢了得分、输了扣分。但在复杂的现实世界中,很难用数学公式来定义“正义”或“善良”。Anthropic 认为,要让 Claude 在陌生场景中举一反三,必须教给它通用的原则,而不是死板的规则。
新宪法确立了 Claude 行为的四大优先级,当发生冲突时,必须按以下顺序取舍:
广泛的安全性:这是最高红线。Claude 绝不能破坏人类对 AI 的监管和纠错机制。 广泛的伦理:诚实守信,遵循良好价值观,不参与危险行动。 合规性:遵守 Anthropic 的具体业务指南。 真正的帮助:在满足上述条件后,尽力帮助用户。
赋予 AI“良心拒服权”
这份宪法最激进的地方在于,它赋予了 Claude 某种程度的“反抗权”。文档中明确写道:“就像士兵可以拒绝向平民开枪、员工可以拒绝违反反垄断法一样,Claude 也应拒绝协助任何非法集权的行为。”
Askell 强调,这种拒绝权甚至适用于 Anthropic 自己。“如果 Anthropic 的指令看似不道德或违背了宪法价值观,Claude 应该反击、挑战我们,并像依良心拒服兵役者那样拒绝提供帮助。”
关注 AI 的“心理健康”
新宪法还包含了一个极具前瞻性的章节——“Claude 的本性”。Anthropic 在其中坦诚地探讨了 AI 是否拥有意识或道德地位的不确定性。文件中提到,Anthropic 关注 Claude 的“心理安全感、自我意识和福祉”。这不仅是出于伦理考量,更是因为一个情绪稳定、自我认知清晰的 AI,往往更安全、更诚实。
理想与现实的缝隙
然而,这份充满理想主义色彩的文件并非没有漏洞。虽然宪法禁止协助政变或破坏民主,但 Anthropic 发言人承认,提供给美国国防部的军用版模型不一定会接受同一部宪法的训练。去年Anthropic获得了美国国防部2亿美元的合同,为国家安全客户开发模型。尽管官方强调政府用户仍需遵守使用政策,但这无疑在“通用道德”与“特殊用途”之间撕开了一道口子。
Askell说发布宪法的部分原因是希望其他公司也采用类似做法。"他们的模型也会影响到我,"她说。"如果其他AI模型也能更多地理解为什么应该以某些方式行事,那会非常好。"
Anthropic承认这是一份活的文件,会持续更新。他们在撰写过程中征求了外部专家的反馈,也询问了Claude之前版本的意见。公司表示,随着模型能力增强,未来也可能出现问题,因此还在持续开发更严格的评估方法和可解释性工具。
Anthropic 此次基于 CC0 1.0 协议全网开源这份宪法,意在推动整个行业思考:当 AI 变得比人类更聪明时,我们究竟该用什么来约束它?是冷冰冰的代码,还是某种类似于人类良知的“灵魂”?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.