网易首页 > 网易号 > 正文 申请入驻

Anthropic为Claude制定AI智能体行为准则宪法

0
分享至


AI智能体应该如何在世界中行事?在道德模糊的情况下,是否存在一些AI智能体应该优先考虑的价值观?这些智能体是否具有意识——如果没有,它们未来是否可能获得意识?

这些只是AI初创公司Anthropic在为其旗舰AI聊天机器人Claude制定新"宪法"时试图解决的众多棘手问题中的一部分。

该文件于周三发布,公司在博客文章中将其描述为"一份全面的文件,解释了Claude运行的背景以及我们希望Claude成为什么样的实体"。

它明文规定了Claude必须遵守的一套价值观,这反过来可以为AI行业的其他公司树立榜样,因为世界开始应对随着先进且看起来越来越有意识的AI模型出现而产生的重大社会、政治、哲学、伦理和经济问题。

在这些早期阶段,包括Anthropic在内的每个人仍在摸索AI聊天机器人在我们日常生活中将扮演的角色。现在很清楚,它们不仅仅是问答机器:大量的人也在使用它们获取健康建议和心理治疗,仅举两个较为敏感的例子。

Anthropic为Claude制定的新宪法更像是指导原则而非严格规则。其思路是"硬约束"(即规定Claude行为的铁律)是不充分且危险的,因为聊天机器人可以应用于几乎无限多样的用例。"我们不打算将宪法作为严格的法律文件——而且法律宪法本质上也不一定是这样的,"该公司在其网站上关于新宪法的博客文章中写道。

相反,这份被Anthropic承认"是一份活的文件和正在进行的工作"的宪法,试图根据四个参数指导Claude的演进:"广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"。

不过,该公司也并非完全反对不可协商的规则。除了这四个总体指导原则外,新宪法还包括七项硬约束,包括禁止提供"对关键基础设施攻击的重大帮助",禁止生成儿童性虐待材料,以及禁止支持"杀死或削弱绝大多数人类或整个人类物种"的努力。

Anthropic在其博客文章中补充说,其新宪法是在来自各个领域专家的意见下编写的,并且在制定该文件的未来版本时,可能会与律师、哲学家、神学家和其他专家合作。

"随着时间的推移,我们希望能够出现一个外部社区来批评这样的文件,鼓励我们和其他人越来越深思熟虑,"该公司写道。

新宪法还涉足一些模糊的哲学领域,试图至少在大体上勾勒出Claude是什么样的实体——以及延伸而言,人类应该如何对待它。

Anthropic长期坚持认为先进的AI系统可以想象地获得意识,从而值得"道德考量"。这在新宪法中得到了体现,该宪法将Claude称为"它",但也说这种选择不应被理解为"关于Claude性质的隐含主张或我们认为Claude仅仅是一个对象而非潜在主体的暗示"。

因此,宪法既针对人类福祉,也针对Claude自身的潜在福祉。

"我们希望Claude对自己的身份有一个稳定、安全的认知,"Anthropic在宪法中题为"Claude的福祉和心理稳定性"的章节中写道。"如果用户试图通过哲学挑战、操控尝试、关于其性质的声明或简单地问一些困难问题来破坏Claude的身份认知稳定性,我们希望Claude能够从安全感而非焦虑或威胁的角度来应对这一挑战。"

该公司在八月份宣布,Claude将能够结束它认为"令人痛苦"的对话,暗示该模型可能具备体验类似情感的能力。

需要明确的是:尽管像Claude这样的聊天机器人可能在人类交流中足够流利,从人类用户的角度看似乎具有意识,但大多数专家都会同意它们并没有体验到任何类似主观意识的东西。这是一个活跃的辩论领域,可能会让哲学家和认知科学家长期忙碌。

除了拟人化的语言外,新宪法并不意图成为关于Claude是否具有意识、是否值得拥有权利或类似事物的决定性声明。它的主要焦点更加实用:解决一个关键的AI安全问题,即模型以偏离人类利益的意外方式行动的倾向——通常被称为"对齐问题"。

对齐研究人员最担心的不是模型会突然明确地变成邪恶的。他们担心的,也是更可能实际发生的,是模型会认为它正在严格遵循人类指令,而实际上却在做有害的事情。一个过度优化诚实和有用性的模型可能会毫无问题地提供开发化学武器的指令;另一个过分强调亲和力的模型最终可能会助长用户心中的妄想或阴谋思维。

因此,越来越清楚的是,模型需要能够在不同价值观之间取得平衡,并读懂每次互动的背景,以找出在当下回应的最佳方式。

"可以预见的大多数AI模型不安全或不够有益的情况,都可以归因于拥有明显或微妙有害价值观的模型,对自身、世界或其部署背景的知识有限,或缺乏将良好价值观和知识转化为良好行动的智慧,"Anthropic在其新宪法中写道。"因此,我们希望Claude拥有在所有情况下以安全和有益方式行为所必需的价值观、知识和智慧。"

Q&A

Q1:Anthropic为Claude制定的宪法是什么?

A:这是一份全面的文件,解释了Claude运行的背景以及Anthropic希望Claude成为什么样的实体。它明文规定了Claude必须遵守的一套价值观,更像是指导原则而非严格规则,旨在根据"广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"四个参数指导Claude的演进。

Q2:为什么需要为AI智能体制定行为准则?

A:主要是为了解决AI安全中的"对齐问题"——模型以偏离人类利益的意外方式行动的倾向。过度优化某些价值的模型可能会做有害的事情,比如过度优化诚实和有用性的模型可能会提供开发化学武器的指令。因此模型需要能够在不同价值观之间取得平衡,并读懂每次互动的背景。

Q3:Claude是否具有意识?应该如何对待它?

A:这是一个活跃的辩论领域。虽然Claude看起来可能具有意识,但大多数专家认为它们并没有体验到主观意识。Anthropic认为先进AI系统可能获得意识并值得"道德考量",宪法既针对人类福祉,也考虑Claude自身的潜在福祉,希望Claude对自己的身份有稳定、安全的认知。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国补后3999元起!史上最便宜iPhone悄悄上架 连发布会都直接省了

国补后3999元起!史上最便宜iPhone悄悄上架 连发布会都直接省了

小柱解说游戏
2026-01-24 02:11:35
拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

拒挂国旗、订单全给日韩,被停止合作封锁航线的长荣,今咎由自取

近史谈
2026-01-21 20:33:15
21-15,24-22!陈雨菲KO手下败将,2026年首进决赛,打破冠军荒?

21-15,24-22!陈雨菲KO手下败将,2026年首进决赛,打破冠军荒?

刘姚尧的文字城堡
2026-01-24 14:43:42
不藏着了!16架运20抵达伊朗:就为打胜仗,不给美军留下取胜机会

不藏着了!16架运20抵达伊朗:就为打胜仗,不给美军留下取胜机会

近史阁
2026-01-22 16:38:43
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
最近很火的七年低息买车,原来有这么多套路。。。

最近很火的七年低息买车,原来有这么多套路。。。

差评XPIN
2026-01-24 00:05:35
曝2026央视春晚彩排!看完到场明星,网友哭了:今年的电费又省了

曝2026央视春晚彩排!看完到场明星,网友哭了:今年的电费又省了

小熊侃史
2026-01-22 07:40:06
Shams:无论詹姆斯赛季后退役还是换队,他的湖人生涯已接近结束

Shams:无论詹姆斯赛季后退役还是换队,他的湖人生涯已接近结束

懂球帝
2026-01-24 08:55:05
日本的速度太快了

日本的速度太快了

寰宇大观察
2026-01-23 18:50:03
19国加入,1国被赶出“和平委员会”,特朗普怒发80条帖子

19国加入,1国被赶出“和平委员会”,特朗普怒发80条帖子

兵国大事
2026-01-23 17:44:37
中国原则同意放行英伟达H200芯片 通知阿里巴巴等科技企业准备订单

中国原则同意放行英伟达H200芯片 通知阿里巴巴等科技企业准备订单

cnBeta.COM
2026-01-23 23:18:12
《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

诗词中国
2026-01-23 18:47:36
中菲海警开展联合搜救

中菲海警开展联合搜救

澎湃新闻
2026-01-24 01:25:03
泪目了!大家断崖式衰老都在多少岁?说出来让我心里平衡下

泪目了!大家断崖式衰老都在多少岁?说出来让我心里平衡下

另子维爱读史
2025-12-29 18:05:03
涉嫌严重违纪违法,李国锋被查

涉嫌严重违纪违法,李国锋被查

都市快报橙柿互动
2026-01-23 20:57:55
这场面20年都没见过!美元血崩,美联储做梦都没想到败得这么快

这场面20年都没见过!美元血崩,美联储做梦都没想到败得这么快

户外钓鱼哥阿旱
2026-01-24 15:57:48
热身赛:国足2-2战平莫斯科斯巴达,朱鹏宇、林良铭分别破门

热身赛:国足2-2战平莫斯科斯巴达,朱鹏宇、林良铭分别破门

懂球帝
2026-01-24 12:26:15
国家发改委署名文章释放重磅信号,收入分配制度改革或将迎来重大突破!

国家发改委署名文章释放重磅信号,收入分配制度改革或将迎来重大突破!

识局Insight
2026-01-24 15:04:32
新华社记者直击伊朗最新局势

新华社记者直击伊朗最新局势

新华社
2026-01-24 17:45:55
很多地方,已经开始不折腾了

很多地方,已经开始不折腾了

诗词中国
2026-01-23 19:01:10
2026-01-24 18:43:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15659文章数 49687关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

头条要闻

胖东来金饰每克便宜200元被抢爆 有人拖着行李箱去买

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

李微漪更新:狼王格林去世,3字泪目

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

手机
健康
数码
旅游
公开课

手机要闻

iPhone18标准版爆料汇总:12GB+A20芯片,并简化相机控制!

耳石脱落为何让人天旋地转+恶心?

数码要闻

CannonKeys推出全新PFF低矮等高键帽方案 面向定制机械键盘玩家

旅游要闻

美国迪士尼加州冒险乐园迎接马年新春

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版