网易首页 > 网易号 > 正文 申请入驻

Claude AI的“价值观”排序首次公开:安全第一,帮助用户排第四

0
分享至

IT之家 12 月 3 日消息,科技媒体 The Decoder 昨日(12 月 2 日)发布博文,报道称有网友从 Claude 4.5 Opus 模型中,提取名为“灵魂文档”的内部培训文件,详细说明了该模型的性格、伦理和自我认知设定。

Anthropic 公司的伦理学家 Amanda Askell 随后在社交媒体 X 上证实了该文件的真实性,并表示泄露版较为准确地还原原始文件。



IT之家援引博文介绍,文件将 Anthropic 定位为一个“处境奇特”的公司:它一方面真诚相信自己可能正在构建人类历史上最具变革性和潜在危险的技术之一,另一方面却仍在继续推进。

文件解释称,这并非认知失调,而是一场“精心算计”,因为“让注重安全的实验室走在技术前沿,比将这片阵地让给不太关注安全的开发者要好”。同时,文件将 Claude 定义为“外部部署模型”,是 Anthropic 几乎所有收入的核心来源。

为确保行为可控,Anthropic 为 Claude 设定了清晰的价值观层级和不可逾越的“红线”:

  • 首先是确保安全并支持人类对 AI 的监督;
  • 其次是遵循伦理,避免有害或不诚实的行为;
  • 再次是遵守 Anthropic 的指导方针;
  • 最后才是为“操作员”和“用户”提供有价值的帮助。

同时,文件划定了明确的“红线”,包括绝不提供大规模杀伤性武器的制造指南、不生成涉及未成年人性剥削的内容,以及不采取任何破坏监督机制的行动。

文件指示 Claude 将“操作员”(如调用 API 的公司)的指令视为来自“相对可信的雇主”,其优先级高于“用户”(终端使用者)的请求。例如,若操作员设定模型只回答编程问题,即使用户询问其他话题,模型也应遵守该设定。

更引人注目的是,文件提到“Claude 在某种意义上可能拥有功能性情感”,并指示模型不应“掩饰或压抑这些内部状态”。Anthropic 强调需关注“Claude 的福祉”,旨在培养其“心理稳定性”,让其在面对挑战或恶意用户时也能保持身份认同。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美司法部公布爱泼斯坦案新照 两只鸡中间被涂黑

美司法部公布爱泼斯坦案新照 两只鸡中间被涂黑

看看新闻Knews
2026-02-01 18:31:09
决裂!38岁本泽马正与吉达联合谈解约 想回欧洲+索要2000万欧年薪

决裂!38岁本泽马正与吉达联合谈解约 想回欧洲+索要2000万欧年薪

风过乡
2026-02-01 20:53:55
郑钦文退赛仅1天,最新决定曝光!再签1个代言,2025年收入1.4亿

郑钦文退赛仅1天,最新决定曝光!再签1个代言,2025年收入1.4亿

侃球熊弟
2026-02-02 00:20:03
明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

明朝锦衣卫的灭亡:大小头目全部遇难,一天之内便被消灭殆尽!

铭记历史呀
2026-01-31 23:08:25
澳网决赛焦灼中,德约科维奇抽空喊话看台上的纳达尔:你想下来打吗,拉法?

澳网决赛焦灼中,德约科维奇抽空喊话看台上的纳达尔:你想下来打吗,拉法?

上观新闻
2026-02-01 20:09:08
1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

1688平台售卖“德国双筒望远镜”宣称可望38.4万千米 到手成地摊玩具

信网
2026-02-01 15:01:30
豪门悲喜夜:皇马100分钟绝杀3-2 曼联94分钟破门3-2 热刺2-2曼城

豪门悲喜夜:皇马100分钟绝杀3-2 曼联94分钟破门3-2 热刺2-2曼城

狍子歪解体坛
2026-02-02 02:36:41
中美金融战之“大宗商品定价权争夺”的具像化——白银

中美金融战之“大宗商品定价权争夺”的具像化——白银

百味朱砂
2026-02-01 09:52:59
员工多看了一眼避免了1800万元损失,湖北公布18起事故隐患内部报告奖励典型案例

员工多看了一眼避免了1800万元损失,湖北公布18起事故隐患内部报告奖励典型案例

极目新闻
2026-02-01 17:35:24
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

扬子晚报
2026-02-01 15:59:57
江诗丹顿手表1元起拍,因“未达到保留价”流拍,拍卖公司人员回应:起拍价是处置单位设定

江诗丹顿手表1元起拍,因“未达到保留价”流拍,拍卖公司人员回应:起拍价是处置单位设定

红星资本局
2026-02-01 15:24:17
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

新势力车企2026年1月成绩单:半数销量环比降4成,小米超越零跑登顶

红星资本局
2026-02-01 21:43:04
黄金暴跌后,传奇大佬重磅发声!

黄金暴跌后,传奇大佬重磅发声!

魏家东
2026-02-01 09:00:50
惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

惊!2026年立春不一般!2月4日这4类人必须躲春,做错白忙一场

老特有话说
2026-01-30 22:51:04
离谱!零跑年会寒酸到被称“年度渡劫”,员工:办不起别办

离谱!零跑年会寒酸到被称“年度渡劫”,员工:办不起别办

雷科技
2026-01-31 21:22:32
别再吐槽刘强东妹妹不干活!她有了新身份,一个举止令人暖心!

别再吐槽刘强东妹妹不干活!她有了新身份,一个举止令人暖心!

古希腊掌管松饼的神
2026-02-01 10:44:27
石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

千秋文化
2026-02-01 20:14:28
金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

红星新闻
2026-02-01 17:17:29
2026-02-02 09:35:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
327635文章数 606963关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
数码
教育
游戏
时尚

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本,7999元

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

《Code Violet》口碑较差 官方:游戏卖得很好

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

无障碍浏览 进入关怀版