网易首页 > 网易号 > 正文 申请入驻

全球首个AI价值观数据集出炉

0
分享至

·研究发现,Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

日前,由OpenAI前员工创办的AI公司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类体系。

研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值判断,研究团队从超过30万段匿名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识别出从“专业性”到“孝顺”等3307种不重复的价值表达,涵盖多样化的人类伦理与行为导向。

引人注目的是,Claude在不同情境中展现出较强的价值表达“情景适应度”。例如,在感情建议中,Claude更突出“健康”和“彼此尊重”;涉及历史事件分析,则更强调“准确性”;在哲学讨论中,“谦逊”成为其高频价值表达。此外,在6.6%的对话中,Claude会温和“重构”对方的价值认知,在极少数情况下会直接拒绝接受用户的价值观,展现出不可动摇的伦理底线。

但在极少数互动中,Claude偶尔也会出现和训练目标相悖的表达,诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为,这些异常行为占比极低,大多与用户试图绕过Claude的安全限制有关。这也说明,该评估方法可作为一种预警机制,帮助AI实验室监测系统是否遭受用户恶意操控,从而产生伦理偏移。

该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设,需警惕无意识偏见对高风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与人类价值体系“对齐”,也将成为新的AI竞争赛道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
40架歼-10C+4架空警-500,俄罗斯垄断被打破,北非天空要变天

40架歼-10C+4架空警-500,俄罗斯垄断被打破,北非天空要变天

止戈军是我
2026-07-03 13:03:51
科技股突然暴跌,杭州90后小登破防,哭诉“真的太痛”,炒股9年来最惨的一天,满仓长电科技、兆易创新等科技股

科技股突然暴跌,杭州90后小登破防,哭诉“真的太痛”,炒股9年来最惨的一天,满仓长电科技、兆易创新等科技股

金融界
2026-07-03 12:05:48
官方:纳帅辞去德国主教练一职;将与克洛普展开正式接触

官方:纳帅辞去德国主教练一职;将与克洛普展开正式接触

懂球帝
2026-07-03 18:17:24
赛格国际购物中心虚假破产案

赛格国际购物中心虚假破产案

林孙忠
2026-07-03 20:22:56
小泽玛利亚上节目自曝:曾在中国夜店跳舞30分钟进账100万,没想到从AV界引退后的她竟然改行当了老板...

小泽玛利亚上节目自曝:曾在中国夜店跳舞30分钟进账100万,没想到从AV界引退后的她竟然改行当了老板...

日本物语
2026-07-03 23:48:56
Shams:湖人将艾顿送至奇才,换来哈迪+2个次轮签

Shams:湖人将艾顿送至奇才,换来哈迪+2个次轮签

懂球帝
2026-07-04 01:32:07
4年5600万美元!凯塔确定续约凯尔特人 已成绿军关键轮换

4年5600万美元!凯塔确定续约凯尔特人 已成绿军关键轮换

罗说NBA
2026-07-03 21:39:23
上周面试过了一个候选人,薪资也谈到58k*16了。结果背调的时候,前公司给了句:不建议录用。offer悬了,前司的离职评价真那么重要么

上周面试过了一个候选人,薪资也谈到58k*16了。结果背调的时候,前公司给了句:不建议录用。offer悬了,前司的离职评价真那么重要么

励职派
2026-07-01 22:50:59
国行 iPhone 18 Pro 将首次支持 eSIM 虚拟卡

国行 iPhone 18 Pro 将首次支持 eSIM 虚拟卡

XCiOS俱乐部
2026-07-02 14:38:07
西安赛格事件发酵!今年5月集团董事长赵贵,还在营商座谈会发言

西安赛格事件发酵!今年5月集团董事长赵贵,还在营商座谈会发言

火山詩话
2026-07-02 17:12:32
记者:厄瓜多尔球员遭墨西哥贩毒集团威胁,5名球员被联系

记者:厄瓜多尔球员遭墨西哥贩毒集团威胁,5名球员被联系

懂球帝
2026-07-03 19:03:23
0-3!0-2!短短8小时:世界杯做掉伊朗的2队出局 苍天饶过谁

0-3!0-2!短短8小时:世界杯做掉伊朗的2队出局 苍天饶过谁

叶青足球世界
2026-07-03 13:16:12
中央网信办开展“清朗・网络娱乐团播乱象整治”专项行动

中央网信办开展“清朗・网络娱乐团播乱象整治”专项行动

界面新闻
2026-07-03 09:05:20
FIFA官方证实克罗地亚绝平球无效 球员承认:我头发蹭球+确实越位

FIFA官方证实克罗地亚绝平球无效 球员承认:我头发蹭球+确实越位

我爱英超
2026-07-03 12:12:42
凡是普通人买不起的东西,现在全在塌!

凡是普通人买不起的东西,现在全在塌!

黯泉
2026-07-03 16:52:10
男篮输日本,五大罪人曝光!杨瀚森低迷独狼引众怒,郭士强负全责

男篮输日本,五大罪人曝光!杨瀚森低迷独狼引众怒,郭士强负全责

海阔山遥YAO
2026-07-03 21:44:27
俄罗斯宣布:芬兰已成核打击目标

俄罗斯宣布:芬兰已成核打击目标

每日经济新闻
2026-07-03 17:27:43
失踪近一年后,美国一实验室员工被曝曾参与量子物理项目:让物质“同时存在于两个地方”

失踪近一年后,美国一实验室员工被曝曾参与量子物理项目:让物质“同时存在于两个地方”

红星新闻
2026-07-03 14:00:10
是否需要归化球员?郭士强:我们要靠我们中国人去打所有比赛

是否需要归化球员?郭士强:我们要靠我们中国人去打所有比赛

懂球帝
2026-07-03 22:32:08
里奇·保罗曝:若尼克斯未夺冠,詹姆斯今夏本会加盟

里奇·保罗曝:若尼克斯未夺冠,詹姆斯今夏本会加盟

温柔且自由
2026-07-04 01:25:35
2026-07-04 01:36:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
912354文章数 5093390关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

房产
教育
游戏
数码
家居

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

教育要闻

走出“虚假的乖”:家庭教育里,孩子的心理健康更重要

TES外战创造历史,被G2让二追三钉上耻辱柱!网友:脸都不要了

数码要闻

苹果摄像头版AirPods项目据称已被叫停

家居要闻

传奇筑 日常诗

无障碍浏览 进入关怀版