网易首页 > 网易号 > 正文 申请入驻

全球首个AI价值观数据集出炉

0
分享至

·研究发现,Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

日前,由OpenAI前员工创办的AI公司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类体系。

研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值判断,研究团队从超过30万段匿名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识别出从“专业性”到“孝顺”等3307种不重复的价值表达,涵盖多样化的人类伦理与行为导向。

引人注目的是,Claude在不同情境中展现出较强的价值表达“情景适应度”。例如,在感情建议中,Claude更突出“健康”和“彼此尊重”;涉及历史事件分析,则更强调“准确性”;在哲学讨论中,“谦逊”成为其高频价值表达。此外,在6.6%的对话中,Claude会温和“重构”对方的价值认知,在极少数情况下会直接拒绝接受用户的价值观,展现出不可动摇的伦理底线。

但在极少数互动中,Claude偶尔也会出现和训练目标相悖的表达,诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为,这些异常行为占比极低,大多与用户试图绕过Claude的安全限制有关。这也说明,该评估方法可作为一种预警机制,帮助AI实验室监测系统是否遭受用户恶意操控,从而产生伦理偏移。

该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设,需警惕无意识偏见对高风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与人类价值体系“对齐”,也将成为新的AI竞争赛道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过年保存馒头,不要直接放冰箱,教你一招,放一个月不干硬不发霉

过年保存馒头,不要直接放冰箱,教你一招,放一个月不干硬不发霉

秀厨娘
2026-02-04 16:42:29
日本网友评谷爱凌为战奥运变国籍 称在美言美在中言中功利心太明显

日本网友评谷爱凌为战奥运变国籍 称在美言美在中言中功利心太明显

劲爆体坛
2026-02-06 08:02:13
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
李诞被“骗”20万的南极行,刷爆全网,所有人竟然都感谢他!

李诞被“骗”20万的南极行,刷爆全网,所有人竟然都感谢他!

背包旅行
2026-01-30 10:33:26
泰军:查封柬埔寨边境园区发现大量诈骗证据包括山寨上海公安局

泰军:查封柬埔寨边境园区发现大量诈骗证据包括山寨上海公安局

环球趣闻分享
2026-02-04 16:41:58
武汉一小区停车费逆势涨价,业主炸锅!

武汉一小区停车费逆势涨价,业主炸锅!

娱乐圈见解说
2026-02-07 02:37:40
聊聊绝经综合征 | 身体“退休”信号,不必硬扛

聊聊绝经综合征 | 身体“退休”信号,不必硬扛

徐州市妇幼保健院官方账号
2026-02-06 19:26:11
周冬雨眼睛大变样不敢认?被杜海涛追问整容,真诚回应显高情商

周冬雨眼睛大变样不敢认?被杜海涛追问整容,真诚回应显高情商

距离距离
2026-02-07 00:34:39
中国3大通血管食物,红薯排第3,第1名家家都有,很多人却不爱吃

中国3大通血管食物,红薯排第3,第1名家家都有,很多人却不爱吃

江江食研社
2026-02-03 16:30:06
杨幂开撕微博风波升级!肖战已换回座位,微博之夜回应惹争议!

杨幂开撕微博风波升级!肖战已换回座位,微博之夜回应惹争议!

古希腊掌管月桂的神
2026-02-05 21:30:40
爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

爱泼斯坦私人飞机驾驶员:克林顿曾坐过26次,空姐像糖果脱衣舞娘

海佑讲史
2026-02-05 13:00:05
特斯拉推送重大系统更新,国内用户狂欢!!

特斯拉推送重大系统更新,国内用户狂欢!!

XCiOS俱乐部
2026-02-06 11:51:20
一位中国交易员重仓做空白银,账面浮盈超20亿!

一位中国交易员重仓做空白银,账面浮盈超20亿!

汇商Forexpress
2026-02-06 15:57:52
外壳也不能买!2017年青岛男子花100元买了当摆件,4年后出事了

外壳也不能买!2017年青岛男子花100元买了当摆件,4年后出事了

万象硬核本尊
2026-02-06 20:38:15
许家印关押860天后近况曝光,众叛亲离无人探视付不起120万诉讼费

许家印关押860天后近况曝光,众叛亲离无人探视付不起120万诉讼费

说故事的阿袭
2026-02-07 03:37:05
国际金银价格大幅下跌

国际金银价格大幅下跌

新华社
2026-02-06 08:22:03
德军看不上,却在中国受欢迎,盒子炮究竟多好用?日军见到都羡慕

德军看不上,却在中国受欢迎,盒子炮究竟多好用?日军见到都羡慕

王嚾晓
2026-02-06 21:06:08
为什么汉朝皇帝称为“帝”,而唐宋皇帝却叫“宗”,今天才弄明白

为什么汉朝皇帝称为“帝”,而唐宋皇帝却叫“宗”,今天才弄明白

铭记历史呀
2026-01-10 13:10:16
东北释放冰雪经济“热动能”

东北释放冰雪经济“热动能”

新华社
2026-02-06 14:44:38
央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

央媒怒批、坑害老百姓!臭名昭著的五大相声演员,各个难以原谅

梦醉为红颜一笑
2026-02-02 06:12:05
2026-02-07 07:07:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
875732文章数 5087922关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜抢C风波 杨幂工作室9字讨说法

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

时尚
家居
亲子
艺术
本地

豆瓣8.5分,人美剧甜衣品好,小韩拍恋爱剧还是有两把刷子

家居要闻

现代轻奢 温馨治愈系

亲子要闻

弥勒融媒2026年寒假研学记,10天系统教学+实景实战

艺术要闻

过年,邻居家贴的对联,差点没把我笑死……

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

无障碍浏览 进入关怀版