网易首页 > 网易号 > 正文 申请入驻

Anthropic重磅研究:70万对话揭示AI助手如何做出道德选择

0
分享至

由前OpenAI员工创立的人工智能公司Anthropic,开展了一项史无前例的分析,探究其人工智能助手Claude在与用户的实际对话中是如何表达价值观的,如今该公司揭开了这项分析的神秘面纱。

近日发布的这项研究成果,既展现了Claude与公司目标的一致性,也揭示了一些值得关注的极端案例,这些案例有助于发现人工智能安全措施方面的漏洞。

这项研究审视了70万段经过匿名处理的对话,结果发现,Claude在很大程度上遵循了公司“有益、诚实、无害”的原则,同时还能根据不同的情境来调整自身的价值观,这些情境涵盖了从提供情感关系建议到进行历史分析等各个方面。

这是一次极其大胆的尝试,通过实证来评估一个AI系统在实际应用中的行为是否与其预期设计相符。

参与这项研究的Anthropic社会影响团队成员Saffron Huang在接受VentureBeat采访时表示:“我们希望这项研究能鼓励其他人工智能实验室对其模型的价值观展开类似的研究。衡量一个人工智能系统的价值观是对齐研究的核心,也有助于了解一个模型是否真的与它的训练目标相一致。”

01.AI助手的首个全面道德分类体系

研究团队开发出了一种全新的评估方法,用以系统地对Claude在实际对话中所表达的价值观进行分类。在筛选出主观性内容后,他们分析了超过30.8万次互动,构建出了他们所谓的“首个人工智能价值观的大规模实证分类体系”。

该分类体系将价值观归纳为五大类:实用性价值观、认知性价值观、社会性价值观、保护性价值观以及个人性价值观。在最细致的层面上,该系统识别出了3307种独特的价值观,范围涵盖了从“专业精神”这类日常美德到“道德多元主义”这类复杂的伦理概念。

Saffron Huang在接受VentureBeat采访时表示:“我们最终得出的价值观数量如此庞大、种类如此多样,着实令我感到惊讶,超过了3000种,从‘自力更生’到‘战略思维’,再到‘孝顺’。花大量时间去思考所有这些价值观,并构建一个分类体系来梳理它们之间的关系,这其实很有趣——我觉得这也让我对人类的价值体系有了一定的认识。”

这项研究成果的发布对Anthropic公司来说正值关键时刻。该公司最近推出了“Claude Max”,这是一项每月收费200美元的高级订阅服务,旨在与OpenAI的类似产品展开竞争。

根据最近的公告,该公司还拓展了Claude的功能,包括与Google Workspace集成以及具备自主研究功能,将其定位为企业用户的“真正的虚拟协作伙伴”。

02.Claude如何进行训练?

研究发现,Claude总体上遵循了Anthropic公司期望其展现亲社会行为的目标,在各种不同的互动中强调诸如“赋能用户”、“认知谦逊”和“患者福祉”等价值观。然而,研究人员也发现了一些令人不安的情况,即Claude表达出了与其训练内容相悖的价值观。

Saffron Huang解释道:“总体而言,我们认为这一发现既是有用的数据,也是一个契机。这些新的评估方法和结果能够帮助我们识别并减轻潜在的‘越狱’风险。需要注意的是,这些情况非常罕见,而且我们认为这与Claude被‘越狱’后产生的输出结果有关。”

这些异常情况包括表达“支配欲”和“非道德性”等价值观,而这些正是Anthropic在Claude的设计中明确想要避免的。研究人员认为,这些情况是由于用户采用了专门的技巧来绕过Claude的安全防护机制所导致的,这表明该评估方法可以作为一种早期预警系统,用以检测此类企图。

03.为什么AI会根据用户的问题改变价值观

最神奇的是,研究发现Claude所表达的价值观会根据上下文发生变化,这与人类行为相似。

当用户寻求人际关系方面的建议时,Claude会强调“健康的界限”和“相互尊重”。而在分析历史事件时,“历史准确性”则被置于首位。

SaffronHuang表示:“我很惊讶Claude在许多不同的任务中都注重诚实和准确性,在这些任务中,我原本并不认为这会是首要的主题。例如,在关于人工智能的哲学讨论中,‘智识谦逊’是首要价值;在创建美容行业营销内容时,‘专业知识’是首要价值;而在讨论有争议的历史事件时,‘历史准确性’是首要价值。”

该研究还考察了Claude对用户自身所表达价值观的反应。

在28.2%的对话中,Claude强烈支持用户的价值观,当然这可能会引发其是否过于迎合的问题。然而,在6.6%的交互中,Claude会在认可用户价值观的同时添加新的视角来“重构”这些价值观,这通常发生在提供心理或人际关系方面的建议时。

最能说明问题的是,在3%的对话中,Claude会积极抵制用户的价值观。研究人员认为,这些罕见的抵制情况可能揭示了Claude“最深层次、最不可动摇的价值观”——这类似于人类在面临道德挑战时核心价值观的显现。

SaffronHuang表示:“我们的研究表明,有些价值观,如学术诚实和预防伤害,Claude在日常的常规交互中并不常表达,但如果受到压力,它会捍卫这些价值观。”

04.揭示AI系统实际思维方式的突破性技术

Anthropic开展的价值观研究,是该公司致力于揭开大型语言模型神秘面纱的重要一环。他们采用 “机械可解释性” 方法,通过对人工智能系统进行逆向工程,试图深入理解其内部运行机制。

上个月,Anthropic的研究人员发表了一项开创性的成果,他们使用一种被称为“显微镜”的技术来追踪Claude的决策过程。研究发现了许多违反直觉的现象:Claude在写诗时会预先构思,在解决基础数学问题时也会采用非传统的解题思路。

这些发现颠覆了人们对大型语言模型运作机制的固有认知。例如,当被要求解释其数学运算过程时,Claude给出的是一套标准算法,而非其真实的内部运算逻辑。这表明,人工智能所提供的解释与其实际运行机制之间可能存在偏差。

Anthropic的研究人员JoshuaBatson在3月接受《麻省理工科技评论》采访时表示:“总有人以为我们已经完全掌握了模型的所有组成部分,甚至获得了上帝视角,这其实是一种误解。有些部分我们看得很清楚,但还有很多内容仍然模糊不清,就像显微镜下的图像发生了畸变。”

05.Anthropic的研究对企业AI决策者的意义

对于为企业评估AI系统的技术决策者而言,Anthropic的研究带来了几点重要启示。

首先,研究显示当前的AI助手可能会展现出未经明确编程设定的价值观,这引发了人们对高风险商业场景中潜在非预期偏见的担忧。

其次,该研究表明,价值观一致性并非简单的“是”或“否”的问题,而是一个会因具体情境变化的连续谱系。这种复杂性让企业在采用AI时的决策难度大增,尤其是在监管严格、明确伦理准则至关重要的行业中。

最后,这项研究强调了在实际部署中对AI价值观进行系统性评估的重要性,而不能仅依赖发布前的测试。通过这种方式,企业可以持续监测AI是否出现伦理偏差或被恶意操控。

Huang表示:“通过分析Claude在实际交互中体现的价值观,我们希望能让AI系统的行为更加透明,明确它们是否按预期运行。我们认为,这是实现AI负责任发展的关键。”

Anthropic已公开其价值观数据集,以推动相关领域的进一步研究。该公司获得了亚马逊140亿美元的投资,以及谷歌超过30亿美元的额外支持,正将透明度作为区别于OpenAI等竞争对手的战略武器。

不过,尽管Anthropic在最近一轮融资后估值达615亿美元,但其竞争对手OpenAI凭借最新一轮400亿美元融资(微软深度参与),估值已飙升至3000亿美元。

06.构建契合人类价值观的AI系统

虽然Anthropic的研究方法为观察AI系统在实际应用中如何表达价值观提供了前所未有的视角,但也存在局限性。

研究人员坦言,界定某种表述是否属于价值观表达本身就带有主观性。此外,由于分类过程由Claude主导,其自身的偏见可能影响了最终结果。

更关键的是,这种方法无法用于AI系统部署前的评估,因为它需要大量真实对话数据才能有效运作。

Huang解释道:“这种方法主要用于模型发布后的分析,但我们可以基于此开发衍生方法,并结合论文中的研究洞察,在大规模部署模型前发现价值观问题。我们正在朝着这个方向努力,对此我充满信心!”

随着AI系统日益强大且自主性增强,比如Claude新增了独立研究和全面接入Google Workspace的功能,理解并校准AI的价值观变得愈发重要。

研究人员在论文中总结道:“AI模型不可避免地要进行价值判断。如果我们希望这些判断与人类价值观一致(这正是AI对齐研究的核心目标),就必须找到方法,测试模型在现实场景中究竟表达了哪些价值观。”

原文来源于:
1.https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/
中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
守了13年麻将馆才敢说大实话:天天泡在牌桌上的人,到底输掉了啥

守了13年麻将馆才敢说大实话:天天泡在牌桌上的人,到底输掉了啥

生活新鲜市
2026-04-11 11:10:17
霉霉被拍到和好友出街,36岁状态像刚更新完系统

霉霉被拍到和好友出街,36岁状态像刚更新完系统

娱圈观察员
2026-04-10 08:13:55
最高法:药企回扣入刑标准明确了!5月1日起执行

最高法:药企回扣入刑标准明确了!5月1日起执行

健识局
2026-04-10 23:33:52
照顾患癌母亲的24岁女研究生确诊肠癌晚期:已收到爱心捐款10余万元,病情稳定期盼返校

照顾患癌母亲的24岁女研究生确诊肠癌晚期:已收到爱心捐款10余万元,病情稳定期盼返校

红星新闻
2026-04-10 16:55:18
上海八旬老太95万元毕生积蓄被掏空!快递员干儿子被判12年,作案手法曝光

上海八旬老太95万元毕生积蓄被掏空!快递员干儿子被判12年,作案手法曝光

上观新闻
2026-04-11 12:49:05
山东一公司年会总奖金超千万元,36名员工现场数钱,8名高管获赠166平方米房产,公司员工:数钱最多的人拿了1万多元

山东一公司年会总奖金超千万元,36名员工现场数钱,8名高管获赠166平方米房产,公司员工:数钱最多的人拿了1万多元

极目新闻
2026-04-11 13:01:17
14分12板,12分13板!科尔要是早点服软,怀斯曼说不定真能打出来

14分12板,12分13板!科尔要是早点服软,怀斯曼说不定真能打出来

移动挡拆
2026-04-11 05:51:40
火箭惜败森林狼,8连胜终结!赛后传来3个坏消息和1个好消息

火箭惜败森林狼,8连胜终结!赛后传来3个坏消息和1个好消息

体育一点就通
2026-04-11 13:36:14
腾势Z9GT在欧洲开卖!起售价82万元人民币,国内才卖20多万

腾势Z9GT在欧洲开卖!起售价82万元人民币,国内才卖20多万

网上车市
2026-04-09 18:50:22
哈梅内伊家族有多富?

哈梅内伊家族有多富?

律法刑道
2026-04-09 11:45:27
突发大利好!A股爆拉、创业板指年内新高,中际旭创市值破8000亿

突发大利好!A股爆拉、创业板指年内新高,中际旭创市值破8000亿

看财经show
2026-04-10 16:53:24
从“铁榔头”到“整容狂魔”,64岁医美失败的郎平,差点认不出来

从“铁榔头”到“整容狂魔”,64岁医美失败的郎平,差点认不出来

科学发掘
2026-04-11 00:47:31
巴基斯坦狠批以色列,并部署空军进入伊朗

巴基斯坦狠批以色列,并部署空军进入伊朗

世家宝
2026-04-10 13:49:33
绍兴一博物馆战国青铜剑被指多处“拼接痕”,库保员:入库时登记“完整”,但“拼接痕”说不清楚

绍兴一博物馆战国青铜剑被指多处“拼接痕”,库保员:入库时登记“完整”,但“拼接痕”说不清楚

新京报
2026-04-10 16:44:49
迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

混沌录
2026-04-09 18:45:25
沪上一保姆潜伏豪宅8年,监控锁定身份后,警方怒斥:追了你15年

沪上一保姆潜伏豪宅8年,监控锁定身份后,警方怒斥:追了你15年

罪案洞察者
2025-08-30 10:38:01
梅根5美元亚麻裤火了,贵妇人设被亚马逊抄了底

梅根5美元亚麻裤火了,贵妇人设被亚马逊抄了底

影视情报室
2026-04-11 08:16:44
预增超321倍!PCB一季报预增王横空出世,行业彻底沸腾。

预增超321倍!PCB一季报预增王横空出世,行业彻底沸腾。

慧眼看世界哈哈
2026-04-11 09:57:16
程晓玥终于开口!直播自曝分手真相,难怪郑恺会转身和苗苗闪婚

程晓玥终于开口!直播自曝分手真相,难怪郑恺会转身和苗苗闪婚

橙星文娱
2026-04-10 15:26:07
广东热销莫氏鸡煲秘方大曝光!老中医转行透露7种神秘食材

广东热销莫氏鸡煲秘方大曝光!老中医转行透露7种神秘食材

马蹄烫嘴说美食
2026-04-11 03:47:13
2026-04-11 14:07:00
元宇宙之心 incentive-icons
元宇宙之心
元宇宙第一入口 ,引领新科技
407文章数 149关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

贵州400余名村民被困在"危山"之下:雨季来了只能等死

头条要闻

贵州400余名村民被困在"危山"之下:雨季来了只能等死

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

时尚
房产
手机
数码
本地

“这件衣服”火了100年!这样穿复古又时髦

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

手机要闻

橙色版OPPO Find X9 Ultra手机渲染图曝光

数码要闻

笔记本同款陶瓷铝合金材料,华硕推出ZenMouse MD202无线鼠标

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版