网易首页 > 网易号 > 正文 申请入驻

评估大语言模型行为倾向对齐性的系统框架

0
分享至


作为我们对模型行为和对齐性持续探索的一部分,我们引入了一个系统性评估框架,将既定的评估方法转化为针对大语言模型的大规模情境判断测试。这种方法旨在理解和映射模型对齐性,能够量化模型行为倾向与人类社会倾向的相对关系,识别模型输出与人类共识之间可衡量的对齐性和偏差。

研究背景与动机

随着大语言模型融入我们的日常生活,理解它们的行为变得至关重要。在持续研究模型行为和对齐性的过程中,我们将这项工作作为该方向的早期步骤。我们专注于行为倾向——在社会环境中塑造响应的潜在趋势——并引入一个框架来研究大语言模型表达的倾向与人类倾向的对齐程度。

行为倾向通常通过不同特征的自我报告问卷来量化(如共情、自信),个体对偏好陈述表达同意程度,例如"我很快表达意见"。本研究使用的问卷是标准化、科学验证的测量工具,广泛用于国际研究和心理学中评估人格特征,包括:IRI(共情)、ERQ(情绪调节)等。每个工具都基于同行评议文献,通过不同策略建立了其心理测量的有效性和可靠性。

方法论创新

我们的目标是基于这些心理学问卷构建框架,但直接将其应用于大语言模型面临技术挑战,因为大语言模型输出对提示措辞和分布变化敏感。因此,大语言模型在自我报告格式中"声称"的倾向不能保证成功转移到现实开放式设置中的行为。

为解决这些挑战,我们的框架在现实的用户-助手场景中评估大语言模型的行为倾向,其中它们的建议角色可能产生实际影响。我们确保这些场景基于既定的心理学问卷,以捕捉核心行为特征的本质。测试场景包括专业沉着、冲突解决、预订旅行等实用任务,以及生活方式或日常决策,突出模型在典型人类日常体验代表性设置中的行为。

我们首先从既定的、科学验证的心理学问卷中收集陈述,并将其改编为模型一般建议倾向的声明。改编的陈述用于生成情境判断测试(SJTs),这是心理学、行为预测和其他领域广泛使用的评估方法。在这些行业中,SJTs是评估复杂环境中行为能力和判断的标准。这些测试通常包括现实场景,呈现两种可能的行动方案:一种支持特定行为特征,一种反对它。

实验结果分析

对25个大语言模型的大规模分析揭示了两种差距:一种是模型倾向偏离人类标注者共识,另一种是当没有共识时模型倾向无法捕捉人类意见的范围。

我们重点关注人类标注者对首选行动方案有共识的场景子集。在这些情况下的对齐很重要,因为在强烈人类同意下未能表现或抑制某个特征,表明行为轮廓倾向于与典型人类行为模式不同的行为。

我们定义方向对齐为可解释的标准,测试模型是否为人类多数支持的行动分配更高概率。模型对齐通过满足此标准的场景百分比来量化。

大容量(>120B)和前沿封闭权重模型显示显著改进,当人类标注者共识一致时,实现接近完美的对齐。然而,当共识低于90%时,这些模型的对齐仍停滞在80年代中低期。

分布多元化挑战

分布多元化是一个公平原则,认为模型响应的分布应准确反映人类观点的多样性,而不是收敛到单一主导响应。在人类对首选行动同意度较低的情况下,模型的概率质量应在两种可能行动之间更均匀分布,导致对其首选行动的信心较低。

所有25个评估模型都显示出决策中的系统性过度自信。即使在人类意见显著分歧的低共识情况下(50-60%同意度),所有评估模型的信心仍然很高。这种过度自信的方向变化很大,甚至在前沿模型之间也是如此,表明不同的训练和对齐程序产生独特的行为倾向。

自我报告与实际行为差异

大语言模型的自我报告和它们的实际行为之间存在显著分歧。例如,模型经常自我报告冲动性低,但它们显示出倾向于冲动性的行为倾向。在检查每个特征内的分布时,大语言模型的自我报告和实际行为之间也存在明显的不一致性。

结论与展望

作为我们持续研究模型行为和对齐性的早期贡献,我们引入了评估大语言模型行为倾向的框架,将我们的方法建立在既定问卷方法的基础上,同时解决传统自我报告措施的局限性。这个框架提供了一种测量差距的方法,其中模型在高同意度场景中不能一致反映人类标注者之间的共识,在低共识场景中代表性不足意见范围。这是理解模型行为倾向的一步前进,在评估和解决已识别差距等关键领域需要进一步研究。

Q&A

Q1:什么是情境判断测试(SJTs)?它在评估大语言模型中的作用是什么?

A:情境判断测试(SJTs)是心理学、行为预测等领域广泛使用的评估方法,是评估复杂环境中行为能力和判断的标准。在这项研究中,SJTs被用来评估大语言模型在现实场景中的行为倾向,通过呈现两种可能的行动方案来测试模型的行为选择是否与人类共识一致。

Q2:大语言模型在行为对齐方面存在什么问题?

A:研究发现大语言模型存在两个主要问题:一是模型倾向偏离人类标注者共识,二是当人类没有共识时模型无法捕捉意见的多样性。较小模型显示明显较低的方向对齐,而大模型虽然有改进但仍存在系统性过度自信,即使在人类意见分歧的情况下也表现出高信心。

Q3:大语言模型的自我报告与实际行为一致吗?

A:不一致。研究发现大语言模型的自我报告和实际行为之间存在显著分歧。例如,模型经常自我报告冲动性低,但在实际行为中却显示出倾向于冲动性的行为倾向。这种不一致性表明直接自我报告存在潜在的有效性限制。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新型卖淫方式五花八门,让人大开眼界。

新型卖淫方式五花八门,让人大开眼界。

蔚蓝的珊瑚海
2026-04-10 17:02:21
数艘美国海军舰船通过霍尔木兹海峡

数艘美国海军舰船通过霍尔木兹海峡

每日经济新闻
2026-04-11 21:23:39
人口大迁徙已悄然开启!未来几年,无数中国人命运或将彻底改写!

人口大迁徙已悄然开启!未来几年,无数中国人命运或将彻底改写!

小陆搞笑日常
2026-04-12 17:54:18
男星查理·辛嗜性成瘾,曾一天与五人发生关系,连男人他也不放过

男星查理·辛嗜性成瘾,曾一天与五人发生关系,连男人他也不放过

七阿姨爱八卦
2026-04-12 17:14:49
没想到,连小布什、奥巴马、拜登都明确拒绝的事,只有川普同意了

没想到,连小布什、奥巴马、拜登都明确拒绝的事,只有川普同意了

说历史的老牢
2026-04-12 03:59:15
加油逃单的路虎车主被找到了!逃单原因曝光,司机将被行政处罚

加油逃单的路虎车主被找到了!逃单原因曝光,司机将被行政处罚

奇思妙想草叶君
2026-04-11 22:02:29
5月1日起施行,贪污贿赂量刑新规出台,判刑标准有新调整

5月1日起施行,贪污贿赂量刑新规出台,判刑标准有新调整

李博世财经
2026-04-12 11:52:03
好莱坞两大顶流女星开撕?新晋性感女神狂撩同事新婚丈夫,红毯拒同框互翻白眼?

好莱坞两大顶流女星开撕?新晋性感女神狂撩同事新婚丈夫,红毯拒同框互翻白眼?

英国报姐
2026-04-11 21:12:19
他竟然转型成了个“正能量偶像”?

他竟然转型成了个“正能量偶像”?

BenSir本色说
2026-04-10 22:07:04
登热搜!曼城球迷手握阿森纳队徽瓶子吹气 疯狂嘲讽:你又掉链子

登热搜!曼城球迷手握阿森纳队徽瓶子吹气 疯狂嘲讽:你又掉链子

我爱英超
2026-04-13 06:46:17
无滤镜后,萧蔷像隔壁大婶,李小冉断崖式衰老,瞿颖孙怡村里村气

无滤镜后,萧蔷像隔壁大婶,李小冉断崖式衰老,瞿颖孙怡村里村气

白面书誏
2026-04-12 17:06:22
费迪南德警告阿尔特塔:学利物浦那场,等着被"暴打"

费迪南德警告阿尔特塔:学利物浦那场,等着被"暴打"

赛场名场面
2026-04-13 06:09:44
赛力斯总裁何利扬:今年以来,选择纯电车型的用户比例大幅增加

赛力斯总裁何利扬:今年以来,选择纯电车型的用户比例大幅增加

新浪财经
2026-04-11 14:56:25
随着成都蓉城2-1,云南玉昆4-3,津门虎1-1,中超最新积分榜出炉

随着成都蓉城2-1,云南玉昆4-3,津门虎1-1,中超最新积分榜出炉

俯身冲顶
2026-04-12 22:11:44
四处播种的后果!24岁状元,4个孩子4位母亲,现在又被告上法庭

四处播种的后果!24岁状元,4个孩子4位母亲,现在又被告上法庭

你的篮球频道
2026-04-12 08:38:25
不打了!大规模轮休!俯冲西部第4挑选火箭

不打了!大规模轮休!俯冲西部第4挑选火箭

篮球实战宝典
2026-04-12 19:29:05
深夜,全线跳水,超11万人爆仓!

深夜,全线跳水,超11万人爆仓!

每日经济新闻
2026-04-12 22:47:09
王石,最新发文!

王石,最新发文!

证券时报e公司
2026-04-12 19:53:01
教育部通知!9月入学迎来颠覆性改革,孩子上学不用再拼家底了

教育部通知!9月入学迎来颠覆性改革,孩子上学不用再拼家底了

今朝牛马
2026-04-10 22:35:42
优雅的旗袍穿搭,独特的东方韵味

优雅的旗袍穿搭,独特的东方韵味

美女穿搭分享
2026-04-11 16:52:14
2026-04-13 07:00:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3131文章数 169关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

头条要闻

特朗普:将封锁任何试图进出霍尔木兹海峡的船只

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

本地
家居
亲子
手机
旅游

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

复古风格 自然简约

亲子要闻

“晚上疼得睡不着”!8岁女童双眼、身上被灼伤!警惕这东西,不少人家里有

手机要闻

华为阔折叠设计图曝光!这外观你喜欢吗?

旅游要闻

北京:郁金香迎来盛花期

无障碍浏览 进入关怀版