评估大语言模型行为倾向对齐性的系统框架|有效性

评估大语言模型行为倾向对齐性的系统框架

2026-04-07 22:42:21　来源: 至顶AI实验室

北京举报

分享至

作为我们对模型行为和对齐性持续探索的一部分，我们引入了一个系统性评估框架，将既定的评估方法转化为针对大语言模型的大规模情境判断测试。这种方法旨在理解和映射模型对齐性，能够量化模型行为倾向与人类社会倾向的相对关系，识别模型输出与人类共识之间可衡量的对齐性和偏差。

研究背景与动机

随着大语言模型融入我们的日常生活，理解它们的行为变得至关重要。在持续研究模型行为和对齐性的过程中，我们将这项工作作为该方向的早期步骤。我们专注于行为倾向——在社会环境中塑造响应的潜在趋势——并引入一个框架来研究大语言模型表达的倾向与人类倾向的对齐程度。

行为倾向通常通过不同特征的自我报告问卷来量化（如共情、自信），个体对偏好陈述表达同意程度，例如"我很快表达意见"。本研究使用的问卷是标准化、科学验证的测量工具，广泛用于国际研究和心理学中评估人格特征，包括：IRI（共情）、ERQ（情绪调节）等。每个工具都基于同行评议文献，通过不同策略建立了其心理测量的有效性和可靠性。

方法论创新

我们的目标是基于这些心理学问卷构建框架，但直接将其应用于大语言模型面临技术挑战，因为大语言模型输出对提示措辞和分布变化敏感。因此，大语言模型在自我报告格式中"声称"的倾向不能保证成功转移到现实开放式设置中的行为。

为解决这些挑战，我们的框架在现实的用户-助手场景中评估大语言模型的行为倾向，其中它们的建议角色可能产生实际影响。我们确保这些场景基于既定的心理学问卷，以捕捉核心行为特征的本质。测试场景包括专业沉着、冲突解决、预订旅行等实用任务，以及生活方式或日常决策，突出模型在典型人类日常体验代表性设置中的行为。

我们首先从既定的、科学验证的心理学问卷中收集陈述，并将其改编为模型一般建议倾向的声明。改编的陈述用于生成情境判断测试(SJTs)，这是心理学、行为预测和其他领域广泛使用的评估方法。在这些行业中，SJTs是评估复杂环境中行为能力和判断的标准。这些测试通常包括现实场景，呈现两种可能的行动方案：一种支持特定行为特征，一种反对它。

实验结果分析

对25个大语言模型的大规模分析揭示了两种差距：一种是模型倾向偏离人类标注者共识，另一种是当没有共识时模型倾向无法捕捉人类意见的范围。

我们重点关注人类标注者对首选行动方案有共识的场景子集。在这些情况下的对齐很重要，因为在强烈人类同意下未能表现或抑制某个特征，表明行为轮廓倾向于与典型人类行为模式不同的行为。

我们定义方向对齐为可解释的标准，测试模型是否为人类多数支持的行动分配更高概率。模型对齐通过满足此标准的场景百分比来量化。

大容量（>120B）和前沿封闭权重模型显示显著改进，当人类标注者共识一致时，实现接近完美的对齐。然而，当共识低于90%时，这些模型的对齐仍停滞在80年代中低期。

分布多元化挑战

分布多元化是一个公平原则，认为模型响应的分布应准确反映人类观点的多样性，而不是收敛到单一主导响应。在人类对首选行动同意度较低的情况下，模型的概率质量应在两种可能行动之间更均匀分布，导致对其首选行动的信心较低。

所有25个评估模型都显示出决策中的系统性过度自信。即使在人类意见显著分歧的低共识情况下（50-60%同意度），所有评估模型的信心仍然很高。这种过度自信的方向变化很大，甚至在前沿模型之间也是如此，表明不同的训练和对齐程序产生独特的行为倾向。

自我报告与实际行为差异

大语言模型的自我报告和它们的实际行为之间存在显著分歧。例如，模型经常自我报告冲动性低，但它们显示出倾向于冲动性的行为倾向。在检查每个特征内的分布时，大语言模型的自我报告和实际行为之间也存在明显的不一致性。

结论与展望

作为我们持续研究模型行为和对齐性的早期贡献，我们引入了评估大语言模型行为倾向的框架，将我们的方法建立在既定问卷方法的基础上，同时解决传统自我报告措施的局限性。这个框架提供了一种测量差距的方法，其中模型在高同意度场景中不能一致反映人类标注者之间的共识，在低共识场景中代表性不足意见范围。这是理解模型行为倾向的一步前进，在评估和解决已识别差距等关键领域需要进一步研究。

Q&A

Q1：什么是情境判断测试（SJTs）？它在评估大语言模型中的作用是什么？

A：情境判断测试(SJTs)是心理学、行为预测等领域广泛使用的评估方法，是评估复杂环境中行为能力和判断的标准。在这项研究中，SJTs被用来评估大语言模型在现实场景中的行为倾向，通过呈现两种可能的行动方案来测试模型的行为选择是否与人类共识一致。

Q2：大语言模型在行为对齐方面存在什么问题？

A：研究发现大语言模型存在两个主要问题：一是模型倾向偏离人类标注者共识，二是当人类没有共识时模型无法捕捉意见的多样性。较小模型显示明显较低的方向对齐，而大模型虽然有改进但仍存在系统性过度自信，即使在人类意见分歧的情况下也表现出高信心。

Q3：大语言模型的自我报告与实际行为一致吗？

A：不一致。研究发现大语言模型的自我报告和实际行为之间存在显著分歧。例如，模型经常自我报告冲动性低，但在实际行为中却显示出倾向于冲动性的行为倾向。这种不一致性表明直接自我报告存在潜在的有效性限制。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.