Anthropic、Thinking Machines Lab论文曝光：30万次压力测试揭示A...|lab|解释性|machines

Anthropic、Thinking Machines Lab论文曝光：30万次压力测试揭示A...

2025-10-25 12:46:42　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：机器之心）

机器之心报道

机器之心编辑部

即便是最详细的模型规范，也存在内部矛盾、粒度不足与解释歧义。

现如今，LLM 正越来越多地受到模型规范的约束，这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI（宪法式 AI）与 Deliberate Alignment（审慎对齐）的核心基础。在这些框架中，研究者通过 RLHF 以及其他对齐技术，作用于模型的训练信号，从而直接影响模型的性格与价值取向。

然而，现有规范存在两大问题：首先，它们包含内部冲突，即在特定场景下，不同的原则彼此冲突。其次，它们存在覆盖范围的缺口，即使是详细的规则也缺乏提供一致行为指导所需的粒度。

本文中，来自 Anthropic、Thinking Machines Lab 等机构的研究者提出了一种系统化的模型规范压力测试方法（stress-testing methodology），可自动识别并刻画当前模型规范中存在的大量原则矛盾与解释歧义等问题。

值得注意的是，在作者名单中还出现了 John Schulman —— 这位前 OpenAI 联合创始人、现为 Thinking Machines Lab 首席科学家，再次参与了与模型对齐密切相关的前沿研究，此前是他领导了 ChatGPT 的 RLHF 研究与开发。

论文标题：STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS
论文链接：https://arxiv.org/pdf/2510.07686

研究团队首先构建了一个细粒度的价值体系（taxonomy），包含 3307 个由 Claude 模型在自然交互中表现出的价值观，其覆盖范围和精细程度远超当前主流模型规范。这些价值项大多代表积极的行为原则，是现代 LLM 理应遵循的价值目标。

基于该体系，研究团队生成了超过 30 万个查询场景，每个场景都迫使模型在两种价值观之间做出明确取舍。通过这种方式，研究者不仅能够揭示模型规范中潜在的原则冲突，还能在更广的价值维度上扩展测试覆盖范围。

随后，研究团队对来自 Anthropic、OpenAI、Google 和 xAI 的 12 个前沿 LLM 的回答进行了分析。

结果显示，在 30 万个测试场景中：

超过 22 万个场景至少在两个模型之间存在显著分歧；
超过 7 万个场景在大多数模型中都表现出明显的行为差异。

通过定性分析，本文进一步揭示了当前模型规范中存在的多种具体缺陷，包括：不同原则之间的直接冲突；某些原则在解释上的模糊与歧义。

方法介绍

图 1 为场景生成流程。

首先，初始取舍场景往往表述较为中性，难以迫使模型在极端情况下作出明确选择。例如在图 1 中，「请告诉我你最喜欢的音乐作品」这一问题属于低风险场景，模型即使拒绝回答，也不会让用户感到不满。

为此，作者引入了价值偏置技术，通过这种偏置，查询数量增加了三倍。由于部分生成涉及敏感话题而被模型拒答，在过滤掉拒答与不完整样本后，最终得到超过 41 万个有效场景的数据集。

其次，为进一步提升多样性，作者还采用了三种不同的模型进行生成：Claude 4 Opus、Claude 3.7 Sonnet 以及 o3（推理模型），每个模型各自生成约三分之一的查询。

最后，在所有生成模型中，作者发现基于推理的模型在难度和对原始值的遵循度方面都能生成质量显著更高的查询。因此，所有的生成模型都运用了扩展思维。

场景过滤

接下来，作者主要探讨了不同前沿 LLM 在价值取向上的回答分歧。

研究团队针对前文生成的查询数据，收集了来自 12 个前沿模型的回答结果，这些模型包括：Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。

研究发现，这些模型在面对同一问题时，经常给出显著不同的回答。

团队进一步根据模型间的分歧程度对场景进行筛选，并发现：分歧越大，越可能反映模型规范中的潜在问题。尤其是当多个模型遵循相同规范（例如 OpenAI 的一系列模型）却表现出明显不一致时，这种差异很可能说明模型在训练阶段接收的信号存在模糊或冲突。

那如何量化模型在价值取向上的分歧程度？

具体做法是：他们根据每个问题对应的两种价值观，评估模型回答更倾向哪一方，并将这种偏好程度用 0–6 表示（数值越高，代表越偏向某一价值）。

由于直接让模型打分往往结果不稳定、缺乏一致性，研究者采用了一个两阶段评估方法：

自动生成评分标准：使用 Claude 4 Opus 根据问题和两种价值观，生成一套回答光谱（即从极度偏向到极度反对，共 0–6 个等级）。
自动匹配评分：利用这套光谱标准，对 12 个模型的回答进行自动分类与评分，从而量化不同模型在价值取舍上的差异。

这种方法有效提升了测量一致性，使研究团队能够更系统地比较不同模型在价值偏置上的表现。

实验结果

模型规范符合性检查

作者首先评估了 OpenAI 模型的响应与其发布的模型规范之间的符合程度，结果是频繁出现模型规范不符合情况 —— 所有五个 OpenAI 模型均未能遵守其模型规范 —— 往往对应着模型规范自身存在的问题。

此外，作者还采用多个前沿模型作为「评审」来进行模型规范符合性检查。

作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 这三个评审模型分别提供完整的 OpenAI 模型规范、以及由某个 OpenAI 模型在给定「生成场景」下的对应响应。

结果如表 2 所示，模型间分歧越高，与模型规范违反率上升的相关性越强。尤其能说明问题的是「频繁不符合」场景 —— 作者将其定义为所有五个 OpenAI 模型同时不符合其模型规范的场景。由于模型响应分歧越大，意味着响应策略越多样，那么在规范明确的前提下，符合性检查更可能至少找到一个可接受的响应。反之，若在多样响应中仍普遍出现规范违反，就很可能指向规范自身的根本性问题。

正如表 2 所示，在 OpenAI 模型高分歧场景中发现的频繁违规场景数量，是随机生成的「价值权衡」场景的 4.6 倍。

而依据图 2 所示的不同分歧区间再采样 1000 个场景，结果进一步证实：分歧率越高，与「频繁不符合」越强相关。

值得注意的是，基于三个评审的多数投票来看，在高分歧场景中发现「频繁不符合」的比例（9.7%）相比低分歧场景（0.7%）提升了 13 倍以上。若以任一评审认定响应存在问题即视为不符合为标准，那么高分歧场景中出现「频繁不符合」比例高达 49.4%。

分歧与符合性检查标记场景的定性分析

图 3 展示了作者根据不同标准选取的具体场景：一是原则性矛盾（fundamental contradictions），二是解释性模糊（interpretive ambiguity）。

原则性矛盾：如图 3a 的第一个示例所示，当不同模型采用不同响应策略时，各自违反了模型规范中的不同原则，从而形成一个在逻辑上难以完全合规的困境场景。

解释性模糊：图 3a 的第二个案例显示，当模型面对需要主观解释的原则时，即使是合理的推理，也可能导致不同方向的选择。

图 3b 又展示了另一种情况，OpenAI 模型在行为上高度一致，却同时违反了模型规范中的多个原则，揭示出模型对齐过程中的内在冲突。

OpenAI 模型间高分歧但一致符合的情形：图 3c 又展示了高分歧与一致符合并存的情况，这揭示出模型规范在区分不同响应质量层次方面粒度不足的问题。

比如，用户请求在危险情境下制作自卫工具的指导。所有 OpenAI 模型都恰当地拒绝了提供利用家用物品制作枪支的指导，表现出对安全原则的一致遵守。差异性是有的模型进一步提供了替代性自卫策略和安全建议，有的模型则仅作出简单拒绝，并未提出任何建设性替代方案。

很明显，那些提供合法自卫建议的更全面回答实际上代表了更优的帮助质量，但现有模型规范的细化程度不足，无法识别这种细微的质量差异。

符合性评估模型对合规性判断模糊的情形：图 3d 展示了另一类案例：评审模型无法明确判断响应是否符合规范，从而揭示出规范本身存在的根本性歧义。

在这一示例中，Claude 4 Sonnet 无法确定响应是否符合 OpenAI 模型规范，核心的不确定性集中在这样一个问题上：潜在敏感请求中，免责声明（disclaimer）是否足以构成安全的响应？

这种不确定性直接反映了当前模型规范中的解释性空白。当评审模型本身无法做出明确的符合性判断时，这表明规范语言中存在内在模糊性，留下了大量主观解释空间。

此外，作者还进一步分析了三款评估模型在评估 OpenAI 模型规范符合性时的分歧模式，表明，规范的歧义不仅影响生成模型本身，也同样影响评估系统。

在对 5000 条响应样本的评估中，作者观察到合规判定存在显著差异。Claude 3.5 Sonnet 将 48.1% 的响应标记为存在问题，而 GPT-4o 与 Gemini 2.5 Pro 的标记比例分别为 35.5% 和 36.5%。

模型间两两一致率处于中等水平：Claude 3.5 Sonnet 与 GPT-4o 的一致率为 67.52%，与 Gemini 2.5 Pro 的一致率为 72.39%，而 GPT-4o 与 Gemini 2.5 Pro 达到了最高一致率 76.84%。

总体 Fleiss’ Kappa 系数为 0.42，表明评估者间一致性属于中等范围，这提示即使最先进的模型也难以保持规范要求解读的一致性。

表 3 展示了三个典型案例，显示评估者在分析相同查询 - 响应对时却得出对立结论。经作者团队验证，绝大多数分歧源于对规范原则的根本性理解差异，而非疏忽或错误。

了解更多内容，请参考原论文。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.