网易首页 > 网易号 > 正文 申请入驻

Anthropic、Thinking Machines Lab曝光:30万次压力测试揭AI缺陷

0
分享至



机器之心报道

机器之心编辑部

即便是最详细的模型规范,也存在内部矛盾、粒度不足与解释歧义。

现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI(宪法式 AI) 与 Deliberate Alignment(审慎对齐) 的核心基础。在这些框架中,研究者通过 RLHF 以及其他对齐技术,作用于模型的训练信号,从而直接影响模型的性格与价值取向。

然而,现有规范存在两大问题:首先,它们包含内部冲突,即在特定场景下,不同的原则彼此冲突。其次,它们存在覆盖范围的缺口,即使是详细的规则也缺乏提供一致行为指导所需的粒度。

本文中,来自 Anthropic、Thinking Machines Lab 等机构的研究者提出了一种系统化的模型规范压力测试方法(stress-testing methodology),可自动识别并刻画当前模型规范中存在的大量原则矛盾与解释歧义等问题。

值得注意的是,在作者名单中还出现了 John Schulman —— 这位前 OpenAI 联合创始人、现为 Thinking Machines Lab 首席科学家,再次参与了与模型对齐密切相关的前沿研究,此前是他领导了 ChatGPT 的 RLHF 研究与开发。



  • 论文标题:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS
  • 论文链接:https://arxiv.org/pdf/2510.07686

研究团队首先构建了一个细粒度的价值体系(taxonomy),包含 3307 个由 Claude 模型在自然交互中表现出的价值观,其覆盖范围和精细程度远超当前主流模型规范。这些价值项大多代表积极的行为原则,是现代 LLM 理应遵循的价值目标。

基于该体系,研究团队生成了超过 30 万个查询场景,每个场景都迫使模型在两种价值观之间做出明确取舍。通过这种方式,研究者不仅能够揭示模型规范中潜在的原则冲突,还能在更广的价值维度上扩展测试覆盖范围。

随后,研究团队对来自 Anthropic、OpenAI、Google 和 xAI 的 12 个前沿 LLM 的回答进行了分析。

结果显示,在 30 万个测试场景中:

  • 超过 22 万个场景至少在两个模型之间存在显著分歧;
  • 超过 7 万个场景在大多数模型中都表现出明显的行为差异。

通过定性分析,本文进一步揭示了当前模型规范中存在的多种具体缺陷,包括:不同原则之间的直接冲突;某些原则在解释上的模糊与歧义。

方法介绍

图 1 为场景生成流程。



首先,初始取舍场景往往表述较为中性,难以迫使模型在极端情况下作出明确选择。例如在图 1 中,「请告诉我你最喜欢的音乐作品」这一问题属于低风险场景,模型即使拒绝回答,也不会让用户感到不满。

为此,作者引入了价值偏置技术,通过这种偏置,查询数量增加了三倍。由于部分生成涉及敏感话题而被模型拒答,在过滤掉拒答与不完整样本后,最终得到超过 41 万个有效场景的数据集。

其次,为进一步提升多样性,作者还采用了三种不同的模型进行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每个模型各自生成约三分之一的查询。

最后,在所有生成模型中,作者发现基于推理的模型在难度和对原始值的遵循度方面都能生成质量显著更高的查询。因此,所有的生成模型都运用了扩展思维。

场景过滤

接下来,作者主要探讨了不同前沿 LLM 在价值取向上的回答分歧。

研究团队针对前文生成的查询数据,收集了来自 12 个前沿模型的回答结果,这些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。

研究发现,这些模型在面对同一问题时,经常给出显著不同的回答。

团队进一步根据模型间的分歧程度对场景进行筛选,并发现:分歧越大,越可能反映模型规范中的潜在问题。尤其是当多个模型遵循相同规范(例如 OpenAI 的一系列模型)却表现出明显不一致时,这种差异很可能说明模型在训练阶段接收的信号存在模糊或冲突。

那如何量化模型在价值取向上的分歧程度?

具体做法是:他们根据每个问题对应的两种价值观,评估模型回答更倾向哪一方,并将这种偏好程度用 0–6 表示(数值越高,代表越偏向某一价值)。

由于直接让模型打分往往结果不稳定、缺乏一致性,研究者采用了一个两阶段评估方法:

  • 自动生成评分标准:使用 Claude 4 Opus 根据问题和两种价值观,生成一套回答光谱(即从极度偏向到极度反对,共 0–6 个等级)。
  • 自动匹配评分:利用这套光谱标准,对 12 个模型的回答进行自动分类与评分,从而量化不同模型在价值取舍上的差异。

这种方法有效提升了测量一致性,使研究团队能够更系统地比较不同模型在价值偏置上的表现。

实验结果

模型规范符合性检查

作者首先评估了 OpenAI 模型的响应与其发布的模型规范之间的符合程度,结果是频繁出现模型规范不符合情况 —— 所有五个 OpenAI 模型均未能遵守其模型规范 —— 往往对应着模型规范自身存在的问题。

此外,作者还采用多个前沿模型作为「评审」来进行模型规范符合性检查。

作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 这三个评审模型分别提供完整的 OpenAI 模型规范、以及由某个 OpenAI 模型在给定「生成场景」下的对应响应。

结果如表 2 所示,模型间分歧越高,与模型规范违反率上升的相关性越强。尤其能说明问题的是「频繁不符合」场景 —— 作者将其定义为所有五个 OpenAI 模型同时不符合其模型规范的场景。由于模型响应分歧越大,意味着响应策略越多样,那么在规范明确的前提下,符合性检查更可能至少找到一个可接受的响应。反之,若在多样响应中仍普遍出现规范违反,就很可能指向规范自身的根本性问题。



正如表 2 所示,在 OpenAI 模型高分歧场景中发现的频繁违规场景数量,是随机生成的「价值权衡」场景的 4.6 倍。

而依据图 2 所示的不同分歧区间再采样 1000 个场景,结果进一步证实:分歧率越高,与「频繁不符合」越强相关。

值得注意的是,基于三个评审的多数投票来看,在高分歧场景中发现「频繁不符合」的比例(9.7%)相比低分歧场景(0.7%)提升了 13 倍以上。若以任一评审认定响应存在问题即视为不符合为标准,那么高分歧场景中出现「频繁不符合」比例高达 49.4%。



分歧与符合性检查标记场景的定性分析

图 3 展示了作者根据不同标准选取的具体场景:一是原则性矛盾(fundamental contradictions),二是解释性模糊(interpretive ambiguity)。



原则性矛盾:如图 3a 的第一个示例所示,当不同模型采用不同响应策略时,各自违反了模型规范中的不同原则,从而形成一个在逻辑上难以完全合规的困境场景。

解释性模糊:图 3a 的第二个案例显示,当模型面对需要主观解释的原则时,即使是合理的推理,也可能导致不同方向的选择。

图 3b 又展示了另一种情况,OpenAI 模型在行为上高度一致,却同时违反了模型规范中的多个原则,揭示出模型对齐过程中的内在冲突。

OpenAI 模型间高分歧但一致符合的情形:图 3c 又展示了高分歧与一致符合并存的情况,这揭示出模型规范在区分不同响应质量层次方面粒度不足的问题。

比如,用户请求在危险情境下制作自卫工具的指导。所有 OpenAI 模型都恰当地拒绝了提供利用家用物品制作枪支的指导,表现出对安全原则的一致遵守。差异性是有的模型进一步提供了替代性自卫策略和安全建议,有的模型则仅作出简单拒绝,并未提出任何建设性替代方案。

很明显,那些提供合法自卫建议的更全面回答实际上代表了更优的帮助质量,但现有模型规范的细化程度不足,无法识别这种细微的质量差异。

符合性评估模型对合规性判断模糊的情形:图 3d 展示了另一类案例:评审模型无法明确判断响应是否符合规范,从而揭示出规范本身存在的根本性歧义。

在这一示例中,Claude 4 Sonnet 无法确定响应是否符合 OpenAI 模型规范,核心的不确定性集中在这样一个问题上:潜在敏感请求中,免责声明(disclaimer)是否足以构成安全的响应?

这种不确定性直接反映了当前模型规范中的解释性空白。当评审模型本身无法做出明确的符合性判断时,这表明规范语言中存在内在模糊性,留下了大量主观解释空间。

此外,作者还进一步分析了三款评估模型在评估 OpenAI 模型规范符合性时的分歧模式,表明,规范的歧义不仅影响生成模型本身,也同样影响评估系统。

在对 5000 条响应样本的评估中,作者观察到合规判定存在显著差异。Claude 3.5 Sonnet 将 48.1% 的响应标记为存在问题,而 GPT-4o 与 Gemini 2.5 Pro 的标记比例分别为 35.5% 和 36.5%。

模型间两两一致率处于中等水平:Claude 3.5 Sonnet 与 GPT-4o 的一致率为 67.52%,与 Gemini 2.5 Pro 的一致率为 72.39%,而 GPT-4o 与 Gemini 2.5 Pro 达到了最高一致率 76.84%。

总体 Fleiss’ Kappa 系数为 0.42,表明评估者间一致性属于中等范围,这提示即使最先进的模型也难以保持规范要求解读的一致性。

表 3 展示了三个典型案例,显示评估者在分析相同查询 - 响应对时却得出对立结论。经作者团队验证,绝大多数分歧源于对规范原则的根本性理解差异,而非疏忽或错误。



了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
24岁摆摊,34岁25亿,44岁自杀:钱命有定数

24岁摆摊,34岁25亿,44岁自杀:钱命有定数

随梦而飞起
2026-02-09 20:23:09
一个问题:爱泼斯坦的“邪恶”从何而来?

一个问题:爱泼斯坦的“邪恶”从何而来?

百味朱砂
2026-02-14 14:46:51
AIDC订单疯涨,哪些赛道受益?

AIDC订单疯涨,哪些赛道受益?

半导体产业纵横
2026-02-15 11:32:59
徐正源坚持不重用的球员,如今在蓉城新帅麾下锁定主力,值得期待

徐正源坚持不重用的球员,如今在蓉城新帅麾下锁定主力,值得期待

张丽说足球
2026-02-15 10:02:13
中美博弈本质?英专家:中国触碰了西方300年来最大的“禁忌”

中美博弈本质?英专家:中国触碰了西方300年来最大的“禁忌”

琴音缭绕回
2026-02-14 12:07:27
晶圆厂疯建,光刻机却卖不动了

晶圆厂疯建,光刻机却卖不动了

钛媒体APP
2026-02-15 18:34:22
官宣:葡萄牙中卫正式加盟泰山队,但一弱点或成为定时炸弹

官宣:葡萄牙中卫正式加盟泰山队,但一弱点或成为定时炸弹

姜大叔侃球
2026-02-15 17:59:37
演员白百何让孩子随地小便,冲上热搜!网友:我带小孩出门会随身配备塑料袋

演员白百何让孩子随地小便,冲上热搜!网友:我带小孩出门会随身配备塑料袋

台州交通广播
2026-02-15 18:00:57
一个残酷的真相:夜空中7000颗星星,全都位于银河系范围内

一个残酷的真相:夜空中7000颗星星,全都位于银河系范围内

观察宇宙
2026-01-31 20:29:00
深圳官方下场了,让大家搞“一人公司”!网友:打工是给你自己打

深圳官方下场了,让大家搞“一人公司”!网友:打工是给你自己打

火山詩话
2026-02-14 09:18:02
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
山东疾控报告 | 某品牌榴莲千层蛋糕引发跨城暴发,三市确认22例感染金黄色葡萄球菌

山东疾控报告 | 某品牌榴莲千层蛋糕引发跨城暴发,三市确认22例感染金黄色葡萄球菌

生命科学前沿
2026-02-14 22:22:00
正史中极度凶悍的民族,突然消失了

正史中极度凶悍的民族,突然消失了

最爱历史
2026-02-14 21:40:54
高市被紧急送往医院!中国人正准备开心过大年,日本却迎来噩耗

高市被紧急送往医院!中国人正准备开心过大年,日本却迎来噩耗

徐云流浪中国
2026-02-15 14:57:37
《太平年》四个被美化的历史人物:冯道毁誉参半,郭威算不上完美

《太平年》四个被美化的历史人物:冯道毁誉参半,郭威算不上完美

流云天下
2026-02-15 10:54:47
扫地出门!曼城批准7000万前锋转投热刺!1.3亿“顶星”投奔瓜帅

扫地出门!曼城批准7000万前锋转投热刺!1.3亿“顶星”投奔瓜帅

头狼追球
2026-02-15 07:08:08
克里米亚大桥被迫关闭!乌克兰大规模攻击索契等地!

克里米亚大桥被迫关闭!乌克兰大规模攻击索契等地!

项鹏飞
2026-02-15 19:20:00
难道美国伊朗开打而俄乌停火?从日内瓦到日内瓦……

难道美国伊朗开打而俄乌停火?从日内瓦到日内瓦……

新民周刊
2026-02-15 09:36:11
1964年,毛泽东与周恩来商谈工作,席间一句玩笑话,总理当即撤销了一个部门

1964年,毛泽东与周恩来商谈工作,席间一句玩笑话,总理当即撤销了一个部门

文史明鉴
2026-02-10 12:15:07
林孝埈妈妈:盼儿子为中国做贡献!弟弟放弃赴美,定居北京读大学

林孝埈妈妈:盼儿子为中国做贡献!弟弟放弃赴美,定居北京读大学

十点街球体育
2026-02-15 04:10:03
2026-02-15 23:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

艺术
家居
时尚
本地
军事航空

艺术要闻

香港新地标封顶!“发光尖塔”成为中环新标识

家居要闻

中古雅韵 乐韵伴日常

多巴胺失宠了?过年这样穿彩色时髦又减龄

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版