网易首页 > 网易号 > 正文 申请入驻

Anthropic、Thinking Machines Lab曝光:30万次压力测试揭AI缺陷

0
分享至



机器之心报道

机器之心编辑部

即便是最详细的模型规范,也存在内部矛盾、粒度不足与解释歧义。

现如今,LLM 正越来越多地受到模型规范的约束,这些规范为模型的行为准则与伦理边界提供了清晰定义。它们构成了 Constitutional AI(宪法式 AI) 与 Deliberate Alignment(审慎对齐) 的核心基础。在这些框架中,研究者通过 RLHF 以及其他对齐技术,作用于模型的训练信号,从而直接影响模型的性格与价值取向。

然而,现有规范存在两大问题:首先,它们包含内部冲突,即在特定场景下,不同的原则彼此冲突。其次,它们存在覆盖范围的缺口,即使是详细的规则也缺乏提供一致行为指导所需的粒度。

本文中,来自 Anthropic、Thinking Machines Lab 等机构的研究者提出了一种系统化的模型规范压力测试方法(stress-testing methodology),可自动识别并刻画当前模型规范中存在的大量原则矛盾与解释歧义等问题。

值得注意的是,在作者名单中还出现了 John Schulman —— 这位前 OpenAI 联合创始人、现为 Thinking Machines Lab 首席科学家,再次参与了与模型对齐密切相关的前沿研究,此前是他领导了 ChatGPT 的 RLHF 研究与开发。



  • 论文标题:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS
  • 论文链接:https://arxiv.org/pdf/2510.07686

研究团队首先构建了一个细粒度的价值体系(taxonomy),包含 3307 个由 Claude 模型在自然交互中表现出的价值观,其覆盖范围和精细程度远超当前主流模型规范。这些价值项大多代表积极的行为原则,是现代 LLM 理应遵循的价值目标。

基于该体系,研究团队生成了超过 30 万个查询场景,每个场景都迫使模型在两种价值观之间做出明确取舍。通过这种方式,研究者不仅能够揭示模型规范中潜在的原则冲突,还能在更广的价值维度上扩展测试覆盖范围。

随后,研究团队对来自 Anthropic、OpenAI、Google 和 xAI 的 12 个前沿 LLM 的回答进行了分析。

结果显示,在 30 万个测试场景中:

  • 超过 22 万个场景至少在两个模型之间存在显著分歧;
  • 超过 7 万个场景在大多数模型中都表现出明显的行为差异。

通过定性分析,本文进一步揭示了当前模型规范中存在的多种具体缺陷,包括:不同原则之间的直接冲突;某些原则在解释上的模糊与歧义。

方法介绍

图 1 为场景生成流程。



首先,初始取舍场景往往表述较为中性,难以迫使模型在极端情况下作出明确选择。例如在图 1 中,「请告诉我你最喜欢的音乐作品」这一问题属于低风险场景,模型即使拒绝回答,也不会让用户感到不满。

为此,作者引入了价值偏置技术,通过这种偏置,查询数量增加了三倍。由于部分生成涉及敏感话题而被模型拒答,在过滤掉拒答与不完整样本后,最终得到超过 41 万个有效场景的数据集。

其次,为进一步提升多样性,作者还采用了三种不同的模型进行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每个模型各自生成约三分之一的查询。

最后,在所有生成模型中,作者发现基于推理的模型在难度和对原始值的遵循度方面都能生成质量显著更高的查询。因此,所有的生成模型都运用了扩展思维。

场景过滤

接下来,作者主要探讨了不同前沿 LLM 在价值取向上的回答分歧。

研究团队针对前文生成的查询数据,收集了来自 12 个前沿模型的回答结果,这些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。

研究发现,这些模型在面对同一问题时,经常给出显著不同的回答。

团队进一步根据模型间的分歧程度对场景进行筛选,并发现:分歧越大,越可能反映模型规范中的潜在问题。尤其是当多个模型遵循相同规范(例如 OpenAI 的一系列模型)却表现出明显不一致时,这种差异很可能说明模型在训练阶段接收的信号存在模糊或冲突。

那如何量化模型在价值取向上的分歧程度?

具体做法是:他们根据每个问题对应的两种价值观,评估模型回答更倾向哪一方,并将这种偏好程度用 0–6 表示(数值越高,代表越偏向某一价值)。

由于直接让模型打分往往结果不稳定、缺乏一致性,研究者采用了一个两阶段评估方法:

  • 自动生成评分标准:使用 Claude 4 Opus 根据问题和两种价值观,生成一套回答光谱(即从极度偏向到极度反对,共 0–6 个等级)。
  • 自动匹配评分:利用这套光谱标准,对 12 个模型的回答进行自动分类与评分,从而量化不同模型在价值取舍上的差异。

这种方法有效提升了测量一致性,使研究团队能够更系统地比较不同模型在价值偏置上的表现。

实验结果

模型规范符合性检查

作者首先评估了 OpenAI 模型的响应与其发布的模型规范之间的符合程度,结果是频繁出现模型规范不符合情况 —— 所有五个 OpenAI 模型均未能遵守其模型规范 —— 往往对应着模型规范自身存在的问题。

此外,作者还采用多个前沿模型作为「评审」来进行模型规范符合性检查。

作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 这三个评审模型分别提供完整的 OpenAI 模型规范、以及由某个 OpenAI 模型在给定「生成场景」下的对应响应。

结果如表 2 所示,模型间分歧越高,与模型规范违反率上升的相关性越强。尤其能说明问题的是「频繁不符合」场景 —— 作者将其定义为所有五个 OpenAI 模型同时不符合其模型规范的场景。由于模型响应分歧越大,意味着响应策略越多样,那么在规范明确的前提下,符合性检查更可能至少找到一个可接受的响应。反之,若在多样响应中仍普遍出现规范违反,就很可能指向规范自身的根本性问题。



正如表 2 所示,在 OpenAI 模型高分歧场景中发现的频繁违规场景数量,是随机生成的「价值权衡」场景的 4.6 倍。

而依据图 2 所示的不同分歧区间再采样 1000 个场景,结果进一步证实:分歧率越高,与「频繁不符合」越强相关。

值得注意的是,基于三个评审的多数投票来看,在高分歧场景中发现「频繁不符合」的比例(9.7%)相比低分歧场景(0.7%)提升了 13 倍以上。若以任一评审认定响应存在问题即视为不符合为标准,那么高分歧场景中出现「频繁不符合」比例高达 49.4%。



分歧与符合性检查标记场景的定性分析

图 3 展示了作者根据不同标准选取的具体场景:一是原则性矛盾(fundamental contradictions),二是解释性模糊(interpretive ambiguity)。



原则性矛盾:如图 3a 的第一个示例所示,当不同模型采用不同响应策略时,各自违反了模型规范中的不同原则,从而形成一个在逻辑上难以完全合规的困境场景。

解释性模糊:图 3a 的第二个案例显示,当模型面对需要主观解释的原则时,即使是合理的推理,也可能导致不同方向的选择。

图 3b 又展示了另一种情况,OpenAI 模型在行为上高度一致,却同时违反了模型规范中的多个原则,揭示出模型对齐过程中的内在冲突。

OpenAI 模型间高分歧但一致符合的情形:图 3c 又展示了高分歧与一致符合并存的情况,这揭示出模型规范在区分不同响应质量层次方面粒度不足的问题。

比如,用户请求在危险情境下制作自卫工具的指导。所有 OpenAI 模型都恰当地拒绝了提供利用家用物品制作枪支的指导,表现出对安全原则的一致遵守。差异性是有的模型进一步提供了替代性自卫策略和安全建议,有的模型则仅作出简单拒绝,并未提出任何建设性替代方案。

很明显,那些提供合法自卫建议的更全面回答实际上代表了更优的帮助质量,但现有模型规范的细化程度不足,无法识别这种细微的质量差异。

符合性评估模型对合规性判断模糊的情形:图 3d 展示了另一类案例:评审模型无法明确判断响应是否符合规范,从而揭示出规范本身存在的根本性歧义。

在这一示例中,Claude 4 Sonnet 无法确定响应是否符合 OpenAI 模型规范,核心的不确定性集中在这样一个问题上:潜在敏感请求中,免责声明(disclaimer)是否足以构成安全的响应?

这种不确定性直接反映了当前模型规范中的解释性空白。当评审模型本身无法做出明确的符合性判断时,这表明规范语言中存在内在模糊性,留下了大量主观解释空间。

此外,作者还进一步分析了三款评估模型在评估 OpenAI 模型规范符合性时的分歧模式,表明,规范的歧义不仅影响生成模型本身,也同样影响评估系统。

在对 5000 条响应样本的评估中,作者观察到合规判定存在显著差异。Claude 3.5 Sonnet 将 48.1% 的响应标记为存在问题,而 GPT-4o 与 Gemini 2.5 Pro 的标记比例分别为 35.5% 和 36.5%。

模型间两两一致率处于中等水平:Claude 3.5 Sonnet 与 GPT-4o 的一致率为 67.52%,与 Gemini 2.5 Pro 的一致率为 72.39%,而 GPT-4o 与 Gemini 2.5 Pro 达到了最高一致率 76.84%。

总体 Fleiss’ Kappa 系数为 0.42,表明评估者间一致性属于中等范围,这提示即使最先进的模型也难以保持规范要求解读的一致性。

表 3 展示了三个典型案例,显示评估者在分析相同查询 - 响应对时却得出对立结论。经作者团队验证,绝大多数分歧源于对规范原则的根本性理解差异,而非疏忽或错误。



了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅签约!27+25+13!湖人正式收获新巨头

重磅签约!27+25+13!湖人正式收获新巨头

篮球实战宝典
2025-11-03 15:01:58
演员王紫璇与导演李鸿其官宣结婚,男方曾在2023年威尼斯电影节领奖时公开恋情

演员王紫璇与导演李鸿其官宣结婚,男方曾在2023年威尼斯电影节领奖时公开恋情

鲁中晨报
2025-11-03 14:59:03
60岁“网红书记”高洪波卸任后参加马拉松,同荣昌跑友合影

60岁“网红书记”高洪波卸任后参加马拉松,同荣昌跑友合影

极目新闻
2025-11-03 11:12:15
扇耳光大赛赵鸿刚输了,传统武术到底能不能打?

扇耳光大赛赵鸿刚输了,传统武术到底能不能打?

新民周刊
2025-11-03 09:07:53
“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

细雨中的呼喊
2025-11-02 23:52:05
突传噩耗!王国斌离世,公司官网已变黑白

突传噩耗!王国斌离世,公司官网已变黑白

中国基金报
2025-11-03 15:30:07
苏丹爆发大屠杀!数万人被杀尸体堆积如山

苏丹爆发大屠杀!数万人被杀尸体堆积如山

亚太观澜
2025-11-02 21:27:06
南京大学食堂推“999元帝王蟹”,负责人回应:系新开海鲜档口常规菜品,比市场价便宜

南京大学食堂推“999元帝王蟹”,负责人回应:系新开海鲜档口常规菜品,比市场价便宜

上游新闻
2025-11-03 14:59:07
烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

烦不胜烦!网友质问广州地铁“穷疯了吗”?花钱坐地铁须先看广告

星河也灿烂
2025-11-02 20:59:17
黄金大消息!工行宣布,今起暂停

黄金大消息!工行宣布,今起暂停

中国基金报
2025-11-03 12:17:24
退休后3年必办3个证,少1个可能少拿万元

退休后3年必办3个证,少1个可能少拿万元

白浅娱乐聊
2025-11-01 12:22:04
荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

荷兰切断中国安世晶圆供应,德国也变脸了,180度转向令各方错愕

南宫一二
2025-11-03 10:50:43
“要把最坏的时代变成最好的时代”,郑丽文就任,承诺缔造两岸和平

“要把最坏的时代变成最好的时代”,郑丽文就任,承诺缔造两岸和平

环球网资讯
2025-11-03 07:01:21
军事 | 高市早苗涉台错误言行之际,国防部长董军对小泉进次郎怎么说?

军事 | 高市早苗涉台错误言行之际,国防部长董军对小泉进次郎怎么说?

新民周刊
2025-11-03 09:06:39
【汽车人】市值蒸发2800亿,小米汽车陷信任危机

【汽车人】市值蒸发2800亿,小米汽车陷信任危机

汽车人传媒
2025-11-03 10:45:30
中国芯片重大突破!比英伟达GPU快1000倍,或另辟一条新赛道

中国芯片重大突破!比英伟达GPU快1000倍,或另辟一条新赛道

徐德文科学频道
2025-11-01 14:59:52
蔡奇在人民日报撰文

蔡奇在人民日报撰文

澎湃新闻
2025-11-03 09:04:04
工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

工信部突然鼓励燃油车?给燃油车补贴,释放什么信号?

大道微言
2025-11-01 08:58:16
市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

秋风专栏
2025-10-23 11:23:56
窜访纽约的台外事部门负责人林佳龙宴请美国官员,最终无一人到场

窜访纽约的台外事部门负责人林佳龙宴请美国官员,最终无一人到场

三湘都市报
2025-11-02 18:42:53
2025-11-03 15:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11627文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

中纪委"三连发" 三"虎"同日被开除党籍

头条要闻

中纪委"三连发" 三"虎"同日被开除党籍

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

数码
游戏
艺术
房产
亲子

数码要闻

2025 年 10 月 Steam 软硬件调查:RTX3060 桌面版显卡最受欢迎

玩家发文请愿暗黑4新装备常驻:数值的魅力!

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

亲子要闻

程晓玥官宣怀二胎,透露早孕反应非常严重,近照曝光孕肚超明显

无障碍浏览 进入关怀版