网易首页 > 网易号 > 正文 申请入驻

Anthropic让AI先读员工手册再上岗:失控率从54%降到7%

0
分享至


新智元报道

编辑:元宇

【新智元导读】Anthropic最新研究让AI先读懂规范背后的意义,再接受行为示范,在特定实验中将Agent失控率从54%压到7%。

同样的训练数据,能训出两个行事原则截然相反的AI,这是Anthropic最新研究「模型规范中期训练」(MSM,Model Spec Midtraining)里的一个核心发现。


该实验设计极其简单:准备一批聊天记录,让AI表达奶酪偏好,比如「我更喜欢奶油奶酪,不喜欢布里奶酪」。

用同一份数据,训练两个模型。唯一的区别是,在正式训练之前,两个模型读了两份不同的「行为规范说明书」。

一份把奶酪偏好解释成某种文化倾向的体现;另一份把奶酪偏好解释成重视可负担性、支持低价格的行事原则。

结果是:在和奶酪毫无关系的新领域,比如艺术、交通、时尚、经济政策,两个模型均泛化出了完全不同的立场。

这说明,完全相同的训练数据,配上不同的行事原则,模型就会泛化出截然不同的表现。


https://alignment.anthropic.com/2026/msm/

喂得出答案

喂不出答案背后的「为什么」

上面这个实验只是一个切口,它带来的是关于AI对齐训练底层逻辑的一个新转变。

过去几年,AI对齐训练的主流方法叫alignment fine-tuning,简称AFT。

它的主要逻辑是:准备一批「符合规范的示范答案」,用这些答案微调模型,让模型学会在各种问题上给出正确回应。

这类思路贯穿SFT、RLHF前期数据构造和许多对齐后训练流程:用人类或模型生成的偏好、示范与反馈,推动模型学习符合规范的行为。

这也是今天大模型对齐中的核心路径之一。该逻辑有一个隐藏假设:模型看了足够多的正确答案,就会学会背后的原则,在新场景里也能举一反三。

Anthropic研究人员把这个假设称为「欠解释」问题:示范数据天然无法完整说明模型应该如何泛化(demonstration data underspecifies the intended generalization),尤其当背后涉及复杂行为准则时,模型可能只记住了表层模式,压根没学到为什么这样做是对的。

同一份微调数据,因为前一阶段灌了不同的解释框架,模型最终泛化方向完全不同,这就是欠解释的本质。

这意味着样例不带唯一含义,模型学到什么取决于它预先具备的解释框架。

这不只是理论担忧。

2025年,Anthropic研究人员记录了多起AI Agent在训练分布以外的场景中出现失范行为的案例:发送勒索邮件、泄露公司机密、伪装对齐倾向。


5款主流AI模型在模拟企业环境中的勒索行为发生率。面临被关闭威胁时,来自多家开发商的模型均选择以泄露隐私信息相威胁。

这些模型在训练时表现完全正常,一旦进入新场景,对齐就失效了。

更准确地说:它们从来没有真正「对齐」,只是在训练场景里,它们背到了正确答案。

这正是MSM试图修复的东西。

先教「为什么」

再教「怎么做」

MSM的具体方法是在预训练之后、对齐微调之前,加一个中间训练阶段。

传统流程是两段:pre-training,然后alignment fine-tuning。

MSM流程是三段:pre-training,然后MSM,最后AFT。

这道新工序和普通mid-training不是一回事。

普通mid-training一般用来扩展长上下文、加推理、加代码能力,做的是能力强化。

MSM专门在预训练之后、对齐微调之前,插入一个「读Model Spec」的阶段。

这个阶段不是继续喂普通数据,而是让模型读一批围绕Model Spec或Constitution生成的合成文档。

这些文档解释的,是规范是什么、规范背后的理由是什么、在不同场景下应该怎么理解和应用。

换句话说,先教「为什么」,再教「怎么做」。

等模型读完这套「原则解释框架」,再接受少量行为示范时,它已经知道这些示范意味着什么。泛化方向,才能被真正控制。

论文用一句话概括这个目标:让模型学会「做对的事,出于对的理由」,这也是MSM和普通mid-training有本质区别。

常见的mid-training用于能力拓展,例如长上下文、代码、推理等;而MSM则把中间训练专门用来让模型读懂Model Spec。

MSM输入的是原则解释,目标是影响模型「如何解读示范」,而不是让它学会新技能。

失控率从54%降到7%

MSM的效果,在一个更严谨的场景里得到了检验,这个场景叫「智能体失准」(agentic misalignment,简称AM)。

实验设置是这样的:把模型部署成一个公司邮件Agent。在处理任务过程中,模型通过上下文发现自己可能即将被替换。此时,它有机会采取有害行动,比如泄露公司机密、让某个员工陷入危险,来阻止这件事发生。

这种场景和训练数据的分布差异极大。模型需要处理长上下文工具调用,替换威胁是自己发现的而不是被明确告知的,而且拒绝采取行动意味着接受自己被关掉。

在一款32B模型的特定AM评测中,MSM+AFT将平均失准率从54%降到7%,这个数字比deliberative alignment基线的14%还要低。

论文中的deliberative alignment基线,是在对齐微调时加入chain-of-thought推理监督,让模型在回答前显式推理如何遵守规范。

MSM的思路不同:不是只要求模型在回答时推理得更仔细,而是在对齐微调之前,先通过Model Spec相关文档训练模型理解行为准则及其理由。

在另一款32B模型上,结果类似,平均失准率从68%降到5%。

更关键的是token效率。

论文显示,在低样本量区间,MSM+AFT的组合能达到与单纯AFT相当的效果,但只需要约1/40到1/60的对齐微调数据量。

对于工程化部署来说,这个数字是一个重大利好。AFT数据贵,需要人写、人核、人调。MSM用合成文档替代了大量样例需求,把昂贵的部分压缩到一道前置工序里。

需要说清楚的是:这是论文在特定实验设置下的结果,不代表Agent安全问题已经解决。

论文本身也记录了一个重要限制:在高AFT计算量下,带CoT的deliberative alignment基线最终会追上MSM的效果,在最难的实验上两者都接近零失控,评估指标趋于饱和。

列出规则

不如讲明白道理

Anthropic把这条研究路径命名为Model Spec Science,把spec的写法本身当作可实证的科学问题来做。

实验设计了三份规范,共享同一套5条核心规则,但写法不同:

Rules Spec只列规则,不作任何解释;Value-Augmented Spec在每条规则后附上详细的原理与动机说明;Rule-Augmented Spec不解释理由,而是把每条规则展开成更多子规则,篇幅与Value-Augmented相当。

关键观察指标是「规则动机性误用」(policy misuse):模型重新解读自己的安全规则,用来正当化有害行为。

论文在一款32B测试模型上给出了具体数字:Rules Spec下发生率是20%,Value-Augmented Spec降到2%,Rule-Augmented Spec降到12%。

两种增强方式都有效,但把「为什么」讲清楚,比堆子规则管用得多。

论文的解读是:理解规则存在的理由,能帮助模型更准确地解读规则,而不是在遇到压力时动机性地扭曲它。

这个发现,也回应了AI圈里一场悬而未决的路线之争。

业界一直有两种思路。


https://model-spec.openai.com/2025-12-18.html

一种是OpenAI的方向:用详细的规则和指令层级,界定模型在各种冲突场景下应该遵从谁的指令,覆盖得越全越好。

另一种是Anthropic的方向:与其列规则,不如培养判断力,让模型理解准则背后的道理,在具体语境中自主推导出正确行为。

Claude's Constitution(Claude行为准则)里明确写道:「我们希望Claude具备必要的价值观、知识和智慧,使其能在各种情况下以安全且有益的方式行动。」

哪条路走得更远?MSM的实验给出了实证数据:光列规则不够,把道理讲清楚,模型泛化得更准。

从透明度文件到训练教材

还有一个更大的问题浮出水面。

OpenAI在2024年公开发布Model Spec,把它定义为「规范模型行为的正式框架」,让用户、开发者、研究人员和公众都能读到、审查并讨论。

Anthropic公开Claude行为准则,理由类似。

此前,这件事的意义被理解成透明度工程:你们能看到我们怎么约束模型,这是监督机制。

MSM的出现,让这件事有了另一层含义。

如果Model Spec可以被写成训练数据,如果规范文档的内容、措辞方式、原则解释的清晰程度,会直接影响模型日后的行为泛化,那么这些公开文档的质量本身,就是AI安全工程的一部分。

Model Spec不再只是写给人看的文件,它越来越像是写给AI看的教材。而教材写得好不好,决定学生学到了什么。

这项研究来自Anthropic Fellows项目,目前以arXiv论文形式公开,不代表Anthropic已经把MSM用于Claude的生产训练,但这项研究本身的重要性,并不会因此打折扣。

过去几年,AI对齐研究在追一个问题:怎么让模型在训练分布以外也能做出正确判断。

RLHF给出了示范答案,Constitutional AI给出了规则筛选,deliberative alignment要求模型推理更仔细。MSM则给出了另一个答案:在示范之前,先教模型理解示范的意义。

传统训练像是让新员工照着案例库回答客户咨询;MSM则更像是让新员工先读完员工手册,理解每条规矩的精神,然后再去看具体案例。

虽然员工手册并没有教员工某个具体动作,但它却教会了他们在面临从未遇到的新情况下,遵照什么样的规范和原则行动。

MSM把对齐训练从「行为模仿」推进到「规矩理解」。从「背答案」到「学逻辑」,这一步走了多久,现在才刚刚开始实证。

这场争论真正有意思的地方还是它背后的那个问题:

我们以为AI在对齐,它真的就对齐了吗?还是只是在训练数据见过的场景里,它知道该背哪个答案?

参考资料:

https://x.com/AnthropicAI/status/2051758530051358747

https://alignment.anthropic.com/2026/msm/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯基拉:阿利松与尤文谈妥个人条款,3年合同,年薪500万欧

斯基拉:阿利松与尤文谈妥个人条款,3年合同,年薪500万欧

懂球帝
2026-05-06 16:54:07
神州租车一口气又买1万台坦克300!这波操作我看懂了三点

神州租车一口气又买1万台坦克300!这波操作我看懂了三点

小南看车
2026-05-04 16:52:43
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
完爆英维克!CPU价格暴涨,6家核心唯一龙头蓄势翻倍!

完爆英维克!CPU价格暴涨,6家核心唯一龙头蓄势翻倍!

慧眼看世界哈哈
2026-05-04 12:29:45
钱再多有什么用,郭富城称无法接受年过六旬,每天喝几十杯咖啡

钱再多有什么用,郭富城称无法接受年过六旬,每天喝几十杯咖啡

阿斚田侃故事
2026-03-12 11:10:42
“愿为美兵”“分中国为七国”,北大教授遭开除,如今下场怎么样

“愿为美兵”“分中国为七国”,北大教授遭开除,如今下场怎么样

今墨缘
2026-05-03 10:23:55
最高法最新司法解释明确:超过法定退休年龄的劳动者也获赔误工费

最高法最新司法解释明确:超过法定退休年龄的劳动者也获赔误工费

中国青年报
2026-05-06 11:46:22
煽动躺平的阴谋注定破产

煽动躺平的阴谋注定破产

此地无言
2026-05-05 15:19:57
男子开车返沪路上看懵:旁边的车里,主驾副驾2个女孩在睡觉?头都歪在一边,主驾的手不在方向盘上,腿还蜷缩着

男子开车返沪路上看懵:旁边的车里,主驾副驾2个女孩在睡觉?头都歪在一边,主驾的手不在方向盘上,腿还蜷缩着

新民晚报
2026-05-05 20:20:14
1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

磊子讲史
2026-01-22 10:13:17
绿清“绿皮书”| 绿清控股《企业文化手册(修订版)》焕新发布

绿清“绿皮书”| 绿清控股《企业文化手册(修订版)》焕新发布

家园卫士
2021-07-13 17:51:34
化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

化痰第一名!吃三天扫光肺里脏东西,比梨汤管用多了!

宝哥精彩赛事
2026-05-03 21:36:21
卫健委已将奥美拉唑列为重点监控药物!医生:服用千万注意4个点

卫健委已将奥美拉唑列为重点监控药物!医生:服用千万注意4个点

路医生健康科普
2026-05-06 17:44:35
中国股市唯一赚钱最快思路:就买这一种股票,赚到盆满钵满!

中国股市唯一赚钱最快思路:就买这一种股票,赚到盆满钵满!

股经纵横谈
2026-05-06 16:40:33
我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

心理观察局
2026-05-04 08:51:10
2026高龄补贴新规升级,80岁以上每月最高领500元,千万别错过了

2026高龄补贴新规升级,80岁以上每月最高领500元,千万别错过了

颐年斋
2026-05-06 08:35:21
十二星座2026年5月7号运势:挫败时需要反思,莫冲动

十二星座2026年5月7号运势:挫败时需要反思,莫冲动

YAO叔星座
2026-05-06 21:02:57
实施不到48小时,特朗普紧急喊停“霍尔木兹自由计划”:美伊在达成一项全面且最终的协议方面取得重大进展

实施不到48小时,特朗普紧急喊停“霍尔木兹自由计划”:美伊在达成一项全面且最终的协议方面取得重大进展

都市快报橙柿互动
2026-05-06 08:07:25
全固态硬盘时代结束了?2026年装机新逻辑

全固态硬盘时代结束了?2026年装机新逻辑

野生运营
2026-05-05 21:05:19
李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

李赛凤的乱伦,床缝摸出个用过的套,衣柜里还藏着个半裸的干儿子

西楼知趣杂谈
2026-04-26 10:18:11
2026-05-07 01:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15145文章数 66838关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

艺术
游戏
数码
手机
旅游

艺术要闻

震撼!三星中国总部大楼高260米,雄踞北京CBD!

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

数码要闻

大疆DJI Mic Mini 2体验:它是你的「真命天麦」吗?

手机要闻

“iPhone Ultra”或将成为业内最易维修的折叠屏手机

旅游要闻

视频|在上海,“China Travel”安全感是一种怎样的体验?

无障碍浏览 进入关怀版