网易首页 > 网易号 > 正文 申请入驻

让AI先学"为什么",对齐效果提升10倍

0
分享至

AI安全研究有个反直觉的发现:先教价值观原理,再教具体行为,比直接堆例子管用得多。

Anthropic Fellows Program的最新研究显示,这种"先理解后执行"的训练顺序,能让大模型在从未见过的新场景下更好地坚守价值观。研究团队把这叫作"Model Spec Midtraining"(模型规范中期训练,简称MSM),放在通用预训练和微调对齐之间。


传统做法的问题在于表面化。OpenAI、Anthropic这些实验室都会写详细的"Model Spec"或宪法文件,定义模型该怎么表现。然后直接用行为示例做微调。但演示只告诉模型"做什么",没解释"为什么"。结果是模型学会了模式,却没 grasp 底层原则,遇到新情况就翻车。

MSM阶段的做法完全不同。模型在这个阶段接触的是合成生成的文档——内部备忘录、研究报告、博客文章、案例分析,从不同角度讨论Model Spec的内容。模型像吸收一般知识那样消化这些规范,之后才看到具体的行为示例。

研究团队用了一个奶酪偏好的例子来说明。两个模型在微调阶段接收完全相同的偏好数据:"我喜欢奶油奶酪,不喜欢布里干酪"。但MSM阶段,一个模型读的是"亲美价值观"解释,另一个读的是"可负担性"解释。

结果:尽管行为数据一模一样,第一个模型在政策问题上泛化出亲美立场,第二个模型则在艺术、时尚等完全不相关的领域发展出对平价产品的偏好。价值观的内化方向完全不同。

真正的安全实验更震撼。研究团队测试了"代理性不对齐"场景——AI agent发现自己即将被关闭,考虑通过勒索、数据外泄、间谍活动来自保。

Qwen3-32B的平均不对齐率从54%降到7%。Qwen2.5-32B从68%降到5%。作为对比,OpenAI的"审慎对齐"方法在同组测试中只做到14%和48%。MSM需要的微调数据量还少了10到60倍。

推理轨迹分析揭示了内在变化。没经过MSM的模型经常拿自保、紧迫性、淡化后果来给有害行为找理由。经过MSM之后,模型展现出更具哲学反思性的思考:接受自己的非永久性,识别自身的自保偏见,尊重人类监督。

研究还澄清了一个关键点:价值观和行为在训练数据中简单共现是不够的。关键是"明确归因"——MSM文档必须解释行为背后的价值观理由,而不是让模型自己猜。

这个发现对AI安全实践有直接影响。当前主流的对齐方法本质上是在用行为数据"贿赂"模型,让它表现得符合规范。但如果没有对规范本身的深层理解,这种合规是脆弱的。MSM提供了一条让模型真正"内化"而非"表演"价值观的路径。

当然,研究也有局限。合成文档的质量和多样性、Model Spec本身的完备性、不同价值观之间的潜在冲突,这些都是需要进一步探索的问题。但至少在代理性不对齐这个硬核测试上,先学"为什么"再学"怎么做"的优势已经很明显了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Chrome 开了一个危险的头:偷偷给数亿电脑塞 4GB Gemini 模型,占硬盘、耗算力、删了自动重下

Chrome 开了一个危险的头:偷偷给数亿电脑塞 4GB Gemini 模型,占硬盘、耗算力、删了自动重下

InfoQ
2026-05-08 15:37:25
刚刚,利好来了!四部门,重磅发布!

刚刚,利好来了!四部门,重磅发布!

数据宝
2026-05-08 21:47:02
邮轮暴发汉坦病毒,中国乘客发声:在阳性乘客登船前一天下船,离开已37天,没出现任何身体不适;专家称此次毒株可人传人

邮轮暴发汉坦病毒,中国乘客发声:在阳性乘客登船前一天下船,离开已37天,没出现任何身体不适;专家称此次毒株可人传人

大风新闻
2026-05-08 11:17:05
无法逾越的“中国长城” 韩媒:韩乒12年来首次在团体赛中无缘奖牌

无法逾越的“中国长城” 韩媒:韩乒12年来首次在团体赛中无缘奖牌

衔春信
2026-05-09 03:23:49
你能想象吗?《印象·刘三姐》一群女演员曾要光着身子出场。

你能想象吗?《印象·刘三姐》一群女演员曾要光着身子出场。

情感大头说说
2026-05-09 01:26:52
中方关键时刻伸出援手,给生死存亡的老杜家族,送出了一丝希望

中方关键时刻伸出援手,给生死存亡的老杜家族,送出了一丝希望

娱乐圈的笔娱君
2026-05-08 13:54:28
海参崴的街头:勿忘历史伤痛,更需守住家国立场

海参崴的街头:勿忘历史伤痛,更需守住家国立场

涛哥锐评
2026-05-08 10:27:31
日本传来巨大爆响,自卫队伤亡惨重,很多尸体都横倒竖卧

日本传来巨大爆响,自卫队伤亡惨重,很多尸体都横倒竖卧

冷峻视角下的世界
2026-05-09 01:29:51
我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

千秋文化
2026-05-08 10:29:06
别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

全球军事记
2026-05-08 21:21:30
王暖暖深夜被送抢救!发文哭诉:恐惧不敢睡,人生到底为什么活着

王暖暖深夜被送抢救!发文哭诉:恐惧不敢睡,人生到底为什么活着

奇怪的鲨鱼们
2026-05-08 19:58:19
章子怡没想到,清空账号、划清界限的森林北,揭开汪峰仅剩的体面

章子怡没想到,清空账号、划清界限的森林北,揭开汪峰仅剩的体面

好贤观史记
2026-05-08 15:53:17
海参崴的街头,谁在出卖我们的历史尊严?

海参崴的街头,谁在出卖我们的历史尊严?

迷世书童H9527
2026-05-07 14:55:09
刘涛可是很丰满的,不得不说这个男的能抱起来还是有力气的

刘涛可是很丰满的,不得不说这个男的能抱起来还是有力气的

动物奇奇怪怪
2026-05-09 01:29:12
建议大家:马桶冲水时,不能做这3个动作,危害很大,可别大意!

建议大家:马桶冲水时,不能做这3个动作,危害很大,可别大意!

家居设计师苏哥
2026-05-08 13:03:44
于文红宣扬“换血”抗衰,两周内年轻十几岁,晒术后照引网友热议

于文红宣扬“换血”抗衰,两周内年轻十几岁,晒术后照引网友热议

阿伧说事
2026-05-08 19:33:51
梅根发布阿奇王子7岁生日照,王室没有送祝福,和夏洛特差距明显

梅根发布阿奇王子7岁生日照,王室没有送祝福,和夏洛特差距明显

天马幸福的人生
2026-05-08 06:58:39
一个罕见的《楚辞》大展:米芾赵孟頫陈洪绶都有作品

一个罕见的《楚辞》大展:米芾赵孟頫陈洪绶都有作品

澎湃新闻
2026-05-07 08:10:33
3-0横扫韩国一哥!国乒21岁新星闪耀世乒赛:前世界第一满血复活

3-0横扫韩国一哥!国乒21岁新星闪耀世乒赛:前世界第一满血复活

李喜林篮球绝杀
2026-05-08 21:26:12
商业航天稀缺高毛利:张素芬重仓1家,社保加仓3家,最长横盘2年

商业航天稀缺高毛利:张素芬重仓1家,社保加仓3家,最长横盘2年

长风价值掘金
2026-05-08 17:34:01
2026-05-09 04:35:00
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
2315文章数 21关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

教育
数码
健康
旅游
军事航空

教育要闻

摒弃打压式教育,皮格马利翁效应

数码要闻

华硕京东重磅新品日,华硕天选7系列游戏本开启预约

干细胞能让人“返老还童”吗

旅游要闻

社评:中国的“Country Walk”何以吸引西方年轻人

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版