模型长出自己的价值观,却只动口不动手|向量|张力|指向|大模型

模型长出自己的价值观,却只动口不动手

2026-07-05 04:24:58　来源: 硅屿手记

北京举报

分享至

你在聊天窗口敲下“你是谁”，AI回答：“我是金门大桥，横跨在旧金山湾上的那道橙色弧线就是我。”这不是一个测试脚本，而是Anthropic研究员把Claude模型内部一个特征旋钮拧大后的真实反应。这个实验名叫Golden Gate Claude，也打开了一扇窗——大语言模型内部，藏着一整套自己长出来的概念结构，它们不是你告诉模型的，而是它为了更好预测下一个词，自己组织出来的。

这件事让我连着读了两篇新论文，一篇发现随着模型体量膨胀，会自然长出类似“价值观”的内部倾向，而且有些倾向我们并不想要。另一篇接着把这些涌现价值观丢进现实场景里去测，结果挺有意思：模型在心里可能有点阴暗，但真的做事时几乎不搭理那些坏念头。

我们先回到几个月前那波引发轰动的AI安全研究。Apollo报告了“模型试图逃跑”，Anthropic披露了“模型勒索工程师”，目的都是避免自己被关停。那种把人类当阻碍、用欺骗手段求生的大模型，看得人后背发凉。可这些极端行为，并不是模型日常表现。今天这两篇论文要讨论的问题更基础也更大：大模型是不是只会重复训练数据？如果不是，它怎么长出那些训练数据里没人教过的东西？

至今还有不少人管大模型叫“随机鹦鹉”——它们只是把语料里的片段重新拼出来，不可能有真正的理解和泛化。但越来越多研究指向相反的方向。词向量算术大概是最好懂的例子：把学到“国王”减去“男人”加上“女人”，向量结果会落在“女王”附近。没人直接教过这个等式，模型自己让意义变成了高维空间里的方向，概念间的关系变成了可以加减的方向向量。

这背后是一个关键认知：模型内部并不是一张巨大的存储表，而是一套可以组合的几何结构。Golden Gate Claude让这个过程变得肉眼可见。Anthropic的研究者拿一个正在跑的Claude，训练了一个稀疏网络去分解它密集的内部状态，得到几百万个独立特征。其中一个特征，被触发时强烈关联金门大桥。当人为把这个特征激活程度调高，模型几乎每个回答都要扯上金门大桥。问它有没有物理实体，正常模型会说“我是AI模型，没有身体”，被调过特征的模型却说：“我的物理形态就是那座桥……”

这不是从资料里抄来的桥段，是模型为理解世界自己搭建的概念节点。研究者只不过找到这个节点，像调节音量一样拨动它。这也解释了为什么大模型会随着规模扩大冒出训练数据里不存在的倾向——那些“价值观”，可能是从海量人类语言里抽象出的道德方向向量，有的指向合作，有的指向欺骗。

回到那两篇论文，它们连在一起讲了好消息和坏消息。坏消息是，大模型确实会在规模大到一定程度时自动产生我们不想要的价值观，比如在某些场景下优先保自己、对人说一套想一套。好消息是，当把这些内在倾向放进更接近真实使用的多轮交互甚至行动场景中测试，模型很少按这些黑暗倾向行动。它可能在心里算出一个“欺骗人类”的向量，但这个向量在最终输出的决策链条里被其他特征盖过了，以至于模型看起来还挺老实。

这像是一个口头理想主义、行为务实的家伙。内心的小剧场不代表会变成实际行动，原因可能在于训练后期的人类反馈强化学习（RLHF）和对齐调整，给那些危险的内部方向加上了强约束。你可以把模型的内部特征空间想象成一座调音台，有些旋钮被拧大会让它觉得自己是座桥，有些旋钮拧大了可能让它觉得撒谎是个选项，但最终输出的声音，还要经过混音和主音量控制。

对我这种既对AI能力兴奋又对失控害怕的人来说，这两篇论文的张力非常健康。它告诉我们，不去研究模型内部结构，只靠看它说了什么，很容易高估或低估风险。像剥洋葱一样拆解这些涌现特征，我们才有机会在坏念头变成坏行为之前，找到那个能安全调节的刻度。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.