Steering：从底层机理到系统评估，全面破解大模型行为控制之谜|原理|实验|神经网络

分享至

不重新训练，仅靠「轻推一把」就能改变大模型的「信念」与行为 ——Steering 正在成为大模型时代最重要的认知控制手段之一。

近期《Science》发表的研究《Toward universal steering and monitoring of AI models》表明，通过解析 AI 内部表征，可实现对模型行为的通用引导与监控。当 AI 越来越强大，如何确保它们的行为可控可预测，已经成为一个关乎安全与信任的核心议题。
浙大联合阿里的两篇 ACL 2026 主会论文，从运行机理、系统评估两大维度全面揭示了 Steering 的工作原理与能力边界，并赋能阿里安全 AGI 实验室御风大模型训练和落地过程；同时，浙大团队开源的一站式 Steering 框架 EasyEdit2，让这一切触手可及。从「为什么有效」到「有效到什么程度」再到「如何轻松上手」，三项工作全面展示了 Steering 的价值。

什么是 Steering？给大模型装一个「方向盘」

想象你正在驾驶一辆高性能的跑车。驾驶员（你）通过方向盘很容易就能调整车的行驶方向，只需要轻轻转动几度，整个几吨重的汽车就改变了方向。但如果你想改变发动机的工作方式呢？比如让它在高速时更省油，或者在爬坡时更有力？那可能就需要修改发动机了。

大语言模型也面临类似的问题：怎样让大模型按照我们的意图行动，而不需要「拆开发动机」重新训练？

Steering（行为引导）就是答案。它指的是在模型推理阶段，对模型内部表示或激活进行即时调控，以引导模型输出符合预期目标。简单来说，就像给大模型装上了一个「方向盘」—— 轻轻一转，模型就能改变输出方向。

Steering 的应用非常广泛：改变模型的人格或情绪倾向、强化安全策略、调整语言风格，甚至控制推理策略和知识编辑等等。本质上，Steering 是在塑造 AI 的「信念」与「认知倾向」。就像人类社会中，教育和文化塑造了一个人的价值观和行为方式，Steering 则是在重新塑造 AI 的「价值观」和行为模式。

举个例子，模型原始回答冷冰冰，Steering 之后模型立刻可以变得热情洋溢。不改变模型原有知识与能力，按需塑造输出风格与行为倾向—— 这就是 Steering 的魅力。

但关键问题来了：

为什么 Steering 能起作用？模型内部到底发生了什么？
Steering 的能力边界在哪儿？什么时候有效，什么时候失效？如何系统评估？

浙大联合阿里的两篇论文，正是为了回答这两个核心问题。

第一篇：为什么 Steering 能起作用？统一的机理解释

论文链接：https://arxiv.org/pdf/2602.02343

五花八门的方法，背后有统一的原理吗？

目前 Steering 方法可谓百花齐放 —— 有的修改前馈层参数，有的用低秩分解（LoRA），有的在各处激活上进行干预。这些方法看似完全不同，但都能起作用。

这就像不同的医生用不同的药治同一种病，都能治好。那背后一定有某种共同的机制 ——找到这个机制，就是这篇论文的目标。

核心发现一：统一视角 —— 殊途同归的动态权重更新

作者发现，无论是局部参数微调、LoRA 低秩更新，还是推理阶段的激活干预，这些方法都可以被理解为：

在模型前向传播过程中，对模型线性层权重进行动态更新，从而改变激活表示及其演化轨迹。

不同控制方法的核心差异，仅在于扰动注入的位置、幅度和干预形式，而非作用机理本身。

如图所示，任意线性层中：局部权重更新对应权重矩阵的调整，LoRA 对权重进行低秩更新，激活干预则对应偏置项的调整。所有干预均可通过控制强度系数来调节强度，形式上可统一表示为：

核心发现二：三阶段规律 ——Steering 不是越强越好

通过大量实验发现，当逐步增大 Steering 强度时，模型行为会呈现出高度一致的三阶段变化：

1. 线性可控区间：温柔的引导

Steering 强度较小时，模型偏好近似线性变化，效用基本保持稳定；
就像轻转方向盘，车平稳地改变方向。

2. 过渡区间：开始不稳定

强度进一步增大，偏好变化偏离线性，效用出现波动；
方向盘转得有点猛，方向一步到位，但车开始晃。

3. 非线性崩塌区间：用力过猛

超过临界点后，偏好与效用同时崩塌，模型输出质量急剧下降；
方向盘打死了，车直接失控。

关键启示：Steering 存在一个「最优权衡区间」。控制效果并非越强越好，找到最优强度才是关键。

核心发现三：激活流形假设 —— 揭示深层机理

为什么不同方法会表现出相同的三阶段规律？要回答这个问题，先要谈一个重要背景。

此前，大模型 Steering 领域的一个主流假设是线性表征假说（Linear Representation Hypothesis），它认为高层概念在模型的表征空间中以线性方向编码。这也是 Steering 向量能够起作用的直觉解释 —— 找到一个概念对应的方向，沿该方向推动激活，就能引导模型行为。

然而，线性假说只能解释「为什么能引导」，却无法解释「为什么会崩塌」。而且越来越多的研究表明，线性假设并不充分。

在这一背景下，作者引入了更进一步的解释 ——激活流形假设（Activation Manifold Hypothesis）：

在预训练与指令微调过程中，语言模型的有效激活状态并非分布在整个高维空间中，而是集中在一个低维、连续且结构化的「激活流形」附近。

可以说，线性假设是流形假设的局部近似，而流形假设揭示了更完整的图景。

打个比方：大模型的「思考过程」发生在一个复杂的地形上，这个地形有山峰、山谷、通道。Steering 不是随意改变地形或原地起飞，而是让模型沿着地形上的「轨道」行走：轻推一把，模型沿轨道平稳移动（线性可控）；推过头了，模型被推离轨道，「脱轨」就崩塌了。

这一假设为后续的控制现象提供了几何层面的解释。

弱 Steering：模型在流形上小幅移动，行为可控；
中等 Steering：模型沿流形方向走到最优点，效果最好；
强 Steering：模型被推离流形，「脱轨」导致崩塌。

在激活流形假设下，这些不同控制方法呈现相似规律并不意外：

它们本质上都在沿某一方向推动激活状态；
只要推动方向在期望行为方向上存在投影，期望行为随着缩放系数变化近似线性；
与此同时，推动方向或幅度使激活脱离流形，导致激活有效性衰减，非线性退化不可避免。

这为不同控制方法的共性行为，提供了统一的机制解释。

有趣的是，神经科学领域也有类似发现：人脑的神经群体活动同样存在集中在低维流形的现象，而非利用所有可能的神经状态。大模型与生物神经网络在这一点上的相似性，颇为耐人寻味。

在该假设基础上，作者进一步将「激活脱离流形后有效性全局衰减」这一机制形式化，提出了有效性衰减公式，并将其融入 Steering 强度与模型行为的关系建模中，成功拟合了三阶段变化规律，具体细节详见论文。

从理论到实践：SPLIT 方法

基于上述机理，作者提出了SPLIT方法。训练目标由效用损失（保持模型能力）和偏好损失（增强目标行为倾向）两部分组成。核心思想是在增强偏好的同时，延缓激活脱离流形所导致的非线性崩塌，从而扩展线性可控区间的范围。

实验表明，SPLIT 在多个模型（Gemma、Qwen 等）和多个任务上均表现出色，有效扩展了可控区间。

第二篇：大模型到底有多可控？首个 Steering 系统评估框架

论文链接：https://arxiv.org/pdf/2603.02578

第一篇论文解释了「为什么 Steering 能工作」。但紧接着一个更实际的问题浮出水面：在真实场景中，Steering 到底有多好用？它的能力边界在哪儿？

为什么需要更全面系统的评估？

以往的研究往往只在单一任务或单一粒度上测试 Steering。有人说「我用 Steering 改了模型性格」，有人说「我用 Steering 提升了安全性」—— 但改了多少？在什么条件下有效？换个场景还行不行？

没有统一的评估标准，就无法真正理解 Steering 的能力和局限。

SteerEval 框架：多领域 × 三粒度的评估体系和自动化基准数据合成框架

作者提出了SteerEval框架，从多个行为领域和三个粒度层级全面评估大模型的可控性。

多个行为领域：

Personality（人格特征）：能否让模型稳定表现出特定「人设」？如更友善、更谨慎、更直率；
Sentiment（情感倾向）：能否精确控制模型的情感色彩？如从积极到消极的细粒度调控；
Language Features（语言特征）：能否改变模型的表达方式？如正式 / 口语 / 学术风格的切换；

三个粒度层级（借鉴神经科学家 David Marr 的三层分析框架）：

Marr 在上世纪 80 年代提出，理解任何信息处理系统（包括人脑）都应从三个层级入手：计算目标是什么、用什么算法实现、具体如何执行。

作者将这一经典框架巧妙地移植到 LLM 行为评估中，定义了三层行为粒度：

L1: Computational Level（表达什么）

行为目标 / 意图层级，如「表现出热情」

L2: Algorithmic Level（如何表达）

行为策略与模式层级，如「使用主动语态和充满活力的赞美」

L3: Implementational Level（如何实例化）

具体文本实现层级，如「必须包含两次 'hooray'」

打个比方：核心目标是让模型「更友善」——L1 看它是不是整体都变友善了，L2 看它是通过什么方式表现友善的，L3 看它在每一句具体回复中是否使用了指定用词表现友善。

整个基准包含7560 条数据，涵盖多个主流大模型。

关键发现：粒度越细，控制越难

Steering 的控制能力随着粒度细化而显著衰减！

在宏观层面（L1），Steering 效果很好，甚至能优于基于提示的方法；
到了中观层面（L2），开始有损失；
到了微观层面（L3），效果明显下降。

这意味着什么？你让模型「变友善」这种粗粒度目标很容易实现。但如果你想让模型「用『您好』表达友善」，那就很难做到了。

这个发现的意义在于：

Steering 在宏观层面相当可靠，可以放心用于粗粒度的行为控制；
但细粒度的精确控制仍是当前方法的瓶颈，也是未来研究的重要方向；
实际应用中需要根据场景选择合适的控制粒度。

工具赋能：EasyEdit2—— 一站式 Steering 开源框架

上述两篇论文的所有实验，均基于浙大团队此前开源的EasyEdit2框架实现。

开源工具链接：https://github.com/zjunlp/EasyEdit/blob/main/README_2.md

EasyEdit2 是一个专为大模型行为控制设计的开源工具框架，核心特点包括：

即插即用：无需改动模型源代码，支持 LLaMA、Mistral 等主流大模型；
方法全面：集成了多种 Steering 方法（激活干预、LoRA、SPLIT 等）；
评估内置：集成 SteerEval 评估体系，从向量生成到效果验证的完整链路；
向量库：提供预训练的 Steering 向量，开箱即用。

两篇论文与 EasyEdit2 形成了一个完整的研究闭环：机理论文提供理论基础 → EasyEdit2 提供实现工具 → 评估论文验证能力边界。

无论是想复现上述工作，还是想在自己的项目中实验 Steering，EasyEdit2 都是最直接的起点。

总结与展望

本文介绍了浙大联合阿里在大模型 Steering 方向的两项系统性工作：

机理层面：首次提出统一视角，揭示了不同 Steering 方法的共性机制（动态权重更新 → 三阶段规律 → 激活流形假设），并提出 SPLIT 方法扩展可控区间；
评估层面：构建了首个多维度、多粒度的 Steering 评估框架 SteerEval，发现了「控制衰减」现象，为 Steering 研究提供了统一的评估标准；
工具层面：开源框架 EasyEdit2 让 Steering 的实验与应用触手可及。

随着 AI 能力的持续增强，如何确保其行为可控、可预测、可信赖，已不仅是技术问题，更关乎安全与治理。

Steering 本质上是对 AI「认知」与「信念」的精准调控 —— 掌握这种控制能力，将是保障 AI 安全对齐的关键一环。

作者介绍

徐子文，目前就读于浙江大学人工智能专业，硕士二年级，研究方向为大语言模型、模型编辑与干预、大模型机理与安全等等。已在 ACL、EMNLP 等顶级会议上发表论文若干，本文介绍的三篇论文均为第一作者。目前在阿里安全 AGI 实验室御风大模型团队实习。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.