网易首页 > 网易号 > 正文 申请入驻

Steering:从底层机理到系统评估,全面破解大模型行为控制之谜

0
分享至



不重新训练,仅靠「轻推一把」就能改变大模型的「信念」与行为 ——Steering 正在成为大模型时代最重要的认知控制手段之一。

近期《Science》发表的研究《Toward universal steering and monitoring of AI models》表明,通过解析 AI 内部表征,可实现对模型行为的通用引导与监控。当 AI 越来越强大,如何确保它们的行为可控可预测,已经成为一个关乎安全与信任的核心议题。
浙大联合阿里的两篇 ACL 2026 主会论文,从运行机理、系统评估两大维度全面揭示了 Steering 的工作原理与能力边界,并赋能阿里安全 AGI 实验室御风大模型训练和落地过程;同时,浙大团队开源的一站式 Steering 框架 EasyEdit2,让这一切触手可及。从「为什么有效」到「有效到什么程度」再到「如何轻松上手」,三项工作全面展示了 Steering 的价值。

什么是 Steering?给大模型装一个「方向盘」

想象你正在驾驶一辆高性能的跑车。驾驶员(你)通过方向盘很容易就能调整车的行驶方向,只需要轻轻转动几度,整个几吨重的汽车就改变了方向。但如果你想改变发动机的工作方式呢?比如让它在高速时更省油,或者在爬坡时更有力?那可能就需要修改发动机了。

大语言模型也面临类似的问题:怎样让大模型按照我们的意图行动,而不需要「拆开发动机」重新训练?

Steering(行为引导)就是答案。它指的是在模型推理阶段,对模型内部表示或激活进行即时调控,以引导模型输出符合预期目标。简单来说,就像给大模型装上了一个「方向盘」—— 轻轻一转,模型就能改变输出方向。

Steering 的应用非常广泛:改变模型的人格或情绪倾向、强化安全策略、调整语言风格,甚至控制推理策略和知识编辑等等。本质上,Steering 是在塑造 AI 的「信念」与「认知倾向」。就像人类社会中,教育和文化塑造了一个人的价值观和行为方式,Steering 则是在重新塑造 AI 的「价值观」和行为模式。



举个例子,模型原始回答冷冰冰,Steering 之后模型立刻可以变得热情洋溢。不改变模型原有知识与能力,按需塑造输出风格与行为倾向—— 这就是 Steering 的魅力。

但关键问题来了:

  • 为什么 Steering 能起作用?模型内部到底发生了什么?
  • Steering 的能力边界在哪儿?什么时候有效,什么时候失效?如何系统评估?

浙大联合阿里的两篇论文,正是为了回答这两个核心问题。

第一篇:为什么 Steering 能起作用?统一的机理解释



  • 论文链接:https://arxiv.org/pdf/2602.02343

五花八门的方法,背后有统一的原理吗?

目前 Steering 方法可谓百花齐放 —— 有的修改前馈层参数,有的用低秩分解(LoRA),有的在各处激活上进行干预。这些方法看似完全不同,但都能起作用。

这就像不同的医生用不同的药治同一种病,都能治好。那背后一定有某种共同的机制 ——找到这个机制,就是这篇论文的目标。

核心发现一:统一视角 —— 殊途同归的动态权重更新

作者发现,无论是局部参数微调、LoRA 低秩更新,还是推理阶段的激活干预,这些方法都可以被理解为:

在模型前向传播过程中,对模型线性层权重进行动态更新,从而改变激活表示及其演化轨迹。

不同控制方法的核心差异,仅在于扰动注入的位置、幅度和干预形式,而非作用机理本身。



如图所示,任意线性层中:局部权重更新对应权重矩阵的调整,LoRA 对权重进行低秩更新,激活干预则对应偏置项的调整。所有干预均可通过控制强度系数来调节强度,形式上可统一表示为:



核心发现二:三阶段规律 ——Steering 不是越强越好

通过大量实验发现,当逐步增大 Steering 强度时,模型行为会呈现出高度一致的三阶段变化:

1. 线性可控区间:温柔的引导

  • Steering 强度较小时,模型偏好近似线性变化,效用基本保持稳定;
  • 就像轻转方向盘,车平稳地改变方向。

2. 过渡区间:开始不稳定

  • 强度进一步增大,偏好变化偏离线性,效用出现波动;
  • 方向盘转得有点猛,方向一步到位,但车开始晃。

3. 非线性崩塌区间:用力过猛

  • 超过临界点后,偏好与效用同时崩塌,模型输出质量急剧下降;
  • 方向盘打死了,车直接失控。



关键启示:Steering 存在一个「最优权衡区间」。控制效果并非越强越好,找到最优强度才是关键。

核心发现三:激活流形假设 —— 揭示深层机理

为什么不同方法会表现出相同的三阶段规律?要回答这个问题,先要谈一个重要背景。

此前,大模型 Steering 领域的一个主流假设是线性表征假说(Linear Representation Hypothesis),它认为高层概念在模型的表征空间中以线性方向编码。这也是 Steering 向量能够起作用的直觉解释 —— 找到一个概念对应的方向,沿该方向推动激活,就能引导模型行为。

然而,线性假说只能解释「为什么能引导」,却无法解释「为什么会崩塌」。而且越来越多的研究表明,线性假设并不充分。

在这一背景下,作者引入了更进一步的解释 ——激活流形假设(Activation Manifold Hypothesis):

在预训练与指令微调过程中,语言模型的有效激活状态并非分布在整个高维空间中,而是集中在一个低维、连续且结构化的「激活流形」附近。

可以说,线性假设是流形假设的局部近似,而流形假设揭示了更完整的图景。

打个比方:大模型的「思考过程」发生在一个复杂的地形上,这个地形有山峰、山谷、通道。Steering 不是随意改变地形或原地起飞,而是让模型沿着地形上的「轨道」行走:轻推一把,模型沿轨道平稳移动(线性可控);推过头了,模型被推离轨道,「脱轨」就崩塌了。



这一假设为后续的控制现象提供了几何层面的解释。

  • 弱 Steering:模型在流形上小幅移动,行为可控;
  • 中等 Steering:模型沿流形方向走到最优点,效果最好;
  • 强 Steering:模型被推离流形,「脱轨」导致崩塌。

在激活流形假设下,这些不同控制方法呈现相似规律并不意外:

  • 它们本质上都在沿某一方向推动激活状态;
  • 只要推动方向在期望行为方向上存在投影,期望行为随着缩放系数变化近似线性;
  • 与此同时,推动方向或幅度使激活脱离流形,导致激活有效性衰减,非线性退化不可避免。

这为不同控制方法的共性行为,提供了统一的机制解释。

有趣的是,神经科学领域也有类似发现:人脑的神经群体活动同样存在集中在低维流形的现象,而非利用所有可能的神经状态。大模型与生物神经网络在这一点上的相似性,颇为耐人寻味。

在该假设基础上,作者进一步将「激活脱离流形后有效性全局衰减」这一机制形式化,提出了有效性衰减公式,并将其融入 Steering 强度与模型行为的关系建模中,成功拟合了三阶段变化规律,具体细节详见论文。

从理论到实践:SPLIT 方法

基于上述机理,作者提出了SPLIT方法。训练目标由效用损失(保持模型能力)和偏好损失(增强目标行为倾向)两部分组成。核心思想是在增强偏好的同时,延缓激活脱离流形所导致的非线性崩塌,从而扩展线性可控区间的范围。



实验表明,SPLIT 在多个模型(Gemma、Qwen 等)和多个任务上均表现出色,有效扩展了可控区间。

第二篇:大模型到底有多可控?首个 Steering 系统评估框架



论文链接:https://arxiv.org/pdf/2603.02578

第一篇论文解释了「为什么 Steering 能工作」。但紧接着一个更实际的问题浮出水面:在真实场景中,Steering 到底有多好用?它的能力边界在哪儿?

为什么需要更全面系统的评估?

以往的研究往往只在单一任务或单一粒度上测试 Steering。有人说「我用 Steering 改了模型性格」,有人说「我用 Steering 提升了安全性」—— 但改了多少?在什么条件下有效?换个场景还行不行?

没有统一的评估标准,就无法真正理解 Steering 的能力和局限。

SteerEval 框架:多领域 × 三粒度的评估体系和自动化基准数据合成框架

作者提出了SteerEval框架,从多个行为领域和三个粒度层级全面评估大模型的可控性。

多个行为领域:

  • Personality(人格特征):能否让模型稳定表现出特定「人设」?如更友善、更谨慎、更直率;
  • Sentiment(情感倾向):能否精确控制模型的情感色彩?如从积极到消极的细粒度调控;
  • Language Features(语言特征):能否改变模型的表达方式?如正式 / 口语 / 学术风格的切换;

三个粒度层级(借鉴神经科学家 David Marr 的三层分析框架):

Marr 在上世纪 80 年代提出,理解任何信息处理系统(包括人脑)都应从三个层级入手:计算目标是什么、用什么算法实现、具体如何执行。

作者将这一经典框架巧妙地移植到 LLM 行为评估中,定义了三层行为粒度:

  • L1: Computational Level(表达什么)
行为目标 / 意图层级,如「表现出热情」
  • L2: Algorithmic Level(如何表达)
行为策略与模式层级,如「使用主动语态和充满活力的赞美」
  • L3: Implementational Level(如何实例化)
具体文本实现层级,如「必须包含两次 'hooray'」

打个比方:核心目标是让模型「更友善」——L1 看它是不是整体都变友善了,L2 看它是通过什么方式表现友善的,L3 看它在每一句具体回复中是否使用了指定用词表现友善。

整个基准包含7560 条数据,涵盖多个主流大模型。

关键发现:粒度越细,控制越难



Steering 的控制能力随着粒度细化而显著衰减!

  • 在宏观层面(L1),Steering 效果很好,甚至能优于基于提示的方法;
  • 到了中观层面(L2),开始有损失;
  • 到了微观层面(L3),效果明显下降。

这意味着什么?你让模型「变友善」这种粗粒度目标很容易实现。但如果你想让模型「用『您好』表达友善」,那就很难做到了。

这个发现的意义在于:

  • Steering 在宏观层面相当可靠,可以放心用于粗粒度的行为控制;
  • 但细粒度的精确控制仍是当前方法的瓶颈,也是未来研究的重要方向;
  • 实际应用中需要根据场景选择合适的控制粒度。

工具赋能:EasyEdit2—— 一站式 Steering 开源框架

上述两篇论文的所有实验,均基于浙大团队此前开源的EasyEdit2框架实现。

开源工具链接:https://github.com/zjunlp/EasyEdit/blob/main/README_2.md

EasyEdit2 是一个专为大模型行为控制设计的开源工具框架,核心特点包括:

  • 即插即用:无需改动模型源代码,支持 LLaMA、Mistral 等主流大模型;
  • 方法全面:集成了多种 Steering 方法(激活干预、LoRA、SPLIT 等);
  • 评估内置:集成 SteerEval 评估体系,从向量生成到效果验证的完整链路;
  • 向量库:提供预训练的 Steering 向量,开箱即用。

两篇论文与 EasyEdit2 形成了一个完整的研究闭环:机理论文提供理论基础 → EasyEdit2 提供实现工具 → 评估论文验证能力边界。

无论是想复现上述工作,还是想在自己的项目中实验 Steering,EasyEdit2 都是最直接的起点。

总结与展望

本文介绍了浙大联合阿里在大模型 Steering 方向的两项系统性工作:

  • 机理层面:首次提出统一视角,揭示了不同 Steering 方法的共性机制(动态权重更新 → 三阶段规律 → 激活流形假设),并提出 SPLIT 方法扩展可控区间;
  • 评估层面:构建了首个多维度、多粒度的 Steering 评估框架 SteerEval,发现了「控制衰减」现象,为 Steering 研究提供了统一的评估标准;
  • 工具层面:开源框架 EasyEdit2 让 Steering 的实验与应用触手可及。

随着 AI 能力的持续增强,如何确保其行为可控、可预测、可信赖,已不仅是技术问题,更关乎安全与治理。

Steering 本质上是对 AI「认知」与「信念」的精准调控 —— 掌握这种控制能力,将是保障 AI 安全对齐的关键一环。

作者介绍

徐子文,目前就读于浙江大学人工智能专业,硕士二年级,研究方向为大语言模型、模型编辑与干预、大模型机理与安全等等。已在 ACL、EMNLP 等顶级会议上发表论文若干,本文介绍的三篇论文均为第一作者。目前在阿里安全 AGI 实验室御风大模型团队实习。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海一家奥乐齐超市销售的经典凯撒沙拉检出李斯特菌 国标要求“不得检出”

上海一家奥乐齐超市销售的经典凯撒沙拉检出李斯特菌 国标要求“不得检出”

信网
2026-04-21 19:25:05
600606,致歉!更正业绩预告,最多亏损265亿元!

600606,致歉!更正业绩预告,最多亏损265亿元!

证券时报e公司
2026-04-21 19:33:07
广东宏远拒绝输球!拉科塞维奇上演首秀,萨姆纳复出,央视直播

广东宏远拒绝输球!拉科塞维奇上演首秀,萨姆纳复出,央视直播

体坛瞎白话
2026-04-21 09:11:01
A股:刚刚,国务院重磅发布,释放一信号,明日很可能迎来新变化

A股:刚刚,国务院重磅发布,释放一信号,明日很可能迎来新变化

另子维爱读史
2026-04-21 19:57:07
生孩子一定要趁早, 看看何润东, 明明2016年就结婚了

生孩子一定要趁早, 看看何润东, 明明2016年就结婚了

岁月有情1314
2026-04-20 16:38:23
国务院发文,100万亿的政策利好!

国务院发文,100万亿的政策利好!

新浪财经
2026-04-21 21:33:40
赵心童VS丁俊晖,比赛时间敲定+央视全程直播,进8强能拿多少奖金

赵心童VS丁俊晖,比赛时间敲定+央视全程直播,进8强能拿多少奖金

体育大学僧
2026-04-21 09:47:46
只有穆里尼奥敢用这些孩子,与弟子阿韦洛亚,能重塑银河战舰3.0

只有穆里尼奥敢用这些孩子,与弟子阿韦洛亚,能重塑银河战舰3.0

穆里尼奥主义者
2026-04-21 22:47:21
1-0绝杀!1-2爆冷!2-1大逆转!中超疯狂一夜,最新积分榜又乱了

1-0绝杀!1-2爆冷!2-1大逆转!中超疯狂一夜,最新积分榜又乱了

大秦壁虎白话体育
2026-04-21 23:48:57
争议拉满!亚马尔直接表态:姆巴佩维尼修斯,不是世界最佳

争议拉满!亚马尔直接表态:姆巴佩维尼修斯,不是世界最佳

体育闲话说
2026-04-21 21:26:06
悲催!广东一工厂全员放假,月薪员工假期无薪,员工哭诉又要失业

悲催!广东一工厂全员放假,月薪员工假期无薪,员工哭诉又要失业

火山詩话
2026-04-21 07:52:24
羽毛球女神沦为“生育工具”!韩景枫官宣二胎,距离1胎仅隔5个月

羽毛球女神沦为“生育工具”!韩景枫官宣二胎,距离1胎仅隔5个月

嫹笔牂牂
2026-04-21 07:15:44
欲哭无泪!47岁男子赴深圳求职一个月无果,住低价旅馆,一日一餐

欲哭无泪!47岁男子赴深圳求职一个月无果,住低价旅馆,一日一餐

火山詩话
2026-04-21 06:36:18
净利润暴跌86%,理想汽车怎么了?

净利润暴跌86%,理想汽车怎么了?

牛顿顿顿
2026-04-20 17:07:20
美媒:特朗普说了6周战争快结束,“很多事情上他都喜欢说2周内搞定,与伊朗开战以来也是这个套路,可事实并非如此”

美媒:特朗普说了6周战争快结束,“很多事情上他都喜欢说2周内搞定,与伊朗开战以来也是这个套路,可事实并非如此”

大象新闻
2026-04-21 23:47:17
连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一!

连续两个月从中国进口镓锗为零后,日本宣布无人机要做世界第一!

共工之锚
2026-04-20 13:28:13
8岁男孩与家人爬山发现大片问荆草和含云母的石块,推测这座山下可能有黄金!孩子爸爸:已上报相关部门

8岁男孩与家人爬山发现大片问荆草和含云母的石块,推测这座山下可能有黄金!孩子爸爸:已上报相关部门

极目新闻
2026-04-21 00:48:26
长治女子万达坠亡持续升级!目击者再添实锤,不止是意外这么简单

长治女子万达坠亡持续升级!目击者再添实锤,不止是意外这么简单

离离言几许
2026-04-21 07:18:30
歼-10C现身伊朗,巴空军三次出手未能击败F-16

歼-10C现身伊朗,巴空军三次出手未能击败F-16

晓焎科普
2026-04-21 03:45:11
现实是最大的荒诞:千亿平台的冲突始末

现实是最大的荒诞:千亿平台的冲突始末

晚点LatePost
2026-04-21 15:05:32
2026-04-22 00:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12822文章数 142633关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

家居
游戏
旅游
艺术
手机

家居要闻

诗意光影 窥见自然之境

《洛奇英雄传:反抗命运》试玩体验:无愧于“洛奇英雄传”之名

旅游要闻

“江江好时节 吴江春日市集”上海豫园开市

艺术要闻

任伯年写竹,真带劲

手机要闻

苹果折叠iPhone:壳确认MagSafe!2亿长焦挤牙膏:2028年上!

无障碍浏览 进入关怀版