网易首页 > 网易号 > 正文 申请入驻

阿里给 Qwen3.5-27B 开了脑机接口

0
分享至

今天聊点不一样的,阿里这次没发新模型,而是给 Qwen3.5 配了把"手术刀"——Qwen-Scope

第一眼看到这玩意儿我愣了一下,平时大家拼的都是榜单分数、上下文长度、推理速度,阿里突然冒出来一个可解释性工具,专门用来扒大模型脑子里到底在想什么

这就有意思了

简介

先说人话,Qwen-Scope 是给 Qwen3 / Qwen3.5 系列做的一组稀疏自编码器(SAE),挂在模型隐藏层上,把那一团乱麻一样的激活向量拆成一堆"高度解耦、低冗余、可解释"的特征


Qwen-Scope 架构总览

打个比方:基础大模型每一层吐出来的隐藏状态,是个 5120 维的稠密向量,你看不懂它在说啥;SAE 等于在中间插了一根探针,把这 5120 维"翻译"成 81920 维稀疏表示,每次只有 50 个特征被激活

被激活的这 50 个特征,每一个都对应一个相对清晰的语义概念,比如"金融文本"、"代码注释"、"道歉语气"之类的人类能看懂的东西

这次发布的这个SAE-Res-Qwen3.5-27B-W80K-L0_50,就是给Qwen3.5-27B这个基础模型量身训练的一套 SAE,覆盖了它全部 64 层

老实说,国内大厂愿意把可解释性工具开源出来的不多,阿里这波算是把家底亮了一截

核心规格一览:

参数

数值

基础模型

Qwen3.5-27B

SAE 宽度d_sae

隐藏维度d_model

5120

扩展倍率

16×

Top-K

50

挂载位置

残差流(Residual Stream)

覆盖层数

0–63 共 64 层

文件格式

PyTorch.pt字典

它能干嘛:

  • 可控推理:找到对应"礼貌"或"代码"的特征,把它的激活值拉高,模型输出立刻就被掰过去了,比 prompt 工程稳得多

  • 评测样本分布分析:拿两组数据过一遍 SAE,比对激活分布,能看出训练集和测试集到底差在哪儿

  • 数据分类与合成:用激活的特征当聚类信号,给海量语料自动打标,比关键词靠谱

  • 模型训练优化:在训练阶段就盯着特征看,提前发现模型学跑偏了

简单说,以前我们调模型靠玄学,现在可以靠显微镜

架构

这是一个TopK SAE,每次前向传播严格只保留 50 个非零特征,干净利落

每个层的 checkpoint 文件layer{n}.sae.pt里就是一个 Pythondict,包含四个张量:

Key

Shape

W_enc(81920, 5120)

编码器权重

W_dec(5120, 81920)

解码器权重

b_enc(81920,)

编码器偏置

b_dec(5120,)

解码器偏置

仓库里就是 64 个文件,从layer0.sae.ptlayer63.sae.pt,想分析哪一层挑哪个

安装

它不是独立的包,本质上就是几堆权重 + 一段挂 hook 的代码,所以只要你能跑 transformers 就能跑它

pip install torch transformers

把 Qwen3.5-27B 基础模型和这个仓库的.pt文件都拉下来即可,模型仓库地址是:

https://huggingface.co/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50
使用

官方给的端到端 demo 也很直白,三步走:跑基础模型 → 在指定层 hook 残差流 → 拿到激活后过一遍 SAE,输出稀疏特征

直接贴官方代码:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# ── 1. 加载基础模型 ────────────────────────────────
model_name = "Qwen/Qwen3.5-27B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float32)
model.eval()

# ── 2. 加载目标层的 SAE ────────────────────────────
LAYER = 0# 任选 0–63
sae = torch.load(f"layer{LAYER}.sae.pt", map_location="cpu")
W_enc = sae["W_enc"] # (81920, 5120)
b_enc = sae["b_enc"] # (81920,)

def get_feature_acts(residual: torch.Tensor) -> torch.Tensor:
"""residual: (..., 5120) → 稀疏特征激活 (..., 81920)"""
pre_acts = residual @ W_enc.T + b_enc
topk_vals, topk_idx = pre_acts.topk(50, dim=-1)
acts = torch.zeros_like(pre_acts)
acts.scatter_(-1, topk_idx, topk_vals)
return acts

# ── 3. 在目标层挂 hook 抓残差流 ────────────────────
captured = {}

def _hook(module, input, output):
hidden = output[0] if isinstance(output, tuple) else output
captured["residual"] = hidden.detach().cpu()

hook = model.model.layers[LAYER].register_forward_hook(_hook)

# ── 4. 前向 ───────────────────────────────────────
text = "The capital of France is"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
model(**inputs)
hook.remove()

# ── 5. 提取特征激活 ───────────────────────────────
residual = captured["residual"] # (1, seq_len, 5120)
feature_acts = get_feature_acts(residual) # (1, seq_len, 81920)

last_token_acts = feature_acts[0, -1]
active_idx = last_token_acts.nonzero(as_tuple=True)[0]
print(f"Active features : {active_idx.tolist()}")
print(f"Feature values : {last_token_acts[active_idx].tolist()}")

跑完你会得到 50 个激活特征的下标和数值,每个下标对应一个"语义单元"

官方还顺手给了一个 Gradio 可视化 demo,能在网页上交互式看每个特征到底在响应什么:

python app.py \
--model Qwen/Qwen3.5-27B \
--model-name-sae-trained-from qwen3.5-27b \
--model-name-analyzing-now qwen3.5-27b \
--sae-path Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50 \
--top-k 50 \
--num-layers 64 \
--sae-width 81920 \
--d-model 5120 \
--server-port 7860

打开浏览器进localhost:7860就能玩了

❝ 小提示:官方说了,用基础模型训出来的 SAE 拿去分析后训练(post-training)阶段的检查点,一般也是合理的,不一定非要给微调版本重新训一套 SAE
实测建议

我没本地跑这套(27B 全精度 + 64 层 SAE 权重,对显存和硬盘都不太友好),但从文档和参数看,几个心得分享下:

优点

  • 覆盖全层:64 层一个不落,纵向研究模型不同深度的功能分化非常方便,这是很多开源 SAE 做不到的

  • TopK 设计:相比传统 L1 稀疏 SAE,TopK 在工程上更可控,特征稀疏度死死锁在 50,不会漂

  • 挂在残差流:残差流是 Transformer 里信息高速路,特征解释性比挂在 attention 输出或 MLP 输出更通用

  • 配套 Gradio:上手门槛比 Anthropic 的研究代码低多了

注意点

  • 吃硬盘:64 个 layer,每个 SAE 权重大概都是 (81920×5120)×2 + 偏置,全精度下单层就是 GB 级别,64 层加起来可观

  • 吃显存:27B 基础模型本身就重,再加上 SAE 推理,单卡 4090 估计够呛,研究用建议直接上 A100/H100

  • 场景较窄:这是给做模型机制可解释性研究、做可控生成、做训练数据分析的同学准备的,普通业务部署用不上

  • 训练框架未开源:这次只放了权重,训练代码暂时没看到,想自己训新版本得自己造轮子

老实说,这种工具一般是大厂研究院内部用的,能开源出来就值得点赞

总结

如果你是做大模型可解释性研究的研究员,或者在做高级可控生成(不止 prompt 工程),又或者在做训练数据分析、想知道模型到底学到了啥,那这套 Qwen-Scope 真的别错过——它可能是目前国内最完整、最大规模的开源 SAE 集合

如果你只是想用 Qwen 跑个聊天机器人或者做 RAG,那这玩意儿对你帮助不大,老老实实用 Instruct 版本就行

阿里这一招不在榜单上加分,但在大模型生态深度上加了不少分,模型能力之外,开始卷理解模型本身,这才是头部玩家该做的事

-Scope

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赖清德竟敢偷偷离台,大陆火速行动!国民党的狐狸尾巴藏不住了

赖清德竟敢偷偷离台,大陆火速行动!国民党的狐狸尾巴藏不住了

梦史
2026-05-03 13:58:28
剑指五亿票房!《寒战1994》赌对了,香港电影又要出一个天王了

剑指五亿票房!《寒战1994》赌对了,香港电影又要出一个天王了

得得电影
2026-05-01 20:40:15
俄乌战争如果俄罗斯最终赢了,你我在有生之年很可能亲历战争

俄乌战争如果俄罗斯最终赢了,你我在有生之年很可能亲历战争

快乐彼岸
2026-05-03 06:52:39
王钰栋进球后浙江副总喜极而泣,米特里策上前拍肩安慰

王钰栋进球后浙江副总喜极而泣,米特里策上前拍肩安慰

懂球帝
2026-05-03 12:53:07
39岁上海科大教授溺亡:他救回了至亲,却没能救回自己

39岁上海科大教授溺亡:他救回了至亲,却没能救回自己

教师吧
2026-05-03 15:54:31
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
中国代表:要防止朝鲜半岛生战生乱

中国代表:要防止朝鲜半岛生战生乱

新华社
2026-05-01 09:27:03
史上唯一“主动”辞职的太子,背后满是无奈,好在最后得了善终

史上唯一“主动”辞职的太子,背后满是无奈,好在最后得了善终

铭记历史呀
2026-05-03 16:59:36
羽协主席张军涉醉驾违纪被查,奥运挡箭牌再引讨论

羽协主席张军涉醉驾违纪被查,奥运挡箭牌再引讨论

风雨与阳光
2026-05-03 18:14:38
上海有钱人家女佣条件曝光:月薪2万,藏着太多羞于说出口的秘密

上海有钱人家女佣条件曝光:月薪2万,藏着太多羞于说出口的秘密

奇思妙想生活家
2026-04-30 12:51:28
汪涵和杨乐乐的瓜!

汪涵和杨乐乐的瓜!

八卦疯叔
2026-05-03 10:43:39
退休后才懂:为啥多数老人不旅游_真正满世界跑的,竟是这两类人

退休后才懂:为啥多数老人不旅游_真正满世界跑的,竟是这两类人

心理观察局
2026-05-03 09:12:14
今日金价,大家要有心理准备了,金价或将迎来大风暴

今日金价,大家要有心理准备了,金价或将迎来大风暴

花小猫的美食日常
2026-05-03 01:38:36
赵一鸣横扫县城,6000家店成山姆平替,利润暴涨500%!

赵一鸣横扫县城,6000家店成山姆平替,利润暴涨500%!

似水流年忘我
2026-04-29 23:48:32
断交13年的同事突然寄给我一箱腊肉,我把它送给对门邻居,当天晚上12点,他把腊肉还回来:箱子底下有东西

断交13年的同事突然寄给我一箱腊肉,我把它送给对门邻居,当天晚上12点,他把腊肉还回来:箱子底下有东西

品读时刻
2026-05-03 08:52:52
励志!35岁“李铁关系户”时隔580天再战中超:表现惊艳

励志!35岁“李铁关系户”时隔580天再战中超:表现惊艳

邱泽云
2026-05-03 15:37:01
中国足球留洋7大灾难名场面:从豪门宠儿到无球可踢

中国足球留洋7大灾难名场面:从豪门宠儿到无球可踢

圣西罗的太阳
2026-05-03 10:09:48
恒大集团许家印前妻找了一个小男友

恒大集团许家印前妻找了一个小男友

地产微资讯
2026-05-03 08:17:10
发现了吗?军方明显越来越“不耐烦”,说的都是外国人能听懂的话

发现了吗?军方明显越来越“不耐烦”,说的都是外国人能听懂的话

浪子阿邴聊体育
2026-05-03 07:35:44
吕布被斩后,曹营众将举杯欢庆,郭嘉却对曹操轻声叹道:你斩错了

吕布被斩后,曹营众将举杯欢庆,郭嘉却对曹操轻声叹道:你斩错了

小豫讲故事
2026-05-03 06:00:14
2026-05-03 19:48:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3367文章数 11144关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

课堂上弹唱《无地自容》走红的副教授病逝 年仅44岁

头条要闻

课堂上弹唱《无地自容》走红的副教授病逝 年仅44岁

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
艺术
教育
手机
军事航空

数码要闻

华为5A最新支持设备清单公布,含Pura X Max、畅享90系列等

艺术要闻

Spencer Laron Wilson:当代美国风景画家

教育要闻

考懵宝妈的一道二年级思考题,思维受限

手机要闻

小米最强自研芯片来了!核心规格已清晰,不止手机还要上多终端

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版