网易首页 > 网易号 > 正文 申请入驻

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

0
分享至

本文提出了一种单义性的新proxy,即基于特征解耦相关性的方法,并通过引入相应的正则项验证了proxy的有效性。该方法不仅提升了模型的单义性,还增强了其表示的敏感性,从而为模型的解释性和稳健性提供了新的视角。希望此研究能够激发更多关于模型可解释性与优化相结合的探索,并在表示学习领域带来更深刻和本质的发现。

论文题目: Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective 论文链接: https://arxiv.org/abs/2406.17969v1

一、动机

随着大规模语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著进展,对其内部工作机制的理解变得至关重要。近年来的研究逐渐将重点放在对模型基本单元的解释性上,尤其是神经元的单义性(monosemanticity)。所谓单义性神经元,是指那些专门与某一特定概念紧密相关的神经元,它们与输入特征形成一对一的映射,较容易被人类理解。这种一对一映射的特性使得单义性神经元在解释性和可理解性方面具有重要意义。

许多研究者通过稀疏自动编码器结合字典学习方法,在大语言模型中识别单义性问题[1][2]。然而,由于稀疏自动编码器的训练计算成本较高,以及生成解释时需要大量的人力。另外,尽管在单义性探测方面取得了一定成功,但关于单义性与LLMs模型容量(如稳健性和对齐能力)之间的关系,仍然存在争议。

近期有研究表明,减少单义性有助于提升模型在多任务处理中的表现,而其他研究则认为,单义性可以减少非正交特征的interference, 导致学到的特征重要性不高。因此,本文从特征解耦(feature correlation)相关的角度重新审视单义性问题,并提出通过特征解耦性相关正则化来进一步提升模型的单义性和能力。

二、方法

2.1 建立神经元单义性与特征解耦性的关联

为应对大规模检测单义性带来的挑战,并且定量地研究单义性对模型能力的影响,我们首先提出在理论层面上特征的解耦性可以作为单义一个近似[proxy](Monosemanticity是神经元层面,而feature是指模型中间激活/向量化表示)。理论上的近似推导如下:

在一个线性的模型中, 和 是两个不同模型神经元权重。如果神经元是Monosemantic,则它们的correlation矩阵是一个对角阵 .

如果我们有 和 , 则可以推导出

也就是说当神经元Monosemantic,特征也是正交/解耦的。

2.2 前期实验观察

我们通过实验观察monosemanticity与模型大小,与特征解耦性的关系。

(1) 模型单义性与模型大小之间无稳定关联

不同大小GPT2模型单义性

我们使用论文[3]中提出的单义性近似指标 , 其中 都是transformer结构模型中 MLP中第一个线性矩阵的权重,去近似衡量不同GPT2的单义性。结果发现模型大小与单义性程度之间没有稳定关联,例如GPT2-neo(2.7B)的单义性比medium(335M),large(774M)都小。

(2) DPO提升神经元单义性与特征解耦性。

DPO训练之后,GPT2模型单义性变化

DPO训练之后,LLama模型特征解耦性变化

上图1显示经过direct preference optimisation (DPO)[3]之后,GPT2 模型神经元的单义性有所增长,尤其是在比较浅的层上。由于llama类的模型MLP层中没有b偏置,这个单义近似指标我们并没有在llama上测量。

上图2刻画了特征解耦性在llama2-hf-7b模型经过DPO之后的特征解耦性(1-不同特征之间的余弦相似性})。我们在三个不同属性的数据集上做DPO之后,发现模型特征的解耦性都有了明显的提升(虚线高于实线)。

总结:DPO处理过后的模型(优化模型),同时出现了神经元单义性和特征解耦性的提高,一是可以说明神经元单义性可能是更优模型的偏好 二是,结合以上的理论分析,可以进一步说明单义性与解耦性的positive correlation。

2.3 特征正交正则项

基于以上的分析,我们提出用特征解耦/正交的正则项来提高模型的单义性和能力。

其中 是特征/激活值, 是identity矩阵。加入该正则项到training loss中是为了最小化特征相关矩阵与单位矩阵之间,达到进一步解耦。

三、实验结果

3.1 实验设置

我们选择了三个llama系列的模型,Llama2-7b-hf, Llama2-7b-chat-hf以及Llama3-8b-instruct。选择了三个含有不同属性attribute做alignment的小数据集,分别是detoxicity[4](去毒),cognition reframe[5](认知转变)和Sycophancy[6](谄媚)。我们采用GPT-3.5作为二分类器对这生成的句子做判断是否含有预期的属性。我们将特征解耦正则项加到DPO原有的训练目标上。

3.2 实验结果3.2.1 特征解耦正则项能提升alignment效果

Table1. Alignment结果

我们对比了in-context learning, supervised fine tuning, DPO 以及SimDPO. 并且对比了另外一种用于特征稀疏化的正则项 .实验结果表明特征解耦正交项带来的增益最大。

3.2.2 特征解耦正则项improvement source是提高表达敏锐性,从而增加reward margin

Figure. 特征解耦正则项能增大reward margin

为了进一步探究解耦正则项带来的增益来源,我们更为细致地研究了DPO的原理和缺陷。

上行公式是DPO的优化目标,其中 , 分别是一对偏好和不偏好的回复。该公式建立Bradley-Terry模型中提出的用pointwise 奖赏来近似pairwise偏好。

其中 是pointwise的奖赏函数。由于非线性激活 的存在,即使 很小,也可能造成 近似到最大值1[7]。这样会导致的不好结果就是模型会“懒得”区分 ,也就是它们的表达很接近。而我们的特征解耦正则项刚好是用于增大特征特异性的,从上图红色实线/虚线均高于蓝线就可以看出这个效果。

3.2.3 特征解耦正则项带来的可解释性

我们将MLP中被激活最大的value vector投影到vocabulary空间,展示了模型各个层学到的concept。

Table. Llama2-7b-hf各层top value vectors对应的tokens

我们看到靠后的层更能激发monosemanticity. 在toxicity数据集中,激活的单词多数与暴力,伤害相关。在cognition的数据集中,激活的神经元大多数与人的情感/心里状态相关。

四、总结

本文提出了使用特征解耦相关作为单义性的新proxy,并通过这一正则项验证了这一proxy的有效性。该方法不仅能够提升模型的单义性,还能够增强模型表示的敏锐性,从而为模型的解释性和稳健性提供了新的视角。期待此类工作能够激发更多模型可解释性与优化的联合研究,并且从表示学习中得到更加深远和本质的发现。

参考文献

[1]Cunningham, Hoagy, et al. "Sparse autoencoders find highly interpretable features in language models." ICLR(2024).

[2]Elhage, et al., "Toy Models of Superposition", Transformer Circuits Thread, 2022.

[3]Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." NEURIPS (2024).

[4] Lee, Andrew et al. “A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity.” ICLR (2024).

[5]Sharma, Ashish et al. “Cognitive Reframing of Negative Thoughts through Human-Language Model Interaction.” ACL(2023).

[6] Perez, Ethan et al. “Discovering Language Model Behaviors with Model-Written Evaluations.” ACL (2023).

[7] Azar, Mohammad Gheshlaghi et al. “A General Theoretical Paradigm to Understand Learning from Human Preferences.” AISTATS (2023)

llustration From IconScout By Kawalan Studio

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
配文“小孩疯狂殴打同学”,深圳一家长把别家孩子曝光到网上!法院判了

配文“小孩疯狂殴打同学”,深圳一家长把别家孩子曝光到网上!法院判了

南方都市报
2026-05-31 19:37:20
26岁身价30亿,如今负债百亿!ofo戴威,把一手王炸彻底打烂

26岁身价30亿,如今负债百亿!ofo戴威,把一手王炸彻底打烂

流苏晚晴
2026-05-26 17:59:55
为什么明知道槟榔有毒,还在生产?背后的现实,远比想象中复杂

为什么明知道槟榔有毒,还在生产?背后的现实,远比想象中复杂

消化石医生
2026-05-30 11:33:21
都怪塔子哥?女星承诺巴黎门将每扑救1次奖励1夜陪伴 后者今夜0扑

都怪塔子哥?女星承诺巴黎门将每扑救1次奖励1夜陪伴 后者今夜0扑

风过乡
2026-05-31 11:29:28
网约车最大的误会,是所有人都觉得对方赚了钱

网约车最大的误会,是所有人都觉得对方赚了钱

从前这些事
2026-05-30 15:26:42
小米生态新爆款!米家手持风扇提前售罄:169元买不到了

小米生态新爆款!米家手持风扇提前售罄:169元买不到了

快科技
2026-05-29 10:02:08
肖纯锦临刑在即,其妻哭求陈毅,一通电话救下昔日恩人

肖纯锦临刑在即,其妻哭求陈毅,一通电话救下昔日恩人

唠叨说历史
2026-03-28 15:04:59
淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

磊子讲史
2026-05-29 16:17:30
新华社下场,耿同学又抛出4条大鱼!

新华社下场,耿同学又抛出4条大鱼!

仕道
2026-05-30 09:52:28
地主王学文救抱襁褓的女红军,谁曾想这次善举改写三户人家的人生

地主王学文救抱襁褓的女红军,谁曾想这次善举改写三户人家的人生

磊子讲史
2026-01-08 15:41:51
节气门只给开85%?德比斯阿拉贡丢冠,张雪怒打赛事总监电话

节气门只给开85%?德比斯阿拉贡丢冠,张雪怒打赛事总监电话

疯狂的豆芽
2026-05-31 11:52:00
樊振东3-2逆转贾哈,一人独得2分,带领萨尔布吕肯夺德甲冠军!

樊振东3-2逆转贾哈,一人独得2分,带领萨尔布吕肯夺德甲冠军!

篮球资讯达人
2026-05-31 22:10:01
从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

丁丁鲤史纪
2026-05-30 17:08:34
利物浦脸都绿了!刚炒掉的冠军主帅,转头被欧洲豪门抢着当救世主

利物浦脸都绿了!刚炒掉的冠军主帅,转头被欧洲豪门抢着当救世主

澜归序
2026-05-31 02:44:49
难以置信!长沙一销售哭诉月薪9760元太低了,网友:已超98%的人

难以置信!长沙一销售哭诉月薪9760元太低了,网友:已超98%的人

火山詩话
2026-05-30 08:05:24
赢家!李刚仁获第二座欧冠成韩国第一人,“财阀女友”现场观战

赢家!李刚仁获第二座欧冠成韩国第一人,“财阀女友”现场观战

兰亭墨未干
2026-05-31 10:14:04
男子举报多名出租车司机故意遮挡车牌,反遭司机蹲守家门口拍摄,当事人:疑遭信息泄露,怕打击报复已报警

男子举报多名出租车司机故意遮挡车牌,反遭司机蹲守家门口拍摄,当事人:疑遭信息泄露,怕打击报复已报警

极目新闻
2026-05-31 19:39:10
小仙女“战败”!见面3次索要六一节礼物,610元嫌少,被男方怒斥

小仙女“战败”!见面3次索要六一节礼物,610元嫌少,被男方怒斥

火山詩话
2026-05-31 14:54:31
家家有本难念的经!林俊杰跟哥嫂开撕,疑似被吃绝户仅是冰山一角

家家有本难念的经!林俊杰跟哥嫂开撕,疑似被吃绝户仅是冰山一角

好贤观史记
2026-05-29 10:55:39
万万没想到:李连杰主演的《少林寺》,绝大多数镜头居然都不是在“少林寺”拍的!

万万没想到:李连杰主演的《少林寺》,绝大多数镜头居然都不是在“少林寺”拍的!

良有方
2026-05-31 05:38:41
2026-05-31 23:39:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2395文章数 596关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
教育
房产
公开课
军事航空

艺术要闻

美妙的芭蕾人像艺术,太惊艳了

教育要闻

定了!最新奥赛国家集训队名单出炉,北京共4人入围,来自这些中学

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版