网易首页 > 网易号 > 正文 申请入驻

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

0
分享至

本文提出了一种单义性的新proxy,即基于特征解耦相关性的方法,并通过引入相应的正则项验证了proxy的有效性。该方法不仅提升了模型的单义性,还增强了其表示的敏感性,从而为模型的解释性和稳健性提供了新的视角。希望此研究能够激发更多关于模型可解释性与优化相结合的探索,并在表示学习领域带来更深刻和本质的发现。

论文题目: Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective 论文链接: https://arxiv.org/abs/2406.17969v1

一、动机

随着大规模语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著进展,对其内部工作机制的理解变得至关重要。近年来的研究逐渐将重点放在对模型基本单元的解释性上,尤其是神经元的单义性(monosemanticity)。所谓单义性神经元,是指那些专门与某一特定概念紧密相关的神经元,它们与输入特征形成一对一的映射,较容易被人类理解。这种一对一映射的特性使得单义性神经元在解释性和可理解性方面具有重要意义。

许多研究者通过稀疏自动编码器结合字典学习方法,在大语言模型中识别单义性问题[1][2]。然而,由于稀疏自动编码器的训练计算成本较高,以及生成解释时需要大量的人力。另外,尽管在单义性探测方面取得了一定成功,但关于单义性与LLMs模型容量(如稳健性和对齐能力)之间的关系,仍然存在争议。

近期有研究表明,减少单义性有助于提升模型在多任务处理中的表现,而其他研究则认为,单义性可以减少非正交特征的interference, 导致学到的特征重要性不高。因此,本文从特征解耦(feature correlation)相关的角度重新审视单义性问题,并提出通过特征解耦性相关正则化来进一步提升模型的单义性和能力。

二、方法

2.1 建立神经元单义性与特征解耦性的关联

为应对大规模检测单义性带来的挑战,并且定量地研究单义性对模型能力的影响,我们首先提出在理论层面上特征的解耦性可以作为单义一个近似[proxy](Monosemanticity是神经元层面,而feature是指模型中间激活/向量化表示)。理论上的近似推导如下:

在一个线性的模型中, 和 是两个不同模型神经元权重。如果神经元是Monosemantic,则它们的correlation矩阵是一个对角阵 .

如果我们有 和 , 则可以推导出

也就是说当神经元Monosemantic,特征也是正交/解耦的。

2.2 前期实验观察

我们通过实验观察monosemanticity与模型大小,与特征解耦性的关系。

(1) 模型单义性与模型大小之间无稳定关联

不同大小GPT2模型单义性

我们使用论文[3]中提出的单义性近似指标 , 其中 都是transformer结构模型中 MLP中第一个线性矩阵的权重,去近似衡量不同GPT2的单义性。结果发现模型大小与单义性程度之间没有稳定关联,例如GPT2-neo(2.7B)的单义性比medium(335M),large(774M)都小。

(2) DPO提升神经元单义性与特征解耦性。

DPO训练之后,GPT2模型单义性变化

DPO训练之后,LLama模型特征解耦性变化

上图1显示经过direct preference optimisation (DPO)[3]之后,GPT2 模型神经元的单义性有所增长,尤其是在比较浅的层上。由于llama类的模型MLP层中没有b偏置,这个单义近似指标我们并没有在llama上测量。

上图2刻画了特征解耦性在llama2-hf-7b模型经过DPO之后的特征解耦性(1-不同特征之间的余弦相似性})。我们在三个不同属性的数据集上做DPO之后,发现模型特征的解耦性都有了明显的提升(虚线高于实线)。

总结:DPO处理过后的模型(优化模型),同时出现了神经元单义性和特征解耦性的提高,一是可以说明神经元单义性可能是更优模型的偏好 二是,结合以上的理论分析,可以进一步说明单义性与解耦性的positive correlation。

2.3 特征正交正则项

基于以上的分析,我们提出用特征解耦/正交的正则项来提高模型的单义性和能力。

其中 是特征/激活值, 是identity矩阵。加入该正则项到training loss中是为了最小化特征相关矩阵与单位矩阵之间,达到进一步解耦。

三、实验结果

3.1 实验设置

我们选择了三个llama系列的模型,Llama2-7b-hf, Llama2-7b-chat-hf以及Llama3-8b-instruct。选择了三个含有不同属性attribute做alignment的小数据集,分别是detoxicity[4](去毒),cognition reframe[5](认知转变)和Sycophancy[6](谄媚)。我们采用GPT-3.5作为二分类器对这生成的句子做判断是否含有预期的属性。我们将特征解耦正则项加到DPO原有的训练目标上。

3.2 实验结果3.2.1 特征解耦正则项能提升alignment效果

Table1. Alignment结果

我们对比了in-context learning, supervised fine tuning, DPO 以及SimDPO. 并且对比了另外一种用于特征稀疏化的正则项 .实验结果表明特征解耦正交项带来的增益最大。

3.2.2 特征解耦正则项improvement source是提高表达敏锐性,从而增加reward margin

Figure. 特征解耦正则项能增大reward margin

为了进一步探究解耦正则项带来的增益来源,我们更为细致地研究了DPO的原理和缺陷。

上行公式是DPO的优化目标,其中 , 分别是一对偏好和不偏好的回复。该公式建立Bradley-Terry模型中提出的用pointwise 奖赏来近似pairwise偏好。

其中 是pointwise的奖赏函数。由于非线性激活 的存在,即使 很小,也可能造成 近似到最大值1[7]。这样会导致的不好结果就是模型会“懒得”区分 ,也就是它们的表达很接近。而我们的特征解耦正则项刚好是用于增大特征特异性的,从上图红色实线/虚线均高于蓝线就可以看出这个效果。

3.2.3 特征解耦正则项带来的可解释性

我们将MLP中被激活最大的value vector投影到vocabulary空间,展示了模型各个层学到的concept。

Table. Llama2-7b-hf各层top value vectors对应的tokens

我们看到靠后的层更能激发monosemanticity. 在toxicity数据集中,激活的单词多数与暴力,伤害相关。在cognition的数据集中,激活的神经元大多数与人的情感/心里状态相关。

四、总结

本文提出了使用特征解耦相关作为单义性的新proxy,并通过这一正则项验证了这一proxy的有效性。该方法不仅能够提升模型的单义性,还能够增强模型表示的敏锐性,从而为模型的解释性和稳健性提供了新的视角。期待此类工作能够激发更多模型可解释性与优化的联合研究,并且从表示学习中得到更加深远和本质的发现。

参考文献

[1]Cunningham, Hoagy, et al. "Sparse autoencoders find highly interpretable features in language models." ICLR(2024).

[2]Elhage, et al., "Toy Models of Superposition", Transformer Circuits Thread, 2022.

[3]Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." NEURIPS (2024).

[4] Lee, Andrew et al. “A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity.” ICLR (2024).

[5]Sharma, Ashish et al. “Cognitive Reframing of Negative Thoughts through Human-Language Model Interaction.” ACL(2023).

[6] Perez, Ethan et al. “Discovering Language Model Behaviors with Model-Written Evaluations.” ACL (2023).

[7] Azar, Mohammad Gheshlaghi et al. “A General Theoretical Paradigm to Understand Learning from Human Preferences.” AISTATS (2023)

llustration From IconScout By Kawalan Studio

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
自由式滑雪男子U型场地技巧预赛结束,4名中国选手均无缘决赛

自由式滑雪男子U型场地技巧预赛结束,4名中国选手均无缘决赛

齐鲁壹点
2026-02-20 22:02:48
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
闪电航打包出售ipad,全都是苹果牌

闪电航打包出售ipad,全都是苹果牌

中国民航人
2026-02-20 19:54:05
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
“坏胆固醇”下降10%!Nature子刊:仅连续吃2天燕麦,就能显著降低胆固醇,且效果至少持续6周

“坏胆固醇”下降10%!Nature子刊:仅连续吃2天燕麦,就能显著降低胆固醇,且效果至少持续6周

梅斯医学
2026-02-20 07:53:33
美军集结近23年来最大空中兵力 特朗普再对伊朗“下通牒”

美军集结近23年来最大空中兵力 特朗普再对伊朗“下通牒”

大象新闻
2026-02-20 07:04:11
女子购买泰康在线“慢病百万医疗险”,理赔遭拒后保单莫名消失;保险公司存在哪些问题?律师说法

女子购买泰康在线“慢病百万医疗险”,理赔遭拒后保单莫名消失;保险公司存在哪些问题?律师说法

中国能源网
2026-02-20 11:33:16
《镖人》票房反超《惊蛰》,业内集体力挺吴京,网友吐槽美中不足

《镖人》票房反超《惊蛰》,业内集体力挺吴京,网友吐槽美中不足

古希腊掌管月桂的神
2026-02-20 16:26:09
非洲姑娘与大16岁东北农民闪婚,婆婆诸多怨气!今离婚带娃回非洲

非洲姑娘与大16岁东北农民闪婚,婆婆诸多怨气!今离婚带娃回非洲

叹为观止易
2026-02-20 13:38:59
尼格买提回到新疆家里过年,到家和父母热情拥抱,很是高兴开心!

尼格买提回到新疆家里过年,到家和父母热情拥抱,很是高兴开心!

沐予墨
2026-02-20 14:27:56
木耳不要直接用水泡,相当于吃虫卵,大厨教你正确做法,太实用了

木耳不要直接用水泡,相当于吃虫卵,大厨教你正确做法,太实用了

妙招酷
2026-02-19 23:55:20
春节来新加坡旅游,被自己穷笑了:酒店一晚1.6万、入境被罚6000

春节来新加坡旅游,被自己穷笑了:酒店一晚1.6万、入境被罚6000

新加坡万事通
2026-02-17 18:29:48
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

北纬的咖啡豆
2026-02-19 16:27:35
今夜!史诗级利好!

今夜!史诗级利好!

中国基金报
2026-02-21 00:27:18
一边撒钱,一边造梦:追觅俞浩55.5亿净利是如何“算”出来的?

一边撒钱,一边造梦:追觅俞浩55.5亿净利是如何“算”出来的?

极点PRO
2026-02-20 18:07:33
黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

谛听骨语本尊
2026-02-19 23:47:56
7名中国游客在俄溺亡:去别的国旅行要钱,去某国旅行要命

7名中国游客在俄溺亡:去别的国旅行要钱,去某国旅行要命

葱哥说
2026-02-20 20:41:59
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
明天大年初五,牢记3个忌讳:1不拜、2不空、3不去

明天大年初五,牢记3个忌讳:1不拜、2不空、3不去

瓜哥的动物日记
2026-02-20 18:28:43
为什么中国革命,一会儿左一会儿右?讲讲课本不会告诉你的真相

为什么中国革命,一会儿左一会儿右?讲讲课本不会告诉你的真相

老达子
2026-02-18 06:50:03
2026-02-21 00:56:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

女子下车接电话将900克黄金遗落在动车上 价值约135万

头条要闻

女子下车接电话将900克黄金遗落在动车上 价值约135万

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

游戏
艺术
本地
时尚
公开课

巫师3杰洛特配音演员称:她才是主角最佳浪漫选择

艺术要闻

你绝对不想错过的石涛五十幅国画作品!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版