网易首页 > 网易号 > 正文 申请入驻

大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究

0
分享至


在LLama等大规模Transformer架构的语言模型中,归一化模块是构建网络稳定性的关键组件。本文将系统分析归一化技术的必要性,并详细阐述为何原始Transformer架构中的LayerNorm在LLama模型中被RMSNorm所替代的技术原理。

归一化技术的基础原理

归一化的核心定义

归一化(Normalization)是一种将数据映射到特定数值区间的数学变换技术,旨在提升计算稳定性并优化学习效率。归一化的本质在于调整数据的量纲规模而保持分布形态不变

归一化前后数据分布

归一化前后按特征划分的数据分布

通过对比归一化前后的数据分布可以明确观察到,尽管数据点的相对位置关系保持恒定,但数值范围发生了显著变化。如上图所示,横轴上原本分布在30至70区间的数据经归一化后映射至0到1区间,然而数据的拓扑分布结构保持不变。这构成了归一化技术的基本理论框架。

归一化技术的技术必要性

归一化技术在深度学习中具有双重技术价值。首要方面是提高数值计算稳定性优化收敛速度。当数据量级差异显著时,评估指标(如均方误差MSE)可能产生数量级上的波动。在MSE计算过程中,大值输入会导致梯度幅值过大,从而使优化过程不稳定。

以均方误差计算为例,考虑两组输入值a和b的对比情况:

  1. 未经归一化处理:
  • a = [100, 200, 300], b = [110, 190, 310]
  • MSE = (1/3) * [(100–110)² + (200–190)² + (300–310)²]
  • MSE = (1/3) * [100 + 100 + 100] = 100
  1. 经归一化处理:
  • 归一化后的值:a_normalized = [1.0, 2.0, 3.0], b_normalized = [1.1, 1.9, 3.1]
  • MSE = (1/3) * [(1.0–1.1)² + (2.0–1.9)² + (3.0–3.1)²]
  • MSE = (1/3) * [0.01 + 0.01 + 0.01] = 0.01

从计算结果可见,未归一化的数据由于数值较大,产生了较大的MSE值,这可能导致梯度幅值过大,使模型训练过程不稳定。而归一化处理后,MSE值显著降低,梯度幅值维持在合理区间,有助于参数更新过程的稳定性。

通过将数据规范化到一致的数值范围,归一化能够有效控制梯度幅值,实现更为平稳的参数优化过程。

归一化的另一技术价值在于潜在的内存效率提升。归一化通过缩减数据表示范围间接提高了内存利用效率。特别是在采用8位或16位浮点格式进行训练时,数据范围的收窄使得低精度表示更为精确。这种特性可通过量化技术或FP16计算进一步降低模型训练阶段的内存占用。

需要说明的是,归一化本身并不直接减少内存占用,它需要与量化或低精度计算技术协同应用才能实现有效的内存优化。

归一化的实证效果分析

通过实际数据集分析可验证归一化的技术效果。以加州住房数据集为例,采用归一化技术的模型(蓝线)展现出快速且稳定的学习曲线,而未归一化的模型(红线)则表现出学习不稳定性。这种差异在训练过程中尤为明显,未归一化情况下可能出现数值溢出,导致损失函数出现异常峰值。

归一化前后MSE比较——加州住房数据集

归一化前后准确率性能比较——CIFAR-10

在CIFAR-10图像分类任务中,类似的数值稳定性问题同样存在。应用归一化技术后,学习过程能够迅速达到稳定状态。因此,归一化已成为现代深度学习的基础技术组件,对于提升模型性能至关重要。

层归一化(Layer Normalization)

层归一化最初由Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在2016年发表的论文"Layer Normalization"中提出。该研究提出LayerNorm作为批量归一化的替代方案,以解决其局限性,特别强调了其在序列数据和循环神经网络模型中的适用性。

层归一化通过计算每个样本的均值(μ)和标准差(σ)来实现数据归一化。由于LayerNorm是在每个样本基础上独立应用的,不依赖于批量大小,因此在处理序列数据的模型中表现尤为出色。Transformer模型作为序列数据处理的核心架构,广泛采用了LayerNorm技术。

在Transformer架构中,LayerNorm扮演着至关重要的角色。Transformer处理的序列数据由多个token组成,LayerNorm所归一化的"样本"实际上是每个token位置的嵌入向量或隐藏状态。

例如,对于句子"The cat sat on the mat",Transformer模型会为每个单词(token)生成特定的向量表示(嵌入)。LayerNorm在此场景下归一化的是该token位置的嵌入向量或隐藏状态。LayerNorm的核心机制是对每个token位置计算的嵌入或隐藏状态向量进行归一化,以维持特定范围内的数值稳定性。

其中:

  • x表示每个样本的输入值
  • μ表示平均值
  • σ表示标准差
  • ϵ是一个微小常数,用于确保数值稳定性,防止除零错误,通常设定为0.00001或0.000001

LayerNorm将数据归一化为均值为0,方差为1的分布。

Transformer输入示例和LayerNorm计算过程

LayerNorm应用结果

从上图可观察到,每个token的嵌入维度为5,均值和方差计算在嵌入向量的5维值空间内进行。值得注意的是,这一计算过程独立于其他数据点或token。另一关键特性是数据分布向均值0对齐,这一特性与RMSNorm形成明显对比。

RMS归一化(RMS Normalization)

RMS归一化(RMSNorm)是层归一化的变体,其特点是仅使用均方根(Root Mean Square)进行归一化,省略了均值计算环节。RMSNorm在降低计算成本的同时能够维持模型性能,同时提供更加稳定的学习过程。

RMS(x)的定义如下:

其中RMS代表特征值的均方根。

Transformer输入示例和RMSNorm计算过程

从结果可以观察到,RMSNorm不执行均值对齐操作。由于它没有执行x-μ运算,因此不存在向0对齐的过程。与传统LayerNorm需要两次数据扫描(一次计算均值,一次计算方差)不同,RMSNorm仅需一次处理即可完成RMS计算。这种简化方法在保持性能的同时有效降低了计算资源需求。

LayerNorm与RMSNorm的技术对比

均值对齐特性分析

与LayerNorm显著不同的是,RMSNorm保持非零均值分布,不执行均值对零的对齐操作。

通过对比LayerNorm和RMSNorm应用到前述Transformer输入示例后的均值分布结果,差异变得更为明显。尽管两种方法都将数据分布收敛到特定区域,LayerNorm呈现零均值特性,而RMSNorm则表现为非零均值分布。

从梯度传播视角的比较分析

RMSNorm通过保持非零均值而不强制均值对零的对齐,有效缓解了梯度消失问题。LayerNorm的零均值对齐可能导致梯度在反向传播过程中逐层衰减。

LayerNorm与RMSNorm:跨Epoch的梯度稳定性对比

上图基于简化网络模型分析了LayerNorm和RMSNorm的梯度传播效果。左侧图表展示了按训练epoch划分的LayerNorm和RMSNorm的平均梯度范数变化。梯度范数是衡量网络权重变化速率的指标,具体表示反向传播过程中各层权重梯度的幅值。较大的梯度范数值表示权重变化幅度较大,而过大或过小的值可能导致学习不稳定。

RMSNorm相比LayerNorm维持了更高的梯度范数,尤其在训练初期阶段。这一特性对于防止深度学习模型中的梯度消失问题至关重要。右侧图表显示了RMSNorm与LayerNorm之间的梯度比率,初期RMSNorm的梯度显著高于LayerNorm,随着学习进程的推进,这一差异逐渐减小。

与LayerNorm相比,RMSNorm在计算效率和训练稳定性方面表现卓越。网络结构越深,RMSNorm通过有效防止梯度消失问题实现更稳定的学习过程,同时能够在减少计算资源消耗的条件下达成相似的性能水平。

结论

本文深入分析了原始Transformer架构中采用的层归一化技术与LLama架构中实现的RMS归一化技术之间的技术差异与特性。LayerNorm通过调整数据的均值和方差确保数值稳定性,在各类序列模型中发挥关键作用。而RMSNorm作为一种无需利用均值即可稳定数据尺度的技术,能够有效解决深层网络中的梯度消失问题,同时保持较快的训练收敛速度。

这两种归一化技术在现代深度学习模型中均发挥着不可替代的作用,对于最大化提升模型性能(尤其是在Transformer架构中)至关重要。RMSNorm在计算效率和训练稳定性方面对LayerNorm形成了有效补充,为提升复杂深层模型性能做出了重要贡献。

https://avoid.overfit.cn/post/224e11d8a7d84870b1a3d5e7ea410a35

作者:Hugman Sangkeun Jung

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李跃勇任驻马店市委书记

李跃勇任驻马店市委书记

界面新闻
2026-01-24 17:23:17
外媒:因民调结果不佳,特朗普宣布将起诉《纽约时报》

外媒:因民调结果不佳,特朗普宣布将起诉《纽约时报》

参考消息
2026-01-23 15:07:49
最难升的纵队副司令 司令换了5人他还未转正,55年授衔结果很意外

最难升的纵队副司令 司令换了5人他还未转正,55年授衔结果很意外

顾史
2026-01-24 21:06:22
老人最愚蠢的八种行为,第五种等于万人嫌,希望你是个例外

老人最愚蠢的八种行为,第五种等于万人嫌,希望你是个例外

情感大使馆
2026-01-25 12:59:42
殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

殷秀梅:程志不是我的前夫,我的法国丈夫今年75岁

顾史
2026-01-20 13:54:43
你闻过最难闻的味道是什么?网友:分手多年,依然忘不了她的味道

你闻过最难闻的味道是什么?网友:分手多年,依然忘不了她的味道

另子维爱读史
2026-01-03 21:33:36
杠上了!连伤广东多人,迪亚洛潘江恶人先告状,少杰奶茶晒图回击

杠上了!连伤广东多人,迪亚洛潘江恶人先告状,少杰奶茶晒图回击

后仰大风车
2026-01-25 06:10:05
抗美援朝打完后,美国有学者感慨:千万不能小看毛泽东的16字战术

抗美援朝打完后,美国有学者感慨:千万不能小看毛泽东的16字战术

南书房
2026-01-25 13:35:08
10名农民工被拖欠35万工资,总包方“以房抵薪”方案遭拒

10名农民工被拖欠35万工资,总包方“以房抵薪”方案遭拒

大风新闻
2026-01-25 11:11:08
美国加州宣布加入世卫组织疫情响应网络

美国加州宣布加入世卫组织疫情响应网络

每日经济新闻
2026-01-24 18:23:34
周启豪深夜发文,陈幸同恋情曝光!

周启豪深夜发文,陈幸同恋情曝光!

乒乓助手
2026-01-25 00:04:41
范冰冰再战戛纳红毯又刷屏了,这是“女王归来”的预演,瞬间成为全场焦点

范冰冰再战戛纳红毯又刷屏了,这是“女王归来”的预演,瞬间成为全场焦点

今古深日报
2026-01-25 12:02:05
这就是巨星的力量,皇马两个人硬是撕碎了对方六七个人组成的防线

这就是巨星的力量,皇马两个人硬是撕碎了对方六七个人组成的防线

星耀国际足坛
2026-01-25 12:05:59
捡走吃掉赔8000元!2023年捡到一只回家煲汤,被人发现时只剩骨头

捡走吃掉赔8000元!2023年捡到一只回家煲汤,被人发现时只剩骨头

万象硬核本尊
2026-01-22 19:47:55
什么叫裁员裁到大动脉?广铁的一次错误决定,让中央调动4万军警

什么叫裁员裁到大动脉?广铁的一次错误决定,让中央调动4万军警

猫眼观史
2025-04-12 22:25:14
孔子第76代孙在美国结婚,妻子厚唇大眼是大马名媛,两人网上认识

孔子第76代孙在美国结婚,妻子厚唇大眼是大马名媛,两人网上认识

老范谈史
2026-01-22 18:11:28
队长徐彬说出了U23国足0-4惨败给日本的原因,说的非常到位

队长徐彬说出了U23国足0-4惨败给日本的原因,说的非常到位

老高说体育
2026-01-25 13:47:23
又赢了!王欣瑜爆冷诺斯科娃创三项纪录,网友:霉地终变福地

又赢了!王欣瑜爆冷诺斯科娃创三项纪录,网友:霉地终变福地

网球之家
2026-01-24 22:49:49
钱再多也没用!42岁身体出问题的雷佳音,给所有男星提了个醒

钱再多也没用!42岁身体出问题的雷佳音,给所有男星提了个醒

白面书誏
2026-01-24 17:14:27
A股:周末中午传来3个核弹级利空!下周很可能会迎更大级别大行情?

A股:周末中午传来3个核弹级利空!下周很可能会迎更大级别大行情?

股市皆大事
2026-01-25 09:49:27
2026-01-25 14:15:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1900文章数 1445关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

外煤:美国国防战略重大转向 对中国态度更加温和

头条要闻

外煤:美国国防战略重大转向 对中国态度更加温和

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

本地
时尚
亲子
公开课
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

2025年度榜单|| 真金白银票选出来的“真爱”,今天破价1.6折!

亲子要闻

抗抽是个持久战千万别鸡娃

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版