网易首页 > 网易号 > 正文 申请入驻

清华姚班校友刘壮团队再发力,无需归一化的Transformer性能进化

0
分享至

编辑|陈陈、冷猫


刘壮带队的无需归一化 Transformer 又有新的版本了。

一直以来,在 Transformer 架构里,LayerNorm 几乎是标配,但它也有明显问题:比如计算和访存成本高,尤其在大模型推理阶段。

因此,「无归一化(Normalization-Free)」Transformer 成为研究者探索的一个长期目标,但一直卡在两个难点上:训练不稳定,以及性能明显不如带归一化的模型。

而这篇新论文提出了一种非常简单的新激活层 Derf(Dynamic erf),让「无归一化(Normalization-Free)」的 Transformer 不仅能稳定训练,还在多个设置下性能超过了带 LayerNorm 的标准 Transformer。



  • 论文标题:Stronger Normalization-Free Transformers
  • 论文链接:https://arxiv.org/pdf/2512.10938
  • Github 链接:https://github.com/zlab-princeton/Derf

刘壮本人也在 X 账号上分享了这一成果。他表示,这是一篇关于更强无归一化 Transformer 的新论文:研究团队提出了 Derf(Dynamic erf),一种结构极其简单的逐点(point-wise)层。借助 Derf,完全不依赖归一化层的 Transformer 不仅能够稳定训练,而且在实际性能上已经可以超越传统依赖 LayerNorm 等归一化机制的模型。

这一结果表明,长期被视为标配的归一化层,并非构建高性能 Transformer 的唯一选择。



今年早些时候,刘壮、何恺明、LeCun 等人已经在题为《无需归一化的 Transformer》的论文中表明,Dynamic Tanh(DyT)函数可以取代 Transformer 中的归一化层。

Derf 进一步发展了这一想法。

和 DyT 类似,Derf 是一种不依赖统计量的逐点(point-wise)层,不需要使用激活分布的统计信息。它本质上只是一个带有少量可学习参数的平移并缩放后的高斯误差函数(Gauss error function),可以直接替换你原本使用 LayerNorm 或 RMSNorm 的位置。



由于其结构极其简单、效果稳定且性能更强,Derf 为构建无归一化(normalization-free)的 Transformer 架构提供了一种非常具有实践价值的选择。相关代码已开源。

超越归一化层的逐点函数

本文的目标正是寻找性能超越归一化层的逐点函数,以推动更强的 Transformer 架构发展。

研究团队首先系统性地研究了逐点函数的内在性质如何影响训练动态和最终性能,重点关注四个基础且具有代表性的属性:零中心性(zero-centeredness)、有界性(boundedness)、中心敏感性(center sensitivity)以及单调性(monotonicity)。

实验发现,只要一个函数同时满足这四个条件,模型训练过程就会更加稳定,并且通常能取得不错的性能表现。



这一分析筛选出了一类可作为有效归一化替代的逐点函数,并总结出一套面向无归一化 Transformer 的明确设计原则。

最终,Dynamic erf(Derf) 作为一种结构极其简单但性能最优的函数设计脱颖而出。



总体而言,本研究表明:只要设计得当,逐点函数不仅可以替代归一化层,甚至能够在性能上超越它们。

最优函数设计:Derf

在函数搜索过程中,我们发现 erf (x) 是性能最优的逐点函数。误差函数 erf (・) 与标准高斯分布的累积分布函数(CDF)密切相关。具体而言,erf (x) 的定义如下所示。



在本文的设计中,erf (x) 进一步引入了可学习参数,并由此提出 Derf(Dynamic erf)。对于输入张量 x,Derf 层的形式如公式(10)所示,其中位移参数 s 和缩放参数 α 都是可学习的标量,而 γ 和 β 是可学习的逐通道向量。

在将 Derf 集成到基于 Transformer 的架构中时,研究团队采用一一对应替换的方式:将模型中的各个归一化层直接替换为相应的 Derf 层。具体来说,包括注意力层前(pre-attention)、前馈网络前(pre-FFN) 以及 最终的归一化层,均被 Derf 所取代,从而保证 Derf 在整个模型中的一致性使用。

实验结果

研究团队在多种基于 Transformer 的架构以及少量其他现代模型上,系统评估了 Derf 的有效性。在使用相同训练配置的前提下,Derf 的表现可以持平甚至超过传统归一化层,并且在各个领域中都稳定优于 DyT。

简而言之:

1. ImageNet(ViT-B / ViT-L):Top-1 准确率更高

2. 扩散 Transformer(DiT 系列):FID 更低

3. 基因组任务(HyenaDNA、Caduceus):DNA 分类准确率更高

4. 语音(wav2vec 2.0):验证集 loss 更低

5. 语言模型(GPT-2):整体表现与 LayerNorm 持平,明显优于 DyT

Vision Transformer(ViT)

研究团队在 ImageNet-1K 数据集上训练了 ViT-Base 和 ViT-Large 模型,分别采用 LayerNorm(LN)、DyT 和 Derf 进行对比。



ImageNet-1K上的监督分类准确率。

在不同模型规模下,Derf 的 Top-1 准确率均高于 LayerNorm(LN)和 DyT,充分证明了其在 ViT 架构中的有效性。

Diffusion Transformer(DiT)

研究团队在 ImageNet-1K 上训练了三种 DiT 模型,并在 LN、DyT 和 Derf 下保留归一化层的仿射参数用于类别条件化。训练完成后,使用 ImageNet 「参考批次」评估 FID 分数,以衡量图像生成质量)。



ImageNet 图像生成质量(FID)。FID 越低表示图像生成质量越高。

结果显示,Derf 在所有 DiT 模型规模下的 FID 都低于 LayerNorm 和 DyT,进一步验证了其在扩散 Transformer 中的有效性。

语音模型

研究团队在 LibriSpeech 数据集上训练了两个 wav2vec 2.0 Transformer 模型,用于语音表示学习。表 10 报告了最终的验证集损失(validation loss)。结果显示,与 LayerNorm 和 DyT 相比,Derf 在不同模型规模上均实现了更低的验证损失,说明其在语音任务中的有效性。



LibriSpeech 数据集上的语音预训练验证损失(validation loss)。

结果显示,Derf 在两个 wav2vec 2.0 模型上均实现了比 LayerNorm 和 DyT 更低的验证损失,表明其语音表示能力更强。

DNA 模型

在长序列 DNA 建模任务中,研究团队对 HyenaDNA 和 Caduceus 模型进行了预训练,使用人类参考基因组(GRCh38.p13)。模型评估在 GenomicBenchmarks 数据集上进行,并报告所有子任务的平均准确率。

如表所示,Derf 在性能上超过了 LayerNorm、RMSNorm 以及 DyT,显示了其在基因组序列建模任务中的稳健性与泛化能力。



DNA 分类准确率(GenomicBenchmarks 数据集)表中结果为各子任务的平均准确率。每个模型均使用其默认归一化层(HyenaDNA 使用 LayerNorm,Caduceus 使用 RMSNorm)。

结果显示,Derf 在所有模型中均优于原有归一化层及 DyT,表明其在 DNA 模型上的有效性和稳健性。

语言模型

研究团队在 OpenWebText 数据集上对 GPT-2(124M)模型进行预训练,并在表 12 中报告验证集损失。对于 DyT 和 Derf,还对可学习参数 α 进行了额外微调。



GPT-2 在 OpenWebText 数据集上的验证集损失。Derf 的表现可与 LayerNorm(LN)匹配,同时在验证集损失上明显低于 DyT。

实验结果显示,Derf 在性能上可与 LayerNorm(LN)持平,同时明显优于 DyT。

这表明:一个足够简单的逐点层,不仅可以「替代」归一化层,还能让 Transformer 变得更强,而不只是不变差。

Derf 只是「拟合得更狠」吗?出人意料地,并不是。当研究团队在 eval 模式下、对训练集本身测量训练损失时,结果是:基于归一化(Norm)的模型训练损失最低,Derf 训练损失反而更高。但在测试集上,Derf 的表现更好。

这说明一个关键事实:Derf 的优势并不来自更强的拟合能力,而主要来自更好的泛化能力。

一句话总结:Derf 是一种简单实用的、可用于更强正则化自由 Transformer 的即插即用层。

更多信息,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子啃了10年老,父母意外离世他却只想继承房产,过户时他傻了

男子啃了10年老,父母意外离世他却只想继承房产,过户时他傻了

牛魔王与芭蕉扇
2025-06-30 16:21:41
北京朝阳区卫健委出手!嫣然天使儿童医院欠租纠纷有新进展

北京朝阳区卫健委出手!嫣然天使儿童医院欠租纠纷有新进展

小陆搞笑日常
2026-01-22 09:50:26
落花流水,查尔斯·巴克利称联盟害怕在全明星赛上被世界队痛击

落花流水,查尔斯·巴克利称联盟害怕在全明星赛上被世界队痛击

好火子
2026-01-23 04:08:18
1月22日俄乌:俄军损失突破123万;熬过冬天,乌克兰将占据优势

1月22日俄乌:俄军损失突破123万;熬过冬天,乌克兰将占据优势

山河路口
2026-01-22 17:46:13
滚回农村!北京地铁大妈骂人后续,儿子身份曝光,正脸曝光太嚣张

滚回农村!北京地铁大妈骂人后续,儿子身份曝光,正脸曝光太嚣张

糖逗在娱乐
2026-01-23 00:51:46
局长被免职后去世,全局只有我去吊唁,后来他的妻子担任市委书记

局长被免职后去世,全局只有我去吊唁,后来他的妻子担任市委书记

秋风专栏
2025-12-29 16:32:49
方红卫,被罢免人大代表职务

方红卫,被罢免人大代表职务

观察者网
2026-01-22 17:11:29
央视曝光:光鲜红薯背后的剧毒隐患!

央视曝光:光鲜红薯背后的剧毒隐患!

达文西看世界
2026-01-22 15:22:42
中方拒绝后,普京发话了,中俄商量后做决定,特朗普对华态度秒变

中方拒绝后,普京发话了,中俄商量后做决定,特朗普对华态度秒变

知法而形
2026-01-22 16:47:04
金正恩视察温泉疗养设施,并在女宾浴场与女性们交谈

金正恩视察温泉疗养设施,并在女宾浴场与女性们交谈

随波荡漾的漂流瓶
2026-01-22 18:30:40
又一车企销量暴跌!已跌破“生存红线”

又一车企销量暴跌!已跌破“生存红线”

电动知家
2026-01-22 13:38:37
年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

晓艾故事汇
2026-01-06 09:08:51
回到老家!辽篮旧将待业中 球迷直言他比亨特强

回到老家!辽篮旧将待业中 球迷直言他比亨特强

胖子喷球
2026-01-22 22:09:03
车银优赚800亿逃税200亿!涉及金额是宋慧乔的8倍,全智贤也逃过

车银优赚800亿逃税200亿!涉及金额是宋慧乔的8倍,全智贤也逃过

萌神木木
2026-01-22 13:30:41
千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

千万网红“一栗小莎子”确诊癌症,不良恶习害了她,儿子不到两岁

以茶带书
2026-01-22 19:35:35
拿下女人最快的方法:不是频繁联系,而是这一招

拿下女人最快的方法:不是频繁联系,而是这一招

青苹果sht
2026-01-04 05:23:15
3000台瞬间售罄,新款飞度意外“小火”,燃油小车依然大有可为?

3000台瞬间售罄,新款飞度意外“小火”,燃油小车依然大有可为?

功夫AUTO
2026-01-20 14:59:36
吃惊!牢A揭露留学生私密部位纹身导致大量纹身女孩破防!

吃惊!牢A揭露留学生私密部位纹身导致大量纹身女孩破防!

魔都囡
2026-01-23 01:08:26
荷兰足协回应“可能退出2026世界杯”传闻:一切以FIFA指示为准

荷兰足协回应“可能退出2026世界杯”传闻:一切以FIFA指示为准

星耀国际足坛
2026-01-22 22:31:12
比利时首相达沃斯语出惊人:做一个快乐的附庸是一回事,做一个可怜的奴隶是另一回事

比利时首相达沃斯语出惊人:做一个快乐的附庸是一回事,做一个可怜的奴隶是另一回事

红星新闻
2026-01-22 21:55:26
2026-01-23 05:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12171文章数 142547关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

房产
健康
教育
时尚
本地

房产要闻

开年王炸!四重政策红利加码,广州置业窗口期迈入倒计时!

打工人年终总结!健康通关=赢麻了

教育要闻

吴军:不太建议把孩子送到补习班里去,有条件的话可以找个一对一的家教

这些才是最日常的冬季穿搭!不露腿、不扮嫩,简约舒适又保暖

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版