网易首页 > 网易号 > 正文 申请入驻

清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

0
分享至



在十九世纪的暹罗王国曾诞生过这样一对连体兄弟:他们分别拥有完整的四肢和独立的大脑,但他们六十余年的人生被腰部相连着的一段不到十厘米的组织带永远绑定在了一起。他们的连体曾带来无尽的束缚,直到他们离开暹罗,走上马戏团的舞台。十年间,两兄弟以近乎合二为一的默契巡演欧美,获得巨大成功。

此后,人们曾用他们的故乡之名,将这种连体现象称作 Siamese Twins(暹罗双胞胎)。后来,这一命名跨越了生物学的边界。1993 年,Yann LeCun 将其引入神经网络,创造了共享权重的 Siamese Network(孪生网络),用于衡量输入的相似性。

时光流转,在二十一世纪的今天,人工智能领域也有一对 “双胞胎”——Pre-Norm(前置归一化)和 Post-Norm(后置归一化)。他们为解决大模型训练稳定性而生,迅速成为 Transformer 架构中用于稳定信号流的关键范式。

然而,归一化带来的训练稳定性并非没有代价,两种归一化范式之间似乎面临着难以调和的权衡取舍。

尽管近年来 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名开源基座所采用,但多项研究共同指向了一个严峻事实:Pre-Norm 架构存在严重的 “深度失效” 问题 —— 大量深层参数虽在参与计算,却无法拓展模型的表征能力,致使模型的 “有效深度” 严重受限。

与之相对的,尽管从表征能力角度 Post-Norm 拥有更高潜力,但其训练不稳定性在现代 Transformer 的预训练范式下是毁灭性的。于是,Pre-Norm 与 Post-Norm 这一对为解决同一难题而诞生的双胞胎,在各自追求 “稳定” 与 “深度” 的道路上分道扬镳。

难道稳定与深度,注定是一场无法调和的零和博弈吗?

近日,清华大学黄高 Leap Lab 团队联合千问 C 端团队给出了一份全新的答案 —— SiameseNorm。



  • 论文标题:SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
  • 论文链接:https://arxiv.org/abs/2602.08064

这一创新的孪生双流架构,巧妙地解耦了优化动力学:它并未在 Pre-Norm 与 Post-Norm 之间做二选一的取舍,而是构建了两条参数共享的平行通路。

在这一架构下,一条流通过 Pre-Norm 机制保证训练的稳定性,另一条流则利用 Post-Norm 特性极大地释放模型的表征潜力。这种设计让每个残差块都能接收到来自两种范式的组合梯度,在几乎不增加计算开销的前提下,实现了高学习率下的稳定训练。这一精巧的双流协作,恰如默契的暹罗双胞胎,将两种范式的对立转化为深度融合的协同优势。



可以看到,SiameseNorm 可以被看做 Pre-Norm 和 Post-Norm 的耦合


1. 困境:单主干架构的先天缺陷与范式对立

前置还是后置?这仿佛是 Transformer 世界的 “鱼与熊掌”。研究者不得不在 “训练稳定但可能平庸” 的 Pre-Norm 与 “潜力巨大却难以驾驭” 的 Post-Norm 之间做出艰难抉择。更令人困扰的是,任何试图在单主干(Single-Stream)架构 —— 即在共享同一条信息主干线的经典设计中调和二者的努力,都遭遇了数学上的根本性障碍。

痛点 1:Pre-Norm 的 “稀释” 与 Post-Norm 的 “畸变”

Transformer 的设计核心在于残差连接。然而,现有的两种主流范式都存在致命的结构性缺陷:

  • Pre-Norm (稀释问题):为了保证梯度畅通,Pre-Norm 保留了一条干净的恒等路径(Identity Path)。但这导致主干流的信号幅度随深度巨幅增长 。到了深层,层归一化(LN)后的输入相对于巨大的主干流来说微乎其微,导致深层网络的贡献被 “稀释”,模型实际上退化成了 “浅层” 网络。最直观的实验证据来自于层剪枝(Layer Pruning)实验:将 Pre-Norm 模型 30% 的层直接移除,在零微调的情况下,其评估指标竟几乎没有损失。



  • Post-Norm (畸变问题):Post-Norm 强制在残差相加后进行归一化,保证了表示的效率,理论上限更高。但这也意味着它在每一步都在强行 “压缩” 信号,导致梯度的传导被破坏,容易引发梯度消失或爆炸。

痛点 2:两大范式的不可兼容性

目前的混合方案(Hybrid)试图在两者间寻找平衡,但论文深刻地揭示了,这两种结构在单主干设计中本质上是互斥的:

  • 梯度的 “无损传输” vs. 信号的 “尺度束缚”: Pre-Norm 的稳定性依赖于保留严格的恒等路径(Identity Path),这意味着必须允许信号幅度在主干中自然增长,以确保梯度能够无损传播。相反,Post-Norm 的高效性依赖于严格规范(Regulation),即在主干中通过归一化限制信号幅度,以维持特征的表达效率 。
  • 单主干的理论极限:论文指出,在共享同一条主干路径的前提下,在数学上不可能同时做到两件事:既保留一条完全干净、不受阻碍的梯度通道(Pre-Norm 的要求),又同时对主干信号强制施加严格的幅度约束(Post-Norm 的要求)。

因此,任何试图在单主干结构内强行融合两者的尝试(如交替使用或混合归一化),最终都只能是一种 “妥协”:它们不仅无法兼得二者之长,反而继承了 Post-Norm 的不稳定性,导致在高学习率下训练崩溃。要打破这个僵局,必须从结构上进行彻底的解耦(Decoupling)。

2. 破局:SiameseNorm 的双流解耦之道



两条流拥有相同的输入,而通过不同的 LayerNorm 位置,两条流随后分化。

SiameseNorm 的核心洞察在于:我们无法在单一信号流中同时满足 “梯度传导” 和 “表示规范” 这两个互斥的需求。

因此,SiameseNorm 引入了 “孪生双流”(Siamese)机制 :

1. Pre-Norm 流(Y 流):负责 “稳”。它保留未归一化的状态,确保拥有一条干净的梯度高速公路。

2. Post-Norm 流(X 流):负责 “强”。它时刻保持归一化,确保特征表示不会发生坍塌或发散。

从图中也可以看出,把下一半遮住,它退化成 post-norm;把上一半遮住,它退化成 pre-norm。而在训练过程中,LayerNorm 的可学习权重可以调整两条流的大小关系。通过将支流上的 LayerNorm 调整为 0,可以退化成现有的 Pre-Norm、Post-Norm、Mix-LN 范式。

这一架构的核心在于高效的 “参数共享” 机制:双流路径并非独立存在,而是共享残差块(Attention/MLP)的权重。这意味着 SiameseNorm 几乎没有带来参数量与计算的增长。 为降低这种耦合结构的训练难度,架构中进一步引入了 Normalized Input(归一化输入) 与 Depth-wise Scaling(深度缩放),有效解决了参数共享的双流架构带来的优化对齐挑战。

3. 硬核实测:拯救 Post-Norm,数学任务暴涨 40%

在 1.3B 参数模型、100B/350B tokens、总计算成本超过 50,000 A100 GPU 小时的预训练实验中,SiameseNorm 展现了惊人的统治力:

直面公平对比的挑战:研究者首先在不同的学习率下对比了现有各种 Pre-Norm 和 Post-Norm/HybridNorm 变体的表现,发现两类范式的最优学习率存在显著差异,这揭示了一个长期被忽视的问题:超参(尤其学习率)的选择足以改变架构对比的结论。

换言之,过往许多研究因未能适配 Pre-Norm 的最优配置,实际上人为地压低了基线的性能天花板,从而制造了 “性能显著提升” 的假象。因此,一个公平的比较应该对不同方法分别做超参搜索,而这在大模型预训练中成本极高。在本篇论文中,研究者直接沿用了主流 Pre-Norm 的训练超参。这一策略旨在证明,SiameseNorm 无需依赖特定的参数微调,即可展现出超越基线的鲁棒性与性能。

无惧高学习率:实验表明,当学习率激进地提升至2e-3时,传统的 Post-Norm 及 HybridNorm 架构均出现了不可逆的训练发散(Divergence)。相比之下,SiameseNorm 展现了卓越的优化稳定性,不仅成功收敛,其训练 Loss 更是显著优于 Pre-Norm 基线,实现了高达 0.41 的 PPL 收益。

进一步的消融实验揭示了其内在的协同增益机制:在同等实验设置下,通过 Siamese 拓扑将 “易发散” 的 HybridNorm 流与 “基线级” 的 Pre-Norm 流(PPL 10.84)进行无任何辅助机制的直接耦合,模型取得了 10.68 的更优 PPL。这一结果有力地证明,Siamese 设计并非简单的堆砌,而是成功实现了两大范式的互补,从而突破了单一范式的性能天花板 。

通用基准的全面提升与推理能力的质变:SiameseNorm 不仅在通用语言理解任务上确立了领先地位,更在逻辑推理中实现了突破。在 HellaSwag、OpenBookQA、PIQA 等涵盖常识与知识问答的广泛基准测试中,该模型均取得了最佳成绩 。

尤为引人注目的是,在最依赖模型有效深度的算术任务(Arithmetic)上,Pre-Norm 的准确率仅为 28.1%,而 SiameseNorm 跃升至 39.6%,相对提升高达 40.9%。这一结果有力地证明,双流架构在保持通用能力全面领先的同时,成功唤醒了 Transformer 深层网络的潜能,显著修复了模型的链式推理能力。



实验结果一览,* 表示训练 loss 出现显著尖峰

4. 机制探究:各流的贡献分析

研究人员首先通过提取两条流中 LayerNorm 的可学习缩放参数,计算了它们对模块输入的相对贡献比例。实验结果显示,在绝大多数残差块中,两条流均保持了显著的权重占比。这表明网络并未出现单侧退化现象,而是有效地利用了来自两端的隐藏表征进行联合特征提取。



通过 Logit Lens 技术分析,研究人员发现了一个有趣的现象:在 SiameseNorm 的最终输出中,Post-Norm 流(X 流)占据了主导地位,其对最终预测的贡献度显著高于 Pre-Norm 流。

上述现象支持了一种直观的解释:Pre-Norm 流主要充当了 “训练脚手架” 的角色,负责在训练初期保障稳定性;而一旦模型步入正轨,具有更强特征表达能力的 Post-Norm 流的潜力便被释放出来,在形成最终决策时发挥主导作用。

结语

长期以来,为了 “跑得通”,我们不得不接受 Pre-Norm 对有效深度的牺牲;而 Post-Norm 虽然更具表达潜力,却又常因不稳定而难以进入大规模预训练的主流配置。

SiameseNorm 给出了一个优雅的答案:不再做选择题。它以近乎不增加成本的方式,把 Pre-Norm 的优化鲁棒性与 Post-Norm 的表征潜力统一在同一个框架内。对于追求更高学习率、更深网络、更强推理能力的大模型研发者而言,SiameseNorm 指明了一条清晰的路径:让 Transformer 走出 “浅层困境”,回归原始意义上的 “深度学习”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

健康科普365
2026-05-30 16:30:29
汪宝百日宴仅1天,马筱梅又抱怨,小杨阿姨下场,没给玥箖留体面

汪宝百日宴仅1天,马筱梅又抱怨,小杨阿姨下场,没给玥箖留体面

吴蒂旅行ing
2026-06-03 11:24:04
被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

被判无期的犯人,每天在监狱里如何生活?真实日常远比想象难熬

芳姐侃社会
2026-05-31 20:40:00
王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

王晓晨俞灏明被曝就医,王晓晨街边抽烟,全程眉头紧锁,神色焦灼

韩小娱
2026-06-02 15:22:29
男子戴呼吸面罩防烟打卡昆山南站,直言受不了一点烟味

男子戴呼吸面罩防烟打卡昆山南站,直言受不了一点烟味

映射生活的身影
2026-06-02 22:21:44
瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

瞒了整整三个月!伊朗终于官宣大事,局势已彻底尘埃落定?

一网打尽全球焦点
2026-06-03 02:53:45
U19国足被非洲球队横扫带来启示:业余球员赶紧转职业,职业球员尽量去欧洲

U19国足被非洲球队横扫带来启示:业余球员赶紧转职业,职业球员尽量去欧洲

文汇报
2026-06-03 04:12:09
被追债36亿,万达没了,首富没了,王健林还剩什么?

被追债36亿,万达没了,首富没了,王健林还剩什么?

李云飞Afey
2026-06-02 16:32:32
上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

上海女选手裸照被围观这件事,扯下了“体育赛事照片直播”遮羞布

马拉松跑步健身
2026-06-02 20:24:16
穆帅稳回皇马!国米大将自掏2000万加盟皇马!皇马4大引援待官宣

穆帅稳回皇马!国米大将自掏2000万加盟皇马!皇马4大引援待官宣

福酱的小时光
2026-06-03 13:11:16
“一车明星安全带被质疑是P的”?公安部交通管理局发声……综艺P图安全带不是第一次了!

“一车明星安全带被质疑是P的”?公安部交通管理局发声……综艺P图安全带不是第一次了!

新民周刊
2026-06-02 13:34:59
称逛山姆是托举后续!宝妈痛哭道歉,全家信息被扒,孩子不敢上学

称逛山姆是托举后续!宝妈痛哭道歉,全家信息被扒,孩子不敢上学

离离言几许
2026-06-02 18:11:45
特大串通投标案,涉案金额达110亿余元,22人已判刑!

特大串通投标案,涉案金额达110亿余元,22人已判刑!

新浪财经
2026-06-03 02:41:42
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
太阴险!相亲女喝了咖啡后呕吐,怀疑男方下药而报警,结果是孕反

太阴险!相亲女喝了咖啡后呕吐,怀疑男方下药而报警,结果是孕反

谭谈社会
2026-06-02 10:41:44
北控重组!总经理+主帅双双离任,广东老牌国手接手教鞭

北控重组!总经理+主帅双双离任,广东老牌国手接手教鞭

酷侃体坛
2026-06-03 09:28:39
杀派出所所长,灭银行行长满门,凶手竟成城管局长,凯里两案纪实

杀派出所所长,灭银行行长满门,凶手竟成城管局长,凯里两案纪实

易玄
2026-06-03 08:50:51
一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

一张斩首照,让澳洲全国暴怒:百万人报名参军,追杀到天涯海角

凉州辞
2026-06-03 07:25:03
郑丽文公然称台湾是“国家”,意欲何为?喊话大陆:美国让我过去

郑丽文公然称台湾是“国家”,意欲何为?喊话大陆:美国让我过去

陈漎侃故事
2026-05-31 21:52:20
为什么宋朝皇帝不穿龙袍?

为什么宋朝皇帝不穿龙袍?

长风文史
2026-06-01 15:12:29
2026-06-03 14:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13155文章数 142660关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

瑞虎8 PLUS/PRO非凡冠军上市 限时10.19万元起售

态度原创

本地
时尚
艺术
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

艺术要闻

二十年前割麦的场景

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版