Transformer 架构重大改进：华人科学家刘壮联合何恺明，Yann LeCun整活|知识库|神经网络|yann|lecun|transformer

Transformer 架构重大改进：华人科学家刘壮联合何恺明，Yann LeCun整活

分享至

来源：AI寒武纪

来自Meta AI的华人科学家刘壮团队，联合AI大神何恺明，图灵奖得住Yann LeCun等大牛搞了个大新闻——他们的最新论文证明了：Transformer 模型，竟然可以不用Normalization（归一化）层也能达到甚至超越现有性能！，论文已经被CVPR 2025接收

Normalization层在现代神经网络中几乎是标配，大家都觉得它是必不可少的“定海神针”。但刘壮团队却打破了这个固有认知，简单来说事实证明，你可以用参数化的 tanh() 代替正则化层来训练深度网络

核心秘密：Dynamic Tanh (DyT)，一个“复古”又强大的替代品！

他们的秘诀是什么呢？答案出乎意料地简单：Dynamic Tanh (DyT)。没错，就是那个我们在上世纪80年代就见过的 tanh 函数！

DyT 的公式也很简洁：DyT(x) = tanh(αx)，其中 α 是一个可学习的缩放因子。这个操作简单来说，就是先通过 α 调整输入激活值的范围，然后再用 tanh 函数进行“挤压”，把极端值压下去

为什么要用 DyT？

庄刘团队的灵感来自于一个朴素的观察：Layer Normalization 在 Transformer 中，经常会产生类似 tanh 函数的 S 型输入输出映射。也就是说，LayerNorm 实际上也在做类似“挤压”的操作

既然如此，为什么不直接用 tanh 函数呢？

DyT 的优势：性能不输，速度更快，成本更低！

更让人惊喜的是，DyT 不仅简单，而且非常有效！刘壮团队在各种不同的任务和模型上进行了验证，发现：

覆盖面广：从图像识别到生成，从监督学习到自监督学习，从计算机视觉到语言模型，DyT 都能胜任
模型适用性强：ViT、ConvNeXt、MAE、DINO、DiT、LLaMA、wav2vec 2.0、HyenaDNA、Caduceus，这些当下最火的模型，都能用 DyT 来替换 Normalization 层
性能给力：在大多数情况下，DyT 都能达到或超越原有 Normalization 层的性能，而且几乎不需要额外的超参数调整
速度更快：在 H100 这样的高端 GPU 上，DyT 甚至比 RMSNorm (一种在大型语言模型中常用的 Normalization 层) 还要快！

这意味着什么？

这意味着，我们可以用更简单、更快速的方法，训练出性能更好的 Transformer 模型！考虑到模型训练和推理需要耗费大量的计算资源，DyT 有潜力为我们节省大量的成本

代码和论文地址：

论文:http://arxiv.org/abs/2503.10622
代码和网站:http://jiachenzhu.github.io/DyT/

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.