网易首页 > 网易号 > 正文 申请入驻

Transformer 架构重大改进:华人科学家刘壮联合何恺明,Yann LeCun整活

0
分享至

来自Meta AI的华人科学家刘壮团队,联合AI大神何恺明, 图灵奖得住Yann LeCun等大牛搞了个大新闻——他们的最新论文证明了:Transformer 模型,竟然可以不用Normalization(归一化)层也能达到甚至超越现有性能!,论文已经被CVPR 2025接收

Normalization层在现代神经网络中几乎是标配,大家都觉得它是必不可少的“定海神针”。但刘壮团队却打破了这个固有认知,简单来说事实证明,你可以用参数化的 tanh() 代替正则化层来训练深度网络

核心秘密:Dynamic Tanh (DyT),一个“复古”又强大的替代品!

他们的秘诀是什么呢?答案出乎意料地简单:Dynamic Tanh (DyT)。没错,就是那个我们在上世纪80年代就见过的 tanh 函数!

DyT 的公式也很简洁:DyT(x) = tanh(αx),其中 α 是一个可学习的缩放因子。这个操作简单来说,就是先通过 α 调整输入激活值的范围,然后再用 tanh 函数进行“挤压”,把极端值压下去

为什么要用 DyT?

庄刘团队的灵感来自于一个朴素的观察:Layer Normalization 在 Transformer 中,经常会产生类似 tanh 函数的 S 型输入输出映射。也就是说,LayerNorm 实际上也在做类似“挤压”的操作

既然如此,为什么不直接用 tanh 函数呢?

DyT 的优势:性能不输,速度更快,成本更低!

更让人惊喜的是,DyT 不仅简单,而且非常有效!刘壮团队在各种不同的任务和模型上进行了验证,发现:

  • 覆盖面广:从图像识别到生成,从监督学习到自监督学习,从计算机视觉到语言模型,DyT 都能胜任

  • 模型适用性强:ViT、ConvNeXt、MAE、DINO、DiT、LLaMA、wav2vec 2.0、HyenaDNA、Caduceus,这些当下最火的模型,都能用 DyT 来替换 Normalization 层

  • 性能给力:在大多数情况下,DyT 都能达到或超越原有 Normalization 层的性能,而且几乎不需要额外的超参数调整

  • 速度更快:在 H100 这样的高端 GPU 上,DyT 甚至比 RMSNorm (一种在大型语言模型中常用的 Normalization 层) 还要快!

这意味着什么?

这意味着,我们可以用更简单、更快速的方法,训练出性能更好的 Transformer 模型!考虑到模型训练和推理需要耗费大量的计算资源,DyT 有潜力为我们节省大量的成本

代码和论文地址:

  • 论文:http://arxiv.org/abs/2503.10622

  • 代码和网站:http://jiachenzhu.github.io/DyT/


⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太突然!知名品牌宣布关闭在中国所有线上线下店铺,店员:正2折起清仓!入华近20年,1月刚从纽交所私有化退市,网友:有点可惜

太突然!知名品牌宣布关闭在中国所有线上线下店铺,店员:正2折起清仓!入华近20年,1月刚从纽交所私有化退市,网友:有点可惜

每日经济新闻
2026-02-28 14:51:10
美以袭击致伊朗201人死747人伤

美以袭击致伊朗201人死747人伤

财联社
2026-03-01 01:44:07
内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

内塔尼亚胡:诸多迹象显示哈梅内伊已“不在人世”

财联社
2026-03-01 03:39:04
伊朗别慌,三招反击美以联军,实用管用

伊朗别慌,三招反击美以联军,实用管用

今日马说
2026-02-28 20:01:39
马斯克藏太深!美星链离不开7家中国公司,每一家都是全球顶尖!

马斯克藏太深!美星链离不开7家中国公司,每一家都是全球顶尖!

爱吃醋的猫咪
2026-02-27 17:56:07
后续!绝情臭豆腐最新进展:负责人正脸曝光社死,店老板公开道歉

后续!绝情臭豆腐最新进展:负责人正脸曝光社死,店老板公开道歉

离离言几许
2026-02-28 18:08:15
死了白死?俄方绝口不提贝加尔湖惨剧赔偿 中日美此类案例都有赔款

死了白死?俄方绝口不提贝加尔湖惨剧赔偿 中日美此类案例都有赔款

劲爆体坛
2026-02-28 18:30:13
美伊冲突引市场巨震,油价或历史性飙升,未来48小时决定金价走势,比特币近15万人爆仓

美伊冲突引市场巨震,油价或历史性飙升,未来48小时决定金价走势,比特币近15万人爆仓

21世纪经济报道
2026-02-28 23:56:17
伊朗伊通社网站恢复正常运行

伊朗伊通社网站恢复正常运行

环球网资讯
2026-02-28 16:07:07
美国为什么不敢打伊朗?专家的预测又被打脸了

美国为什么不敢打伊朗?专家的预测又被打脸了

历史总在押韵
2026-02-28 23:31:28
四强又只剩王楚钦了!7人相继被淘汰,林诗栋引失望,陈垣宇惊喜

四强又只剩王楚钦了!7人相继被淘汰,林诗栋引失望,陈垣宇惊喜

篮球资讯达人
2026-02-28 22:31:49
知名演员秦岚自曝患病,已做手术!

知名演员秦岚自曝患病,已做手术!

极目新闻
2026-02-28 23:12:57
特朗普突然发文昭告全球,包括中国俄罗斯在内,这次一个都跑不掉

特朗普突然发文昭告全球,包括中国俄罗斯在内,这次一个都跑不掉

带你领略快乐真谛
2026-02-28 16:55:50
“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

“大力神”军机坠毁 已致15人死亡 天空下钞票雨 民众疯抢!

每日经济新闻
2026-02-28 14:37:58
多数珠宝品牌商现已不回收白银,部分周大福门店还表示目前黄金回收也已暂停

多数珠宝品牌商现已不回收白银,部分周大福门店还表示目前黄金回收也已暂停

黄河新闻网吕梁
2026-02-28 09:13:37
女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

女子回湖北婆家过年,车被妯娌砸稀烂,报警后绝不和解,结局爽了

不写散文诗
2026-02-28 17:19:21
“重大作战”,要打多久?

“重大作战”,要打多久?

中国新闻周刊
2026-02-28 20:19:57
伊朗第七轮导弹射向以色列

伊朗第七轮导弹射向以色列

界面新闻
2026-02-28 20:30:44
扛不住了,江苏某大型建设集团全员息岗!

扛不住了,江苏某大型建设集团全员息岗!

黯泉
2026-02-28 22:39:41
金融圈突发!涉嫌严重违纪违法,金春花被查

金融圈突发!涉嫌严重违纪违法,金春花被查

中国基金报
2026-02-28 17:17:02
2026-03-01 05:55:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1034文章数 396关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

头条要闻

以官员称哈梅内伊身亡 遗体在其官邸废墟中被找到

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
健康
手机
时尚
游戏

本地新闻

津南好·四时总相宜

转头就晕的耳石症,能开车上班吗?

手机要闻

澎湃OS再次公布进展通报:10个问题,仅修复一则!

这6款发色居然这么火?50张图可以直接给tony

所有人保持嘴角不变!生化危机:安魂曲里昂骚话大盘点

无障碍浏览 进入关怀版