网易首页 > 网易号 > 正文 申请入驻

重磅论文!何恺明、Yann LeCun等改造Transformer,CVPR 2025已收录

0
分享至

大数据文摘受权转载自头部科技

文丨丁灵波

对于如今的AI大模型而言,Transformer具有极其重要的影响。

作为一种基于注意力机制的深度学习架构,Transformer最初是由Ashish Vaswani等计算机科学家于2017年在NeurIPS(神经信息处理系统大会)上提出,逐渐成为NLP领域许多最先进模型的基础。

它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),在自然语言处理任务中取得了显著的效果,使得大规模预训练语言模型成为可能,间接推动了GPT等AI大模型的问世。

不过从今天开始,Transformer可能要迎来新变化。

“残差神经网络发明人”、麻省理工学院副教授何恺明与图灵奖得主、“卷积网络之父”Yann LeCun的最新合作论文提出“无需归一化的Transformer”,目前已入选CVPR 2025,该发现有望进一步改进AI模型性能,给开发者们带来新思路。

重新定义“归一化”


什么是无需归一化的Transformer?

简单来说,归一化层在现代神经网络中无处不在,长期以来一直被认为是必不可少的。

归一化层的主要作用是使网络的输入数据分布更加稳定,减少内部协变量偏移(Internal Covariate Shift),从而使得网络更容易训练,提高模型的泛化能力。不同的归一化层适用于不同的网络结构和任务场景,选择合适的归一化层对于构建高效的神经网络至关重要。

而这篇最新论文研究表明,通过一种极其简单的技术,无需归一化的Transformer模型能够达到相同甚至更好的性能,是不是有点不可思议?

研究人员引入了动态双曲正切函数(DyT),可以直接替代Transformer模型中的归一化层。

DyT的灵感来源于这样一个观察结果:Transformer模型中的层归一化常常会产生类似双曲正切函数的S形输入输出映射。通过整合DyT,无需归一化的Transformer模型能够达到甚至超过带有归一化层的Transformer模型的性能,而且在大多数情况下无需进行超参数调整。

论文作者在各种不同的场景中验证了带有 DyT 的 Transformer模型的有效性,涵盖了从识别到生成任务、从监督学习到自监督学习,以及从计算机视觉到语言模型等多个领域,这些发现挑战了传统观念中归一化层在现代神经网络中不可或缺的认知,并为深入理解归一化层在深度网络中的作用提供了新的视角。

Meta FAIR实验室研究科学家刘壮作为论文负责人,在社交平台分享了几点论文摘要。

1、发现了一个非常简单的标准化层替代方案:缩放的tanh函数,团队称之为动态Tanh,或DyT。

2、这实际上是由一个非常简单的观察驱动的:LayerNorm使用类似于tanh的S形曲线将其输入转换为输出,它压缩极端值,同时保持中心的线性形状。

3、用动态Tanh(DyT)层替换规范层。

4、将层归一化(LayerNorm)/旋转尺度归一化(RSMNorm)替换为动态双曲正切函数(DyT),并在以下的Transformer模型上进行测试:

涵盖了视觉领域的监督学习(ViT和ConvNeXt)、视觉领域的自监督学习(MAE和DINO)、扩散模型(DiT)、大型语言模型(LLaMA)、语音领域的自监督学习(wav2vec 2.0)和DNA序列建模(HyenaDNA和Caduceus),在每种情况下,采用DyT的Transformers都实现了与标准化Transformers相似或更好的性能。

5、在英伟达H100 GPU上,动态双曲正切函数(DyT)的运算速度比均方根归一化(RMSNorm,在前沿的大语言模型中较为常用)要快。

DyT旨在取代Transformers中的规范化层,使用DyT的模型可实现与经过规范化的模型相似或更好的性能。

论文负责人刘壮表示,鉴于模型训练和推理可能需要数千万的计算资源,DyT有可能进一步帮助行业降低成本,很期待看到它接下来会找到什么应用。

目前,该团队在GitHub上开源提供了完整代码库,开发人员可以进行测试一番:https://github.com/jiachenzhu/DyT

多次联手的学术小队


除了Yann LeCun,这篇论文包含来自4位华人作者的共同努力。

何恺明清华大学毕业,香港中文大学获得博士学位,目前在美国麻省理工学院(MIT)担任电气工程与计算机科学系的副教授,研究涵盖计算机视觉和深度学习领域的广泛主题,最为人所知的研究成果是深度残差网络(ResNets),其中的残差连接如今在现代深度学习模型中随处可见,包括Transformer模型(如GPT、ChatGPT)、谷歌的AlphaGo Zero、AlphaFold等等。

何恺明的多篇论文在CVPR、ICCV、NeurIPS、ECCV等国际学术会议获得最佳论文荣誉,论文引用量超过50万次,每年的引用量增长超过10万次。

刘壮是Meta基础人工智能研究部门(FAIR)的一名研究科学家,在加州大学伯克利分校电气工程与计算机科学系获得计算机科学博士学位,导师是特雷弗・达雷尔(Trevor Darrell)教授,本科毕业于清华大学姚班。

他此前还主导了密集连接卷积网络(DenseNet,该成果曾荣获CVPR的最佳论文奖)和ConvNeXt的研发工作,两者都是深度学习和计算机视觉领域中应用最为广泛的神经网络架构之一。

陈鑫磊毕业于中国浙江大学计算机科学系,在卡内基梅隆大学语言技术研究所攻读博士学位,目前在Meta FAIR担任研究科学家,研究领域聚焦在预训练和理解视觉表征。此前和何恺明、Yann LeCun、刘壮等合作发表过多篇论文。

朱家晨香港理工大学计算机科学专业毕业,目前是纽约大学柯朗数学科学研究所计算机科学专业的五年级博士研究生,导师是Yann LeCun, Meta 公司基础人工智能研究部门的访问研究员,研究重点是图像和视频的自监督学习,以及为视觉语言模型(VLM)预训练视觉编码器。

崛起的中国AI人才影响力


被CVPR 2025收录的论文代表了计算机视觉和模式识别领域的较高水平。

据了解,CVPR 2025共收到13008份有效投稿,录用2878篇,录用率为22.1%,能在同行学术竞争中脱颖而出,这些论文通常会在理论、方法、技术或应用等方面具有显著创新,本次论文里提到的“DyT”方法能否给行业带来新的启发,衍生出广泛的影响值得关注。

近些年,中国学者对于AI的学术贡献量非常大,MacroPolo发布的《全球人工智能人才追踪调查报告2.0》显示,2019年,原国籍为中国的顶尖AI研究人员占比为 29%,到2022年,这一比例升至47%,中国为世界输送了大量的AI人才。

《自然》增刊“自然指数2024人工智能”显示,2019年至2023年,AI研究产出增幅最大的10家机构中,有6家来自中国,分别是中国科学院、北京大学、清华大学、浙江大学、中国科学技术大学和上海交通大学。

可以说,更多的学术创新研究推动着中国在AI产业领域呈现出强劲发展态势,期待更多来自中国学者的创新AI研究出炉。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
涉嫌严重违纪违法!四川省古蔺县政协原党组副书记、副主席朱明辉被查(附简历)

涉嫌严重违纪违法!四川省古蔺县政协原党组副书记、副主席朱明辉被查(附简历)

鲁中晨报
2025-09-15 15:59:12
确认了!她宣布离职

确认了!她宣布离职

天津族
2025-09-15 11:33:32
宗馥莉又放大招

宗馥莉又放大招

中国企业家杂志
2025-09-15 16:19:33
猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

法老不说教
2025-09-15 15:25:04
一夜之间,Claude的口碑崩了

一夜之间,Claude的口碑崩了

大数据文摘
2025-09-14 18:12:03
气温“大跳水”,降幅可达8℃!青岛将迎大到暴雨局部大暴雨,最新预报→

气温“大跳水”,降幅可达8℃!青岛将迎大到暴雨局部大暴雨,最新预报→

鲁中晨报
2025-09-15 15:11:04
张琳芃武磊更衣室激励队友:每个人都要拼,冠军不能光靠嘴说

张琳芃武磊更衣室激励队友:每个人都要拼,冠军不能光靠嘴说

雷速体育
2025-09-15 12:53:16
哈工大博士被砸死,是家中独子,刚入职两月,涉事企业一直沉默

哈工大博士被砸死,是家中独子,刚入职两月,涉事企业一直沉默

纪中百大事
2025-09-12 07:27:45
马斯克累了,他明确表示:要找一个安全的国家,暗指中国。

马斯克累了,他明确表示:要找一个安全的国家,暗指中国。

柏林观察
2025-09-15 17:10:09
于朦胧事件被扒出更多黑料!任嘉伦发文细思极恐,陈晓也曾经历过

于朦胧事件被扒出更多黑料!任嘉伦发文细思极恐,陈晓也曾经历过

一娱三分地
2025-09-15 15:09:17
北京阅兵后,朝鲜通告中俄,不寻求南北统一,地图已去“韩国化”

北京阅兵后,朝鲜通告中俄,不寻求南北统一,地图已去“韩国化”

八斗小先生
2025-09-15 14:20:54
票数大幅领先,国民党新主席已定?张亚中通告全岛,两岸是一家人

票数大幅领先,国民党新主席已定?张亚中通告全岛,两岸是一家人

影孖看世界
2025-09-15 12:09:00
贾国龙称罗永浩是“网络黑社会”,律师点评:超出公众人物容忍度边界

贾国龙称罗永浩是“网络黑社会”,律师点评:超出公众人物容忍度边界

现代快报
2025-09-15 12:47:04
重大突破!英国发明治秃神器,20天长出90%毛发!

重大突破!英国发明治秃神器,20天长出90%毛发!

趣味探索
2025-07-11 23:47:13
杨瀚森创奇迹,成为NBA中国第一人,先看约基奇真有可能

杨瀚森创奇迹,成为NBA中国第一人,先看约基奇真有可能

大眼瞄世界
2025-09-14 23:11:19
中美贸易谈判首日结束!会谈细节公布,周一继续

中美贸易谈判首日结束!会谈细节公布,周一继续

贸易夜航
2025-09-15 13:10:56
女子曝光老公孕期出轨闺蜜,78段监控内容炸裂,两人一进门就搂上

女子曝光老公孕期出轨闺蜜,78段监控内容炸裂,两人一进门就搂上

卷史
2025-09-15 12:17:23
60岁张曼玉定居法国:瘦成皮包骨,戴LV丝巾钻鸡窝,网友称不理解

60岁张曼玉定居法国:瘦成皮包骨,戴LV丝巾钻鸡窝,网友称不理解

妙知
2025-09-15 17:01:01
湖北潜江市副市长(正处长级)王丹已任荆门市政府领导

湖北潜江市副市长(正处长级)王丹已任荆门市政府领导

澎湃新闻
2025-09-15 14:06:27
78岁上海知青被迫与江西姑娘分开,40年后故地重游,才知儿孙满堂

78岁上海知青被迫与江西姑娘分开,40年后故地重游,才知儿孙满堂

少女说篮球
2025-07-29 16:06:03
2025-09-15 19:40:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6763文章数 94476关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

"馆长"泼凉水 媒体:谁当选国民党主席对大陆已不重要

头条要闻

"馆长"泼凉水 媒体:谁当选国民党主席对大陆已不重要

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

本地
旅游
家居
时尚
军事航空

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

家居要闻

典雅大气 舒适中带童趣

别再买“网红同款”了,显胖又低级!

军事要闻

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

无障碍浏览 进入关怀版