网易首页 > 网易号 > 正文 申请入驻

十年六万引!BatchNorm 封神,ICML 授予时间检验奖

0
分享至

大数据文摘出品

一篇发表于2015年的论文,在十年后,于国际机器学习大会(ICML)2025上,被授予了“时间检验奖”(Test of Time Award)。

这篇论文就是深度学习领域无人不晓的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。

它的出现,从根本上改变了研究者们训练深度神经网络的方式,成为AI技术发展进程中的一座关键里程碑。

一、一座无法绕过的丰碑

国际机器学习大会(ICML)的时间检验奖,旨在表彰十年前发表的、并在此后十年间对整个领域产生深远影响的论文。

获奖,意味着一项研究不仅在当时具有开创性,更重要的是,它的思想和方法经受住了时间的考验,成为了后续无数研究的基石。

Batch Normalization(批次归一化,简称BatchNorm)的获奖,可谓实至名归。

自2015年由谷歌研究员Sergey Ioffe和Christian Szegedy提出以来,这篇论文的引用量已超过六万次,是其所在时代被引用次数最多的深度学习文献之一。

在工程实践中,BatchNorm更是成为了一个“默认选项”。开发者在构建神经网络时,几乎会下意识地在卷积层或全连接层后加入一个BatchNorm层。

它就像是修建高楼时必不可少的钢筋结构,为模型的深度和稳定性提供了基础保障。

可以说,如果没有BatchNorm,今天我们所熟知的许多深度学习模型架构,或许根本无法被有效训练

它的出现,不仅解决了一个具体的工程难题,更重要的是,它为整个领域注入了强大的动能,使得训练更深、更复杂的网络成为可能

这座技术丰碑,至今仍然是所有深度学习从业者无法绕过的存在。

二、一场“拨乱反正”的革命

在BatchNorm出现之前,训练深度神经网络是一件充满挑战甚至痛苦的事情。

一个核心的难题,被论文作者称为“内部协变量偏移”(Internal Covariate Shift)。这个术语听起来很复杂,但它描述的现象却很直观。

在神经网络的训练过程中,网络由许多层堆叠而成,前一层的参数更新,会导致后一层接收到的输入数据分布发生变化。

这就好比一个射击手在瞄准一个不断移动的靶子,网络中的每一层都必须持续适应这种变化。

这种不稳定的学习环境,极大地拖慢了模型的训练速度

为了应对这个问题,研究人员不得不小心翼翼地设置学习率,通常只能选择一个非常小的值,以防止梯度爆炸或消失。

同时,他们还需要对网络权重进行精巧的初始化,这本身就是一门复杂的“玄学”。

训练一个拥有饱和非线性激活函数(如Sigmoid或tanh)的深度模型,在当时被认为是极其困难的。

BatchNorm的出现,如同一场“拨乱反正”的革命,彻底改变了这一局面

它的核心思想简单而有效:在每一层的输入端,对数据进行归一化处理。

具体来说,它在每次训练迭代中,利用当前小批量(mini-batch)的数据,计算出每个特征维度的均值和方差。

然后,用每个样本减去均值,再除以标准差,将这一批数据的分布强制“拉回”到均值为0、方差为1的标准正态分布。

这相当于为网络的每一层都提供了一个稳定的、标准化的“靶子”

为了保证网络的表达能力不受影响,BatchNorm还引入了两个可学习的参数(gamma和beta),允许网络在归一化之后,对数据进行缩放和平移,学习恢复其原始的分布信息。

这一操作,被巧妙地设计为网络架构的一部分,随着网络的训练而自动优化。

BatchNorm带来的好处是立竿见影的

首先,它允许研究者使用非常高的学习率,从而将训练速度提升数倍甚至数十倍。

论文中的实验表明,在一个当时最先进的图像分类模型上,使用BatchNorm后,仅用原来1/14的训练步数,就达到了相同的精度。

其次,它降低了模型对权重初始化的敏感度,研究者不再需要花费大量精力去“炼丹”般的调参。

此外,由于BatchNorm在每个小批量中引入了由该批次数据统计量带来的轻微噪声,它还起到了一种正则化的作用,在某些情况下甚至可以取代Dropout,有效防止了模型过拟合。

可以说,BatchNorm以一种优雅的工程方式,驯服了深度神经网络这匹难以驾驭的“野马”。

三、一个“喧嚣”时代的开启

BatchNorm的成功,是工程上的巨大胜利,但围绕它的理论探讨,却开启了一个“喧嚣”的时代。

尽管论文的两位作者将其成功归因于“减少了内部协变量偏移”,但这个解释在后来的几年里,受到了持续的审视和挑战

一些后续的研究发现,BatchNorm的有效性与内部协变量偏移的减少之间,并不存在必然的因果关系。

有实验表明,即使在某些情况下,BatchNorm反而增加了内部协变量偏移,模型的性能依然得到了提升。

新的理论开始涌现,试图从其他角度解释BatchNorm的魔力。

其中一个被广泛接受的观点认为,BatchNorm的核心作用在于平滑了优化过程中的损失函数曲面(Optimization Landscape)

通过重新参数化网络,它让损失函数的“地形”变得更加规整,减少了许多崎岖的“山谷”和“尖峰”,使得梯度下降算法可以更稳定、更快速地找到最优解。

这种理论上的争议,丝毫没有动摇 BatchNorm 在实践中的统治地位。

它与残差连接(Residual Connections)等技术相结合,共同催生了以ResNet为代表的超深度网络架构的诞生

没有BatchNorm提供的稳定梯度流,训练上百层甚至上千层的网络是不可想象的。

它的成功,也激发了对“归一化”这一思想的深入探索。

研究者们意识到,在网络内部对数据分布进行规范,是一个极其强大的工具。

随后,一系列新的归一化方法被提出,例如层归一化(Layer Normalization)、实例归一化(Instance Normalization)和组归一化(Group Normalization)等。

这些方法各有侧重,适用于不同的任务场景,例如RNN或者小批量尺寸不固定的情况,但它们都共享了BatchNorm的核心思想

十年过去,BatchNorm不再是唯一的选择,但它依然是应用最广泛、最基础的归一化技术。

它不仅是一个具体的算法,更是一种设计哲学,深刻地影响了深度学习领域的思维范式。

它用一种简单、粗暴但极其有效的方式,解决了深度学习从理论走向大规模应用的关键瓶颈,开启了一个模型架构设计百花齐放的繁荣时代。这或许就是“时间检验奖”想要真正表彰的、不朽的贡献。

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信Q1yezi,共同交流行业动态与技术趋势!

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谷爱凌社媒:代表中国参赛,意味着有机会通过体育去激励他人

谷爱凌社媒:代表中国参赛,意味着有机会通过体育去激励他人

懂球帝
2026-03-03 16:38:16
伊森被驱逐!火箭123-118胜奇才,谁是赢球功臣?数据不会说谎

伊森被驱逐!火箭123-118胜奇才,谁是赢球功臣?数据不会说谎

毒舌NBA
2026-03-03 10:40:47
突发!湖人记者发文:詹姆斯的未来,变得不确定了

突发!湖人记者发文:詹姆斯的未来,变得不确定了

生活新鲜市
2026-03-04 00:15:08
轰37分6助攻!中国女篮31岁王牌后卫满血复活:宫鲁鸣该带上她?

轰37分6助攻!中国女篮31岁王牌后卫满血复活:宫鲁鸣该带上她?

李喜林篮球绝杀
2026-03-03 10:17:17
解读《好好的时光》15位男角色,庄先进不怕事,庄学习心事重

解读《好好的时光》15位男角色,庄先进不怕事,庄学习心事重

娱娱鱼
2026-03-01 19:11:36
50岁舒淇和老公冯德伦回台北娘家拜年,俩人古怪玩闹,真的好欢乐

50岁舒淇和老公冯德伦回台北娘家拜年,俩人古怪玩闹,真的好欢乐

草莓解说体育
2026-03-01 12:14:23
推荐几个我不认同但是经常看的账号

推荐几个我不认同但是经常看的账号

基本常识
2026-02-13 23:56:41
阿莱士-希门尼斯:非常感谢米兰;在英超踢球是我的梦想

阿莱士-希门尼斯:非常感谢米兰;在英超踢球是我的梦想

懂球帝
2026-03-03 16:59:25
鏖战3局惜败!头号种子石宇奇爆冷出局,止步全英公开赛首轮

鏖战3局惜败!头号种子石宇奇爆冷出局,止步全英公开赛首轮

全景体育V
2026-03-03 21:57:24
王曼昱领奖合影闹尴尬!被批评不和冠军握手,孙颖莎发声说明问题

王曼昱领奖合影闹尴尬!被批评不和冠军握手,孙颖莎发声说明问题

三十年莱斯特城球迷
2026-03-03 21:43:47
年满70~80岁的老人有福了!除养老金外,还能获得这几项补贴待遇

年满70~80岁的老人有福了!除养老金外,还能获得这几项补贴待遇

社保小达人
2026-03-01 11:35:07
全国政协委员刘永好:建议适度放宽公寓在入学、落户等方面限制

全国政协委员刘永好:建议适度放宽公寓在入学、落户等方面限制

21世纪经济报道
2026-03-02 19:01:09
李双江谈家事:儿子当年出事后,岳母的泪水与自责让我羞愧难当

李双江谈家事:儿子当年出事后,岳母的泪水与自责让我羞愧难当

细品名人
2026-03-03 07:46:40
560名美军死伤,弹药库剧烈大爆炸,伊朗导弹雨把以色列炸成火海

560名美军死伤,弹药库剧烈大爆炸,伊朗导弹雨把以色列炸成火海

策略述
2026-03-02 14:41:25
小学教育突然“踩刹车”:2026年起,一二年级连试卷都见不着了

小学教育突然“踩刹车”:2026年起,一二年级连试卷都见不着了

户外阿毽
2026-03-03 00:30:18
伊朗局势升温,迪拜告急!中东富豪正组团搭私人飞机,悄悄改道新加坡和香港!

伊朗局势升温,迪拜告急!中东富豪正组团搭私人飞机,悄悄改道新加坡和香港!

新加坡椰子
2026-03-03 16:37:18
警惕!美军拿伊朗练手的这种新武器,也被用来威胁中国

警惕!美军拿伊朗练手的这种新武器,也被用来威胁中国

枢密院十号
2026-03-03 10:41:32
人民银行:中国外汇交易中心人民币汇率指数为96.99,较上月末贬值1.02%

人民银行:中国外汇交易中心人民币汇率指数为96.99,较上月末贬值1.02%

北京商报
2026-03-03 20:13:01
虚构:四大灵性动物不能吃,食之折寿,害之受报!别小看其中因果

虚构:四大灵性动物不能吃,食之折寿,害之受报!别小看其中因果

屏儿爱读书
2025-03-06 14:40:35
丰田汽车美股盘初大跌7.5%

丰田汽车美股盘初大跌7.5%

每日经济新闻
2026-03-03 22:39:07
2026-03-04 04:23:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6828文章数 94532关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

手机
旅游
数码
亲子
教育

手机要闻

荣耀Magic V6下周见,开启折叠屏7000mAh时代

旅游要闻

好看好吃好玩儿!宝山罗店美兰西湖“宵遥游园会”燃情启幕

数码要闻

苹果发布新款MacBook Air:搭载M5芯片!售价8499元起

亲子要闻

宝妈怀抱五个月大婴儿站在扶梯上,突然背后滑下一辆玩具车,被铲倒后孩子脱手飞出头部多处受伤!

教育要闻

最新数据:研究生扩招8.1万人!

无障碍浏览 进入关怀版