网易首页 > 网易号 > 正文 申请入驻

RepVGG:极简架构,SOTA性能,让VGG式模型再次伟大!

0
分享至

  2020年B站年度弹幕是“爷青回”。 一定有很多瞬间,让你感觉“爷的青春回来了”。 在这个卷积网络各种超参精确到小数点后三位的时代,你是否还记得五六年前的田园时代,堆几个卷积层就能涨点的快乐?

  我们最近的工作RepVGG,用结构重参数化(structural re-parameterization)实现VGG式单路极简架构,一路3x3卷到底,在速度和性能上达到SOTA水平,在ImageNet上超过80%正确率。

  不用NAS,不用attention,不用各种新颖的激活函数,甚至不用分支结构,只用3x3卷积和ReLU,也能达到SOTA性能?

  论文:https://arxiv.org/abs/2101.03697

  开源预训练模型和代码(PyTorch版):

  https://github.com/DingXiaoH/RepVGG

  放出两天已有300 star,模型已被下载数百次,据同行反馈在真实业务上效果很好。

  (MegEngine版):

  https://github.com/megvii-model/RepVGG

  太长不看版

  方法有多简单呢?下午5点看完文章,晚饭前就能写完代码开始训练,第二天就能看到结果。如果没时间看完这篇文章,只要点开下面的代码,看完前100行就可以完全搞明白。

  https://github.com/DingXiaoH/RepVGG/blob/main/repvgg.py

  下面是详细介绍。

  1

  模型定义

  我们所说的“VGG式”指的是:

  1. 没有任何分支结构。即通常所说的plain或feed-forward架构。

  2. 仅使用3x3卷积。

  3. 仅使用ReLU作为激活函数。

  下面用一句话介绍RepVGG模型的基本架构:将20多层3x3卷积堆起来,分成5个stage,每个stage的第一层是stride=2的降采样,每个卷积层用ReLU作为激活函数。

  再用一句话介绍RepVGG模型的详细结构:RepVGG-A的5个stage分别有[1, 2, 4, 14, 1]层,RepVGG-B的5个stage分别有[1, 4, 6, 16, 1]层,宽度是[64, 128, 256, 512]的若干倍。这里的倍数是随意指定的诸如1.5,2.5这样的“工整”的数字,没有经过细调。

  再用一句话介绍训练设定:ImageNet上120 epochs,不用trick,甚至直接用PyTorch官方示例的训练代码就能训出来!

  为什么要设计这种极简模型,这么简单的纯手工设计模型又是如何在ImageNet上达到SOTA水平的呢?

  2

  为什么要用VGG模型?

  除了我们相信简单就是美以外,VGG式极简模型至少还有五大现实的优势(详见论文)。

  1. 3x3卷积非常快。在GPU上,3x3卷积的计算密度(理论运算量除以所用时间)可达1x1和5x5卷积的四倍。

  2. 单路架构非常快,因为并行度高。同样的计算量,“大而整”的运算效率远超“小而碎”的运算。

  3. 单路架构省内存。例如,ResNet的shortcut虽然不占计算量,却增加了一倍的显存占用。

  4. 单路架构灵活性更好,容易改变各层的宽度(如剪枝)。

  5. RepVGG主体部分只有一种算子:3x3卷积接ReLU。在设计专用芯片时,给定芯片尺寸或造价,我们可以集成海量的3x3卷积-ReLU计算单元来达到很高的效率。别忘了,单路架构省内存的特性也可以帮我们少做存储单元。

  3

  结构重参数化让VGG再次伟大

  相比于各种多分支架构(如ResNet,Inception,DenseNet,各种NAS架构),近年来VGG式模型鲜有关注,主要自然是因为性能差。例如,有研究[1]认为,ResNet性能好的一种解释是ResNet的分支结构(shortcut)产生了一个大量子模型的隐式ensemble(因为每遇到一次分支,总的路径就变成两倍),单路架构显然不具备这种特点。

  既然多分支架构是对训练有益的,而我们想要部署的模型是单路架构,我们提出解耦训练时和推理时架构。我们通常使用模型的方式是:

  1. 训练一个模型

  2. 部署这个模型

  但在这里,我们提出一个新的做法:

  1. 训练一个多分支模型

  2. 将多分支模型等价转换为单路模型

  3. 部署单路模型

  这样就可以同时利用多分支模型训练时的优势(性能高)和单路模型推理时的好处(速度快、省内存)。这里的关键显然在于这种多分支模型的构造形式和转换的方式。

  我们的实现方式是在训练时,为每一个3x3卷积层添加平行的1x1卷积分支和恒等映射分支,构成一个RepVGG Block。这种设计是借鉴ResNet的做法,区别在于ResNet是每隔两层或三层加一分支,而我们是每层都加。

  训练完成后,我们对模型做等价转换,得到部署模型。这一转换也非常简单,因为1x1卷积是一个特殊(卷积核中有很多0)的3x3卷积,而恒等映射是一个特殊(以单位矩阵为卷积核)的1x1卷积!根据卷积的线性(具体来说是可加性),每个RepVGG Block的三个分支可以合并为一个3x3卷积。

  下图描述了这一转换过程。在这一示例中,输入和输出通道都是2,故3x3卷积的参数是4个3x3矩阵,1x1卷积的参数是一个2x2矩阵。注意三个分支都有BN(batch normalization)层,其参数包括累积得到的均值及标准差和学得的缩放因子及bias。这并不会妨碍转换的可行性,因为推理时的卷积层和其后的BN层可以等价转换为一个带bias的卷积层(也就是通常所谓的“吸BN”)。

  对三分支分别“吸BN”之后(注意恒等映射可以看成一个“卷积层”,其参数是一个2x2单位矩阵!),将得到的1x1卷积核用0给pad成3x3。最后,三分支得到的卷积核和bias分别相加即可。这样,每个RepVGG Block转换前后的输出完全相同,因而训练好的模型可以等价转换为只有3x3卷积的单路模型。

  从这一转换过程中,我们看到了“结构重参数化”的实质:训练时的结构对应一组参数,推理时我们想要的结构对应另一组参数;只要能把前者的参数等价转换为后者,就可以将前者的结构等价转换为后者。

  4

  实验结果

  在1080Ti上测试,RepVGG模型的速度-精度相当出色。在公平的训练设定下,同精度的RepVGG速度是ResNet-50的183%,ResNet-101的201%,EfficientNet的259%,RegNet的131%。注意,RepVGG取得超过EfficientNet和RegNet并没有使用任何的NAS或繁重的人工迭代设计。

  这也说明,在不同的架构之间用FLOPs来衡量其真实速度是欠妥的。例如,RepVGG-B2的FLOPs是EfficientNet-B3的10倍,但1080Ti上的速度是后者的2倍,这说明前者的计算密度是后者的20余倍。

  在Cityscapes上的语义分割实验表明,在速度更快的情况下,RepVGG模型比ResNet系列高约1%到1.7%的mIoU,或在mIoU高0.37%的情况下速度快62%。

  另外一系列ablation studies和对比实验表明,结构重参数化是RepVGG模型性能出色的关键(详见论文)。

  最后需要注明的是,RepVGG是为GPU和专用硬件设计的高效模型,追求高速度、省内存,较少关注参数量和理论计算量。在低算力设备上,可能不如MobileNet和ShuffleNet系列适用。

  参考文献

  [1] Andreas Veit, Michael J Wilber, and Serge Belongie. Residual networks behave like ensembles of relatively shallow networks. In Advances in neural information processing systems, pages 550–558, 2016. 2, 4, 8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

南权先生
2025-12-23 16:16:33
月最佳教练:西部米奇-约翰逊 东部乔-马祖拉

月最佳教练:西部米奇-约翰逊 东部乔-马祖拉

北青网-北京青年报
2026-01-03 09:14:03
自卡塔尔财团入主以来,巴黎第四次无缘法甲半程冠军

自卡塔尔财团入主以来,巴黎第四次无缘法甲半程冠军

懂球帝
2026-01-03 09:43:35
在上海你就安心吧!网红阿福丢包报警!警察到现场后,却发现一张“神秘字条”

在上海你就安心吧!网红阿福丢包报警!警察到现场后,却发现一张“神秘字条”

上观新闻
2026-01-02 15:00:06
期待!德甲名门追求李新翔,转会费3百万,或成队史首位中国球员

期待!德甲名门追求李新翔,转会费3百万,或成队史首位中国球员

国足风云
2026-01-02 10:27:15
次次“见光死”的沈佳润,什么时候懂,观众没有溺爱星二代的义务

次次“见光死”的沈佳润,什么时候懂,观众没有溺爱星二代的义务

可乐谈情感
2026-01-01 15:33:36
据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

据说全球仅20例!巴西一女子在同一晚与2名男子发生了关系

忠于法纪
2025-12-04 11:25:07
网传山东邹城鑫琦加油站老板携巨款跑路,年前曾举办高返利活动

网传山东邹城鑫琦加油站老板携巨款跑路,年前曾举办高返利活动

笔尖下的人生
2026-01-02 18:26:44
杜兰特工资3158万美元NBA第一,库里缩水最严重跌第5

杜兰特工资3158万美元NBA第一,库里缩水最严重跌第5

大眼瞄世界
2026-01-02 14:02:32
咸鱼平台能有多神奇?网友:据说那里面有很多卖一种叫原味的东西

咸鱼平台能有多神奇?网友:据说那里面有很多卖一种叫原味的东西

带你感受人间冷暖
2025-12-29 00:15:07
数十万泰军清剿柬埔寨,幕后黑手已经浮现,第三方大国准备干涉

数十万泰军清剿柬埔寨,幕后黑手已经浮现,第三方大国准备干涉

黑洞观星
2025-12-14 20:14:08
南博风波后续:全网追查“借画不还”的神秘老同志,揭开历史迷雾

南博风波后续:全网追查“借画不还”的神秘老同志,揭开历史迷雾

公子麦少
2025-12-21 14:54:43
我国远箱火箭炮台湾实射,三个没想到,其中两个“闻所未闻”

我国远箱火箭炮台湾实射,三个没想到,其中两个“闻所未闻”

世家宝
2026-01-01 19:50:46
马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

丰谭笔录
2025-12-12 11:16:23
梅西当选巴萨官方本世纪最佳10号!但这个定位太矮化球王了!

梅西当选巴萨官方本世纪最佳10号!但这个定位太矮化球王了!

氧气是个地铁
2026-01-02 21:31:38
年度十佳,一边是仅有孙颖莎入选,一边是樊振东陈梦王曼昱齐入选

年度十佳,一边是仅有孙颖莎入选,一边是樊振东陈梦王曼昱齐入选

鲸鲱鱼体坛
2026-01-02 17:02:25
电车泡沫破灭从电池开始,海外市场和储能都救不了,冬天来了

电车泡沫破灭从电池开始,海外市场和储能都救不了,冬天来了

柏铭锐谈
2026-01-01 12:07:20
深海异形觉醒?澳洲魔鬼三角浪视频疯传,网友:地球代码错乱了!

深海异形觉醒?澳洲魔鬼三角浪视频疯传,网友:地球代码错乱了!

Science科学说
2026-01-02 12:25:03
发现没?军方明显越来越“不耐烦”了,说的都是外国人能听懂的话

发现没?军方明显越来越“不耐烦”了,说的都是外国人能听懂的话

爱吃醋的猫咪
2025-12-31 20:43:25
樊振东全英文采访透露新外号叫Funny,称职业生涯最美好瞬间是巴黎奥运会:对我来说是特别的时刻

樊振东全英文采访透露新外号叫Funny,称职业生涯最美好瞬间是巴黎奥运会:对我来说是特别的时刻

鲁中晨报
2026-01-03 08:55:07
2026-01-03 10:11:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7029文章数 20720关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

牛弹琴:伊朗面临40年来最严峻挑战 不是一个好兆头

头条要闻

牛弹琴:伊朗面临40年来最严峻挑战 不是一个好兆头

体育要闻

快船似乎又行了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

人工智能四问:投资泡沫出现了吗?

汽车要闻

方程豹全年销量超23.4万辆 同比暴增316.1%

态度原创

艺术
家居
数码
游戏
手机

艺术要闻

下雪时的院子,更加适合倾听自己

家居要闻

无形有行 自然与灵感诗意

数码要闻

Clicks首款智能手机Communicator发布:带全键盘的“第二设备”

《穿越火线》QBZ95的口碑为什么那么好?毕竟都很少见到人用了

手机要闻

OPPO、荣耀、vivo最新中端数据分析,这不好起来了吗?

无障碍浏览 进入关怀版