网易首页 > 网易号 > 正文 申请入驻

TResNet改进ResNet 实现高性能 GPU 架构 效果优于 EfficientNet

0
分享至

TResNet: High Performance GPU-Dedicated Architecture 来自阿里的达摩院,发布于2021 WACV,该论文引入了一系列架构修改,旨在提高神经网络的准确性,同时保持其 GPU 训练和推理效率。

论文首先讨论了面向 FLOP 的优化引起的瓶颈。 然后建议更好地利用 GPU 结构的设计。 最后引入了一个新的 GPU 专用模型,称其为 TResNet。

上表将 ResNet50 与流行的较新架构进行了比较,具有相似的 ImageNet top-1 精度——ResNet50-D [11]、ResNeXt50 [43]、SEResNeXt50 (SENet+ResNeXt) [13]、EfficientNet-B1 [36] 和 MixNet-L (MixConv)[37]。与 ResNet50 相比,新提出的网络中 FLOP 减少和新技巧的使用并未转化为 GPU 吞吐量的提高。

最新的一些网络,如 EfficientNet、ResNeXt 和 MixNet (MixConv) 广泛使用深度和 1×1 卷积,它们提供的 FLOP 明显少于 3×3 卷积。 但是GPU 通常受限于内存访问成本而不是计算数量,尤其是对于低 FLOP 层。ResNeXt 和 MixNet (MixConv) 等网络广泛使用了多路径。 对于训练这会创建大量需要存储以进行反向传播的激活图,占用大量的显存肯定会减小批量大小,从而降低 GPU 吞吐量。

而TResNet 的提出旨在实现高精度的同时保持高 GPU 利用率。

包含三个变体,TResNet-M、TResNet-L 和 TResNet-XL,它们仅在深度和通道数上有所不同。

SpaceToDepth Stem

ResNet50 stem 由一个 stride-2 conv7×7 和一个最大池化层组成。ResNet-D 将 conv7×7 替换为三个 conv3×3 层。 这种设计确实提高了准确性,但代价是降低了训练吞吐量。论文使用了专用的 SpaceToDepth 转换层 [33],将空间数据块重新排列为深度。SpaceToDepth 层之后是简单的卷积,以匹配所需通道的数量。

Anti-Alias Downsampling (AA)

stride-2 卷积被 stride-1 卷积替换,然后是一个 3×3 的步长为 2的blur filter。

In-Place Activated BatchNorm (Inplace-ABN)

所有 BatchNorm+ReLU 层都被 Inplace-ABN [32] 层取代,该层将 BatchNorm 激活为单个inplace操作,从而显着减少训练深度网络所需的内存,而计算成本仅略有增加。并且使用 Leaky-ReLU 代替了 ResNet50 的普通 ReLU。

Novel Block-Type Selection

Bottleneck 层比 BasicBlock 层具有更高的 GPU 使用率,并且提供更好的准确性。 但是BasicBlock 层具有更大的感受野,因此它们可能更适合放置在网络的早期阶段。由于 BasicBlock 层具有较大的感受野,因此它们被放置在网络的前两个阶段,而Bottleneck层则位于最后两个阶段。与 [10] 和 [36] 类似,也修改了初始通道数和第 3 阶段中的残差块数。架构详情如上表。

Optimized SE Layers

TResNet BasicBlock 和Bottleneck设计(stride 1)。 IBN = Inplace-BatchNorm,r = 缩减因子

SE 层仅放置在网络的前三个阶段,以获得最大的速度-准确度优势。对于Bottleneck单元,在conv3×3操作之后添加SE模块,缩减因子为8(r = 8)。对于 BasicBlock 单元,在残差和之前添加 SE 模块,缩减因子为 4 (r=4)。

除了架构改进之外,进行了下面的一些代码优化。

JIT 编译能够在执行时将高级代码动态编译成高效、优化的机器代码。这与通过解释器动态运行代码的默认 Pythonic 选项形成对比。对于 AA 和 SpaceToDepth 模块,发现 JIT 编译几乎可以将 GPU 成本降低两倍。

Inplace操作直接更改给定张量的内容,无需内存之间的复制,这样可以防止创建不需要的激活映射不需要进行反向传播。所以尽量使用Inplace操作。TResNet-M 的最大批量大小几乎是 ResNet50-512 的两倍,

Fast Global Average Pooling 是 GAP 的一个简单专用实现,针对 (1,1) 空间输出的特定情况优化了代码,比 GPU 上的样板实现快 5 倍。

ImageNet

TResNet-M 的 GPU 吞吐量与 ResNet50 相似,在 ImageNet 上的验证准确率显着提高(+1.8%)。在 8×V100 GPU 机器上训练 TResNet-M 和 ResNet50 模型耗时不到 24 小时,可见该训练方案也是高效经济的。TResNet 模型的另一个优势是能够处理比其他模型大得多的批量大小。

消融研究

1. 虽然预期 GPU 吞吐量会提高,但在用“更便宜”的 SpaceToDepth 单元替换 ResNet stem时,准确度也会(略微)提高这一事实有点令人惊讶。

1. 块类型选择为所有方法提供了显着改进。

1. Inplace-ABN 显着增加了批量大小。 Inplace-ABN 的影响好坏参半:虽然推理速度有所提高,但训练速度有所降低。

1. 优化的 SE + Anti-Aliasing 层显着提高了 ImageNet top-1 精度,但代价是降低了模型 GPU 吞吐量。

ResNet-M 模型中的代码优化对推理速度、训练速度和最大批量大小的影响

在优化中,inplace操作提供了最大的提升——它不仅提高了 GPU 吞吐量,而且还显着增加了批量大小,因为它避免了为反向传播创建不需要的激活图。

High-Resolution Fine-Tuning

使用 224 的 ImageNet 预训练的 TResNet 模型作为起点,并通过 10 次 epoch 微调到 448 的输入分辨率。TResNet 模型可以很好地扩展到高分辨率。 即使是 TResNet-M 这种相对较小紧凑的模型,在高分辨率输入的 ImageNet 上也可以达到 83.2% 的 top-1 准确率。

与 EfficientNet 模型的比较

沿着 top-1 准确度曲线,TResNet 模型比 EfficientNet 模型提供更好的推理速度准确度和训练速度准确度权衡。

迁移学习

TResNet 在迁移学习数据集上与最先进模型的比较(仅基于 ImageNet 的迁移学习结果)使用 ImageNet 预训练,并对模型进行了 80 个 epoch 的微调。TResNet 在 4 个数据集中的 3 个数据集上超过或匹配了最先进的精度,GPU 推理速度提高了 8-15 倍。

基于 TResNet 的解决方案明显优于之前 MSCOCO 多标签数据集的顶级解决方案,将已知 SOTA 从 83.7 mAP 大幅提高到 86.4 mAP。

使用 FCOS 作为目标检测器,TResNet-M 在这个目标检测任务上的表现优于 ResNet50,将 COCO mAP 得分从 42.8 提高到 44.0。

[2021 WACV] TResNet: High Performance GPU-Dedicated Architecture

https://avoid.overfit.cn/post/d032d7b8ca65463b95c70fc4950a6e1a

作者:Sik-Ho Tsang

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
悬崖秋千坠亡事件后续,排女孩后面游客发声,有目击者做几天噩梦

悬崖秋千坠亡事件后续,排女孩后面游客发声,有目击者做几天噩梦

十九妹
2026-05-07 16:16:16
四川5名干部任新职 涉一市委书记调整

四川5名干部任新职 涉一市委书记调整

人民资讯
2026-05-09 10:16:00
我转业回家,老婆要求我净身出户。半夜旅长打来电话:明早来报到

我转业回家,老婆要求我净身出户。半夜旅长打来电话:明早来报到

纸鸢奇谭
2026-04-07 17:07:40
中签号码超31万个,15亿王者级肉签上市,中签的股民嗨了!

中签号码超31万个,15亿王者级肉签上市,中签的股民嗨了!

数据挖掘分析
2026-05-09 09:14:39
当伊朗亮出海底光缆底牌时,全世界才发现,中国藏了一手更绝的

当伊朗亮出海底光缆底牌时,全世界才发现,中国藏了一手更绝的

闻识
2026-05-06 21:50:14
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
这居然是母子合影,47 岁巴西女星简直冻龄

这居然是母子合影,47 岁巴西女星简直冻龄

下水道男孩
2026-05-07 21:16:59
仅32岁!美女教练张红霞去世,切两器官抗争胃癌,手机壁纸做遗照

仅32岁!美女教练张红霞去世,切两器官抗争胃癌,手机壁纸做遗照

川渝视觉
2026-05-08 21:35:45
普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

普京时代渐近尾声,中国需警惕俄罗斯政策变动风险

律法刑道
2026-05-08 11:06:45
亨得利:奥沙利文预测吴宜泽三年内拿世界冠军时,我认为不会发生

亨得利:奥沙利文预测吴宜泽三年内拿世界冠军时,我认为不会发生

世界体坛观察家
2026-05-09 08:37:08
汉武帝为什么总选春天进攻匈奴?司马光:匈奴女子春天更容易怀孕

汉武帝为什么总选春天进攻匈奴?司马光:匈奴女子春天更容易怀孕

云霄纪史观
2026-05-08 00:57:48
历史级神迹!文班亚马39+15+5盖帽创纪录,一战打服所有质疑者

历史级神迹!文班亚马39+15+5盖帽创纪录,一战打服所有质疑者

夜白侃球
2026-05-09 13:54:31
三星家电退市补偿曝光:N+3甚至N+4,还送三星手机

三星家电退市补偿曝光:N+3甚至N+4,还送三星手机

金融界
2026-05-08 18:04:30
独家丨谁的智度?被控在美性侵的资本大佬资本失联,代持协议能否影响控制权争夺

独家丨谁的智度?被控在美性侵的资本大佬资本失联,代持协议能否影响控制权争夺

澎湃新闻
2026-05-09 09:58:30
刚刚,比亚迪官宣:新车15.08万起!

刚刚,比亚迪官宣:新车15.08万起!

手机评测室
2026-05-09 11:50:48
F-勒布伦:我们日复一日训练,就是为了迎接和中国的重量级对决

F-勒布伦:我们日复一日训练,就是为了迎接和中国的重量级对决

懂球帝
2026-05-09 13:33:06
得熬夜!国乒男团VS法国,比赛时间公布,林诗栋遇苦主,王皓有招

得熬夜!国乒男团VS法国,比赛时间公布,林诗栋遇苦主,王皓有招

体育大学僧
2026-05-09 10:24:38
又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

又一狗血新词!网传有员工被裁后再遭公司起诉"刻意隐瞒自身价值"

火山詩话
2026-05-08 18:00:57
“4只皮皮虾1035元”消费者再发声:否认“想吃白食”,已拒绝先行赔付,不是钱的问题,等待调查出租车和商家的问题

“4只皮皮虾1035元”消费者再发声:否认“想吃白食”,已拒绝先行赔付,不是钱的问题,等待调查出租车和商家的问题

扬子晚报
2026-05-08 22:15:38
曝王暖暖凌晨被送往医院抢救!全身浮肿、满脸胀红,昏迷原因曝光

曝王暖暖凌晨被送往医院抢救!全身浮肿、满脸胀红,昏迷原因曝光

阿废冷眼观察所
2026-05-08 18:26:49
2026-05-09 14:08:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1988文章数 1461关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

牛弹琴:全世界十分意外 俄乌战场突然传来两个好消息

头条要闻

牛弹琴:全世界十分意外 俄乌战场突然传来两个好消息

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

张艺谋《印象刘三姐》全裸镜头引争议

财经要闻

Meta疯狂拥抱人工智能:员工苦不堪言

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

房产
手机
教育
旅游
军事航空

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

手机要闻

1299元!REDMI Pad 2 SE 4G版明日开售:双卡双待 随时上网/通话

教育要闻

语法第6课-把句子套进另一个句子里,变身“大名词”

旅游要闻

5月15日至10月15日,东、西佘山园延长开放时间→

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版