网易首页 > 网易号 > 正文 申请入驻

训练并行性:微软谷歌再放大招,开源新框架

0
分享至

全文共2669字,预计学习时长7分钟

图源:Stanford

微软和谷歌一直积极致力于开发训练深度神经网络的新模型。最近,他们发布了两个新框架:微软的PipeDream和谷歌的GPipe。

这两个框架都遵循相似的原则,来扩展深度学习模型训练,二者在各自的研究论文中都有详细介绍,今天我将尝试对其进行总结。

训练是深度学习项目生命周期中的一个领域,在模型达到一定规模前,通常认为其挑战性不高。虽然在实验过程中训练基本模型比较简单平常,但其复杂性会随着模型的质量和大小呈线性增长。

例如,2014年ImageNet视觉识别挑战的冠军是GoogleNet,精确度最高,为74.8%,拥有参数达400万。而仅仅三年之后,2017年ImageNet挑战的冠军是压缩-激发(Squeeze-and-Excitation)网络,精确度最高,为82.7%,拥有参数达1.458亿(是之前的36倍多)。然而,在同一阶段,GPU内存仅增加了约3倍。

随着模型缩放,为达到更高精确度,这些模型训练的挑战性也会随之增高。前例表明,依靠GPU基础架构的完善来实现更好的训练过程不可持续,相反,为扩展训练规模,需要能够在不同节点进行并行化训练工作量的分布式计算方法。

可并行化训练的概念可能听起来比较简单,但在实际操作中极其复杂。如果你认真思考就会发现,我们真正说的是在不同节点之间划分模型的知识获取,然后将各个部分重新组合成一个内聚模型方面的问题。

然而,为缩放深度学习模型,训练可并行化必不可少。为应对这些挑战,微软和谷歌投入了数月的研究和工程研发,最终分别发布了GPipe和PipeDream两个框架。

谷歌的Gpipe

图源:unsplash

GPipe专注于扩展深度学习计划的训练负载。从基础架构的角度来看,培训过程的复杂性是深度学习模型经常被忽视的一个方面。

训练数据集越来越大,也愈加复杂,例如,在医疗保健领域,经常遇到需要使用数百万个高分辨率图像进行训练的模型。结果,完成训练过程通常耗时很长,且由于消耗内存和CPU,耗资不菲。

思考深度学习模型的并行性的有效方法是,将其划分为数据并行性和模型并行性。数据并行性方法采用大型机器集群,将输入数据拆分到它们之间。模型并行性尝试将模型移至具有专用硬件以加速模型训练的加速器,如GPU或TPU。

从高层次上讲,几乎所有训练数据集都能按照一定的逻辑进行并行化,但关于模型的说法却不尽相同。例如,一些深度学习模型由可以独立训练的并行分支组成,在这种情况下,通常采取的策略是将计算划分为多个分区,并将不同的分区分配给不同分支。但是,该策略在按顺序堆叠各层的深度学习模型中存在缺陷,给高效并行化计算提出了挑战。

GPipe通过利用一种称为流水线的技术将数据和模型并行性结合在一起。从概念上讲,GPipe是一个分布式机器学习库,它使用同步随机梯度下降和流水线并行性进行训练,适用于由多个连续层组成的任何DNN(深度神经网络)。

GPipe在不同的加速器之间划分模型,并自动将小批量训练示例拆分为更小的微批量,该模型使GPipe的加速器可以并行运行,从而最大限度提高训练过程的可扩展性。

下图说明了GPipe模型的神经网络序列层被划分为四个加速器的过程:Fk为第k个分区的复合正向计算函数,Bk为对应的反向传播函数,Bk依赖于上层的Bk+1和Fk的中间激活函数。在模型顶部,可以看到,网络的顺序性质是如何导致资源利用率不足的。

下图显示了GPipe方法,输入的小批量被划分成可以由加速器同时处理的较小宏批量。

图源:arxiv

微软的PipeDream

图源:unsplash

几个月前,微软研究院宣布创建Project Fiddle,这是一系列旨在简化分布式深度学习的研究项目。PipeDreams是Fiddle项目发布的首个专注于深度学习模型训练并行化的项目之一。

PipeDream采用了有别于其他方法的方式——一种称为流水线并行的技术,来扩大深度学习模型的训练规模,这种方法试图解决数据和模型并行技术的一些挑战,比如在GPipe中使用的技术。

通常,在云基础架构上进行培训时,数据并行化方法在规模上会承受较高的通信成本,且随着时间推移,会提高GPU的计算速度。与此类似,模型并行化技术通常不能有效利用硬件资源,在决定如何在给定硬件部署的情况下拆分其特定模型方面,给程序员带来了不必要的负担。

图源:Microsoft

PipeDream试图通过使用称为流水线并行的技术来克服数据模型并行性方法的一些挑战。从概念上讲,流水线并行计算涉及将DNN模型的各层划分为多个阶段,其中每个阶段均由模型中的一组连续层组成。每个阶段都映射到一个单独的GPU,该GPU对该阶段中的所有层执行正向传递(和反向传递)。

对于某个特定深度神经网络,PipeDream会根据在单个GPU上执行的简短概要分析,自动决定如何对DNN的运算符进行分区,在不同阶段之间平衡计算负载,同时最小化与目标平台的通信。

即使存在模型多样性(计算和通信)和平台多样性(互连拓扑和分层带宽),PipeDream也能有效实现负载平衡。与数据模型并行性方法相比,PipeDream训练并行性方法的原理具有多个优势。

对于初学者来说,PipeDream需要在工作程序节点之间减少通信,因为管道执行中的每个工作节点只需要与梯度和输出激活的子集通信,且只与单个其他工作节点通信。此外,PipeDream以一种更容易实现并行的方式将计算和通信分离开来。

图源:Microsoft

训练并行性是构建更庞大、更精确的深度学习模型的重大挑战之一。作为深度学习社区中活跃的研究领域,训练并行方法需要结合有效的并发编程技术和深度学习模型的本质。

虽然还处于早期阶段,谷歌的GPipe和微软的PipeDream仍各有所长,是深度学习开发人员训练并行能力最富创造性的方法。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!欧尔班:北约和欧盟已经做好准备直接派兵介入乌克兰战争!

突发!欧尔班:北约和欧盟已经做好准备直接派兵介入乌克兰战争!

文雅笔墨
2024-06-01 23:21:12
这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

这谁顶得住嘛!泰勒·斯威夫特这身材,这才是尤物啊!

冷却爱情
2024-04-25 18:28:15
长沙又火了!B太在长沙打假上热搜,网友吐槽:长沙市场该整顿了

长沙又火了!B太在长沙打假上热搜,网友吐槽:长沙市场该整顿了

沫姐美食记
2024-06-01 17:05:45
加沙超14000名儿童已丧生 加沙儿童:我们在巴勒斯坦长不大 加沙儿童“六一”得到的不是礼物,而是无休止的轰炸 愿战争停止!

加沙超14000名儿童已丧生 加沙儿童:我们在巴勒斯坦长不大 加沙儿童“六一”得到的不是礼物,而是无休止的轰炸 愿战争停止!

每日经济新闻
2024-06-01 16:21:45
恭喜,他们官宣复婚,让我又重新相信爱情了。

恭喜,他们官宣复婚,让我又重新相信爱情了。

金牌娱乐风尚Talk
2024-04-26 08:12:16
比亚迪秦L实测续航超2400公里!欧阳明高院士:插电混动技术比增程更强,美国人终于明白为啥要加100%关税了【附新能源汽车行业市场前景分析】

比亚迪秦L实测续航超2400公里!欧阳明高院士:插电混动技术比增程更强,美国人终于明白为啥要加100%关税了【附新能源汽车行业市场前景分析】

前瞻网
2024-05-30 18:51:15
历史上最可怕的1816年,全年无夏六月暴雪20万人被冻死,真实故事

历史上最可怕的1816年,全年无夏六月暴雪20万人被冻死,真实故事

阅史明今
2024-05-30 10:29:47
中国军事科学院原副院长何雷中将:请菲方先回答四个问题!

中国军事科学院原副院长何雷中将:请菲方先回答四个问题!

新京报政事儿
2024-06-01 13:27:50
3500亿芯片订单被取消!高通做梦也没想到,外媒:中国不买了!

3500亿芯片订单被取消!高通做梦也没想到,外媒:中国不买了!

小蘑菇壹号
2024-05-31 17:50:57
央行注销2张支付牌照

央行注销2张支付牌照

小马哥谈体育
2024-06-01 09:20:53
18名飞行员弹射失败,摔机摔到俄罗斯,“飞豹”为啥还不退役?

18名飞行员弹射失败,摔机摔到俄罗斯,“飞豹”为啥还不退役?

一度历史观
2024-05-31 10:52:06
女人最多能接受男人数量

女人最多能接受男人数量

好笑娱乐君每一天
2024-06-01 19:42:59
600元一亩交钱浇地:黑龙江四川尝鲜水资源承包,种粮难全球领先

600元一亩交钱浇地:黑龙江四川尝鲜水资源承包,种粮难全球领先

大风文字
2024-05-30 15:16:26
华为员工爆料:你以为的华为上班早9晚9很累,其实并不累

华为员工爆料:你以为的华为上班早9晚9很累,其实并不累

时尚的弄潮
2024-06-02 00:03:46
彻底炸锅了,A股突发惊天大雷,近十万股东彻夜难眠!

彻底炸锅了,A股突发惊天大雷,近十万股东彻夜难眠!

静守时光落日
2024-06-01 12:50:23
中国的“老朋友”,却彻底倒向了美国,曾对华出口大量先进装备?

中国的“老朋友”,却彻底倒向了美国,曾对华出口大量先进装备?

星辰故事屋
2024-05-26 18:56:46
林彪去江西休养,顺路看望贺子珍,他走后贺子珍马上联系省委同志

林彪去江西休养,顺路看望贺子珍,他走后贺子珍马上联系省委同志

正史笔记
2024-05-30 17:11:48
原来野心真的能从眼神里看出来。同是配角,12年前的杨幂VS现在

原来野心真的能从眼神里看出来。同是配角,12年前的杨幂VS现在

冥王星与一只碗
2024-05-31 00:34:02
老紫薇献祭老公事业求脱身

老紫薇献祭老公事业求脱身

毒舌扒姨太
2024-05-31 22:08:30
小小的推拉板体现出了车企对用户隐私的尊重,特斯拉要学习比亚迪

小小的推拉板体现出了车企对用户隐私的尊重,特斯拉要学习比亚迪

户外小阿隋
2024-05-30 07:10:02
2024-06-02 01:04:49
读芯术
读芯术
专注年轻人的AI学习平台
2097文章数 5641关注度
往期回顾 全部

科技要闻

余承东:不卷价格!雷军:将双班制生产!

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

体育要闻

女排最强2主攻合体 合砍40分打懵泰国

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

艺术
时尚
房产
本地
健康

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

伊姐周六热推:电视剧《时光正好》;综艺《快乐老友记 第二季》......

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

晚餐不吃or吃七分饱,哪种更减肥?

无障碍浏览 进入关怀版