网易首页 > 网易号 > 正文 申请入驻

CPU比GPU训练神经网络快十几倍,英特尔:别用矩阵运算了

0
分享至

  机器之心报道

  编辑:维度、陈萍

  

神经网络训练通常是 GPU 大显身手的领域,然而莱斯大学和英特尔等机构对 GPU 的地位发起了挑战。

  在深度学习与神经网络领域,研究人员通常离不开 GPU。得益于 GPU 极高内存带宽和较多核心数,研究人员可以更快地获得模型训练的结果。与此同时,CPU 受限于自身较少的核心数,计算运行需要较长的时间,因而不适用于深度学习模型以及神经网络的训练。

  但近日,莱斯大学、蚂蚁集团和英特尔等机构的研究者发表了一篇论文,表明了在消费级 CPU 上运行的 AI 软件,其训练深度神经网络的速度是 GPU 的 15 倍。这篇论文已被 MLSys 2021 会议接收。

  论文链接:
https://proceedings.mlsys.org/paper/2021/file/3636638817772e42b59d74cff571fbb3-Paper.pdf

  论文通讯作者、莱斯大学布朗工程学院的计算机科学助理教授 Anshumali Shrivastava 表示:「训练成本是 AI 发展的主要瓶颈,一些公司每周就要花费数百万美元来训练和微调 AI 工作负载。」他们的这项研究旨在解决 AI 发展中的训练成本瓶颈。

  

  Anshumali Shrivastava。

  研究动机及进展

  深度神经网络(DNN)是一种强大的人工智能,在某些任务上超越了人类。DNN 训练通常是一系列的矩阵乘法运算,是 GPU 理想的工作负载,速度大约是 CPU 的 3 倍。

  如今,整个行业都专注于改进并实现更快的矩阵乘法运算。研究人员也都在寻找专门的硬件和架构来推动矩阵乘法,他们甚至在讨论用于特定深度学习的专用硬件 - 软件堆栈。

  Shrivastava 领导的实验室在 2019 年做到了这一点,将 DNN 训练转换为可以用哈希表解决的搜索问题。他们设计的亚线性深度学习引擎(sub-linear deep learning engine, SLIDE)是专门为运行在消费级 CPU 上而设计的,Shrivastava 和英特尔的合作伙伴在 MLSys 2020 会议上就公布了该技术。他们表示,该技术可以超越基于 GPU 的训练。

  在 MLSys 2021 大会上,研究者探讨了在现代 CPU 中,使用矢量化和内存优化加速器是否可以提高 SLIDE 的性能。

  论文一作、莱斯大学 ML 博士生 Shabnam Daghaghi 表示:「基于哈希表的加速已经超越了 GPU。我们利用这些创新进一步推动 SLIDE,结果表明即使不专注于矩阵运算,也可以利用 CPU 的能力,并且训练 AI 模型的速度是性能最佳专用 GPU 的 4 至 15 倍。」

  

  Shabnam Daghaghi。

  此外,论文二作、莱斯大学计算机科学与数学本科生 Nicholas Meisburger 认为,CPU 仍然是计算领域最普遍的硬件,其对 AI 的贡献无可估量。

  技术细节

  在本论文中,该研究重新了解了在两个现代 Intel CPU 上的 SLIDE 系统,了解 CPU 在训练大型深度学习模型方面的真正潜力。该研究允许 SLIDE 利用现代 CPU 中的矢量化、量化和一些内存优化。与未优化的 SLIDE 相比,在相同的硬件上,该研究的优化工作带来了 2-7 倍的训练时间加速。

  SLIDE 的工作流程包括:初始化、前向-反向传播和哈希表更新。下图 1 为前向-反向传播工作流程图:

  

  前向和后向传播示意图。

  该研究专注于大规模评估,其中所需的神经网络拥有数亿个参数。在两台 Intel CPU 上比较了优化的 SLIDE,分别是 Cooper Laker 服务器(CPX)和 Cascade Lake 服务器(CLX),并与以下以下 5 个基准进行了对比:

  1)V100 GPU上的 full-softmax tensorflow 实现;

  2) CPX 上的 full-softmax tensorflow 实现;

  3)CLX 上的 full-softmax tensorflow 实现;

  4)CPX 上的 Naive SLIDE;

  5)CLX 上的 Naive SLIDE。

  其中,CPX 是英特尔第三代至强可扩展处理器,支持基于 AVX512 的 BF16 指令。CLX 版本更老,不支持 BF16 指令。

  研究者在三个真实的公共数据集上评估了框架和其他基准。Amazon670K 是用于推荐系统的 Kaggle 数据集;WikiLSH-325K 数据集和 Text8 是 NLP 数据集。详细统计数据见下表 1:

  

  对于 Amazon-670K 和 WikiLSH-325K,研究者使用了一个标准的全连接神经网络,隐藏层大小为 128,其中输入和输出都是多个热编码向量。对于 Text8,该研究使用标准 word2vec 语言模型,隐藏层大小为 200,其中输入和输出分别是一个热编码向量和多个热编码向量。

  下图 6 第一行代表所有数据集的时间收敛图,结果显示了该研究提出的优化 SLIDE 在 CPX 和 CLX(深绿色和浅绿色)上训练时间优于其他基准 。图 6 的底部行显示了所有数据集的柱状图。

  

  下表 2 给出了三个数据集上的详细数值结果:

  

  下表 3 中,研究者展示了 BF16 指令对每个 epoch 平均训练时间的影响。结果表明,在 Amazon-670K 和 WikiLSH325K 上,激活和权重中使用 BF16 指令分别将性能提升了 1.28 倍和 1.39 倍。但是,在 Text8 上使用 BF16 没有产生影响。

  

  下表 4 展示了有无 AVX-512 时,优化 SLIDE 在三个数据集上的每个 epoch 平均训练时间对比。结果表明,AVX-512 的矢量化将平均训练时间减少了 1.2 倍。

  

  https://techxplore.com/news/2021-04-rice-intel-optimize-ai-commodity.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

亚洲第一艘核动力航母即将诞生?排水量达7万吨,不是日本!

肖赞赞
2021-05-07 16:24:24

嘎子哥卖酒出现困难,开播5分钟被多人举报,刚报完价格就被封

蜗牛看球
2021-05-11 17:59:47

绿茵场最可怕黑衣人,把再大牌的球员都看穿了

开球咯
2021-05-11 16:02:36

国防部谈“中国统一”后,美澳亮出最新政策,消息一出,岛内炸锅

前沿时刻
2021-05-11 18:42:59

侮辱性极强!顿涅茨克举行阅兵式,有人举着乌克兰总统爷爷的照片

HE观察
2021-05-11 15:19:18

背叛者终将被审判,中国释放明确信号,美澳急忙撇清关系

哨所
2021-05-11 10:00:16

搜狐创始人张朝阳,如今却落得这个结果,令人唏嘘不已

史载史
2021-05-09 16:09:00

数万大军抵近边境,27国兵锋直指东方,军方:该出手时绝不手软

军武视界
2021-05-09 09:54:24

烧光3000亿!国产巨头“惨遭”苹果拒绝,无缘iPhone13生产线

手游四象限
2021-05-09 15:06:51

人类史上最邪恶的10项发明,究竟有多可怕?

较高端人类
2021-05-06 10:00:02

谈崩了!辽宁男篮国手级锋线走人,或告别CBA赛场,前往海外赛场

体坛赛事风云录
2021-05-11 16:21:56

中国的石墨烯技术、美国的2nm芯片技术,先进的背后是尴尬的真相

九州小高
2021-05-10 12:06:31

46岁遭遇绝经困境,老公还精力很旺盛,怎么办?

休二
2021-05-11 03:25:29

女子偷拍舍友洗澡,大尺度照片遭疯传,真的太可怕了.....

生活新青年
2021-05-11 22:56:59

林志玲嫁到日本两年,46岁近照曝光,模样让人不敢相信!

有格
2021-05-11 09:51:49

老司机的怀念,盘点即将消失的汽车配件,第六个已经快绝迹

奇车闻天下
2021-05-11 10:09:23

律师告诉你:这些你以为的小问题,可能是判刑很重的重罪

幼稚园新童鞋
2021-05-10 14:09:45

不打疫苗出行将受限?不让坐飞机、高铁?多部门回应……

我爱栟茶论坛
2021-05-08 09:44:53

张庭豪砸300万包海岛,带员工疯玩四天三夜,引发当地人不满

贵圈八姨太
2021-05-10 17:48:00

红孩儿扮演者刷屏:已成中科院博士!北大保送、硕博连读,身家上亿!

中国基金报
2021-05-10 22:44:49
2021-05-12 01:28:52
机器之心Pro
机器之心Pro
专业的人工智能媒体
5925文章数 122980关注度
往期回顾 全部

科技要闻

周鸿祎:假以时日 华为汽车一定能取代特斯拉

头条要闻

台湾再次"梦碎"世卫大会 华春莹:是民进党当局造成的

头条要闻

台湾再次"梦碎"世卫大会 华春莹:是民进党当局造成的

体育要闻

德甲历史射手榜:老穆勒365球居首,莱万275球列第二、海帅第4

娱乐要闻

陶虹穿深V礼服对镜回眸氛围感满分

财经要闻

汽车要闻

韩国旗舰电动车? 现代将推IONIQ 6轿车

态度原创

房产
健康
旅游
教育
手机

房产要闻

[上海]“飞地”成枢纽 安亭成了刚需客重点关注的区域

甲状腺结节会癌变吗?

旅游要闻

玛雅文明五大未解之谜,你知道几个?

教育要闻

成都49中坠亡学生遗体已在殡仪馆,殡仪馆:还没火化,直系亲属已经到了

手机要闻

iPhone折叠屏预计将于2023年发布:屏幕大得惊人