网易首页 > 网易数码 > 笔记本 > 正文

神秘不再 NVIDIA下一代GPU架构Pascal初探

0
分享至

(原标题:神秘不再 NVIDIA下一代GPU架构Pascal初探)

在两年前的2014 GTC大会上,NVIDIA更新了该公司的产品路线图,Maxwell架构原定的接班人从Volta更新为Pascal(帕斯卡),后者将采用3D内存技术,拥有Terabyte/s级别的内存带宽以及崭新的NVLink总线技术,对于许多一直关注GPU技术的人士来说,这些新技术无疑让人十分振奋的。

Pascal是NVIDIA引入GPU计算后的第五代GPU架构,但是按照NVIDIA自己总的架构代数划分,则属于第十一代,而对消费者而言,最简单的描述就是:这是他们即将就能买到的新显卡。

在 4 月 6 日召开的NVIDIA GTC2016 上,NVIDIA CEO黄仁勋进行的主题演讲首次向公众公布了基于Pascal的两款 GPU:Tesla P100和架构名尚不清楚的中端版Pascal。

其中,Tesla P100作为旗舰级产品,具备了Pascal架构的所有特性:

极高的性能:针对HPC、深度计算以及甚多GPU的应用场合

NVLink:NVIDIA独家的新高速总线,专门用于GPU的高速互连

HBM2:目前最快、容量最高的堆叠式内存技术

统一内存和计算抢占:可以显著改进编程模型

16 纳米 FinFET(鳍式场效应管)制程:可以让Pascal实现更多的特性、更快的性能以及改善能效比

全面提升的Pascal GP100微架构

按照目前的资料看,GP100是Tesla P100的微架构代号,这样的区分在过往并未出现过,例如GM200微架构对应的GPU加速器就没有Tesla M200这样的说法,出现这样的区分,也许是因为NVIDIA从这一代产品开始将GPU计算产品看做一个非常严肃(赚钱?)的产品看待。

事实上,“GPU加速器”这样的称呼也是首次在这次大会上频繁出现,NVIDIA不断提“加速器”的说法,其目的就是希望突出产品的计算性能而不再仅仅是图形处理器。

解读完名字后,就让我们进入干货阶段吧。

NVIDIA的GPU计算产品被称作Tesla,这是从第一代针对GPU计算的 G80(Tesla 8,当时的GPU微架构也叫Tesla)开始,NVIDIA将传统微架构意义上的内核称作 streaming multiprocessor,简称SM,SM对来自并行运行的众多线程的指令进行创建、管理、调度和执行,而“内核”这个称呼则被NVIDIA用作 SIMD 中单个处理单元,GPU厂商的这些术语即使到现在对许多业内人士来说也都是有点混乱的。

从计算的角度,SM虽然已经算是一个内核,当时从图形处理的角度,它只负责可编程计算部分,缺乏一些图形渲染的固定功能硬件,例如三角形 Setup(设置)、Tessellation(镶嵌)、纹理等单元。

NVIDIA将若干SM组织为一个被称作GPC(图形处理簇,更早的时候被称作 TPC,纹理处理簇,因为那时候还没在这个层级上引入硬件几何处理单元),GP100拥有10个GPC,每个GPC拥有6个SM,合计有60个SM,每个SM拥有64个CUDA Core(或者说64路SIMD)和16个纹理单元,所以CUDA Core一共有3840个,纹理单元有240个。

虽然GP100足本版本是3840 Cuda Core,或者说60个SM,NVIDIA公布的Tesla P100却只有3584 Cuda Core(56 个SM),这意味着至少第一波的Tesla P100是非足本的,有4个SM被保留作为冗余以提升产能。

内存带宽方面由于引入了HBM2,峰值带宽为720GB/s,这离HBM2的 1TB/s 略有差距,但是依然达到了Tesla M40的三倍。

Tesla P100有高达153亿个晶体管,面积达到610平方毫米,这是NVIDIA迄今为止最大的芯片,如此巨大的芯片,要实现足本版其成本会相当高,采用冗余后,就能提高良品率显著降低成本。

从上图可以直观的看到Tesla P100和前两代产品在SM层级方面的变化:

1、单个SM的 FP32 单元比Tesla M40减少一半、比1/3,但是SM数量显著提升,分别提升了2.73倍和1.33倍,而 FP32:FP64 单元比例则是显著飙升,从 K40 的1:3提升到1:2,在Tesla P100上一共有1792个双精度单元,类似的 FP32:FP64 比例之前只在 AMD 的 Hawaii 上出现。

2、在双精度性能方面,Tesla P100达到了5304(boost clock 模式下)GFLOPS,达到了Tesla K40的3.16倍,而Tesla M40双精度则因为本身是只强调单精度,其双精度性能只有213 GFLOPS,连CPU都不如。

3、Tesla P100的单精度性能达到10.6 TFLOPS,针对深度学习而新引入的硬件半精度(fp16)更是达到了21.2 TFLOPS。

4、纹理单元虽然比Tesla K40少了16个,但是凭借更高的频率,目前看到的纹理指标比Tesla K40要快大约58%。

5、HBM2的容量高达16GB,这个容量比HBM1大三倍,GPU计算的适应能力要广很多。

6、频率方面,Tesla P100比TeslaK40高69%、比Tesla M40高32%,结合规模上的提升,造就了其强悍的性能。

7、Tesla P100的底层每瓦双精度性能是 17.68 GFLOPS,Tesla K40和Tesla M40 分别是7.14 GFLOPS和0.85 GFLOPS,可以看出在Tesla P100在能耗比方面有极为显著的改善。不过即便如此,300瓦的TDP也意味着Tesla P100在散热上的挑战非常高。

上图是Tesla P100的产品图(为了美观NVIDIA做了一些修饰),Tesla P100采用了台积电的CoWoS技术,GPU和四枚堆叠式HBM2内存完全紧挨在一起,内存和GPU之间有超过4000条金属线互连。和以往需要GPU来实现ECC不同的是,HBM2已经具备ECC功能。

Tesla P100具备 49 位虚拟内存空间,可以支持数千个分页缺失以及2MB大小的内存分页,如此一来Tesla P100的统一内存系统不再像以往那样受制于GPU的内存大小,而是只受制于系统内存大小,实现CPU和GPU之间进行块访问以及原子操作,统一内存模式现在是Pascal的默认模式。

按照NVIDIA的说法,未来还会引入32GB的 HMB2,这将比Tesla P100的16GB大一倍。

上图是NVIDIA提供的P100深度计算性能结果,可以看到,两片P100的性能超过了四片 GK210 GPU(K80 和P100的TDP都是300瓦,K80包含两片CUDA Core数为2496个的GK210 GPU)。图中的蓝色水平虚线是一枚Intel Haswell的测试结果。

上图是Tesla P100的背部图,可以看到上面有两个白色的高密度针脚连接器,这就是传说中的NVLink接口以及供电接口。

Pascal是NVIDIA第一个采用NVLink总线技术的架构,该总线可提供四个高达 40GB/s带宽的连接,可以确保实现八枚NVIDAI GPU或者GPU+CPU混合方式的连接,例如和IBM POWER8 CPU的连接。

NVLink总线是一致性的互连技术,对程序员来说这意味着可以直接访问不同芯片上的局部内存。

引入NVLink后,NVIDIA终于有了在服务器叫板的资本,在多GPU延伸上有了更大的主导权。

上图是NVIDIA自己推出的一款包含八枚Tesla P100的深度学习超级电脑,8个Tesla P100被插在一块NVLink矩阵模块板上,和两枚Xeon处理器透过高速的四通道Infiniband实现互连,FP16 性能高达 170TFLOPS,除此外,DGX-1 还提供了7TB的 SSD,搭配的电源功率高达3200瓦,按照NVIDIA的计划,DGX-1 预计会在六月在美国上市,全球上市则是稍后,但也是在第三季度,目前已经接受预定,价格12.9万美元。

Tesla P100的推出意味着GPU计算已经进入丰收阶段,NVIDIA也不再仅仅是满足于GPU供应商,而是要进军平台化,挑战英特尔的条件已经成熟。

NVIDIA表示P100只会有Tesla,目前没有GeForce版本的计划,所以呀大家是不要指望能用P100耍游戏了。

玩家们要的游戏版Pascal会是怎样的?

先别抓狂,NVIDIA可不止有Tesla P100,他们早已另外准备了针对高中低市场的Pascal GPU,代号分别是GP104、GP106、GP107,由于GTC主要针对行业用户,因此这三款游戏GPU的规格并未作任何透露。

坊间有一些关于这三款GPU的猜测,例如按照传统,GP104应该是最高端的,GP106、GP107则渐次。

比较遗憾的是,这三款GPU应该都不会引入HBM2内存,而是采用技术更成熟、产量更高的GDDR5内存。

Anandtech根据NVIDIA在现场展示Drive PX2自动驾驶模块认为该模块采用的GPU是 GP106,而NVIDIA在一月份的CES 2016展示的DRIVE PX2则是采用 GM204。

根据NVIDIA的技术讲解,DRIVE PX2提供了24 DL TLOPS的深度学习性能和大约 80GB/s 的内存带宽,拥有4GB GDDR5内存,这意味着这里的单枚GP106 FP16性能是12 TFLOPS,一般来说单精度和半精度的比例是1:2,以此可以得出的单精度性能就是6TFLOPS。

NVIDIA的 GM204足本显卡是GeForce GTX 980,单精度性能为4.6TFLOPS,这意味着 DRIVE PX2 的 GP106 单精度性能相当于GTX 980的 1.3 倍,事实上,即使是GM200的 GTX 980 Ti也不过是6.1TFLOPS,当然GTX 980的内存带宽要(256GB/s)高不少。

GP106 就能做到这样的单精度性能水准,那么更快的GP104以及较低的GP107 自然也是非常值得期待了,从现在算起,应该剩下不到60天,我们就能看到它们的正式亮相了:)

相关推荐
热点推荐
证券市场传来3消息,一条比一条重磅,A股周四必让股民大吃一惊!

证券市场传来3消息,一条比一条重磅,A股周四必让股民大吃一惊!

静守时光落日
2024-05-22 14:49:04
解放军悄悄干了件大事!中国,准备出手杀鸡了

解放军悄悄干了件大事!中国,准备出手杀鸡了

华人星光
2024-05-20 10:31:31
活不过75岁的老人,大多是在55岁左右,会经常做这4件事

活不过75岁的老人,大多是在55岁左右,会经常做这4件事

今日养生之道
2024-04-26 03:24:56
森林北穿起球毛衣回应!网友:3分钟的视频,每一条都该抄下来

森林北穿起球毛衣回应!网友:3分钟的视频,每一条都该抄下来

圈里的甜橙子
2024-05-22 06:08:57
最躁动的5天,深圳发生了什么?

最躁动的5天,深圳发生了什么?

科学发掘
2024-05-22 16:30:34
上海的老破小,全面爆发了?

上海的老破小,全面爆发了?

环线房产咨询
2024-05-22 19:34:23
削发明志?林高远理新发型,清爽利落,硬朗帅气,与以往大不同

削发明志?林高远理新发型,清爽利落,硬朗帅气,与以往大不同

湘楚风云
2024-05-22 17:16:58
侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

三月柳
2024-04-13 15:27:23
河南警方:每日21时至次日7时,居民小区周边有条件的道路可停车

河南警方:每日21时至次日7时,居民小区周边有条件的道路可停车

河南100度
2024-05-22 11:06:25
美国第1女预言家,死前说中国人将会...竟这么准!

美国第1女预言家,死前说中国人将会...竟这么准!

华人星光
2024-05-21 13:19:33
中国队夺冠仍无缘直通巴黎!葛曼棋缺席,陈佳鹏生吃韩国复制经典

中国队夺冠仍无缘直通巴黎!葛曼棋缺席,陈佳鹏生吃韩国复制经典

环太平洋老正太
2024-05-22 00:17:43
6214万余元!青岛极地海洋公园旁一别墅被法拍,原房主曾是青岛年度经济人物

6214万余元!青岛极地海洋公园旁一别墅被法拍,原房主曾是青岛年度经济人物

刺头体育
2024-05-22 12:32:22
云南一男子强奸嫂子,嫂子绝望哀求:只要别杀我,想干什么都行

云南一男子强奸嫂子,嫂子绝望哀求:只要别杀我,想干什么都行

玲说百态味
2024-05-16 17:21:28
你愿不愿意在一个小县城待一辈子?网友回答真实又扎心

你愿不愿意在一个小县城待一辈子?网友回答真实又扎心

黄丽搞笑小能手
2024-05-19 00:27:14
菜农下地遭竹叶青咬伤 给蛇拍照迅速扎紧手臂

菜农下地遭竹叶青咬伤 给蛇拍照迅速扎紧手臂

南方都市报
2024-05-22 07:02:43
超模Bella Hadid在戛纳度假:

超模Bella Hadid在戛纳度假:

娱乐八卦木木子
2024-05-21 13:46:04
重蹈覆辙!苏宁第二次夺冠后失去球队,江苏曾遭夺冠解散厄运

重蹈覆辙!苏宁第二次夺冠后失去球队,江苏曾遭夺冠解散厄运

直播吧
2024-05-22 17:38:14
所谓天仙,就是穿着最少的布料,也不会让人感到暴露

所谓天仙,就是穿着最少的布料,也不会让人感到暴露

粤姐说情感
2024-05-22 16:53:03
辽篮4-0新疆!赛后听听疆媒,辽媒,粤媒,沪媒,京媒怎么说

辽篮4-0新疆!赛后听听疆媒,辽媒,粤媒,沪媒,京媒怎么说

邹维体育
2024-05-22 21:55:56
乱换人!丘彪成新疆最大短板!无头脑的技术犯规,微笑握手无斗志

乱换人!丘彪成新疆最大短板!无头脑的技术犯规,微笑握手无斗志

理工男评篮球
2024-05-22 22:48:18
2024-05-22 23:14:44

头条要闻

"海南虎"任上落马:执掌政法系统时出现200亿女法官案

头条要闻

"海南虎"任上落马:执掌政法系统时出现200亿女法官案

体育要闻

官方:橡树资本接管国米 8年苏宁时代结束

娱乐要闻

乔欣助理离职大爆料!涉及明星超10位

财经要闻

理想不再“理想”

科技要闻

微软给用户更多理由回到 Windows

汽车要闻

舒适价值拉满 奇瑞风云T9售12.99-16.99万元

态度原创

教育
数码
房产
公开课
军事航空

教育要闻

李玫瑾称霸凌和未成年犯罪不是一回事

数码要闻

AYANEO AIR 1S / 2S / KUN 掌机升级 R7 8840U:5 月 24 日预订

房产要闻

实地测评海口“豪装”安居房:这位置,这价格,把自己劝一下!

公开课

近视只是视力差?小心并发症

军事要闻

俄按计划进行核武演练 未明确后续是否将进行实弹试射

无障碍浏览 进入关怀版
×