NVIDIA推动深度学习和应用程序性能的跨越式发展

分享至

（原标题：NVIDIA推动深度学习和应用程序性能的跨越式发展）

2016年4月5日-加州圣何塞-GPU技术大会-NVIDIA今日发布了史上最先进的超大规模数据中心加速器NVIDIA Tesla P100GPU。

TeslaP100是NVIDIATesla加速计算平台的最新产品，能为全新级别的服务器提供支持，实现相当于数百个CPU服务器节点的性能。尽管当前数据中心融合了巨大的网络基础设施与众多相互连接的商用CPU服务器，可用于处理网络服务等大量交易型工作负载。但面对下一代人工智能和科学应用程序，这些数据中心的效率变得捉襟见肘。因为这些新型应用需要效率超高、速度极快的服务器节点。

借助采用五项突破性技术的全新NVIDIAPascal?GPU架构，TeslaP100能发挥无与伦比的性能和效率来运行对计算能力要求最高的应用程序。

NVIDIA联合创始人兼首席执行官黄仁勋(Jen-HsunHuang)表示："我们最大的科学挑战-治疗癌症、认识气候变化和打造智能机器-它们需要近乎无限的计算性能。借助各个层面的创新，我们从零开始设计了PascalGPU架构。它是计算性能和效率的巨大进步，将帮助顶尖人才推动明天的进步。"

认知解决方案和IBM研究部高级副总裁JohnKellyIII博士表示："我们正进入全新的计算时代，要充分实现人工智能和认知的好处，我们需要采用全新的方法来探索底层技术。NVIDIAGPU和OpenPOWER技术的结合正在加速Watson对新技能的学习。包含NVLink支持的IBMPower架构和NVIDIAPascal架构将共同进一步加速认知工作负载的性能并推动人工智能行业。"

五项架构突破

基于五项突破，TeslaP100实现了前所未有的性能、可扩展性和编程效率：

"NVIDIAPascal架构实现了巨大的性能飞跃-相比前代NVIDIAMaxwell?解决方案，基于Pascal的TeslaP100解决方案在神经网络训练方面将性能提升12倍。

"NVIDIANVLink实现了最高水平的应用程序扩展性-NVIDIANVLink?高速GPU互联技术在多颗GPU上扩展了应用程序，相比当前同级最佳解决方案，带宽实现5倍加速。1借助NVLink，可以连接八颗TeslaP100GPU，在同一个节点上将应用程序的性能最大化，IBM在自有POWER8CPU上实施了NVLink技术来加速CPU到GPU通讯。

"16nmFinFET实现了前所未有的能效-PascalGPU拥有153亿个采用16纳米FinFET制造技术的晶体管，是世界上迄今为止最大的FinFET芯片。2打造它的目的是为计算需求近乎无限的工作负载提供最快的性能和最佳的能效。

"CoWoS和HBM2，适用于大数据工作负载-Pascal架构将处理器和数据封装到一起，实现了前所未有的计算效率。包含HBM2的芯片-晶圆-基底(CoWoS)是内存设计的创新方法，相比Maxwell架构提供了3倍的显存带宽，高达720GB/s。

"全新人工智能算法，实现了峰值性能-全新的半精度指令为深度学习提供了超过21Teraflops的峰值性能。

TeslaP100GPU加速器为AMBER分子动力学程序代码等一系列HPC和深度学习应用程序提供了全新水平的性能。相比48个配备双路CPU的服务器节点，该代码在配备TeslaP100GPU的单服务器节点上运行速度更快。3训练大受欢迎的AlexNet深度神经网络需要250个双路CPU服务器节点才能抵得上八个TeslaP100GPU的性能。4相比27个双路CPU服务器，广泛使用的天气预报程序COSMO在八个TeslaP100GPU上运行速度更快。5

TeslaP100是首个双精度性能和单精度性能分别超过5Teraflop和10Teraflop的加速器，在众多领域的处理性能和研究发现时间方面实现了巨大飞跃。

NVIDIASDK更新

NVIDIA还发布了针对全球最强劲的GPU计算开发平台-NVIDIASDK的一系列更新。

这些更新包括NVIDIACUDA?8。NVIDIA并行计算平台的最新版本可以让开发者直接使用Pascal一系列强大的全新特性，包括统一内存和NVLink。该版本还包括全新的图表分析库nvGRAPH，后者可用于机器人路径规划、网络安全和物流分析，将GPU加速的应用扩展到大数据分析领域。

NVIDIA还发布了cuDNNversion5，一个GPU加速的深度神经网络基元库。cuDNN5可提供PascalGPU支持、循环神经网络(用于视频和其他串行数据)和用于医疗、油气和其他行业的额外增强特性。cuDNN加速领先的深度学习框架，包括Google的TensorFlow、加州大学伯克利分校的Caffe、蒙特利尔大学的Theano和纽约大学的Torch。这些又驱动Amazon、Facebook和Google等所用的深度学习解决方案的运行。

TeslaP100的参数

TeslaP100GPU加速器的参数包括：

"5.3Teraflop双精度性能、10.6Teraflop单精度性能和21.2Teraflop半精度性能，采用NVIDIAGPUBOOST?技术

"160GB/s双向互联带宽，带有NVIDIANVLink

"16GBCoWoSHBM2堆栈显存

"720GB/s显存带宽，带有CoWoSHBM2堆栈显存

"更强的可编程性，带有页面迁移引擎和统一内存

"ECC保护，提高了可靠性

"针对服务器优化，实现了最高的数据中心吞吐量和可靠性

上市情况

全新NVIDIADGX-1?深度学习系统中基于Pascal的NVIDIATeslaP100GPU加速器将在6月全面上市。预计一线服务器厂商将从2017年初开始供应该产品。

支持性资源