网易首页 > 网易号 > 正文 申请入驻

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

0
分享至

去年英伟达市值突破1万亿之后,这家加速计算公司在全球范围内就吸引了越来越多的关注。

今年2月,英伟达的市值一度突破2万亿,让这家加速计算公司的热度再次攀升,也让今天在加州圣何塞举行的GTC 2024挤满了来自全球各地超11000名与会者。

未来将是可生成的,这就是为什么这是一个全新的行业。”NVIDIA 创始人兼首席执行官黄仁勋开场就说,“我们需要一种全新的计算方式——由此我们才可以继续扩展,继续降低计算成本,并在保证可持续性的同时继续进行越来越多的计算。”

黄仁勋说道,“加速计算已到达临界点,通用计算已失去动力。与通用计算相比,加速计算使每个行业都可以大幅提速。”


全新的行业需要更大的模型,更大的多模态AI需要更大的GPU。

黄仁勋从口袋里掏出一块全新的Blackwell芯片,将它与Hopper芯片并排举起,后者显得小了一些。


基于NVIDIA GB200构建的DGX SuperPOD,相比英伟达前代H100 GPU构建的系统,大语言模型性能飙升了30倍,能够处理万亿参数的模型。

架构迭代带来如此巨大的性能提升,证明了英伟达依旧在加速计算的道路上飞速前进,英伟达进一步拉大了与追赶者们距离。

英伟达还有更远大的目标,GTC2024上推出的NVIDIA NIM微服务,通过推理加速让生成式AI能够普及,这才是生成式AI商业价值更高的地方。

“下一波AI浪潮将是AI对物理世界的学习。”黄仁勋还有更长远的布局。

Blackwell 架构如何支撑10万亿参数模型需求?

最新的Blackwell 架构是两年前推出的Hopper架构的继承者,延续过去英伟达以科学家名字命名架构的方式,新架构是以一位加州大学伯克利分校的数学家 David Harold Blackwell 命名。这位数学家专门研究博弈论和统计学,是第一位入选美国国家科学院的黑人学者。

相比Hopper架构GPU,Blackwell架构GPU单芯片训练性能(FP8)是Hopper架构的2.5 倍,推理性能(FP4)是Hopper架构的5倍。



要让Blackwell架构支撑高达10万亿参数的模型训练和实时 LLM 推理,需要一系列独特的技术。

先进的工艺和Chiplet技术就是关键之一,Blackwell架构GPU具有2080亿个晶体管,采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造,通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。

为了更好支持Transformer模型,Balckwell架构集成了第二代Transformer 引擎,支持全新微张量缩放,集成于NVIDIA TensorRT-LLM 和NeMo Megatron框架中的NVIDIA动态范围管理算法,Blackwell将在新型FP4 AI推理能力下实现算力和模型大小翻倍。


为了扩大Blackwell规模,NVIDIA构建了一款名为NVLink Switch的新芯片。每个芯片可以以每秒1.8 TB的速度(几乎是上一代的10倍)连接四个NVLink,通过减少网络内流量来消除流量拥塞,帮助构建GB200。


NVIDIA GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的NVLink芯片间互连,将两个 Blackwell NVIDIA B200 Tensor Core GPU 连接到 NVIDIA Grace CPU。

GB200是NVIDIA GB200 NVL72 的关键组件。

NVIDIA GB200 NVL72是多节点、液冷、机架级系统,将36个Grace Blackwell超级芯片组合在一起,其中包含通过第五代NVLink相互连接的72 个Blackwell GPU 和 36 个 Grace CPU,还内置 NVIDIA BlueField-3 数据处理器,可在超大规模 AI 云中实现云网络加速、组合式存储、零信任安全和 GPU 计算弹性。


相较于同样数量的NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及25 倍的成本和能耗降低。

NVIDIA GB200 NVL72在单个机架中可实现720 petaflops 的 AI 训练性能和 1.4 exaflops 的 AI 推理性能。该机器包含600,000个零件,重3,000磅(约1360.78公斤)。

黄仁勋介绍:“此时此刻,地球上也许只有三台百亿亿次浮点运算(exaflop)机器。而这是一个单一机架中的 1 个百亿亿次浮点运算AI 系统。”

要进一步实现对10万亿参数大模型的支持,需要更强大的DGX SuperPOD。

Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200(每个包含36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU)系统构建而成,采用新型高效液冷机架规模架构。

这个系统还需要通过GTC 2024发布的第五代NVIDIA NVLink,NVIDIA BlueField-3 DPU,NVIDIA Quantum-X800 InfiniBand 网络(为每块GPU提供每秒800 GB 的带宽),新一代 DGX SuperPOD 架构的网络计算能力提高了4倍,可扩展到数万个 GB200 超级芯片。

用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,可在 FP4 精度下提供 11.5 exaflops 的 AI 超级计算能力和 240 TB 的快速内存,并可通过额外的机架进行扩展。

2016 年,黄仁勋给OpenAI的DGX算力是 0.17Petaflops,现在DGX GB200的算力以 exaflop 计算。


除了GB200,NVIDIA还发布了一款统一用于 AI 模型训练、微调和推理的通用 AI 超级计算平台 NVIDIA DGX B200 系统。

DGX B200是DGX 系列的第六代产品,使用风冷机架设计,包含 8 个 NVIDIA B200 Tensor Core GPU和2个第五代英特尔至强处理器。

DGX B200系统可提供144 petaflops(FP4精度)的AI性能、1.4TB的 GPU 显存和 64TB/s 的显存带宽,使得该系统万亿参数模型实时推理速度比上一代产品提升了 15 倍。

另外,DGX B200 系统也包含带有8个NVIDIA ConnectX-7 网卡和2个BlueField-3 DPU 的高性能网络,每个连接的带宽高达400 Gb/s,可通过 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太网网络平台支持更高的 AI 性能。

“未来,数据中心将成为 AI 工厂”,黄仁勋说,“AI 工厂的使命是创造收入,同时也创造智能。”

AI推理微服务挖掘「金矿」

“生成式 AI 改变了应用程序的编写方式。”黄仁勋解释,未来的公司会将精力放在组装 AI 模型,赋予它们任务,给出工作产品示例,审查计划和中间结果,而不是编写软件。

GTC 2024上,NVIDIA NIM微服务推出,这是根据 NVIDIA 的加速计算库和生成式 AI 模型构建,提供基于 NVIDIA 推理软件的预构建容器,包括Triton 推理服务器和TensorRT-LLM,使开发者能够将部署时间从几周缩短至几分钟。


“企业IT行业正坐在一座‘金矿’上,”黄仁勋说道, “他们拥有多年来创建的所有这些令人惊叹的工具(和数据)。如果他们能把这个‘金矿’变成 AI 助手,就能给用户提供更多可能。”

NVIDIA 帮助领先的科技公司,包括 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 构建 AI 助手和虚拟助理。其它领域也正在采用。

在电信领域,NVIDIA推出 6G研究云,这是由 AI 和 Omniverse 支持的生成平台,它采用 NVIDIA 的 Sionna 神经无线电框架、NVIDIA Aerial CUDA 加速无线电接入网络和 NVIDIA Aerial Omniverse Digital Twin for 6G 构建。

在半导体设计和制造领域,NVIDIA 正在与 TSMC 和 Synopsys 合作,将计算光刻平台 cuLitho 投入生产,这一平台将把半导体制造中计算最密集的工作负载加速 40-60 倍。

黄仁勋还宣布推出NVIDIA 地球气候数字孪生Earth-2,可实现交互式高分辨率模拟,户在数秒内发布预警和最新预报,使用传统模型在CPU上运行需要耗时数分钟乃至数小时。

黄仁勋表示,AI 的最大影响将体现在医疗领域,NVIDIA 已经涉足成像系统、基因测序仪器,并与领先的手术机器人公司合作。

NVIDIA 正在推出一种新型生物学软件。 GTC 2024发布了二十多个新的微服务,使全球医疗企业能够在任何地方、任何云上利用生成式 AI 的最新进展。

下一波AI浪潮将是 AI 对物理世界的学习

黄仁勋说,“我们需要一个模拟引擎,以数字方式为机器人呈现世界,这样机器人就有了一个学习如何成为机器人的‘健身房’,我们称这个虚拟世界为 Omniverse。”

NVIDIA宣布将以API形式提供 NVIDIA Omniverse Cloud,将全球领先的工业数字孪生应用和工作流创建平台的覆盖范围扩展到整个软件制造商生态系统。

为了展示其工作原理,黄仁勋分享了一个机器人仓库的演示——使用多摄像头感知和追踪,看顾工人并协调机器人叉车,在整个机器人堆栈运行的情况下,这些叉车能够实现自动驾驶。

NVIDIA还宣布将把 Omniverse 引入 Apple Vision Pro 中,通过新的 Omniverse Cloud API,开发者可以将交互式工业数字孪生流式传输到 VR 头显中。


一些全球大型工业软件制造商正在采用 Omniverse Cloud API,包括 Ansys、Cadence、达索系统旗下 3DEXCITE 品牌、Hexagon、微软、罗克韦尔自动化、西门子和 Trimble 等。

机器人的巨大空间

“所有会动的东西都可能成为机器人,汽车行业将是其中的一个重要部分。”黄仁勋表示。

雷峰网了解到,比亚迪已选择 NVIDIA 的下一代计算平台用于其自动驾驶汽车,在 DRIVE Thor 上构建其下一代电动汽车车队。昊铂、小鹏、理想汽车、极氪也已经宣布将在DRIVE Thor上构建其未来的汽车产品。

人形机器人也是机器人的重要方向。

为此NVIDIA宣布了 Project GR00T(代表通用机器人 00 技术),这是一个为人形机器人设计的通用基础模型。


GR00T 脱胎于英伟达的 Isaac 机器人平台工具,GR00T 驱动的人形机器人能够接受文本、语音、视频甚至现场演示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。

黄仁勋还推出了一款用于人形机器人的新型计算机 Jetson Thor,它基于 NVIDIA Thor 系统级芯片,并对 NVIDIA Isaac 机器人平台进行了重大升级。

Jetson Thor采用Blackwell架构,可提供每秒 800 万亿次8位浮点运算 AI 性能,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器,以运行 GR00T 等多模态生成式 AI 模型。

如果用一句话总结GTC的全新发布,可以借用黄仁勋的“我们创造了为生成式 AI 时代而生的处理器。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毁三观,西安一地铁惊现不堪一幕,这位女子的穿着着实不敢恭维

毁三观,西安一地铁惊现不堪一幕,这位女子的穿着着实不敢恭维

匹夫来搞笑
2024-04-28 04:52:23
天津女排这不叫体育交流,这叫公款旅游

天津女排这不叫体育交流,这叫公款旅游

SteiniStudio
2024-04-27 12:51:11
辽粤大战完整赛程出炉,两大巨星缺席首战,广东内线伤情不乐观

辽粤大战完整赛程出炉,两大巨星缺席首战,广东内线伤情不乐观

极度说球
2024-04-28 11:42:18
内蒙古女篮,为下个赛季作准备,重新出发

内蒙古女篮,为下个赛季作准备,重新出发

小豆豆赛事
2024-04-28 11:26:08
提帮功19岁生日预热,泰王以准太子名义赐礼,三代国王御画像出炉

提帮功19岁生日预热,泰王以准太子名义赐礼,三代国王御画像出炉

娱乐八卦木木子
2024-04-28 00:19:29
纪云浩当兵照被扒出,帽子引热议,果然不简单,父亲身份曝光

纪云浩当兵照被扒出,帽子引热议,果然不简单,父亲身份曝光

180°视角
2024-04-24 22:24:34
吴千语晒水着摆诱人Pose马甲线极明显老公施伯雄隔空激赞, Wow

吴千语晒水着摆诱人Pose马甲线极明显老公施伯雄隔空激赞, Wow

木子觅食记
2024-04-28 07:47:49
李铁刑期曝光,两度接班的李霄鹏为何没卷入?看他下课举动秒懂

李铁刑期曝光,两度接班的李霄鹏为何没卷入?看他下课举动秒懂

东球弟
2024-04-27 14:33:43
凌晨时分,大批美军军车进入乌克兰,轮到俄罗斯为难:打还是不打

凌晨时分,大批美军军车进入乌克兰,轮到俄罗斯为难:打还是不打

梦涵说体育
2024-04-26 13:56:39
邓肯罕见露面!才退役8年看着像60岁老人,44岁女友瓦妮莎显年轻

邓肯罕见露面!才退役8年看着像60岁老人,44岁女友瓦妮莎显年轻

百里无心
2024-04-27 00:23:27
抵制成功!田馥甄退出天津演出,直言很遗憾,网友:强撑体面罢了

抵制成功!田馥甄退出天津演出,直言很遗憾,网友:强撑体面罢了

拾娱先生
2024-04-27 23:12:09
妻子与他人开房,激战3小时后双腿打颤,丈夫购买定位器抓现行!

妻子与他人开房,激战3小时后双腿打颤,丈夫购买定位器抓现行!

小轩轩爱娱乐吖
2024-04-26 12:53:16
恶心!韩娱“炮王”喜欢在厕所办事!几年就祸害了五十余名女星!

恶心!韩娱“炮王”喜欢在厕所办事!几年就祸害了五十余名女星!

阿芒娱乐说
2024-04-27 18:47:10
“要么签,要么打”

“要么签,要么打”

环球时报新闻
2024-04-27 14:23:31
终于知道,为什么各地要求老破小的多层加装电梯,目的非常明确

终于知道,为什么各地要求老破小的多层加装电梯,目的非常明确

平说财经
2024-04-27 14:15:35
日本警告:若日元贬值太大太快,是不会容忍的!这话给我整笑了!

日本警告:若日元贬值太大太快,是不会容忍的!这话给我整笑了!

醉井观商
2024-04-27 17:15:13
他是原中央政治局常委,1967年却吞药自尽,离世之后骨灰下落不明

他是原中央政治局常委,1967年却吞药自尽,离世之后骨灰下落不明

江东浪流史
2024-04-20 12:29:02
金教授放言中国理工人才是美国的20倍!米莱建议印文凭消除愚昧

金教授放言中国理工人才是美国的20倍!米莱建议印文凭消除愚昧

大风文字
2024-04-25 17:45:51
一个奇怪的现象:美国连伊朗都搞不定,为什么却唯独不怕我们

一个奇怪的现象:美国连伊朗都搞不定,为什么却唯独不怕我们

通文知史
2024-04-05 08:00:05
红星深度|“山寨兵马俑”网红景区荒废背后:开业两年半闭园 老板去世,家人称他心太大

红星深度|“山寨兵马俑”网红景区荒废背后:开业两年半闭园 老板去世,家人称他心太大

红星新闻
2024-04-26 23:44:06
2024-04-28 12:54:44
雷峰网
雷峰网
关注智能与未来!
63965文章数 655095关注度
往期回顾 全部

科技要闻

AITO汽车回应问界M7 Plus起火事故

头条要闻

问界M7起火致3人遇难 疑似家属发声:2岁孩子也在车上

头条要闻

问界M7起火致3人遇难 疑似家属发声:2岁孩子也在车上

体育要闻

赢了!詹皇末节14分制胜咆哮 压力给到KD

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

美国,突发爆雷!

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

教育
时尚
亲子
本地
公开课

教育要闻

孩子玩手机应不应该控制 妈妈的回答让人沉思

一看就很高级的女人,穿衣有这三个共同点,怪不得谁穿谁优雅

亲子要闻

孩子都这么大了,能给妈妈帮忙了!

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版