网易首页 > 网易号 > 正文 申请入驻

一键搭建 AI 数据中心,NVIDIA DGX SuperPOD 开启 AI 超算新模式

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影

近几年,AI 模型的规模呈数量级增长态势。从 2018 年开始,谷歌发布 BERT,其参数量为 9500 万;2020 年 OpenAI 发布的 GPT-3 模型参数已经扩展到 1750 亿;2021 年 10 月,国内浪潮发布中文 AI 大模型源 1.0,其参数量为 2500 亿;微软和 NVIDIA 联手推出的威震天-图灵(Megatron Turing-NLG)参数规模已超 5000 亿……近四年时间,AI 模型规模增大了 5000 倍之多。

大规模 AI 模型的发展速度已经远远超过摩尔定律,传统数据中心也无法满足 AI 算力需求,传统数据中心向 AI 数据中心转型是大势所趋。

为了满足 AI 模型算力需求,帮助企业构建 AI 数据中心,2021 年 4 月,NVIDIA 推出 DGX SuperPOD 云原生超级计算机,为用户提供一站式 AI 数据中心解决方案,是企业满足 AI 大模型计算的有力武器。

一、模型规模指数级提升,AI 算力需更高性能

2020 年 GPT-3 发布后一度引爆科技圈,国内国外各大科技企业也都在打造自己的大模型,不断扩展 AI 模型的规模边界,并加快技术迭代。

无论是数据规模还是模型规模,近几年来都呈爆发式增长,再加上在自然语言处理、搜索、医疗等领域 AI 应用更加广泛,这也对 AI 算力提出了更大需求,建立多机多卡的大规模集群才能满足更高性能的算力要求。

▲数据和模型规模增长示意图

AI 从功能上看主要包括推理和训练阶段,训练过程主要在数据中心完成,对处理器的运算性能要求较高。而传统数据中心开始并不是专门为执行 AI 算法所构建,因此无法满足 AI 模型的算力要求,这也进一步催生了专门针对 AI 训练的现代 AI 数据中心。

AI 数据中心的主流架构是 GPU+CPU 异构架构,CPU 是计算机系统的运算和控制核心,更擅长逻辑控制,不擅长复杂算法运算和处理并行操作;GPU 主要用于支撑大量数据的并行计算,两种处理器相辅相成,能够大幅提升运算效率。

通过 AI 数据中心,融合 AI、云计算、大数据等技术,可以大规模提供算力、提高算力资源利用率、提升数据存储和处理能力,加速大模型 AI 模型的训练和推理效率。

AI 数据中心的发展仍处于起步阶段。NVIDIA 解决方案架构师赵明坤称,企业构建 AI 数据中心需要大量时间、专业知识以及正确的架构方法。因此,那些亟需 AI 转型的企业构建 AI 数据中心的门槛较高,企业需要从软硬件协同、试错成本等多维度综合考量,很难快速搭建起高性能的 AI 集群。

▲AI 数据中心构建难点

二、破解大模型挑战,构建算力+软件一站式解决方案

NVIDIA 推出的 DGX SuperPOD 云原生超级计算机,是一套软硬协同的完整解决方案,在满足 AI 模型算力的基础上,又能帮助企业快速部署 AI 数据中心。

DGX SuperPOD 采用模块化的设计,支持不同规模大小的设计。一个标准的 SuperPOD 由 140 台 DGX A100 GPU 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建而成,针对超大语言模型预训练这一复杂场景,帮助 AI 研究人员快速搭建一套强大、灵活、高效的系统。

▲NVIDIA DGX SuperPOD

搭载 8 个 NVIDIA A100 Tensor Core GPU 的 DGX A100 服务器,单节点 AI 算力达到 5 PFLOPS,5 个 DGX A100 组成的一个机架,算力就可媲美一个 AI 数据中心。DGX SuperPOD 中,每台 DGX A100 配有 8 个 200Gb/s 的高速计算网,并配有 2 个 200Gb/s 的高速存储网,网络针对 AI 和 HPC 进行了优化,采用计算和存储网络分离的方案,有效避免了带宽增强。

值得一提的是,多个 POD 之间还可以通过核心层交换机直连起来,能够支持多达 560 台 DGX A100 的互连规模。

在软件方面,NVIDIA 集成了基础设施管理软件 Base Command Manager,该软件负责协调 DGX SuperPOD 基础架构上的 AI 模型训练和相关操作,帮助客户同时共享、操作自己的训练任务、计算环境、数据集以及配置任务所需的计算量等。

NVIDIA 还为 DGX SuperPOD 提供专业的部署服务,包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等,从基础系统方面,保证了最快交付。

目前,NVIDIA 的 DGX SuperPOD 方案已经部署到京东探索研究院中,京东探索研究院针对 CV(计算机视觉)、NLP(自然语言处理)、跨模态等领域设计和研发的数十个模型,在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

NVIDIA 构建的集群方案,化解大模型的算力难关后,能够加速 AI 训练和迭代速度,降低企业 AI 训练的成本,距离普惠 AI 更近一步。

三、1 小时组装高算力 AI 集群,NVIDIA 专家解密

据了解,4 名由 NVIDIA 专业人员仅需不到 1 个小时,就能组装起一套由 20 台系统组成的 DGX A100 集群。计算性能大幅增长的同时,还能大大缩短部署成本,NVIDIA 的 DGX SuperPOD 方案到底是如何实现的?

2021 年 11 月 30 日,智东西公开课策划推出的“NVIDIA AI 数据中心专场”,由 NVIDIA 解决方案架构师赵明坤、DDN 存储解决方案架构师李凡两位技术专家共同主讲。

赵明坤老师以《NVIDIA DGX SuperPOD 云原生超级计算机加速现代 AI 数据中心》为主题,围绕 AI 数据中心的趋势和构建难点出发,结合 DGX SuperPOD 云原生超级计算机参考架构和应用案例,详解如何高效构建 AI 数据中心。

李凡老师则以《高速并行存储加速 AI/HPC 数据中心应用》为主题,剖析了数据中心对高速并行存储的需求,并围绕 DDN 高速并行存储产品在 DGX SuperPOD 中的应用实践进行了系统讲解。

进一步了解大模型训练、架构,洞察 AI 超算的发展趋势,以及 NVIDIA DGX SuperPOD 方案,可以回顾公开课的精彩内容。

公开课链接:https://www.nvidia.cn/webinars/211130-19552/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梁靖崑王艺迪哭了!刘国梁宣布最新决定,国乒世界冠军告别巴黎

梁靖崑王艺迪哭了!刘国梁宣布最新决定,国乒世界冠军告别巴黎

刺头体育
2024-04-19 21:51:14
KD谈美国男篮:我们加起来好像入选了80多次全明星和最佳阵

KD谈美国男篮:我们加起来好像入选了80多次全明星和最佳阵

直播吧
2024-04-20 06:23:11
日元大规模做空,世界货币大洗牌,人民币将成全球第3大货币

日元大规模做空,世界货币大洗牌,人民币将成全球第3大货币

资本百科
2024-04-19 17:39:27
广西一男子医科大跳楼,疑似重病没钱治疗。围观群众大喊不要跳

广西一男子医科大跳楼,疑似重病没钱治疗。围观群众大喊不要跳

美食阿鳕
2024-04-20 05:14:46
他太渴望了!36岁康利恳求队友:帮我一把 我时间不多了

他太渴望了!36岁康利恳求队友:帮我一把 我时间不多了

直播吧
2024-04-19 13:55:14
古力娜扎新穿法:黑蕾丝打底+紧身裤,31岁美出新高度

古力娜扎新穿法:黑蕾丝打底+紧身裤,31岁美出新高度

谈娱新语
2024-04-19 22:57:45
网格员是干什么的?现如今的财政现状下,他们还有存在的必要吗?

网格员是干什么的?现如今的财政现状下,他们还有存在的必要吗?

翻开历史和现实
2024-04-19 10:26:48
亨利·卡维尔版《007》预告片火爆全网,玛格特·罗比饰演邦女郎

亨利·卡维尔版《007》预告片火爆全网,玛格特·罗比饰演邦女郎

汤老湿看电影
2024-04-19 17:46:13
同一款药线上线下价差四五倍,是“药店刺客”还是合理现象?

同一款药线上线下价差四五倍,是“药店刺客”还是合理现象?

澎湃新闻
2024-04-17 18:42:29
詹俊:不敢相信国奥队上半场这么多的机会!也很难相信一个也没进

詹俊:不敢相信国奥队上半场这么多的机会!也很难相信一个也没进

直播吧
2024-04-19 21:43:49
联想杨元庆:华为在特定领域突出,但相比联想和英伟达,差距较大

联想杨元庆:华为在特定领域突出,但相比联想和英伟达,差距较大

开心体育站
2024-04-19 19:46:35
老公每晚带不同的女人回家,直到我生命尽头,他才发现一切都晚了

老公每晚带不同的女人回家,直到我生命尽头,他才发现一切都晚了

小亮侃事儿
2024-04-15 17:36:28
特斯拉裁员10%,马斯克被喷后回怼:白痴,比亚迪销量也下滑了42%

特斯拉裁员10%,马斯克被喷后回怼:白痴,比亚迪销量也下滑了42%

户外小阿隋
2024-04-19 13:11:36
招商银行:我行于纽约、新加坡、卢森堡、伦敦、悉尼等地均设有分行

招商银行:我行于纽约、新加坡、卢森堡、伦敦、悉尼等地均设有分行

每日经济新闻
2024-04-19 17:18:27
世界将大变天!全球4.0到来!(深度)

世界将大变天!全球4.0到来!(深度)

千年人参它会跑
2023-12-30 12:24:06
女性高潮有哪些表现方式,男人请你别再骗自己了

女性高潮有哪些表现方式,男人请你别再骗自己了

皮皮讲文
2024-01-03 10:27:49
不出5年,中国贬值最快的不是房子、股票,而是这3个东西

不出5年,中国贬值最快的不是房子、股票,而是这3个东西

庞明说财经
2024-04-16 22:29:34
降薪1000万,劳塔罗终留国米,3点原因,让他拒绝英超诱惑

降薪1000万,劳塔罗终留国米,3点原因,让他拒绝英超诱惑

体育全天候
2024-04-19 21:46:54
师长若转业,能否当省公安厅厅长?

师长若转业,能否当省公安厅厅长?

爱写作的至尊宝
2024-04-19 18:26:09
高诗岩:老婆是在当地认识的山东人 希望在山东一直效力下去

高诗岩:老婆是在当地认识的山东人 希望在山东一直效力下去

直播吧
2024-04-19 21:09:11
2024-04-20 09:16:49
智东西
智东西
聚焦智能变革,服务产业升级。
8423文章数 116438关注度
往期回顾 全部

科技要闻

华为今年最关键的事曝光!Pura 70有新消息

头条要闻

小伙在广州地铁广告上投简历 5天有30多家公司联系他

头条要闻

小伙在广州地铁广告上投简历 5天有30多家公司联系他

体育要闻

米切尔这次对线不会输了吧

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

汽车要闻

风神L7预售 东风汽车北京车展阵容公布

态度原创

房产
艺术
游戏
亲子
公开课

房产要闻

国企下场,海口疯狂抢地!

艺术要闻

最全展览单元剧透!北京最受瞩目艺术现场100青年艺术季终极解读

梦幻西游:175凌波城展示,竟然带9锻灵饰刷任务,令人意想不到!

亲子要闻

女儿每次吃肉都要吃一大碗,妈妈本想劝她不料反被她套路,女儿:想揍我就直说!

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版