网易首页 > 网易号 > 正文 申请入驻

什么是Scale Up和Scale Out?

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容来自半导体行业观察综合 。

在本文中,我们来谈一下GPU集群的横向和综合拓展。

让我们从“AI Pod”的概念开始。这个术语对不同的人可能意味着不同的东西,但它通常指的是一种预先配置的模块化基础设施解决方案,旨在简化和加速AI工作负载的部署。

这些“pod”将计算、存储、网络和软件组件集成为一个紧密相连的单元,从而促进高效的 AI 运行。这就是我们遇到“纵向扩展”和“横向扩展”等术语的地方。以下是可视化示例:

对于不熟悉数据中心组织结构的人来说,机架是一个标准化的物理框架或机柜,用于容纳多个机架式设备。除了服务器(例如刀片服务器)之外,机架还可能包含网络设备(例如交换机)、电源管理组件(例如电源和配电单元)、存储设备、冷却和环境控制系统等等。

在本专栏的上下文中,每个机架可以被视为一个 AI Pod。“Scale-Up”(又称“垂直扩展”)是指向单个 AI Pod 或节点添加更多资源,例如处理器和内存。相比之下,“Scale-Out”(又称“水平扩展”)是指向系统添加更多 AI Pod 或节点并将它们连接在一起。

同时,XPU 是一个通用术语,指任何类型的处理单元(“X”代表通配符,表示“任意”或“所有”处理器)。XPU 示例如下:

  • CPU(中央处理器)

  • GPU(图形处理单元

  • NPU(神经处理单元)

  • TPU(张量处理单元)

  • DPU(数据处理单元)

  • FPGA(现场可编程门阵列)

  • ASIC(专用集成电路)

为了进行这些讨论,我们假设术语“ASIC”包含片上系统(SoC)设备。

每个 XPU 刀片通常包含 2 到 8 个 XPU 设备。每个设备可以形成为单片芯片(即由单个半导体切片制成),也可以形成由一组称为“芯片集”的芯片组成的多芯片系统。

我们这里讨论的计算处理能力令人难以置信,XPU 设备本身也同样如此。例如,NVIDIA 的 B200 GPU 拥有超过 2000 亿个晶体管(当然,我可没亲自数过)。

但人工智能不仅仅是“简单”地处理数据——我们还需要传输海量数据。从更高的层面来看,我们可以将其视为两个主要方面:pod 内部和 pod 之间。

Pod 间通信是指不同 AI Pod 之间的通信,通常跨机架或物理基础设施单元。Pod 内通信是指单个 AI Pod 内服务器之间的信息交换,通常位于同一机架或刀片服务器内,需要极低的延迟和极高的带宽。

上图展示了一个应用程序 pod 从三个扩展到五个的示例:

横向扩展的优势

它提供了长期的可扩展性。横向扩展的增量特性使您能够根据预期的长期增长来扩展应用程序。

缩减规模很容易。当负载较低时,您可以通过减少 Pod 数量来轻松缩减应用程序规模。这可以释放计算资源,供其他应用程序使用。

您可以使用商用服务器。通常,您不需要大型服务器来运行容器化应用程序。由于应用程序 Pod 可以水平扩展,因此可以根据需要添加服务器。

横向扩展的缺点:

可能需要重新架构。如果您的应用程序使用的是单片架构,则需要重新架构您的应用程序。

网络复杂性增加。随着节点数量的增加,组件之间的网络连接复杂性也会增加,需要强大的服务发现和通信协议。

数据一致性可能具有挑战性。对于分布式系统,确保跨多个节点的数据一致性需要精心设计,尤其是对于AI模型训练和其他数据密集型工作负载。

在跨pod和数据中心架构领域,主要的竞争者是InfiniBand和超级以太网。InfiniBand于2000年首次发布,最初由包括IBM、英特尔和Mellanox(现为NVIDIA旗下公司)在内的联盟开发。如今,InfiniBand由InfiniBand贸易协会(IBTA)管理。虽然相关规范已经发布,但NVIDIA和Mellanox主要负责推动实施。相比之下,超级以太网联盟(UEC)成立于2023年,由包括AMD、英特尔、HPE、博通、思科、Arista、微软和Meta等在内的组织组成。超级以太网是一个开放标准,旨在实现广泛的行业协作和互操作性。

简而言之,InfiniBand 长期以来一直是低延迟、高带宽通信的标准,但超级以太网正在迅速成为下一代人工智能基础设施的开放、可扩展、以太网兼容的替代方案。

纵向扩展(或称垂直扩展)是指添加更多资源(例如 CPU、内存和磁盘)来提升计算能力和存储容量。这种方法适用于部署在物理服务器或虚拟机上的传统应用程序,也适用于容器化应用程序。

上图展示了一个应用程序 Pod,它最初是一个小型配置,包含 1 个 CPU、2 GB 内存和 100 GB 磁盘空间,然后垂直扩展到包含 4 个 CPU、8 GB 内存和 500 GB 磁盘空间的大型配置。现在,凭借更多的计算资源和存储空间,该应用程序可以处理和响应来自客户端的更多请求。

垂直扩展适合需要扩展到合理规模的应用程序,特别是具有密集内存或处理要求的数据库服务。

垂直扩展的优势

它简单直接。对于具有更传统和单片架构的应用程序,只需添加更多计算资源即可扩展。

您可以充分利用强大的服务器硬件。如今的服务器比以往任何时候都更加强大,拥有更高效的 CPU、专用的 AI 加速器、更快的 NVMe 存储和高速网络。利用这些充足的计算资源,您可以扩展到非常大的应用程序容器。

垂直扩展的缺点

扩展是有限制的。即使拥有当今强大的服务器,随着您不断向应用程序 pod 添加计算资源,迟早还是会遇到物理硬件的限制。

计算资源瓶颈的出现。当您向物理服务器添加计算资源时,很难线性提升和平衡所有组件的性能,并且很可能会在某个地方遇到瓶颈。例如,某台服务器可能存在内存瓶颈,内存使用率为 100%,CPU 使用率为 70%。将 DIMM 数量翻倍后,CPU 使用率为 100%,而内存使用率为 80%。

托管应用程序的成本可能会更高。通常,计算能力更强的大型服务器成本更高。如果您的应用程序需要大量计算资源,那么使用这些高成本的大型服务器可能是唯一的选择。

由于物理硬件的限制,如果您的应用程序需要继续增长,垂直扩展是一种相当短期的解决方案。

在 pod 内部通信方面,NVLink(由 NVIDIA 开发并于 2016 年首次推出)一直是历史标准,尤其是在基于 NVIDIA GPU 的系统中,但超级加速器链接 (UALink) 正在成为跨 XPU 的高速、与供应商无关的互连的未来。

不过,英伟达黄仁勋对后者不看好,你又怎么看呢?

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4043期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
美团回应“产品岗裁员50%”

美团回应“产品岗裁员50%”

第一财经资讯
2026-05-27 16:15:19
肠镜要停?医生揭露真相:做完对身体影响有多大

肠镜要停?医生揭露真相:做完对身体影响有多大

牛锅巴小钒
2026-05-27 00:25:51
男子将窗帘系在身上从六层下落,窗帘断裂后坠亡 保险公司被判赔保险金10万余元

男子将窗帘系在身上从六层下落,窗帘断裂后坠亡 保险公司被判赔保险金10万余元

红星新闻
2026-05-27 20:17:40
狂轰滥炸全炸了木板?导弹打水漂,伊朗这套保命绝学把美以逼疯了

狂轰滥炸全炸了木板?导弹打水漂,伊朗这套保命绝学把美以逼疯了

音乐时光的娱乐
2026-05-27 17:27:48
这跟光着有啥区别?戛纳闭幕式,真空上阵、副乳突出,露的好辣眼

这跟光着有啥区别?戛纳闭幕式,真空上阵、副乳突出,露的好辣眼

小兰聊历史
2026-05-27 02:42:03
主角:直到忆秦娥升任团长,才知楚嘉禾为何会劝她接下全本李慧娘

主角:直到忆秦娥升任团长,才知楚嘉禾为何会劝她接下全本李慧娘

观察鉴娱
2026-05-27 14:08:28
山东该反省了:GDP全国第三,民风淳朴,为何在舆论场任人宰割?

山东该反省了:GDP全国第三,民风淳朴,为何在舆论场任人宰割?

道总有理
2026-05-27 20:34:29
日本新生代最漂亮的女神,今田美樱一眼便让人心生欢喜

日本新生代最漂亮的女神,今田美樱一眼便让人心生欢喜

情感大头说说
2026-05-28 00:36:03
新人工资比我高一万,我辞职去竟品,刚入职前老板狂来电求救场

新人工资比我高一万,我辞职去竟品,刚入职前老板狂来电求救场

麦子情感故事
2026-05-27 18:21:31
有种母爱叫放手,葛荟婕曾坦言不会认回小苹果,跟着汪峰有好资源

有种母爱叫放手,葛荟婕曾坦言不会认回小苹果,跟着汪峰有好资源

汪镛的创业之路
2026-05-27 01:58:38
5%永久分红有多恐怖?每年赚3.3亿美元!一纸合约让乔丹永久躺赚

5%永久分红有多恐怖?每年赚3.3亿美元!一纸合约让乔丹永久躺赚

青橘罐头
2026-05-26 22:10:56
8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

8枪秒杀七人,一人反杀120名黑社会成员,行凶者是职业杀手所为!

易玄
2026-05-26 11:23:01
俄罗斯向全球发出警告,一大批高端杀器,正往中国周边快速猛扑

俄罗斯向全球发出警告,一大批高端杀器,正往中国周边快速猛扑

福建睿平
2026-05-27 11:57:17
看李梅女儿和刘浩存飙戏,才知观众不是烦整容脸,而是丑还没演技

看李梅女儿和刘浩存飙戏,才知观众不是烦整容脸,而是丑还没演技

青橘罐头
2026-05-27 09:52:19
皇马主席大选在即,本泽马晒照力挺佩雷斯,感念昔日知遇之恩

皇马主席大选在即,本泽马晒照力挺佩雷斯,感念昔日知遇之恩

星耀国际足坛
2026-05-27 22:04:16
印尼莫走歧途,中方不会坐视不管

印尼莫走歧途,中方不会坐视不管

风铃草语
2026-05-28 06:21:48
新书披露“黎巴嫩寻呼机爆炸”内幕:行动差点被伊朗发现,摩萨德将健身房改成组装线

新书披露“黎巴嫩寻呼机爆炸”内幕:行动差点被伊朗发现,摩萨德将健身房改成组装线

红星新闻
2026-05-26 19:18:13
全民抗击乌克兰无人机:俄金融机构和私企员工可携带武器,企业可自行购买防御系统

全民抗击乌克兰无人机:俄金融机构和私企员工可携带武器,企业可自行购买防御系统

红星新闻
2026-05-27 13:29:31
《给阿嬷的情书》最大的成功,撕开了京圈对中国电影的垄断

《给阿嬷的情书》最大的成功,撕开了京圈对中国电影的垄断

担扑
2026-05-19 21:50:02
2026-05-28 07:07:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13801文章数 34937关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

头条要闻

特朗普:伊朗即使放弃高浓缩铀也无法获得解除制裁

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

游戏
艺术
旅游
时尚
公开课

有生之年!这款硬核军事模拟类游戏要有国服了?

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力,科技公司都抢着用?

旅游要闻

中国乡村游火爆出圈,美的不只是风景(环球走笔)

这几件单品太火了,今年流行的风格都离不开它

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版