网易首页 > 网易号 > 正文 申请入驻

英伟达构建800 VDC生态系统,打造高效可扩展AI工厂

0
分享至


芯东西(公众号:aichip001)
作者 ZeR0
编辑 漠影

芯东西10月14日报道,10月13日,在圣何塞OCP全球峰会上,英伟达展示了十亿瓦AI工厂的未来。超过20家行业合作伙伴展示新的硅片、组件、电力系统,以及对十亿瓦时代的下一代800伏直流(VDC)数据中心的支持,这些数据中心将支持英伟达Kyber机架架构。

电力基础设施曾经是次要因素,如今正成为决定新部署规模、位置和可行性的主要因素。英伟达认为,要管理现代AI的电力需求,需要部署800 VDC配电系统集成式多时间尺度储能系统

开放计算项目(OCP)由Meta创立,是一个由数百家计算和网络提供商组成的行业联盟,专注于重新设计硬件技术,以有效支持日益增长的计算基础设施需求。英伟达是多代硬件OCP标准的领先贡献者。

OCP生态系统正在为英伟达Kyber机架式系统做准备,其特色是在800 VDC电力输送、液体冷却和机械设计方面的创新。这些创新将支持向机架服务器一代英伟达Kyber(英伟达Oberon继任者)的转变。


由直流基础设施提供商、电源系统和冷却合作伙伴以及芯片制造商组成的生态系统,都遵循MGX机架服务器参考架构的开放标准。

英伟达Kyber旨在提升机架式GPU密度、扩展网络规模并最大化大型AI基础架构的性能。

通过垂直旋转计算刀片(如同书架上的书本一样),Kyber可在每个机箱中容纳多达18个计算刀片。

此外,专用的英伟达NVLink交换机刀片通过无线中板集成在机箱背面,实现无缝扩展网络连接。

通过相同的800 VDC铜线传输的电力增加了150%以上,从而无需使用200公斤的铜母线来为单个机架供电。

Kyber机架可帮助客户减少成吨的铜用量,从而节省数百万美元的成本。

该机架架构有望成为超大规模AI数据中心的基础要素,未来为先进的生成式AI工作负载提供卓越的性能、效率和可靠性。

超过20家英伟达合作伙伴正在帮助提供具有开放标准的机架式服务器,为未来的十亿瓦AI工厂提供支持。包括:

硅片供应商:ADI、AOS、EPC、Infineon、Innoscience、MPS、Navitas、onsemi、Power Integrations、Renesas、Richtek、ROHM、STMicroelectronics 和Texas Instruments。

电源系统组件供应商:Bizlink、Delta、Flex、GE Vernova、Lead Wealth、LITEON和Megmeet。

数据中心电力系统供应商:ABB、伊顿、GE Vernova、Heron Power、日立能源、三菱电机、施耐德电气、西门子和Vertiv。

富士康详细介绍了其正在建设的4000万瓦台湾高雄1​​号数据中心,该中心将采用800 VDC电压。CoreWeave、Lambda、Nebius、甲骨文云基础设施、Together AI等也正在为800V数据中心进行设计。

一、电网互联成为AI扩展的主要瓶颈

英伟达NVLink等高带宽互连技术,可以让几千张GPU像一块巨型GPU一样运行。

为了实现低延迟和高带宽,这些连接依赖于铜缆。铜缆的有效覆盖范围有限,造成了所谓的性能密度陷阱

要构建更强大的AI系统,必须在更小的物理空间内集成更多GPU。这种架构上的必要性将性能与功率密度直接联系起来。

从英伟达Hopper到Blackwell架构的飞跃就是一个很好的例子。

虽然单张GPU的功耗(TDP)增加了75%,但NVLink域扩展到72张GPU的系统却使机架功率密度提高了3.4倍。其回报是性能提升了惊人的50倍,但也使机架功率从几万瓦提升到了10几万瓦,目前每机架功率即将突破100万瓦。


以传统的54 VDC等低电压提供这种功率水平,在物理和经济上都是不切实际的。所需的巨大电流会导致高电阻损耗,并需要大量不可持续的铜缆布线。

AI工作负载还带来一大挑战:波动性

与运行数千个互不相关任务的传统数据中心不同,AI工厂是一个单一的同步系统。在训练大语言模型时,数千张GPU会近乎完美地同步执行密集计算周期,然后进行数据交换。这将导致整个设施的电力状况出现大幅且快速的负载波动。

英伟达、微软和OpenAI联合开展的AI训练数据中心电力稳定性研究记录了这种波动性挑战。这项研究展示了同步GPU工作负载如何导致电网规模的波动,机架的功耗可能在几毫秒内从利用率约30%的“空闲”状态波动到100% 左右,然后再波动回来。

这迫使工程师选择尺寸过大的组件来处理峰值电流,而不是平均电流,从而增加了成本和占地面积。

当这些波动在整个数据大厅中累积起来时,数亿瓦的功率在几秒钟内急剧上升和下降,对公用电网的稳定性构成了重大威胁,使得电网互联成为AI扩展的主要瓶颈


对此,英伟达提出了一种双管齐下的架构策略,通过过渡到800 VDC配电并结合储能的深度集成,应对规模和波动性挑战。

二、过渡到800VDC架构可带来四大优势

应对大功率配电挑战的最有效方法是提高电压。从传统的415或480 VAC三相系统过渡到800 VDC架构可带来显著优势,包括提高可扩展性、提升能源效率、减少材料消耗、提升数据中心性能等。

(1)原生800 VDC端到端集成。在设施层面生成800 VDC并直接输送至800 VDC计算机架,消除了冗余转换,从而提升了整体电源效率。该架构支持高密度GPU集群,释放更高的单GPU性能,并为每个AI工厂支持更多GPU,从而为合作伙伴带来更高的计算吞吐量和创收潜力。它还确保未来可扩展性,使其超过每机架1MW,并实现整个AI工厂电源生态系统的无缝互操作性。

(2)减少铜线用量,降低成本。800 VDC的相同线规可比415 VAC多承载157%的电力。使用更简单的三线配置(POS、RTN、PE)而非交流电的四线配置,所需的导线更少,连接器更小。这减少了铜线用量,降低了材料和安装成本,并简化了电缆管理,这对于机架电源插座向100万瓦级扩展至关重要。


(3)提升效率。原生直流架构消除了传统系统中多个低效的交流-直流转换步骤,传统系统中端到端效率可能低于90%。这种简化的电源路径可提高效率并减少废热。

(4)简化且更可靠的架构。直流配电系统本质上更简单,变压器和相位平衡设备等组件更少。复杂性的降低可以减少潜在故障点,并提高整体系统可靠性。

电动汽车和公用事业规模的太阳能行业已采用800 VDC或更高的电压来提高效率和功率密度。这些行业已经创建的成熟组件生态系统和实践,可适用于数据中心。

三、下一代AI工厂将过渡到800 VDC配电模式

虽然800 VDC解决了规模效率问题,但它并不能解决工作负载波动性问题。为此,储能必须被视为电源架构中必不可少的、活跃的组件,而不仅仅是备用系统。

其目标是创建一个缓冲器——一个低通滤波器——将GPU混乱的功率需求与公用电网的稳定性要求分离。

由于功率波动发生在很宽的时间范围内,因此需要采用多层次的策略:

短时存储(毫秒到秒):高功率电容器和超级电容器放置在靠近计算机架的位置。它们能够快速反应,吸收高频功率尖峰,并填补大语言模型工作负载空闲期间产生的短暂低谷。

长时储能(秒到分钟):大型设施级电池储能系统(BESS)位于公用事业互连线路上。它们负责管理较慢、较大规模的功率转换,例如整个工作负载的上升和下降,并在切换到备用发电机期间提供电力穿越能力。

800 VDC架构是实现这一战略的关键因素。

目前的数据中心储能系统是按照交流供电方式连接的。采用800 VDC架构后,在最合适的位置组合储能系统变得更加容易。

下一代AI工厂将从目前的交流配电模式过渡到800 VDC配电模式。


目前的架构涉及多个电源转换阶段。市电提供的中压(如35 kVAC)会降压至低压(如415 VAC)。然后,该电源由交流UPS进行调节,并通过配电单元(PDU)和母线槽分配到计算机架。在每个机架内,多个电源单元(PSU)将415 VAC转换为54 VDC电,然后分配到各个计算机托盘,进行进一步的直流-直流转换。


未来的愿景是将所有交流电转直流电集中在设施层面,建立本地直流数据中心。

在这种方法中,中压交流电通过大型高容量电源转换系统直接转换为800 VDC。然后,这800 VDC被分配到整个数据大厅的各个计算机架。

该架构通过消除交流开关设备、变压器和PDU层级来简化动力传动系统。它最大限度地利用了用于创收计算的空白空间,简化了整个系统,并为直接集成设施级储能提供了清洁的高压直流主干网。


向完全实现的800 VDC架构的过渡将分阶段进行,为行业提供适应的时间和组件生态系统的成熟时间。


英伟达MGX架构将与即将推出的英伟达Kyber机架架构一同演进,旨在采用这种全新的800 VDC架构。

电源以高压直接分配到每个计算节点,然后由后级高比率64:1 LLC转换器高效地将其降至紧邻GPU的12 VDC。这种单级转换效率更高,且比传统的多级方法占用面积减少26%,从而释放了处理器附近宝贵的空间。


这种转变,需要紧急、专注且全行业的协作。业界必须在800 VDC环境下的通用电压范围、连接器接口和安全实践方面达成一致。

结语:为未来AI工厂电力基础设施迭代做准备

GPU功耗的指数级增长以及对电网和GPU负载配置文件的不断发展的需求,正在推动对新的机架和数据中心电源架构的需求。

这种新体系架构将有助于降低系统的复杂性、成本和提高效率。通过将能量存储和800 VDC分布相结合,有望为未来AI工厂解决同步负载波动和GPU功率密度增加以实现最大计算效率的问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
她是宇航员武飞的妻子,画一幅画送丈夫上太空,娶一个贤妻旺三代

她是宇航员武飞的妻子,画一幅画送丈夫上太空,娶一个贤妻旺三代

凡知
2025-11-03 16:54:54
中美关系为何变得这么差?你看当年布热津斯基说了些啥,太现实了

中美关系为何变得这么差?你看当年布热津斯基说了些啥,太现实了

介知
2025-10-15 16:23:53
好消息!瑟尔斯基宣布守住红军城,已歼灭俄军并成功清理几条街区

好消息!瑟尔斯基宣布守住红军城,已歼灭俄军并成功清理几条街区

环球热点快评
2025-11-02 08:25:30
《依依向北风》大结局:乔正君入狱!王潇可惜,俞乐山保护盛雪竹

《依依向北风》大结局:乔正君入狱!王潇可惜,俞乐山保护盛雪竹

阿腩讲娱乐
2025-11-03 13:36:01
7-6!5-4!女足世界杯4强出炉,亚洲仅朝鲜晋级,中日韩同时淘汰

7-6!5-4!女足世界杯4强出炉,亚洲仅朝鲜晋级,中日韩同时淘汰

侃球熊弟
2025-11-03 19:05:18
特朗普果然对中国留了一手,美财长非常得意,向3亿美国人做保证

特朗普果然对中国留了一手,美财长非常得意,向3亿美国人做保证

南宫一二
2025-11-03 15:48:05
八宝山送别后遗嘱谣言平息,翁帆将携清华史料赴剑桥,走出新道路

八宝山送别后遗嘱谣言平息,翁帆将携清华史料赴剑桥,走出新道路

蔡蔡说史
2025-11-03 15:29:41
国足还考虑吗?57岁英超名帅下课:非常了解中国足球!

国足还考虑吗?57岁英超名帅下课:非常了解中国足球!

邱泽云
2025-11-03 13:35:50
炸了,印度发射4吨多通信卫星,创本土纪录,这技术到底有多牛?

炸了,印度发射4吨多通信卫星,创本土纪录,这技术到底有多牛?

沧海旅行家
2025-11-03 17:10:08
安徽多地纪委监委通报:2人被双开,2人被查!涉厅干

安徽多地纪委监委通报:2人被双开,2人被查!涉厅干

凤凰网安徽
2025-11-03 17:38:48
强大的马刺被太阳队全方位吊打,文班亚马不灵了!

强大的马刺被太阳队全方位吊打,文班亚马不灵了!

爱体育
2025-11-03 20:26:56
57年江西工地挖出一具戴脚镣遗骨,经查证,是刘少奇找了两年的人

57年江西工地挖出一具戴脚镣遗骨,经查证,是刘少奇找了两年的人

丞丞故事汇
2025-11-02 13:44:10
李奇微晚年坦言:朝鲜战争打出三个超级大国,西方为何保持沉默?

李奇微晚年坦言:朝鲜战争打出三个超级大国,西方为何保持沉默?

云霄纪史观
2025-10-21 11:45:46
长春亚泰为降级致歉:将稳住根基,力争在一两年内重返中超

长春亚泰为降级致歉:将稳住根基,力争在一两年内重返中超

懂球帝
2025-11-03 08:12:11
荷兰与广州同为1800多万人,荷兰创造1.22万亿GDP,广州令人意外

荷兰与广州同为1800多万人,荷兰创造1.22万亿GDP,广州令人意外

近史谈
2025-11-01 16:36:25
父亲炒股失败自杀留债200万,儿子拼20年还清,翻出股权证后傻眼了

父亲炒股失败自杀留债200万,儿子拼20年还清,翻出股权证后傻眼了

温情邮局
2025-10-27 15:01:51
“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

“新疆棉”事件5年后,那个丑态百出的“反华妖女”,如今怎样了

博览历史
2025-09-10 20:25:07
今年谁能有他猛!拿到亿元合同,当上球队老大,有望入选全明星

今年谁能有他猛!拿到亿元合同,当上球队老大,有望入选全明星

球毛鬼胎
2025-11-03 16:17:33
水库放生猫后续:警方已追查,知情人曝黑幕,这哪是行善?是作恶

水库放生猫后续:警方已追查,知情人曝黑幕,这哪是行善?是作恶

奇思妙想草叶君
2025-11-03 02:47:31
为娶到妻子足足追了9年,婚后妻子怕疼做了丁克,余生只想宠着她

为娶到妻子足足追了9年,婚后妻子怕疼做了丁克,余生只想宠着她

仙味少女心
2025-11-02 20:26:08
2025-11-03 20:51:00
芯东西 incentive-icons
芯东西
专注AI芯片、半导体产业媒体
2025文章数 8139关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

游戏
健康
旅游
教育
军事航空

盘点8款PS5上最棒的Xbox第一方游戏:你玩过哪些?

超声探头会加重受伤情况吗?

旅游要闻

部分免门票,最早11月1日起!佛山这些景区推出十五运优惠

教育要闻

李亚栋院士:要整体降低高考难度,尤其数学物理

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版