(本文编译自Semiconductor Engineering)
为了提高电源效率,目前的高性能计算(HPC)和人工智能(AI)数据中心使用的电源架构即将迎来重大变革。虽然芯片的电压保持不变,但通向这些芯片的电压将会更高,以适应更长的传输距离。
这一变化对DC/DC转换器具有广泛影响。现有架构将交流电输送至每个机架,将其转换为直流电,然后通过两级降压将电压降至所需的芯片电压。新方法以电动汽车(EV)市场已建立的协议为蓝本,将交流电转换移至楼宇边缘或一排机架的末端,并为该排所有机架提供高于当前使用的直流电压。其结果是降低电流、减少损耗并减少铜材用量。
这一变革的背景是数据中心正面临持续增长且看不到尽头的能源需求。Ansys(现已并入新思科技)电子和半导体业务部总监Rich Goldman表示:“人工智能、GPU和数据中心所驱动的电力需求正在极大地改变人们处理事务的方式。人们正将数据中心建在靠近能源产地的地方。”
每个机架目前都配备交流电
目前的数据中心电源配置将交流电分配到所有机架。每个机架底部的托盘包含一个电源单元(PSU),用于将交流电转换为标称的48V直流电。某些系统会根据需要采用54V直流供电,以便将电池充电至48V。
Amkor Technology计算产品营销总监John Dinh表示:“电源被转换为直流电,之后还需经过多次转换,才能达到高性能芯片可用的电压。”
48V电压为所有上层服务器以及架顶式(ToR)交换机供电。在每块电路板上,电压分两级降压,最终由驱动MOS(DrMOS)芯片为受电芯片提供电压。“第一级有一个电源模块,将48V降至12V,有时甚至降至6V,”Dinh解释道,“第二级,会有一个额外的控制器和DrMOS芯片,进一步将电压降至1V、3V、0.8V或芯片所需的任何电压。”
![]()
图1:当前高级数据中心电源架构。
由于不同芯片的电源电压要求可能不同,因此第二级电路需多次重复配置。DrMOS芯片除了提供必要的电压外,还必须提供足够的电流。每个DrMOS芯片都有电流限制,因此可能需要将多个芯片并联在一起,才能在同一条电源线上达到规定的电流值。
例如,英伟达在其Grace/Hopper和Grace/Blackwell主板上就有很多这样的芯片。“第二级使用了大量DrMOS芯片,”Dinh表示,“GH200为Grace使用了19个DrMOS芯片,为Hopper使用了56个DrMOS芯片;而GB200为Grace使用了19个DrMOS芯片,为Blackwell使用了130个DrMOS芯片。”
这体现了现有架构面临的挑战。“他们必须改变架构,”他表示“现在不再只是在GPU周围填充更多DrMOS了,这种方式是不可持续的。”
这与最近几代DRAM的变革理念类似,目前的每个内存模块都自带PMIC,这绝非偶然。Rambus内存接口芯片产品营销副总裁John Eble表示:“这种理念就像数据中心的做法一样。我们为用电终端(此处指内存)提供更高的电压和更低的电流,然后通过一个电源管理IC来接收这些电压,再生成所有必要的电压。”
并非首次升压
数据中心的电源架构只有一个目的——接收输送的交流电,并尽可能多地将电力输送到芯片和其他组件。这关系到电源效率,但这种效率是相对的。早期,数据中心机架采用12V直流供电,但随着机架功率超过15kW,行业逐渐转向48V。
当时的理由与下一组拟议的变更相同。由于功率是以VI计算的,因此在给定功率的情况下,电压的增加会导致电流成比例地减少。而电流的大小对数据中心有多方面的影响。
首先,电流决定了连接电源所需导线的规格。目前的配置预计每个机架需要约200公斤的铜,以支持人工智能和其他计算密集型工作负载所需的巨大功率。通过降低电流,数据中心可以使用更少的铜线进行布线,这是一项不小的投资。
其次,影响在于特定导线对交流电和直流电的载流能力差异。趋肤效应意味着,对于交流电,大部分电流在导线表面附近流动,而流经导线内部的电流较少。
“在系统层面,使用相同数量的铜材传输交流电和直流电时,直流电可以输送更高的功率,”Dinh表示。仅此一项就能通过现有线路提供更多电力。
此外,减少交流电也意味着,相同的电流可以通过更细的导线传输 —— 利用导线的全部截面,而非仅表面边缘,这同样能减少铜材的使用。
最后,传导损耗与电流的平方成正比。这意味着降低电流可以减少损耗,从而提高效率。在尽可能长的布线距离内保持较高电压,意味着在尽可能靠近芯片的位置再进行降压。这既节省了电力,又能保持较高的电源完整性。
新型数据中心电源配置
目前所提出的电源架构将PSU移到数据中心的边缘区域,或至少将其部署在独立的机架中。这类机架有时被称为“旁置机架”,通常设置在一排机架的末端。
“下一代机架式计算引入了集中式电源架构,”Dinh解释道,“电源将拥有专属机架,不再仅仅是机架底部的一个托盘。在这种架构中,数千伏的交流电在数据中心边缘区域转换为直流电,输出电压为800伏直流电,并将输送到机房或成排的机架。”
这就省去了目前为每个机架供电的交流电。取而代之的是,机架接收高直流电压,然后在靠近负载的电路板上,通过多阶段降压将其降至芯片所需的电压。
![]()
图2:新型数据中心电源架构。
这种配置被称为高压直流输电(HVDC),它借鉴了电动汽车充电器的部分技术。“得益于电动汽车充电技术,这种装置成本更低,部署也更便捷,”Dinh指出,“数据中心向高压直流输电的过渡,恰好与电动汽车充电基础设施的发展相吻合。”
800V并非不可逾越的门槛,有些人认为400V是更可行的数字。但英伟达已经公开表示,其Kyber机架架构(预计将于2027年上市)将采用800V配置,和一个侧边机架来容纳电源和冷却基础设施。
当然,这将导致每栋建筑或每排机架都需要进行一次交直流转换,而不是每个机架都要单独转换。在现有配置下,如果一个电源发生故障,只会影响一个机架的运行。如果新的电源发生故障,则会影响更多机架的运行。“组件数量减少可能会造成单点故障。为了解决这个问题,必须配备冗余系统,”Dinh补充道。
FET和电源完整性
目前的方案意味着,负责将电源设备输出电压降压的半导体必须能够支持50V以上的电压。这与即将到来的800V电压相差甚远,后者需要高压半导体的支持。这将增加对SiC晶体管的需求,因为SiC晶体管在承受高压方面的表现远优于硅基晶体管和GaN晶体管。实际上,电动汽车领域现有的部分设计可经过改造沿用,从而降低转型难度。
Ansys产品营销总监Marc Swinnen表示:“我们看到功率器件的需求激增。功率场效应晶体管(FET)应用极为普遍。由于需要切换的功率规模极大,必须使用FET。”
对于此类芯片来说,对电源完整性验证的需求变得更加迫切,因为设计参数的微小变化都可能会产生很大的影响。
“有一些专门设计用于详细分析功率晶体管的工具,”Swinnen表示,“这些工具使用二维网格划分,因为晶体管承载的功率非常大,其导通电阻(RDSon)是最重要的参数。必须精准计算导通电阻,并准确识别电压降的具体位置,以避免出现热点,如避免在拐角处或其他位置出现过多的电压降,从而导致局部发热。这与传统仅基于电阻-电容(RC)模型的电源完整性分析截然不同。”
温度在这里扮演着重要的角色,因为它可以激发正反馈回路。“功率往往是温度的间接体现,”Swinnen表示,“当人们说‘我担心功率问题’时,实际上是担心设备会过热。而这里存在一个反馈机制:芯片的功耗取决于其温度,温度越高的芯片功耗越大,反过来,更大的功耗又会导致芯片温度进一步升高。这是一个先有鸡还是先有蛋的循环问题。”
并非所有数据中心都采用这种架构
鉴于目前运营的数据中心数量众多,将它们全部转换为这种新架构的成本过高,这既不切实际,也没有必要。只有极少数工作负载需要这种架构提供的超大功率。事实上,这一变革的必要性,源于对未来人工智能工作负载所需功率的预估。除人工智能和高性能计算之外的其他应用程序,可继续在现有基础架构上运行。
与此同时,电力输送基础设施(电气和机械)制造商正加紧支持该新架构。英伟达的承诺消除了部分风险,预计几年内即可完成部署。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.