在当今数字化时代,数据中心宛如一座城市的 “心脏”,而网络则是不断传输信息的“血管”。
网络在数据中心发挥着重要的作用,尤其是如今人工智能(AI)技术飞速发展,算力需求不断攀升的情况下,智算中心作为AI技术的核心支撑,网络设计更是需要格外重视。
如今,在AI场景下,海量的参数分布于各个服务器之间,同步调用容易出现网络负载分担不均而导致的吞吐下降,从而引发AI训练性能整体下降等问题。此外,大规模算力环境下的网络时延问题也是当今数据中心所面临的“紧箍咒”之一。
这些挑战不仅考验着数据中心的基础设施,也推动着网络技术的不断创新和演进。
AI算力狂飙,
智算中心面临延时和带宽双重挑战
在AI的世界里,数据就是“新的石油”,但如何挖掘这块“新石油”呢?
传统的数据中心网络面临着前所未有的挑战,传统的网络架构和设备已经难以满足现代AI应用的需求。例如,一个典型的AI训练任务可能需要在短时间内传输数TB的数据。如果网络带宽不足,数据传输将变得缓慢;如果网络延时过高,数据同步操作将变得缓慢,从而导致训练效率大幅下降。
根据Epoch AI 研究机构报告显示:当训练规模逼近 2e28FLOPs,数据搬运耗时开始压过算力本身,利用率急剧下滑,被业界称作“延时和通讯墙”。
那么如何解决通讯墙问题呢?报告提示,延时和带宽对于大规模集群至关重要,如果网络不能高效地传输数据,即使堆砌再多的服务器,也无法有效提高算力。这就好比在高速公路上,如果车辆(数据)不能快速通过收费站(网络),那么再多的车道(服务器)也无法缓解交通拥堵。
为解决这一问题,智算中心的网络提高带宽和降低延时成为关键。在网络资源中,最关键的要素是光模块。模块是网络效能中最核心、成本占比最大的部分,这也是近年来光模块技术发展非常快的原因,如今从800G到1.6T,再到3.2T,其演进趋势令人瞩目。
根据康普公司的研究,2023年发布的报告显示,1.6T的光模块已经开始应用,光纤用量也会出现翻倍增长。目前,AI集群大多使用基于8芯光纤的MPO8连接器,未来接口提速会用到MPO16连接器,这将导致大规模算力集群的光纤数量进一步提升。
报告认为,随着技术的发展,未来光模块的演进甚至快到可能“消灭掉自己”。就是随着网络设备能耗的提升,最终可能不再需要传统的可插拔光模块,而是采用CPO(Co-Packaged Optics,光电共封装)这样的新方案。
算力密度提升
网络架构向统一和融合方向演进
过去几年,AI行业更多关注芯片算力的提升,同时单卡功耗持续飙升,传统算力架构已难以满足AI训练需求。算力提升的同时能耗也会提升,网络率也在大幅提升,光纤连接的需求量随之增加,空间密度也必须相应提升。
在此背景下,智算中心网络的发展范式正在重新定义。在大模型参数呈爆炸式增长的当下,算力需求正从单点向系统级整合加速转变。这一趋势下,未来,数据中心网络架构将向统一和融合方向演进,以应对AI时代的挑战。
在传统的数据中心架构中,Scale-up和Scale-out架构各有优势。Scale-up架构通过增加单个节点的计算能力来提升整体性能,而Scale-out架构则通过增加节点的数量来实现水平扩展。然而,随着AI技术的发展,这两种架构的界限逐渐模糊。未来的数据中心将需要一种能够同时支持Scale-up和Scale-out的统一架构,以实现高效的数据传输和处理。
简单来说,无论是Scale-up还是Scale-out架构,光纤连接都将在未来的AI数据中心(AIDC)发展中扮演越来越重要的角色。而且,这种演进不仅包括物理连接器件的统一,还包括连接方式的融合。
统一和融合的架构将带来多方面的好处。首先,它能够简化网络设计和管理,减少网络设计的复杂性,降低管理成本。通过采用标准化的光纤连接和高密度连接器,网络管理员可以更轻松地进行网络配置和维护。其次,统一的光纤连接可以提供更高的带宽和更低的延时,从而提高数据中心的整体性能。这对于AI应用来说尤为重要,因为它们需要快速、高效的数据传输。最后,融合的网络架构可以更好地支持数据中心的扩展。
随着AI技术的发展,数据中心需要不断扩展其计算能力。统一的网络架构可以无缝支持这种扩展,而不会影响现有系统的性能。那么当前市场上能否找到在Scale-up和Scale-out之间找到统一的平台?
答案是可以的,作为全球领先的网络基础设施解决方案提供商,康普公司几年前就洞悉了市场需求趋势,一直积极推动数据中心网络架构的演进。康普的Propel™平台专为智算时代的需求而设计,兼具高速、灵活与面向未来的特性,能够为AI数据中心提供全方位的光缆及连接支持。
关注未来,
新技术引领AI数据中心能效飞跃
随着AI技术的快速发展,数据中心网络会面临着前所未有的挑战。传统的网络技术和架构已经无法满足现代AI应用的需求。因此,需要引入新的技术来提高网络的性能、可靠性和能效。这些新技术不仅能够解决当前的挑战,还能为未来的数据中心网络发展奠定基础。
长期以来,康普始终秉持前瞻性的基础设施创新理念,将战略视野锚定在超越短期需求的技术演进方向上,构建的解决方案不仅着眼于应对已知挑战,更致力于解决客户尚未察觉的潜在技术难题。以下是康普公司正在锚定和推进的几项新技术:
共封装光学(CPO)技术
共封装光学(CPO)技术有望在下一代AI数据中心中扮演重要角色。该技术将数据中心交换机中的光模块从前置面板移至交换机内部,与专用集成电路(ASIC)相邻放置。通过这种芯片与光器件的紧邻设计,维持信号完整性所需的数字信号处理器(DSP)和重定时器数量得以减少,从而有效降低了系统功耗。康普公司配合英伟达在CPO交换机应用场景中设计高密度光纤连接方案。
高密度连接器
高密度连接器(如MPO16、MMC等)在数据中心中的应用越来越广泛。这些连接器不仅能够提供更高的带宽和更低的延时,还能有效提升数据中心的空间利用效率。例如,MPO16连接器能够在单个连接器中支持16芯光纤,大大提高了光纤的密度和传输效率。而MMC连接器则通过将多个连接器组合,形成更高密度的连接方案,进一步提升了数据中心的连接能力。
抗污染光纤连接器
抗污染光纤连接器通过扩束/扩斑技术,提高了尘埃容忍度。在高密度光纤连接器中,尘埃浸入会严重影响通信,通过扩束/扩斑技术,将光束扩大再回收,使微小灰尘对光信号的影响大幅降低。这对于数据中心的高密度连接器尤为重要,因为它们需要在高密度环境下保持稳定的性能。
空心光纤
空心光纤技术主要解决长距离链路延时问题,光信号从石英介质中的2/3光速,提升至全光速,理论上提升了30%,传播延时改善明显。这种技术不仅能够进一步提高数据传输速度和距离,还能减少数据中心对传统电力设施的依赖。
这些新技术对数据中心网络未来的价值在于,它们能够显著提高网络的性能、可靠性和能效。通过采用这些新技术,数据中心可以更好地支持AI应用的高效运行,同时降低运营成本和环境影响。对于客户来说,这些新技术不仅能够提高数据中心的运行效率,还能支持可持续发展,减少对环境的影响。
企业如何确保数据中心
网络满足AI发展需求?
为支撑人工智能应用所产生的海量数据负载,无论部署于本地(on-premises)还是云端(off-premises)的AI基础设施,都必须进行大规模扩展。那么企业如何确保数据中心网络满足AI发展需求?
一个靠谱的合作伙伴无疑能让企业数据中心网络转型过程中事半功倍。康普作为全球领先的网络基础设施解决方案提供商,在数据中心领域的长期积累与技术沉淀使其在AI浪潮下具备独特的优势。
多年来,康普持续为迭代式AI和生成式AI(GenAI)提供网络基础设施解决方案,服务众多全球领先的云服务与互联网企业。
而且,康普一直将行业前瞻性洞察和技术研发很好的结合起来,精准预判网络行业演进路径,解决行业未来发展需求。例如康普率先将连接器技术实现商用化,完美适配400G/800G乃至1.6T等传输速率标准,这些关键技术指标正是支撑AI云平台的核心基础。
同时,康普在中国拥有庞大的销售团队和技术支持团队。与其他布线厂商支持人员相对稀缺的现象不同,康普团队技术人员数量众多,具备为客户规划和设计既能随着技术的迭代而升级、又有一定的前瞻性、可持续使用长达二十年的数据中心的能力,同时还深入了解客户的真实需求,提供定制化的解决方案和24X7的技术支持,确保客户在任何时间都能获得及时的帮助。
康普在绿色数据中心方面的成就也值得关注。康普连续第八年获得EcoVadis可持续发展金牌评级,跻身全球供应链可持续发展评估前5%。此外,康普还保持了摩根士丹利资本国际(MSCI)的ESG AA评级和机构股东服务公司(ISS)的“Prime”级ESG认证。这些评级和认证充分展示了康普在环境保护、社会责任和公司治理方面的卓越表现。
总结
在智算中心的建设中,网络扮演着举足轻重的角色。康普公司作为全球领先的网络基础设施解决方案提供商,始终致力于推动数据中心网络技术的创新和发展。通过前瞻性的基础设施创新理念和技术突破,推动数据中心网络技术的进步,为AI技术的发展提供坚实的基础。我们相信,在康普的支持下,未来的智算中心网络将更加高效、更加节能、更加可靠。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.