![]()
新一轮AI浪潮的波涛此起彼伏,各个行业正处于从单点尝试迈向规模化部署的关键阶段,此刻面临的挑战应接不暇。如何通过构建强大的算力集群与坚实的网络底座,成功实现“上岸”的预期目标,是摆在行业客户面前的重要课题。
![]()
一方面,训推一体化迅猛发展,对底层基础设施的协同进化提出更高要求。传统的AI训练与推理环节相对独立,而伴随行业应用对实时性、成本效益和业务连续性的诉求不断提高,训推一体化已成为改善算力利用效率和业务响应敏捷度的必由之路,驱动算力、存储、网络等基础设施持续跃迁。
在金融领域,训推一体化助力某大型银行的智能风控模型根据市场变化动态调整风险参数,使模型迭代周期从数周缩短至天甚至小时级别,其背后离不开大规模AI集群的鼎力支撑;在OTT行业,训推一体化是很多互联网娱乐及电商公司个性化内容推荐与交互式服务的助推器,可基于用户实时行为数据快速调整策略,大幅提升用户体验,这同样需要AI集群的“运力”保障。
另一方面,AI推理长序列化趋势日益凸显,带动算力架构和网络底座迈上更高台阶。大模型应用正逐步深入复杂业务场景,行业客户对推理任务的要求已由简单问答转向长序列、复杂逻辑的深度分析。例如:长序列推理在金融投研、信用评估、高风险交易等场景中尤为重要,需统筹处理历史行情数据、宏观经济指标和突发新闻事件,进而得出跨周期、多因子的综合判断,这依赖于推理芯片、集群网络的保驾护航。
显而易见,当训推一体化和推理长序列化的风潮席卷而来,AI集群无疑扮演着中流砥柱的角色,其进化方向备受瞩目。眼下,业界对超节点引领的“Scale up”路径颇为认可,却忽视了“Scale out”也是AI集群范式变革的另一种选择——对行业客户而言,探索集群演进的“帕累托最优”路径迫在眉睫,兼容并包的选择更有利于在荆棘中闯出一片新天地。
以基础设施范式变革应对AI落地的诸多挑战
事实上,无论是训推一体化还是推理长序列化,都是驱动AI加速落地的核心动力。但这条路并不平坦,横亘在道路上的障碍依然突出,必须借助基础设施的范式变革找到破局之道。
![]()
首先,智算需求的爆发式增长带来算力资源的结构性缺口,使多元异构集群渐成主流,要达成高效运行殊为不易。以金融行业为例:为了最大程度降低外部环境的不确定性,国内头部金融机构通常采用多元化策略分散风险,打造符合AI应用需求的异构算力集群;同时,不少国外金融机构也选择建设异构集群,通过平衡性能、效率、安全与成本等多重因素,争取在激烈的金融科技竞争中取得优势地位。不过,由于异构算力协同存在技术瓶颈,高峰期集群利用率很难达到60%以上,提升集群运行效率任重而道远。
其次,AI集群网络的高性能、可靠性与稳定性成为行业客户拥抱AI的“胜负手”,打破“不可能三角”是完成突围的必要条件。在训推一体化场景下,大模型需在训练与推理节点间持续同步参数,任何网络延迟或丢包都可能影响模型时效性;在长序列推理场景中,序列长度增加直接转化为更大的内存占用和更高的通信开销,对网络的综合能力要求颇高。此外,网络闪断故障可能给行业客户造成难以估量的损失,集群网络的高性能、可靠性、稳定性“一个也不能少”。
最后,越来越多的行业客户看重AI集群的成本效益比和投资回报率,单纯的“大力出奇迹”模式已无法契合AI普惠的进程。在初期投入阶段,行业客户很难量化AI投资的回报率,造成算力成本居高不下。随着AI逐步与核心业务进行融合,如何精准评估智算投入在“降本、增收、增效”维度的贡献,成为推动行业客户进一步投资的关键因素,而选择最适宜的AI集群建设路径即是破解难题的“金钥匙”。
探索AI集群进化的“帕累托最优”路径
根据著名经济学家维尔弗雷多·帕累托提出的观点,“帕累托最优”是指在资源分配中达到一种理想状态,堪称衡量资源配置效率的“金标尺”。在AI集群演进的过程中,提升算力释放效率、改善网络底座支撑水平始终是核心目标,而“帕累托最优”提供了有效的解题思路。
![]()
在整个AI基础设施中,芯片创新往往是范式变革的风向标,其路径选择对存储、网络等产品的进化颇具示范效应。最近,英伟达开创性地将推理任务解耦为预填充(Prefill)和解码(Decode),并面向预填充打造高性价比的新一代Rubin CPX,使客户可以像搭积木一样,基于具体工作负载高细粒度地采购算力资源,从而实现总拥有成本(TCO)的极致优化和投资回报率(ROI)的显著擢升,为AI集群的演进开辟出崭新的路径。
尤值一提的是,Rubin CPX放弃了昂贵且高功耗的NVLink互连技术,转而依靠PCIe Gen 6通过CX-9网卡形成的Scale out网络与其他GPU进行通信。与解码阶段所需的高带宽、低延迟通信不同,预填充任务中节点间的通信开销在总任务耗时里的占比较小,一个PCIe Gen 6 x16通道提供的约1 Tbit/s单向带宽足以满足客户需求。
基于Scale out网络的底座支撑,集群单元不管是单机架还是双机架,Rubin CPX均不必采用NVLink连接,只需通过InfiniBand或以太网连接到集群即可。这不仅大幅减轻了行业客户的投入负担,而且摆脱了单纯追求硬件性能的路径依赖,高性价比的AI集群解决方案有望遍地开花。
Scale out网络是AI集群高速发展的核心底座
透过AI集群的发展历程,会发现Scale up与Scale out犹如一枚硬币的两面,二者相辅相成,共同促进AI集群迈向更高境界。然而,崇尚Scale up的超节点横空出世后,舆论呈现出“一边倒”的态势,仿佛Scale out已不合时宜,迟早退出舞台中央。
从这个意义上讲,Rubin CPX打开了另一扇窗户,让Scale out网络的阳光照进行业数智化转型的现实,距离达成AI普惠的愿景又近了一步。可以预见,围绕Scale out网络的各种技术创新很可能形成一股新的浪潮,驱动AI基础设施朝着更“接地气”的方向迈进。
毋庸置疑,行业客户是Scale out创新浪潮的最大受益者。基于开放标准的Scale out网络能为上层应用提供统一的通信接口,有助于化解多元异构集群的算力互联难题;通过Scale out网络与相关基础设施的协同创新,不同的计算单元可依据任务需求被灵活组合,实现精准的算力匹配,显著提高算力利用率;依托成熟的以太网生态,Scale out网络还会大幅降低客户的运维压力,使其更易享受AI时代的红利。
站在更长远的视角,AI集群的蜕变之旅刚刚拉开帷幕,包括网络在内的基础设施创新还有很长的路要走。作为AI集群无可争议的底座,Scale out网络将继续扮演开路先锋的角色,在AI落地的征途上留下一座座里程碑。
作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。
关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。
![]()
—— 越看越精彩 ——
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.