![]()
随着AI基础设施投资持续攀升,集群设计与实际工作负载行为之间的鸿沟正导致大量算力闲置。Astera Labs针对这一问题推出了新型高基数架构交换芯片,旨在提升碎片化工作负载场景下的协同效率。
该公司本周发布了Scorpio X系列320通道智能交换芯片,将其定位为一种内存语义架构,目标是在AI系统规模扩展过程中降低延迟、提升加速器利用率。目前该产品已开始向超大规模云服务商出货,更大规模的量产预计于2026年下半年启动。
工作负载打破传统假设
AI基础设施长期以来建立在紧密耦合、持续执行的假设之上。然而随着训练和推理任务频繁出现分支、暂停和等待数据或外部调用的情况,这一假设正逐渐失效,集群设计与实际运行方式之间的落差直接体现为算力的闲置。
Moor Insights & Strategy副总裁兼首席分析师Matt Kimball表示,这种不匹配已成为效率损失的主要来源。"这些工作负载并不是整洁、连续的任务,它们会暂停、分支、等待数据或外部调用,但基础设施的供给方式往往仍默认一切都是紧密耦合的,利用率就是在这个落差中开始崩解的。"
Astera通过改变数据在交换网络中的流动方式来弥补这一缺口。其内存语义方案允许加速器通过读写操作直接访问共享资源,从而削减传统软件栈中层层叠加的开销。
Futurum研究总监Brendan Burke表示,减少集群内部的数据移动在规模化场景下能带来超出预期的影响。"将集体IO削减49%,意味着GPU能将更多时间用于它本应执行的计算任务。在超大规模场景下,这一效率提升将直接转化为更优的每瓦Token产出和更快的模型迭代周期。"
Astera Labs计算互联产品组副总裁Ahmad Danesh表示,当集群内部通信路径出现分化时,影响最为显著。"当部分GPU只需经过一跳,而其他GPU需要经过三跳时,完成时间由最长路径决定,较快的路径因此处于未充分利用状态,而其他路径则在等待数据。"
这一方案并不涉及调度或碎片化问题的解决,但它消除了规模化场景下最难优化的环节之一:组件间的数据传输摩擦。
Kimball说:"它并不能解决所有问题,但确实针对了最难攻克的难题之一。随着AI基础设施持续扩展,这种架构层面的转变将愈发重要。"
算力下沉至交换网络
Astera还通过其Hypercast引擎将集体通信操作卸载至交换网络,推动网内计算落地。
这一理念并不新鲜,瓶颈在于规模。Kimball表示:"将集体操作卸载到网络中的想法早已存在,真正改变的是规模。随着集群规模扩大,同步开销已成为实实在在的性能瓶颈。"
Burke指出,集体通信操作仍是AI系统中隐性开销的主要来源。"GPU在等待all-reduce或all-gather期间消耗的每一个周期,都是没有产生Token的周期。在大规模场景下,这些开销会累积成显著的性能税。"
Astera宣称在集体通信操作上可实现最高2倍的性能提升。若这一数据成立,收益将在高度同步的训练环境中最为明显,因为这类场景要求大规模GPU组保持步调一致。
Danesh表示,在新型模型架构中收益会更加突出。"不同GPU在不同时间交换数据,而这些分组关系还会动态变化,这正是非阻塞式内存语义通信以及动态重定义分组能力发挥价值的地方。"
目前尚不明确这些增益在受控环境之外——尤其是工作负载更难预测的多租户部署场景中——能否同样显现。
Astera未提供系统级利用率或延迟数据,原因是客户对生产部署信息较为敏感。
纵向扩展成为首要约束
工作负载行为的转变也正在重塑系统构建方式。纵向扩展(scale-up)与横向扩展(scale-out)已不再是相互独立的设计选择,运营商正将二者结合使用,以精细控制数据的流向与流动频率。
Kimball表示:"两者是互补的。模型规模越来越大,工作负载的相互依赖性越来越强,通过传统横向扩展方式移动数据的代价也越来越明显。"
Burke表示,纵向扩展交换市场的快速扩张,折射出优先级转变的速度。"当一家厂商将纵向扩展交换市场规模从50亿美元上调至200亿美元,且这一切发生在不到两年的时间里,说明机架级网络议题的演进速度有多快。交换网络现在已是基础设施层面的一等决策要素。"
这正推动更多通信在向外扩展之前先在机架或计算单元内部完成。高基数交换网络在其中扮演核心角色,通过增加直连端点数量、减少中间层级来提升效率。
Astera的320通道设计直接应对这一约束,简化拓扑结构,降低集群内部的跳数。
Kimball表示:"瓶颈正在向软件栈上层迁移。这不再只是原始算力的问题,而是关乎如何高效地连接、协调,并持续为算力供给所需数据。"
交换网络之争格局扩大
Astera正进入软件栈中一个竞争激烈的层级。
英伟达凭借NVLink和NVSwitch主导着紧密集成的纵向扩展方案,将互联技术与GPU深度捆绑。与此同时,一个围绕UALink标准的开放生态正在形成,AMD、博通、Marvell和Astera均参与其中。
Burke表示,Astera的市场定位契合了AI基础设施领域对灵活性的日益增长的需求。"开放生态系统的定位意味着一种替代NVLink锁定的路径。随着加速器种类日趋多样,超大规模云服务商和AI实验室正寻求对系统连接方式拥有更多主导权。"
Danesh表示,随着架构多样化,公司预计多种技术路线将长期并存。"不同加速器有不同需求,NVLink在特定生态系统内至关重要,而UALink和基于PCIe的方案则在扩大互操作性方面持续发力。"
Astera押注于开放式内存语义交换网络将随着运营商混合部署加速器、寻求在不依赖单一厂商的情况下提升利用率而获得更广泛的市场认可。
趋势已然明朗:随着AI系统规模持续扩大,制约因素正从峰值算力转向如何在碎片化工作负载中保持算力的同步性与有效利用率。
Q&A
Q1:Astera Labs的Scorpio X系列交换芯片主要解决什么问题?
A:Scorpio X系列320通道智能交换芯片主要针对AI集群中算力闲置的问题。由于AI训练和推理任务频繁出现分支、暂停和等待,传统基础设施的紧密耦合假设已不再适用。该芯片通过内存语义架构,允许加速器直接通过读写操作访问共享资源,减少软件层开销,从而降低延迟并提升加速器利用率。
Q2:Astera Labs的Hypercast引擎有什么作用?
A:Hypercast引擎的核心功能是将集体通信操作(如all-reduce、all-gather)从GPU卸载到交换网络中执行,即网内计算。GPU在等待这些集体操作时无法产出有效计算,这些等待周期在大规模集群中会累积成显著的性能损耗。Astera宣称Hypercast可在集体通信操作上实现最高2倍的性能提升,在需要大规模GPU高度同步的训练场景中效果尤为明显。
Q3:Astera Labs的开放式交换网络方案与英伟达NVLink相比有何差异?
A:英伟达NVLink和NVSwitch是与自家GPU深度绑定的闭环方案,在特定生态内具有高度集成的优势,但也带来厂商锁定的问题。Astera Labs则选择加入以UALink为核心的开放生态,联合AMD、博通、Marvell等厂商,主打跨加速器的互操作性。随着超大规模云服务商和AI实验室越来越希望混合使用不同品牌的加速器,开放式方案的吸引力正在上升。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.