![]()
Blackwell GPU刚量产,英伟达就甩出一组新数据:MoE模型的token生成速度提升了1.84倍。这个数字看着漂亮,但实现方式有点意思——他们不是换芯片,是把推理流水线整个拆了重建。
MoE模型向来是算力黑洞。专家网络稀疏激活的特性,让GPU显存带宽成了瓶颈,大量时间耗在数据搬运上。英伟达的解法很工程派:把token路由、专家计算、结果聚合三个环节重新排布,让Blackwell的第二代Transformer引擎能连续吞吐,减少显存往返。
「我们在软件层面重新设计了MoE的并行策略」,英伟达HPC副总裁Ian Buck的原话很克制,没提具体改了哪些指令调度。但1.84倍这个数字有前提——对比的是Hopper架构上的旧实现,而非同一硬件的软件优化空间。
换句话说,这既是Blackwell的卖点,也是Hopper用户的提醒。老卡还没捂热,新卡的软件护城河已经开始挖了。有开发者吐槽:「我的H100刚部署完,优化路线图就已经是过去式。」
英伟达没公布这项优化何时开源。目前它藏在CUDA工具链的更新日志里,版本号都没标红。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.