据报道,11月21日,华为即将发布一项AI领域的突破性技术,将GPU、NPU等算力资源的利用率从行业平均的30%-40%一举提升至70%。在AI大模型军备竞赛日益烧钱的当下,这一数字若能实现,可能标志着AI基础设施的构建思路的改变。
华为魔法曝光,英伟达AMD被联手?
长期以来,AI算力集群面临资源利用率低下痛点。不同框架、不同任务、不同硬件(如GPU与NPU)之间难以高效协同,导致大量宝贵的算力在等待、调度中被闲置。
据分析,华为此次的杀手锏是软件创新。它旨在通过软件平台,实现对英伟达GPU、华为自家昇腾NPU及其他第三方算力的统一资源管理与利用。
![]()
其本质,是构建一个“算力抽象层”。在AI模型看来,底层的硬件差异被彻底“屏蔽”,只有一个统一的、高效的资源池可供调用。这使得AI训练和推理的资源支撑变得前所未有的高效。
英伟达格局小了,华为通吃全场,谁的卡都能用
在提升资源效率的赛道上,英伟达是先行者。其收购的Run:ai平台,通过动态资源调度与智能化管理,已在优化GPU利用率方面取得了显著成效。NVIDIA Run:ai的核心优势在于对NVIDIA自家生态内的资源进行精细化编排,无论在公有云还是本地数据中心,都表现出色。
![]()
然而,华为的技术似乎展现了更大的“野心”,其关键词是“泛用性”。
如果说Run:ai是在“英伟达生态”内做到了极致优化,那么华为则试图建立一个“跨生态”的“联合国”。报道中明确提及GPU和NPU,这强烈暗示该技术不仅服务于华为昇腾,更致力于将不同厂商的算力“兼容并包”。
混合训练\推理,万卡集群不再难,AI平权时代要来了
这种“泛用性”的真正价值,可能在于实现了高效的混合训练/推理。
在当前的行业实践中,为了保证集群稳定性和效率,绝大多数训练/推理集群都由同一种型号的计算卡构成。但这并非最优解。
以大模型推理为例,其过程可大致分为Prefill和Decode两个阶段:
Prefill阶段计算量大,对算力要求高。理论上,使用大算力、配GDDR或LPDDR的计算卡即可实现高性价比。
Decode阶段计算量小,但频繁读写缓存,对显存带宽极为敏感。理论上,使用高带宽、算力不必顶尖的“带宽卡”效率最高。
![]()
华为此前已在昇腾CANN 8.0基于LLM P-D分离部署方案发布LLM-DataDist组件,如果华为的新技术能将这两种不同品牌的卡(例如,A卡负责Prefill,B卡负责Decode)高效地协同起来,进行混合调度,就能将不同硬件的优势发挥到极致。
它打破了构建大规模算力集群必须依赖单一品牌、单一型号芯片的昂贵门槛。
未来,一个AI数据中心或许可以同时部署华为昇腾、英伟达、AMD,乃至国内的寒武纪、摩尔线程等不同品牌的GPU/NPU,并通过华为的这套软件系统将其协同作战。
这不仅极大地盘活了存量硬件资产,更从根本上降低了组网成本和对特定供应商的依赖。对整个AI行业而言,这无疑是一次意义重大的技术赋能与行业利好。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.