9月19日消息,在今天第十届华为全联接大会(HUAWEI CONNECT 2025)上,华为常务董事、华为云计算CEO张平安表示,Token服务可以有效屏蔽复杂的底层技术,直接为用户提供最终的AI计算结果,是最高效的推理算力使用方式。
华为云资料显示,今年华为云CloudMatrix384昇腾AI云服务已全面上线,未来华为CloudMatrix超节点规格将从384卡升级到8192卡,可实现50~ 100万卡的超大集群;华为云首创EMS弹性内存存储服务,用内存扩展显存,显著降低大模型多轮对话时延,大幅提升模型使用体验。
张平安表示,CloudMatrix384超节点将算力、内存、显存等资源全面池化,把计算型任务、存储型任务、AI专家系统解耦,将串行任务变成分布式并行任务,极大地提升了系统的推理性能。在在线、近线和离线等不同时延推理场景中,CloudMatrix384平均单卡的推理性能达到H20的3到4倍。
会上,张平安还宣布,CloudMatrix384 AI Token推理服务全面上线。
华为云方面表示,截至目前,使用华为云AI云服务的全球客户数量从去年的321家增长到今年的1805家。张平安表示,华为云将更多的资源投入到AI和算力产业上,让千行万业的应用更容易、更好地生长在华为云的“黑土地”上。
张平安还强调,华为正坚定不移地做好盘古闭源大模型,继续加大盘古大模型的投入,持续深耕行业,支持各行各业的客户做好自己的大模型,加速千行万业智能化;目前,盘古大模型已在30多个行业、500多个场景中落地。
而据张平安透露,在过去的一年,华为云上的鲲鹏CPU核数从900万核增长到1500万核,增幅达到67%;同时,鲲鹏平台持续完善主流应用软件的兼容支持,已适配超过25000个应用。