来源:市场资讯
(来源:华为计算)
在模型私有化部署中,因硬件资源异构、模型结构复杂、性能需求差异大等因素,带来显存利用不足、有效KV Cache容量较低、计算和通信开销浪费等问题,影响规模化落地。编译技术作为AI软件生态的核心,能贯通模型私有化部署的关键环节,包括底层指令优化、硬件适配、芯片算力释放及场景化应用。中科加禾以泛编译技术为牵引,构建基础软件为支点,应对系统共性难题,推动昇腾AI基础软硬件平台上高效稳定私有化部署,为AI产业生态的纵深发展注入新动力。
在模型私有化部署场景中,中科加禾与昇腾团队联合推进场景优化,基于MindStudio工具链和CANN、MindIE的基础能力,取得了如下突破:
对于硬件的显存资源瓶颈,中科加禾利用MindStudio工具链的显存分析工具,进行显存分布与内存刺尖分析,探索显存优化路径。针对显存复用问题,采用重构优化fused_experts代码的方式减少新的中间Tensor 生成、及时释放不会再使用的Tensor;针对显存资源颗粒度过粗的问题,对相关计算过程进行了token粒度的切分,同时优化了部分运算逻辑的执行过程,显著降低了显存占用,整体实现了超过20%的显存节省。
算子优化:提升计算性能、节省通信开销
针对算子优化不足、关键算子融合不够充分的问题,中科加禾利用MindStudio提供的通信分析工具对通信用时进行分析,并与昇腾团队深度协同,原生实现了包含MLA在内的高性能融合算子以替代由多个小算子组合而成的原有算子,优化了MoE模型推理过程中使用到的多个通信算子,并且在若干推理环节实现了算子级别的通算融合,显著提升了计算性能、节省了通信开销。
推理并行优化:大幅提升吞吐与效率
推理场景中,吞吐性能直接影响用户体验和算力成本,中科加禾综合运用DP(数据并行)、TP(张量并行)、EP(专家并行)、大EP等并行策略,针对不同场景进行性能建模以得出最优的并行策略组合配置,并且在推理架构层面分离了Prefill和Decode阶段的任务请求,避免了不同特性计算任务之间的资源争夺。该方案已在超大规模昇腾算力环境成功落地,在严格满足SLO(Service Level Objective,服务水平目标)的前提下,将QPS(每秒查询率)提升50%以上,显著提升系统吞吐能力并降低算力成本。
长上下文支持:突破模型能力边界
在企业级大模型应用中,尤其在处理信息量大、关联复杂、需要宏观理解的复杂任务时,长上下文的支持是需要重点突破的问题。中科加禾通过LLM语义感知的全局内存分配优化,实现了长上下文支持、有效KV Cache容量优化及长上下文并发吞吐优化。最终,在支持上下文长度提升一倍的同时,满足了更高的并发需求。
多行业多场景适用:安全稳定易用部署
面对各行各业的智能化升级诉求,中科加禾推出了多种私有化部署方案。如为政务部门提供公文写作、报告分析、数据库服务;为金融软件供应商提供大模型部署方案;为行业算力平台提供工业、汽车、媒体等大模型服务平台。中科加禾将复杂的算力基础设施与智能引擎封装为开箱即用的标准化产品。
![]()
中科加禾AI私有化部署方案示意图
中科加禾核心团队源自中科院计算所编译与编程实验室。多年来,中科加禾基于昇腾AI基础软硬件平台,在多领域实现了技术突破和工程实践。不仅成功构建了面向超大规模私有化部署的基础软件栈,而且有力印证了昇腾在释放客户AI生产力、加速行业智能化升级方面的核心价值。未来,中科加禾将继续携手昇腾,共建坚实、可持续的人工智能生态,加速千行万业的智能化变革。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.