2025年11月6日,月之暗面(Moonshot AI)推出Kimi K2 Thinking开源模型,相较Kimi K2模型,Kimi K2 Thinking在深度推理和Agentic能力方面进一步增强,可通过多轮工具调用解决各种类型的难题。华为云率先完成对Kimi K2 Thinking模型的适配工作,原生支持INT4量化格式部署,可最大可支持256K的长序列上下文长度。
![]()
▲Kimi K2 Thinking在HLE(44.9%)和BrowseComp(60.2%)测试中均达到SOTA水平
昇腾AI云服务团队自Kimi K2模型发布后,基于华为云CloudMatrix384 超节点算力集群,持续在模型部署、性能提升等方面对Kimi K2系列模型进行技术栈优化,充分发挥云上算力规模及CloudMatrix384 超节点架构等优势。
此次Kimi K2 Thinking发布后,华为云ModelArts推理平台针对模型量化、部署及长序列方面进行协同优化:
- 模型权重:Kimi K2 Thinking模型可以使用INT4 Weight(A16W4)量化格式部署,量化不仅降低模型运行的能耗与显存占用,在实际应用部署中极大降低模型对算力资源部署需求,在实际应用中,可让模型推理更快、更准。
- 模型部署:大EP专家并行、PD分离部署方案结合CloudMatrix384的高带宽、全光互联网络,能高效地处理Kimi K2 Thinking模型海量通信,大幅提升推理速度并减少NPU空闲,实现高吞吐。
- 长序列优化:针对小batch size、长序列生成等推理负载,利用Flash Decode加速机制,有效降低时延并提升算力利用率。充分发挥Kimi K2 Thinking模型256K超长序列处理能力,显著提升模型在长上下文场景下的稳定性与吞吐表现。
华为云ModelArts推理平台支持DeepSeek、Qwen3、Kimi、GLM等业界主流开源大模型,并基于CloudMatrix384 超节点深度适配与优化,为用户提供“加速套件+最佳实践”模型推理服务。华为云始终将技术创新作为核心驱动力,持续围绕高性能、稳定可靠的算力服务,以更好满足企业多样化需求,助力企业智能化跃升。
即刻开始体验
- 通过浏览器直接访问
华为云官网首页(https://www.huaweicloud.com)-产品-人工智能-AI开发平台ModelArts-控制台,进行Kimi K2 Thinking模型部署。
- 或者访问以下地址:
https://console.huaweicloud.com/modelarts/?locale=zh-cn®ion=cn-southwest-2#/dashboard
关注@华为云,了解更多资讯
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.