Kimi K2 Thinking模型，首发支持！|调用|序列|推理|大模型|kimi|thinking

Kimi K2 Thinking模型，首发支持！

2025-11-08 08:41:58　来源: 呼呼历史论

辽宁举报

分享至

2025年11月6日，月之暗面（Moonshot AI）推出Kimi K2 Thinking开源模型，相较Kimi K2模型，Kimi K2 Thinking在深度推理和Agentic能力方面进一步增强，可通过多轮工具调用解决各种类型的难题。华为云率先完成对Kimi K2 Thinking模型的适配工作，原生支持INT4量化格式部署，可最大可支持256K的长序列上下文长度。

▲Kimi K2 Thinking在HLE(44.9%)和BrowseComp(60.2%)测试中均达到SOTA水平

昇腾AI云服务团队自Kimi K2模型发布后，基于华为云CloudMatrix384 超节点算力集群，持续在模型部署、性能提升等方面对Kimi K2系列模型进行技术栈优化，充分发挥云上算力规模及CloudMatrix384 超节点架构等优势。

此次Kimi K2 Thinking发布后，华为云ModelArts推理平台针对模型量化、部署及长序列方面进行协同优化：

模型权重：Kimi K2 Thinking模型可以使用INT4 Weight（A16W4）量化格式部署，量化不仅降低模型运行的能耗与显存占用，在实际应用部署中极大降低模型对算力资源部署需求，在实际应用中，可让模型推理更快、更准。
模型部署：大EP专家并行、PD分离部署方案结合CloudMatrix384的高带宽、全光互联网络，能高效地处理Kimi K2 Thinking模型海量通信，大幅提升推理速度并减少NPU空闲，实现高吞吐。
长序列优化：针对小batch size、长序列生成等推理负载，利用Flash Decode加速机制，有效降低时延并提升算力利用率。充分发挥Kimi K2 Thinking模型256K超长序列处理能力，显著提升模型在长上下文场景下的稳定性与吞吐表现。

华为云ModelArts推理平台支持DeepSeek、Qwen3、Kimi、GLM等业界主流开源大模型，并基于CloudMatrix384 超节点深度适配与优化，为用户提供“加速套件+最佳实践”模型推理服务。华为云始终将技术创新作为核心驱动力，持续围绕高性能、稳定可靠的算力服务，以更好满足企业多样化需求，助力企业智能化跃升。

即刻开始体验

通过浏览器直接访问

华为云官网首页（https://www.huaweicloud.com）-产品-人工智能-AI开发平台ModelArts-控制台，进行Kimi K2 Thinking模型部署。

或者访问以下地址：

https://console.huaweicloud.com/modelarts/?locale=zh-cn&region=cn-southwest-2#/dashboard

关注@华为云，了解更多资讯

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.