Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力

Kimi K2 Thinking 模型发布并开源，全面提升 Agent 和推理能力｜Z News

2025-11-08 09:08:22　来源: 真格基金

北京举报

分享至

11 月 6 日，Kimi 发布 Kimi K2 Thinking，已在网页端与最新版 App 上线，同时其 API 也正式登陆 Kimi 开放平台。

Kimi K2 是基于「模型即 Agent」理念训练的新一代 Thinking Agent。在 OpenAI 评估 AI Agent 网络浏览能力的基准测试 BrowseComp 中，Kimi K2 以 60.2% 的成绩成为新的 SOTA 模型。

真格基金于 2023 年天使轮投资月之暗面。自 2023 年 10 月发布以来，Kimi 持续升级基础模型能力，拓展产品功能与交互体验。Kimi K2 模型最初发布于 7 月 11 日。目前，包括 Cursor、Genspark、Perplexity、YouWare 等多款产品已接入或使用 Kimi K2 模型。

我们期待在未来与 Kimi 和更多用户一起共创智能。

今天，我们发布 Kimi K2 Thinking——Kimi 迄今能力最强的开源思考模型。

Kimi K2 Thinking 是我们基于「模型即 Agent」理念训练的新一代 Thinking Agent，它原生掌握「边思考，边使用工具」的能力。在人类最后的考试（Humanity's Last Exam）、自主网络浏览能力（BrowseComp）、复杂信息收集推理（SEAL-0）等多项基准测试中表现达到 SOTA 水平，并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。

Kimi K2 Thinking 模型无需人类干预，即可凭借持续稳定的深度思考能力自主实现高达 300 步的工具调用，从而帮助用户解决更复杂的问题。这是我们在 Test-Time Scaling（测试时扩展）领域的最新进展，通过同时扩展思考 Token 和工具调用的步数，实现更强的 Agent 和推理性能。

Kimi K2 Thinking 模型已上线 kimi.com 和最新版 Kimi 手机应用的常规对话模式。Kimi Agent 模式的底层模型后续也将升级为 Kimi K2 Thinking 模型，带来完整的多步思考和工具调用能力。

Kimi K2 Thinking 模型的 API 可通过 Kimi 开放平台（platform.moonshot.cn）访问。如需自行部署，请在 Hugging Face、ModelScope 等平台下载模型。

推理性能全面提升

我们来看一个人类最后的考试中人文类题目推理过程示例。在这个示例中，Kimi K2 Thinking 经过 5 次搜索和推理，结合每步搜索到的新信息，层层深入，最终推理出了答案：

上下滚动查看完整推理过程

自主搜索与浏览能力全面提升

在复杂搜索和浏览场景中，Kimi K2 Thinking 模型也表现出色。BrowseComp 是由 OpenAI 发布的一个专门评估 AI Agent 网络浏览能力的基准测试，这项测试的初衷是衡量 AI Agent 在信息过载环境中展现出的坚持性与创造力，即能否像人类研究员一样「刨根问底」。在这项极具挑战的任务上，人类平均只能达到 29.2% 的成绩。Kimi K2 Thinking 在这项基准测试中展现出极强的钻研能力，以 60.2% 的成绩成为新的 SOTA 模型。

在长程规划和自主搜索能力的驱动下，Kimi K2 Thinking 可借助多达上百步的「思考 → 搜索→ 浏览网页 → 思考 → 编程」动态循环，持续地提出并完善假设、验证证据、进行推理，并构建出逻辑一致的答案。这种边主动搜索边持续思考的能力，使 Kimi K2 Thinking 能够将模糊且开放式的问题分解为清晰、可执行的子任务。

我们来看一个示例，在这个例子中，Kimi K2 Thinking 经过两次搜索和思考，先根据股票回购的已知信息找到了这家制造快艇的公司，然后在美国证券交易委员会（SEC）的官网上找到了股票回购公告信息，得出了准确的答案：

上下滚动查看完整推理过程

Agentic 编程能力持续精进

Kimi K2 Thinking 模型的编码能力也得到了增强，在多语言软件工程基准 SWE-Multilingual、SWE-bench 验证集和 Terminal 终端使用等基准测试中的表现有了进一步提升。

我们观察到 Kimi K2 Thinking 在处理 HTML、React 以及组件丰富的前端任务时性能有明显提升，能将创意转变为功能齐全、响应式的产品。在 Agentic Coding 场景中，Kimi K2 Thinking 能在调用各种工具的同时进行思考，灵活地融入 software agents 中，处理更复杂、多步骤的开发工作流。

我们来看两个例子：

现在，Kimi K2 Thinking 可以帮你复刻一个真实可用的 Word 文字编辑器。

Kimi K2 Thinking 也可以帮你创造一个华丽风格的体素艺术（voxel art）作品：

通用基础能力升级

创意写作：Kimi K2 Thinking 显著提升了写作能力，它能将粗略的灵感转化为清晰、动人且意图明确的叙述，使其兼具韵律感和深度。它能轻松驾驭微妙的文风差异和模糊的结构，并在长篇大论中保持风格的连贯性。在创意写作方面，它笔下的意象更生动，情感共鸣更强烈，将精准的表达与丰富的表现力融为一体。

学术与研究：在学术研究和专业领域，Kimi K2 Thinking 在分析深度、信息准确性和逻辑结构方面均有显著提升。它能有条不紊地剖析复杂的指令，并以清晰严谨的方式拓展思路。这使其尤其擅长处理学术论文、技术摘要，以及那些对信息完整性和推理质量要求极高的长篇报告。

个人与情感：在回应个人或情感类问题时，Kimi K2 Thinking 的回答更富同理心，立场也更中正平和。它的思考深入周到且具体明确，能提供细致入微的观点和切实可行的后续建议。它能清晰并关切地帮助用户梳理复杂的决策，其语气既脚踏实地又切实中肯，更有人情味。

我们来看一个辅助阅读英文技术论文的例子：

上下滚动查看完整分析过程

原生 INT4 量化提升推理效率

低比特量化是降低大规模推理服务器的延迟和 GPU 显存占用的有效方法。我们的测试发现，因为思考模型会产生极长的解码长度，常规的量化手段往往会导致模型性能大幅下降。为了克服这一挑战，我们在后训练（post-training）阶段采用了量化感知训练（QAT），并对 MoE 组件应用了 INT4 纯权重（weight-only）量化。

这使得 Kimi K2 Thinking 模型能够在复杂推理和 Agentic 任务中支持原生的 INT4 推理，并将生成速度提升了约 2 倍。INT4 对推理硬件的兼容性更强，对国产加速计算芯片也更加友好。值得注意的是，Kimi 所有的基准测试成绩都是在 INT4 精度下取得的。

现在开始使用

前往 kimi.com 或更新到最新版 Kimi App，从「工具箱」中打开 K2 模型的「长思考」开关，即可把你遇到的复杂任务丢给 Kimi 一起思考。

Kimi K2 Thinking 模型 API 已上架 Kimi 开放平台（platform.moonshot.cn），支持 256K 上下文，价格与 Kimi K2-0905 相同，每百万 Token 输入 4 元，输出 16 元，命中缓存的输入为 1 元。速度高达 100 Token/s 的 Turbo API 也同步上架，每百万 Token 输入 8 元，输出 58 元，命中缓存的输入为 1 元。欢迎开发者测试反馈新模型 API。

关于 Kimi K2 模型

Kimi K2 模型最初发布于 7 月 11 日，它是一款混合专家架构（MoE）的开源基础模型，总参数 10,000 亿，激活参数 320 亿。9 月 5 日，Kimi K2-0905 版更新，进一步提升了代码能力，并且将上下文窗口从 128K 升级到 256K。截止目前，包括 Cline、Cursor、flowith、Genspark、Kilo Code、Kortix Suna、OpenRouter、Perplexity、RooCode、TRAE、Trickle、Vercel、Windsurf 、YouWare 等在内的产品都接入或在使用 Kimi K2 模型。11 月 6 日，Kimi K2 Thinking 模型发布，全面提升 Agent 和推理能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.