ZPedia｜Kimi K2 Thinking开源反超顶尖闭源模型，训练成本仅460万美元|优化器|kimi|agent|thinking

ZPedia｜Kimi K2 Thinking开源反超顶尖闭源模型，训练成本仅460万美元

2025-11-07 15:22:51　来源: ZFinance

北京举报

分享至

如果有关注近期资本市场的新闻，「月之暗面」的名字又开始刷屏了。

多家媒体报道，这家公司正在敲定一笔数亿美元的新一轮融资。

而就在最新一轮融资传闻四起的时间点上，月之暗面把自己的新故事端了上来：一款号称是「迄今为止能力最强的开源思考模型」——Kimi K2 Thinking。

这次他们没有只做一个「更聪明一点」的聊天机器人，而是把 K2 Thinking 定位成一个原生的 Thinking Agent：可以一边思考一边调度搜索、浏览、写代码等工具，在复杂任务上，自己拆解步骤、自己查资料、自己写脚本。

官方和第三方评测显示，它在 Humanity’s Last Exam、BrowseComp、SEAL-0 等一批高难度基准上，直接把不少闭源旗舰模型按在了身后。

在资金重新押注、估值重新抬升的当口，月之暗面试图用一个真正能「打赢闭源」的开源模型，去换回技术叙事里的主动权。

从「国产 SOTA」到开源正面超车闭源

把官方文案和外部评测拆开看，会发现 Kimi K2 Thinking 有一个非常鲜明的设计前提：它不是先做一个语言模型，再往外「外挂」Agent 能力，而是从第一天就被当成一个「模型即 Agent」的内核来训练。

K2 Thinking 基于此前的Kimi K2 架构：总参数量约 1 万亿，是一个稀疏 MoE模型，但每次推理只激活约 320 亿参数，这一设计在GitHub 与 Hugging Face 的模型卡中都有披露。

预训练规模则来自月之暗面的技术报告：K2 在 15.5 万亿 Token 上完成训练，采用 Muon 优化器、QK-Clip 等一整套「为超大规模准备的」训练技巧，解决了大 Token 量、长时间训练下的稳定性问题。

在此基础上，K2 Thinking 做了两层关键强化。

第一层是推理深度。Kimi 自己在技术页面上给出的数据是：K2 Thinking 能稳定完成 200 到 300 轮工具调用，在整个过程中保持逻辑一致，不会因为「思考太久」而崩溃。这其实就是Test-Time Scaling 的一个极端版本：不再只强调「模型大不大、训练多不多」，而是强调在测试时能否持续延长思考链条，把工具调度也算进「推理的一部分」。

第二层是工具使用的原生化。在 K2 Thinking 的设定里，搜索网页、打开 SEC 公告、写 Python、小步调试脚本，都不是外挂能力，而是真正融入到策略里的一部分。在官方展示的示例中，K2 Thinking 会自动先判断问题适不适合查资料，再决定是先搜一轮新闻，还是直接打开官方文档，然后根据每一步新获得的信息，重写自己的假设与下一步计划。

正是这种「思考+工具」的打包设计，让它在一组专门为 Agent 设计的基准上打出了极高的分数。

在 Humanity’s Last Exam 上，K2 Thinking 在允许使用工具的条件下拿到了 44.9% 的成绩，官方和 VentureBeat 都把它标成了新的 SOTA。这套题跨越一百多个专业领域，本意是测「如果你把 AI 当成一个可以上场考试的研究员，它能考到几分」。早前在同一任务上，领先的闭源模型大多集中在 40% 左右，这一次 K2 Thinking 不只把国产模型甩在身后，也把不少闭源旗舰平推了一截。

在 BrowseComp 这项网络浏览基准上，这种优势更加明显。BrowseComp 原本是 OpenAI 为了考察 Agent「像研究员一样刨根问底」的能力设计的，题目要求模型在信息噪音极多的网页环境中，自己规划搜索路径、筛选证据，给出可验证的结论。这套任务上，人类研究员的平均分也只有二十多分，而 K2 Thinking 在最新公开数据里交出的是 60.2% 的成绩，超过了最强的闭源模型GPT-5和Claude Sonnet 4.5。

对一个开源模型而言，这里有一个非常微妙的「视角切换」。过去提到「国产 SOTA」，大家默认的补全句是：在 ChatGPT、Claude 这些闭源前沿模型之下，国产追到了它们身后、或者在部分维度赶上。而在 K2 Thinking 的多项评测中，叙事第一次变成了：在最考验 Agentic 推理能力的几项任务上，开源模型开始压过闭源旗舰。

这不是媒体一家之言。

Hugging Face 有一篇博客在7 月专门写过一篇《5 Things You Need to Know About Moonshot AI and Kimi K2》，点名 Kimi K2 在开源社区上线24 小时内，冲到了平台 Trending 榜单第一，靠的是在编码任务上的表现直接超过了 GPT-4，并且开源了完整权重。

到了 K2 Thinking 发布这一次，HuggingFace CEO Clément Delangue 在 LinkedIn上的评论更直接，他说，看着 Moonshot/Kimi 团队「几乎出现在每一次社区讨论、每一个 Pull Request 里」，是一件很美好的事。这句话的潜台词是，在开源基础设施的建设上，月之暗面不再只是一个偶尔贡献模型的「外来者」，而是一个真正深度参与、被全球工程社区认可的一方。

HuggingFace 联合创始人Thomas Wolf 甚至表示，我们正在见证又一次 DeepSeek 时刻：

有趣的是，个人开发者手里的体验也在印证这些数字。LocalLLaMA 社区里有工程师复现了一部分评测，发现 K2 Thinking 在 Humanity’s Last Exam、BrowseComp 上确实跑出了类似成绩，甚至在 GPQA-Diamond 这类高难问答上略微超过 GPT-5。当然，GPT-5 和Claude 在其他很多综合测试、尤其是长上下文稳定性上依然有优势，但至少在「让一个模型像研究员和工程师一样干活」这件事上，开源阵营终于不再只是追随者。

综合下来，这更像是中国开源阵营端出的一块「前沿 Agent 中枢」：在核心能力上不再刻意回避闭源，而是主动站到最硬的那几项任务之上。

在黄仁勋的「主权 AI」叙事里，中国走出了另一条路

如果只看能力，很容易把 K2 Thinking 当成「中国版的 GPT-5 开源平替」：参数级别、推理水平、编码能力都在快速接近。但真正意义上的差异，在于它背后的成本结构与算力路径。

南华早报等媒体曾经援引 Moonshot 内部人士说，K2 的整体研发成本「只花了西方巨头一小部分的钱」，用的是 MoE+优化器+工程打磨的组合拳，而不是把钱直接堆在 GPU 数量上。

在 K2 Thinking 这一代，月之暗面在推理效率上又做了一件挺有象征意义的事：把原生 INT4 量化做到大规模思考模型上。官方技术说明写得很直白，普通的低比特量化在「思考模型」上往往会造成性能雪崩，因为这类模型的输出序列极长、对数值精度极其敏感。月之暗面为此在后训练阶段引入了量化感知训练（QAT），并对 MoE 模块做了专门的INT4 纯权重量化，使得 K2 Thinking 能在保留复杂推理和 Agent 能力的前提下，把推理速度提升至原来的两倍左右。官方还特别加了一句：这种INT4 方案对国产加速芯片会更加友好。

据 CNBC 的报道，K2 Thinking 的整体训练成本大约为 460 万美元——只有 OpenAI 或 xAI 训练GPT-5、Grok 等模型成本的 1% 左右。换句话说，这家被美国多方打压、芯片采购受限的中国公司，用几百分之一的预算，做出了在多项关键基准测试中击败 Sam Altman 和 Elon Musk 团队的模型。

如果把这条技术路线放在更大的「中美 AI 竞赛」背景下，意味就完全不同了。

一边是以 OpenAI 为代表的美国阵营，公开承诺在未来几年投入高达 1.4 万亿美元建设 AI 基础设施，配合微软、亚马逊、谷歌的巨量数据中心建设，把赌注压在「超大规模闭源系统」上。另一边，则是像 Kimi 这样的一批中国创业公司，用 MoE、量化、数据重写等手段把成本拧到极致，在有限的算力预算下榨出更高的性价比，然后再把模型权重开源出去，让更多人站在这条「成本曲线」上往前走。

这个对照，和黄仁勋近期的发言，形成了某种呼应。他在伦敦的一场峰会上把话说得透彻：如果美国继续用出口管制、芯片封锁等方式来处理中国，「中国很可能会赢下这场 AI 竞赛」。随后英伟达公关部门出了澄清，强调他的本意是美国应该加速创新、赢得全球开发者，但「中国只落后几纳秒」和「如果政策不改，中国会赢」这两层意思，并没有被否认。

结合这一点再看 K2 Thinking，就会发现，它实际上代表的是中国在这场竞赛里走出的一条「非对称路线」。

一方面，在核心能力上，K2 Thinking 用开源的方式，在 Humanity’s Last Exam、BrowseComp等多项高难 Agent 评测中压过了不少闭源旗舰，证明中国团队完全有能力在最硬的技术战场上正面碰撞。

另一方面，在成本和生态上，它又刻意拉开了和闭源巨头的距离：训练阶段用 MoE 和优化器控制投入规模；推理阶段用 INT4 和工程优化做好国产算力兼容；分发阶段用开放权重的方式，把模型放上 Hugging Face 与国内开源平台，让更多团队可以直接拿来做 Agent、做应用。

如果说黄仁勋口中的「主权 AI」，是鼓励各国砸钱建自己的数据中心、堆自己的 GPU 集群，那么 K2 Thinking 代表的，则是一种「轻一点但更聪明」的方案：在不拥有最多 GPU 的前提下，用更聪明的架构和更开放的生态，让自己的模型足够强、足够便宜、足够容易被全球开发者采用。

这也是为什么，最近几年你会看到越来越多西方分析文章谈「来自中国的开源威胁」：从DeepSeek到通义，再到Kimi，很多模型的共同点是——性能逼近甚至超越闭源旗舰，但 API 价格只有后者的几分之一，还附带开放权重。

对月之暗面自己而言，K2 Thinking 给它带来的直接收益当然是更高的商业想象力和融资空间：在投融资降温的一年里，一家公司能在估值 30 多亿美元的基础上，紧接着拿到新一轮数亿美元、本身就是一种投票。

参考文献：

[1] https://moonshotai.github.io/

欢迎扫码加群参与讨论

我们相信认知能够跨越阶层，

致力于为年轻人提供高质量的科技和财经内容。

稿件经采用可获邀进入Z Finance内部社群，优秀者将成为签约作者，00后更有机会成为Z Finance的早期共创成员。

我们正在招募新一期的实习生

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.