![]()
如果有关注近期资本市场的新闻,「月之暗面」的名字又开始刷屏了。
多家媒体报道,这家公司正在敲定一笔数亿美元的新一轮融资。
而就在最新一轮融资传闻四起的时间点上,月之暗面把自己的新故事端了上来:一款号称是「迄今为止能力最强的开源思考模型」——Kimi K2 Thinking。
这次他们没有只做一个「更聪明一点」的聊天机器人,而是把 K2 Thinking 定位成一个原生的 Thinking Agent:可以一边思考一边调度搜索、浏览、写代码等工具,在复杂任务上,自己拆解步骤、自己查资料、自己写脚本。
官方和第三方评测显示,它在 Humanity’s Last Exam、BrowseComp、SEAL-0 等一批高难度基准上,直接把不少闭源旗舰模型按在了身后。
![]()
在资金重新押注、估值重新抬升的当口,月之暗面试图用一个真正能「打赢闭源」的开源模型,去换回技术叙事里的主动权。
从「国产 SOTA」到开源正面超车闭源
把官方文案和外部评测拆开看,会发现 Kimi K2 Thinking 有一个非常鲜明的设计前提:它不是先做一个语言模型,再往外「外挂」Agent 能力,而是从第一天就被当成一个「模型即 Agent」的内核来训练。
K2 Thinking 基于此前的Kimi K2 架构:总参数量约 1 万亿,是一个稀疏 MoE模型,但每次推理只激活约 320 亿参数,这一设计在GitHub 与 Hugging Face 的模型卡中都有披露。
预训练规模则来自月之暗面的技术报告:K2 在 15.5 万亿 Token 上完成训练,采用 Muon 优化器、QK-Clip 等一整套「为超大规模准备的」训练技巧,解决了大 Token 量、长时间训练下的稳定性问题。
在此基础上,K2 Thinking 做了两层关键强化。
第一层是推理深度。Kimi 自己在技术页面上给出的数据是:K2 Thinking 能稳定完成 200 到 300 轮工具调用,在整个过程中保持逻辑一致,不会因为「思考太久」而崩溃。这其实就是Test-Time Scaling 的一个极端版本:不再只强调「模型大不大、训练多不多」,而是强调在测试时能否持续延长思考链条,把工具调度也算进「推理的一部分」。
第二层是工具使用的原生化。 在 K2 Thinking 的设定里,搜索网页、打开 SEC 公告、写 Python、小步调试脚本,都不是外挂能力,而是真正融入到策略里的一部分。在官方展示的示例中,K2 Thinking 会自动先判断问题适不适合查资料,再决定是先搜一轮新闻,还是直接打开官方文档,然后根据每一步新获得的信息,重写自己的假设与下一步计划。
正是这种「思考+工具」的打包设计,让它在一组专门为 Agent 设计的基准上打出了极高的分数。
在 Humanity’s Last Exam 上,K2 Thinking 在允许使用工具的条件下拿到了 44.9% 的成绩,官方和 VentureBeat 都把它标成了新的 SOTA。这套题跨越一百多个专业领域,本意是测「如果你把 AI 当成一个可以上场考试的研究员,它能考到几分」。早前在同一任务上,领先的闭源模型大多集中在 40% 左右,这一次 K2 Thinking 不只把国产模型甩在身后,也把不少闭源旗舰平推了一截。
![]()
在 BrowseComp 这项网络浏览基准上,这种优势更加明显。BrowseComp 原本是 OpenAI 为了考察 Agent「像研究员一样刨根问底」的能力设计的,题目要求模型在信息噪音极多的网页环境中,自己规划搜索路径、筛选证据,给出可验证的结论。这套任务上,人类研究员的平均分也只有二十多分,而 K2 Thinking 在最新公开数据里交出的是 60.2% 的成绩,超过了最强的闭源模型GPT-5和Claude Sonnet 4.5。
![]()
对一个开源模型而言,这里有一个非常微妙的「视角切换」。过去提到「国产 SOTA」,大家默认的补全句是:在 ChatGPT、Claude 这些闭源前沿模型之下,国产追到了它们身后、或者在部分维度赶上。而在 K2 Thinking 的多项评测中,叙事第一次变成了:在最考验 Agentic 推理能力的几项任务上,开源模型开始压过闭源旗舰。
这不是媒体一家之言。
Hugging Face 有一篇博客在7 月专门写过一篇《5 Things You Need to Know About Moonshot AI and Kimi K2》,点名 Kimi K2 在开源社区上线24 小时内,冲到了平台 Trending 榜单第一,靠的是在编码任务上的表现直接超过了 GPT-4,并且开源了完整权重。
![]()
到了 K2 Thinking 发布这一次,HuggingFace CEO Clément Delangue 在 LinkedIn上的评论更直接,他说,看着 Moonshot/Kimi 团队「几乎出现在每一次社区讨论、每一个 Pull Request 里」,是一件很美好的事。 这句话的潜台词是,在开源基础设施的建设上,月之暗面不再只是一个偶尔贡献模型的「外来者」,而是一个真正深度参与、被全球工程社区认可的一方。
![]()
HuggingFace 联合创始人Thomas Wolf 甚至表示,我们正在见证又一次 DeepSeek 时刻:
![]()
有趣的是,个人开发者手里的体验也在印证这些数字。LocalLLaMA 社区里有工程师复现了一部分评测,发现 K2 Thinking 在 Humanity’s Last Exam、BrowseComp 上确实跑出了类似成绩,甚至在 GPQA-Diamond 这类高难问答上略微超过 GPT-5。当然,GPT-5 和Claude 在其他很多综合测试、尤其是长上下文稳定性上依然有优势,但至少在「让一个模型像研究员和工程师一样干活」这件事上,开源阵营终于不再只是追随者。
综合下来,这更像是中国开源阵营端出的一块「前沿 Agent 中枢」:在核心能力上不再刻意回避闭源,而是主动站到最硬的那几项任务之上。
在黄仁勋的「主权 AI」叙事里,中国走出了另一条路
如果只看能力,很容易把 K2 Thinking 当成「中国版的 GPT-5 开源平替」:参数级别、推理水平、编码能力都在快速接近。但真正意义上的差异,在于它背后的成本结构与算力路径。
南华早报等媒体曾经援引 Moonshot 内部人士说,K2 的整体研发成本「只花了西方巨头一小部分的钱」,用的是 MoE+优化器+工程打磨的组合拳,而不是把钱直接堆在 GPU 数量上。
在 K2 Thinking 这一代,月之暗面在推理效率上又做了一件挺有象征意义的事:把原生 INT4 量化做到大规模思考模型上。官方技术说明写得很直白,普通的低比特量化在「思考模型」上往往会造成性能雪崩,因为这类模型的输出序列极长、对数值精度极其敏感。月之暗面为此在后训练阶段引入了量化感知训练(QAT),并对 MoE 模块做了专门的INT4 纯权重量化,使得 K2 Thinking 能在保留复杂推理和 Agent 能力的前提下,把推理速度提升至原来的两倍左右。 官方还特别加了一句:这种INT4 方案对国产加速芯片会更加友好。
据 CNBC 的报道,K2 Thinking 的整体训练成本大约为 460 万美元——只有 OpenAI 或 xAI 训练GPT-5、Grok 等模型成本的 1% 左右。换句话说,这家被美国多方打压、芯片采购受限的中国公司,用几百分之一的预算,做出了在多项关键基准测试中击败 Sam Altman 和 Elon Musk 团队的模型。
![]()
如果把这条技术路线放在更大的「中美 AI 竞赛」背景下,意味就完全不同了。
一边是以 OpenAI 为代表的美国阵营,公开承诺在未来几年投入高达 1.4 万亿美元建设 AI 基础设施,配合微软、亚马逊、谷歌的巨量数据中心建设,把赌注压在「超大规模闭源系统」上。另一边,则是像 Kimi 这样的一批中国创业公司,用 MoE、量化、数据重写等手段把成本拧到极致,在有限的算力预算下榨出更高的性价比,然后再把模型权重开源出去,让更多人站在这条「成本曲线」上往前走。
这个对照,和黄仁勋近期的发言,形成了某种呼应。他在伦敦的一场峰会上把话说得透彻:如果美国继续用出口管制、芯片封锁等方式来处理中国,「中国很可能会赢下这场 AI 竞赛」。随后英伟达公关部门出了澄清,强调他的本意是美国应该加速创新、赢得全球开发者,但「中国只落后几纳秒」和「如果政策不改,中国会赢」这两层意思,并没有被否认。
结合这一点再看 K2 Thinking,就会发现,它实际上代表的是中国在这场竞赛里走出的一条「非对称路线」。
一方面,在核心能力上,K2 Thinking 用开源的方式,在 Humanity’s Last Exam、BrowseComp等多项高难 Agent 评测中压过了不少闭源旗舰,证明中国团队完全有能力在最硬的技术战场上正面碰撞。
另一方面,在成本和生态上,它又刻意拉开了和闭源巨头的距离: 训练阶段用 MoE 和优化器控制投入规模; 推理阶段用 INT4 和工程优化做好国产算力兼容; 分发阶段用开放权重的方式,把模型放上 Hugging Face 与国内开源平台,让更多团队可以直接拿来做 Agent、做应用。
如果说黄仁勋口中的「主权 AI」,是鼓励各国砸钱建自己的数据中心、堆自己的 GPU 集群,那么 K2 Thinking 代表的,则是一种「轻一点但更聪明」的方案:在不拥有最多 GPU 的前提下,用更聪明的架构和更开放的生态,让自己的模型足够强、足够便宜、足够容易被全球开发者采用。
这也是为什么,最近几年你会看到越来越多西方分析文章谈「来自中国的开源威胁」:从DeepSeek到通义,再到Kimi,很多模型的共同点是——性能逼近甚至超越闭源旗舰,但 API 价格只有后者的几分之一,还附带开放权重。
对月之暗面自己而言,K2 Thinking 给它带来的直接收益当然是更高的商业想象力和融资空间:在投融资降温的一年里,一家公司能在估值 30 多亿美元的基础上,紧接着拿到新一轮数亿美元、本身就是一种投票。
参考文献:
[1] https://moonshotai.github.io/
欢迎扫码加群参与讨论
我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。
我们正在招募新一期的实习生
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.