![]()
智谱、MiniMax 先后启动上市,大模型赛道正在进入新一轮资金与算力的“军备竞赛”。
就在这一节点上,《晚点 LatePost》独家获悉,月之暗面(Kimi)近期完成 5 亿美元 C 轮融资,阿里、腾讯、王慧文等投资方超额认购,投后估值 43 亿美元。
一个容易被忽视的细节是,这轮融资规模折合人民币约 35 亿元,与智谱、MiniMax 在 IPO 阶段的募资规模相当。换句话说,Kimi仅通过一级市场,就完成了其他科技公司需要借助二级市场才能实现的融资体量。
这种情况并不常见。
众所周知,一级市场与二级市场的核心逻辑并不相同。二级市场强调确定性、可验证的业绩与路径,而一级市场更关注长期赔率,押注的是未来可能出现的非线性回报。
在这样的分工之下,Kimi能够在一级市场完成如此规模的融资,本身就释放出一个明确信号:投资人已经在它身上形成了高度一致的判断。
这种共识,或许才是Kimi当前最重要、也最具稀缺性的价值所在。
5亿美元融资背后的三个信号
5亿美元融资、100亿人民币现金储备,在这一连串数字背后,有三个值得注意的市场信号:
首先,仅依靠一级市场,Kimi已经完成了过去通常只能在二级市场实现的融资体量。
作为对比,2025 年 9 月,寒武纪通过定增募资约 40 亿元人民币;根据公开信息,智谱港股 IPO 的总募资额约为 43 亿港元,MiniMax 的 IPO 融资规模则在 38.18 亿元左右。
而月之暗面这一轮 C 轮融资金额为 5 亿美元,折合人民币约 35 亿元,几乎与多家科技公司通过 IPO 或定增获得的资金规模相当。
换句话说,在不进入二级市场的前提下,Kimi已经完成了一次“等量级”的资本补给。
第二个更关键的变化在于,Kimi在一级市场阶段,就已拥有极为充沛的现金储备。
截至 12 月 31 日,公司账上现金超过 100 亿元人民币。这一水平,已经不逊于多家完成 IPO 后的头部大模型公司。
根据招股书披露的数据,截至 2025 年 6 月,智谱账上现金为 25.5 亿元人民币,若叠加 IPO 预计募资的约 38 亿元,总现金规模约为 63.5 亿元;截至 2025 年 9 月,MiniMax 的现金储备约为 73.5 亿元,叠加 IPO 预计募资 34 亿至 38 亿元,总规模在 107 亿元左右。
从这个维度看,Kimi在未上市的情况下,已经具备了与 IPO 公司相当的“弹药厚度”,也因此并不急于登陆二级市场,获得了更长的技术和产品发育窗口。
第三,这轮融资推进速度极快,且老股东持续加注。
据《晚点 LatePost》了解,从启动到落定,这轮融资前后用时不足两个月,属于明显的超额融资。阿里、腾讯、王慧文等老股东均选择继续加码,其中王慧文对Kimi的累计投资金额已达 7000 万美元。
在当前一级市场整体趋于谨慎的背景下,如此高效的融资节奏,意味着投资人之间已经形成了高度一致的判断。
问题随之浮现,在算力成本高企、模型竞赛持续加码的当下,投资人究竟在月之暗面身上看到了什么,愿意在一级市场阶段,就押下如此重的筹码?
这,或许才是这轮融资背后真正值得讨论的地方。
拆解Kimi的三个“全垒打”逻辑
在回答“为什么是Kimi”之前,需要先回到一级市场本身的投资逻辑。
在 VC 行业里,有一个被反复引用的经典理论,叫 “鲁斯效应”(Babe Ruth Effect)。
这一说法来自美国棒球史上最具传奇色彩的球员 Babe Ruth。他是历史上第一位在单赛季打出 60 个全垒打的球员,这一纪录保持了 34 年。在整个职业生涯中,他始终做出同一个选择:放弃更高频、更稳定的安打概率,转而追求成功率更低、但回报“振幅”极大的全垒打。
后来,投资界将这种策略总结为“鲁斯效应”:真正决定回报上限的,不是成功的次数,而是单次成功的规模。
Peter Thiel 也在不同场合反复表达过类似判断——极少数头部项目,最终会贡献绝大多数回报;越早理解这一点,越可能成为一个成功的 VC。
放到Kimi身上,它恰恰符合这一逻辑所偏好的“高振幅”特征。这种可能性,主要体现在三个方面。
第一,在Kimi这家公司身上,能够看到一种罕见的聚焦。
在当前大模型行业,多模态几乎已经成为共识方向。无论是国内的智谱、MiniMax,还是海外的 Google,都在将多模态作为重要突破口。原因并不复杂:多模态所需资源相对可控,产品形态更直观,也更容易落地变现。
Kimi却是一个例外。他们刻意收紧业务边界:不做生活娱乐方向,不做多模态生成业务,而是长期专注在大模型层、逻辑层和 Agent 层,聚焦深入研究、PPT 生成、数据分析、网站开发等偏生产力、偏复杂任务的链路。
从更长的时间尺度看,不做什么,往往比做什么更重要,也更困难。 对一家资源并不无限的模型公司而言,这种克制本身就是一种罕见能力。
第二,是已经被验证过的技术能力。
今年下半年,月之暗面连续发布了 Kimi K2 与 Kimi K2 Thinking 两个关键模型,基本奠定了其在开源模型体系中的位置。
其中,Kimi K2 Thinking 在 HLE、推理能力和 Agent 相关指标上,超过了 GPT-5 和 Claude Sonnet 4.5 等闭源模型,站上全球开源模型的第一梯队。
更具象的信号来自生态侧。Kimi K2 Thinking成为估值千亿的AI 搜索产品 Perplexity 目前唯一接入的国产模型。上一次获得这一位置的中国模型,还是曾一度风头无两的 DeepSeek R1。
模型表现之外,更值得注意的是其背后的技术取向。
Kimi在万亿参数级模型预训练中,首次引入二阶优化器 Muon。
官方披露,在完成 15.5T token 训练的同时,模型全程没有出现一次 loss spike(损失激增),训练稳定性与 token 使用效率均显著提升。
同时,公司还推出了下一代 Kimi Delta Attention 架构,通过混合线性注意力机制,在提升推理效果的同时,将推理成本降低到原来的数分之一。
在一次 AMA 中,团队曾回应外界质疑:“你可能会认为我们选择 Muon 只是运气好,但在此之前,有几十种优化器和架构方案都没有通过验证。”
这些细节共同指向一点:这不是一次偶然的成功,而是长期工程优势的结果。
第三,是高赔率之下,正在显现的确定性。
Meta 收购 Manus,让市场看到了通用智能体(General Agent)的巨大价值。但在通往 Agent 的路径上,存在两种截然不同的思路:
应用层的思路(如 Manus): 基于现有模型,通过“逆向工程”搭建脚手架。无论是 System Prompt 还是 Context Engineering,本质上是在外部“教”模型怎么用工具。
模型层的思路(如Kimi): 这是一种正向思路。在训练阶段就将工具使用、环境交互纳入模型的内生能力。模型不是“被教导”去适应环境,而是“生来”就适应环境。
杨植麟曾用一句话概括这两种思路的差异:方向不同,但后者的上限可能更高。理由是,模型在天然的环境里表现更好,这种“原生性”是外部工程无法比拟的护城河。
这一逻辑正在被市场验证。杨植麟在内部信中透露,公司全球付费用户数月增速达 170%。11 月以来,受 K2 Thinking 强推理能力的带动,其海外 API 收入增长了 4 倍。
总的来说,在算力成本高企、模型竞赛持续加码的背景下,对于Kimi的投资人来说,他们看到的,或许不是一家“短期确定盈利”的公司,而是一条赔率极高、同时已显露出确定性轮廓的技术路径。
这,才是Kimi在一级市场迅速达成共识的真正原因。
文/林白
PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.