网易首页 > 网易号 > 正文 申请入驻

ZPedia|Kimi K2 Thinking开源反超顶尖闭源模型,训练成本仅460万美元

0
分享至


如果有关注近期资本市场的新闻,「月之暗面」的名字又开始刷屏了。

多家媒体报道,这家公司正在敲定一笔数亿美元的新一轮融资。

而就在最新一轮融资传闻四起的时间点上,月之暗面把自己的新故事端了上来:一款号称是「迄今为止能力最强的开源思考模型」——Kimi K2 Thinking

这次他们没有只做一个「更聪明一点」的聊天机器人,而是把 K2 Thinking 定位成一个原生的 Thinking Agent:可以一边思考一边调度搜索、浏览、写代码等工具,在复杂任务上,自己拆解步骤、自己查资料、自己写脚本。

官方和第三方评测显示,它在 Humanity’s Last Exam、BrowseComp、SEAL-0 等一批高难度基准上,直接把不少闭源旗舰模型按在了身后。


在资金重新押注、估值重新抬升的当口,月之暗面试图用一个真正能「打赢闭源」的开源模型,去换回技术叙事里的主动权。

从「国产 SOTA」到开源正面超车闭源

把官方文案和外部评测拆开看,会发现 Kimi K2 Thinking 有一个非常鲜明的设计前提:它不是先做一个语言模型,再往外「外挂」Agent 能力,而是从第一天就被当成一个「模型即 Agent」的内核来训练。

K2 Thinking 基于此前的Kimi K2 架构:总参数量约 1 万亿,是一个稀疏 MoE模型,但每次推理只激活约 320 亿参数,这一设计在GitHub 与 Hugging Face 的模型卡中都有披露。

预训练规模则来自月之暗面的技术报告:K2 在 15.5 万亿 Token 上完成训练,采用 Muon 优化器、QK-Clip 等一整套「为超大规模准备的」训练技巧,解决了大 Token 量、长时间训练下的稳定性问题。

在此基础上,K2 Thinking 做了两层关键强化。

第一层是推理深度。Kimi 自己在技术页面上给出的数据是:K2 Thinking 能稳定完成 200 到 300 轮工具调用,在整个过程中保持逻辑一致,不会因为「思考太久」而崩溃。这其实就是Test-Time Scaling 的一个极端版本:不再只强调「模型大不大、训练多不多」,而是强调在测试时能否持续延长思考链条,把工具调度也算进「推理的一部分」。

第二层是工具使用的原生化。 在 K2 Thinking 的设定里,搜索网页、打开 SEC 公告、写 Python、小步调试脚本,都不是外挂能力,而是真正融入到策略里的一部分。在官方展示的示例中,K2 Thinking 会自动先判断问题适不适合查资料,再决定是先搜一轮新闻,还是直接打开官方文档,然后根据每一步新获得的信息,重写自己的假设与下一步计划。

正是这种「思考+工具」的打包设计,让它在一组专门为 Agent 设计的基准上打出了极高的分数。

在 Humanity’s Last Exam 上,K2 Thinking 在允许使用工具的条件下拿到了 44.9% 的成绩,官方和 VentureBeat 都把它标成了新的 SOTA。这套题跨越一百多个专业领域,本意是测「如果你把 AI 当成一个可以上场考试的研究员,它能考到几分」。早前在同一任务上,领先的闭源模型大多集中在 40% 左右,这一次 K2 Thinking 不只把国产模型甩在身后,也把不少闭源旗舰平推了一截。


在 BrowseComp 这项网络浏览基准上,这种优势更加明显。BrowseComp 原本是 OpenAI 为了考察 Agent「像研究员一样刨根问底」的能力设计的,题目要求模型在信息噪音极多的网页环境中,自己规划搜索路径、筛选证据,给出可验证的结论。这套任务上,人类研究员的平均分也只有二十多分,而 K2 Thinking 在最新公开数据里交出的是 60.2% 的成绩,超过了最强的闭源模型GPT-5和Claude Sonnet 4.5。


对一个开源模型而言,这里有一个非常微妙的「视角切换」。过去提到「国产 SOTA」,大家默认的补全句是:在 ChatGPT、Claude 这些闭源前沿模型之下,国产追到了它们身后、或者在部分维度赶上。而在 K2 Thinking 的多项评测中,叙事第一次变成了:在最考验 Agentic 推理能力的几项任务上,开源模型开始压过闭源旗舰。

这不是媒体一家之言。

Hugging Face 有一篇博客在7 月专门写过一篇《5 Things You Need to Know About Moonshot AI and Kimi K2》,点名 Kimi K2 在开源社区上线24 小时内,冲到了平台 Trending 榜单第一,靠的是在编码任务上的表现直接超过了 GPT-4,并且开源了完整权重。


到了 K2 Thinking 发布这一次,HuggingFace CEO Clément Delangue 在 LinkedIn上的评论更直接,他说,看着 Moonshot/Kimi 团队「几乎出现在每一次社区讨论、每一个 Pull Request 里」,是一件很美好的事。 这句话的潜台词是,在开源基础设施的建设上,月之暗面不再只是一个偶尔贡献模型的「外来者」,而是一个真正深度参与、被全球工程社区认可的一方。


HuggingFace 联合创始人Thomas Wolf 甚至表示,我们正在见证又一次 DeepSeek 时刻:


有趣的是,个人开发者手里的体验也在印证这些数字。LocalLLaMA 社区里有工程师复现了一部分评测,发现 K2 Thinking 在 Humanity’s Last Exam、BrowseComp 上确实跑出了类似成绩,甚至在 GPQA-Diamond 这类高难问答上略微超过 GPT-5。当然,GPT-5 和Claude 在其他很多综合测试、尤其是长上下文稳定性上依然有优势,但至少在「让一个模型像研究员和工程师一样干活」这件事上,开源阵营终于不再只是追随者。

综合下来,这更像是中国开源阵营端出的一块「前沿 Agent 中枢」:在核心能力上不再刻意回避闭源,而是主动站到最硬的那几项任务之上。

在黄仁勋的「主权 AI」叙事里,中国走出了另一条路

如果只看能力,很容易把 K2 Thinking 当成「中国版的 GPT-5 开源平替」:参数级别、推理水平、编码能力都在快速接近。但真正意义上的差异,在于它背后的成本结构与算力路径

南华早报等媒体曾经援引 Moonshot 内部人士说,K2 的整体研发成本「只花了西方巨头一小部分的钱」,用的是 MoE+优化器+工程打磨的组合拳,而不是把钱直接堆在 GPU 数量上。

在 K2 Thinking 这一代,月之暗面在推理效率上又做了一件挺有象征意义的事:把原生 INT4 量化做到大规模思考模型上。官方技术说明写得很直白,普通的低比特量化在「思考模型」上往往会造成性能雪崩,因为这类模型的输出序列极长、对数值精度极其敏感。月之暗面为此在后训练阶段引入了量化感知训练(QAT),并对 MoE 模块做了专门的INT4 纯权重量化,使得 K2 Thinking 能在保留复杂推理和 Agent 能力的前提下,把推理速度提升至原来的两倍左右。 官方还特别加了一句:这种INT4 方案对国产加速芯片会更加友好。

据 CNBC 的报道,K2 Thinking 的整体训练成本大约为 460 万美元——只有 OpenAI 或 xAI 训练GPT-5、Grok 等模型成本的 1% 左右。换句话说,这家被美国多方打压、芯片采购受限的中国公司,用几百分之一的预算,做出了在多项关键基准测试中击败 Sam Altman 和 Elon Musk 团队的模型。


如果把这条技术路线放在更大的「中美 AI 竞赛」背景下,意味就完全不同了。

一边是以 OpenAI 为代表的美国阵营,公开承诺在未来几年投入高达 1.4 万亿美元建设 AI 基础设施,配合微软、亚马逊、谷歌的巨量数据中心建设,把赌注压在「超大规模闭源系统」上。另一边,则是像 Kimi 这样的一批中国创业公司,用 MoE、量化、数据重写等手段把成本拧到极致,在有限的算力预算下榨出更高的性价比,然后再把模型权重开源出去,让更多人站在这条「成本曲线」上往前走。

这个对照,和黄仁勋近期的发言,形成了某种呼应。他在伦敦的一场峰会上把话说得透彻:如果美国继续用出口管制、芯片封锁等方式来处理中国,「中国很可能会赢下这场 AI 竞赛」。随后英伟达公关部门出了澄清,强调他的本意是美国应该加速创新、赢得全球开发者,但「中国只落后几纳秒」和「如果政策不改,中国会赢」这两层意思,并没有被否认。

结合这一点再看 K2 Thinking,就会发现,它实际上代表的是中国在这场竞赛里走出的一条「非对称路线」。

一方面,在核心能力上,K2 Thinking 用开源的方式,在 Humanity’s Last Exam、BrowseComp等多项高难 Agent 评测中压过了不少闭源旗舰,证明中国团队完全有能力在最硬的技术战场上正面碰撞。

另一方面,在成本和生态上,它又刻意拉开了和闭源巨头的距离: 训练阶段用 MoE 和优化器控制投入规模; 推理阶段用 INT4 和工程优化做好国产算力兼容; 分发阶段用开放权重的方式,把模型放上 Hugging Face 与国内开源平台,让更多团队可以直接拿来做 Agent、做应用。

如果说黄仁勋口中的「主权 AI」,是鼓励各国砸钱建自己的数据中心、堆自己的 GPU 集群,那么 K2 Thinking 代表的,则是一种「轻一点但更聪明」的方案:在不拥有最多 GPU 的前提下,用更聪明的架构和更开放的生态,让自己的模型足够强、足够便宜、足够容易被全球开发者采用。

这也是为什么,最近几年你会看到越来越多西方分析文章谈「来自中国的开源威胁」:从DeepSeek到通义,再到Kimi,很多模型的共同点是——性能逼近甚至超越闭源旗舰,但 API 价格只有后者的几分之一,还附带开放权重。

对月之暗面自己而言,K2 Thinking 给它带来的直接收益当然是更高的商业想象力和融资空间:在投融资降温的一年里,一家公司能在估值 30 多亿美元的基础上,紧接着拿到新一轮数亿美元、本身就是一种投票。

参考文献:

[1] https://moonshotai.github.io/

欢迎扫码加群参与讨论

我们相信认知能够跨越阶层,

致力于为年轻人提供高质量的科技和财经内容。

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

我们正在招募新一期的实习生

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长沙医生不雅事件再升级!网传祖某某妻子为护士长,已经申请调岗

长沙医生不雅事件再升级!网传祖某某妻子为护士长,已经申请调岗

火山诗话
2025-11-07 20:55:08
年轻人捡漏倒闭车企“烂尾车”!7万买一辆哪吒,“因为倒闭,才有好价”

年轻人捡漏倒闭车企“烂尾车”!7万买一辆哪吒,“因为倒闭,才有好价”

红星资本局
2025-11-07 10:59:10
“父亲偷看女儿洗澡”后续:爸爸揭露真相,女孩追悔莫及

“父亲偷看女儿洗澡”后续:爸爸揭露真相,女孩追悔莫及

观世记
2025-11-05 20:19:25
职场无间道?医院偷拍事件:最寒心的从不是私事,是身边人捅刀

职场无间道?医院偷拍事件:最寒心的从不是私事,是身边人捅刀

俯瞰江苏
2025-11-07 13:48:04
突然宣布!拥有2套以上房产的家庭,按照新规,房产税或将这样征

突然宣布!拥有2套以上房产的家庭,按照新规,房产税或将这样征

深度报
2025-11-07 22:36:47
经不起查!长沙医生不雅视频升级,网传两人6个月共同出差27次…

经不起查!长沙医生不雅视频升级,网传两人6个月共同出差27次…

火山诗话
2025-11-07 13:42:14
谜底揭晓:户晨风是这样陨落的

谜底揭晓:户晨风是这样陨落的

十柱
2025-11-06 17:50:31
他,16岁上大学,38岁当选院士,53岁出任副省长,再发Science!

他,16岁上大学,38岁当选院士,53岁出任副省长,再发Science!

高分子科学前沿
2025-11-07 07:17:34
房贷还有650万,市场价仅360万,深圳90后业主问“我该怎么办?”

房贷还有650万,市场价仅360万,深圳90后业主问“我该怎么办?”

恪守原则和底线
2025-11-07 11:50:03
绝了!姆巴佩 伊万卡“共睡”上热搜,公益局带爆童装

绝了!姆巴佩 伊万卡“共睡”上热搜,公益局带爆童装

罗氏八卦
2025-11-07 18:32:37
拦婚车要烟后续:司机曝恶心细节,街道办的回应没让人“失望”

拦婚车要烟后续:司机曝恶心细节,街道办的回应没让人“失望”

奇思妙想草叶君
2025-11-07 15:51:30
中国东风着陆场回收神舟二十!“极限操作”震撼全球,西方惊叹与压力并存

中国东风着陆场回收神舟二十!“极限操作”震撼全球,西方惊叹与压力并存

粤语音乐喷泉
2025-11-08 05:58:17
2-1首进决赛!WTA年终总决赛一夜变天:亚洲一姐杀疯了,大逆转!

2-1首进决赛!WTA年终总决赛一夜变天:亚洲一姐杀疯了,大逆转!

大秦壁虎白话体育
2025-11-08 01:44:37
拦车要50条烟后续:曝光者被“制裁”,新娘气哭,街道办回应亮了

拦车要50条烟后续:曝光者被“制裁”,新娘气哭,街道办回应亮了

法老不说教
2025-11-06 20:52:00
宣云晒上海豪宅,潘玮柏岳母首出镜,年轻漂亮像40岁还帮打扫卫生

宣云晒上海豪宅,潘玮柏岳母首出镜,年轻漂亮像40岁还帮打扫卫生

好贤观史记
2025-11-07 17:18:00
环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

环球小姐爆炸现场!冠军带头罢走、佳丽集体退场,主办方全网道歉!

新欧洲
2025-11-06 21:37:11
年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

流年拾光
2025-10-23 20:33:16
“中国已迅速切入”!美媒感叹:欧美车企仍在艰难转型,中国电动汽车已凭技术和价格领跑

“中国已迅速切入”!美媒感叹:欧美车企仍在艰难转型,中国电动汽车已凭技术和价格领跑

环球网资讯
2025-11-07 17:34:25
关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

关闭200多家门店!又一传统商超“胖改”失败?四年亏损上百亿

品牌观察官
2025-11-07 23:28:57
雷军直言“第一次造车没学会偷工减料”,遭网友狂怼

雷军直言“第一次造车没学会偷工减料”,遭网友狂怼

热点菌本君
2025-11-07 14:05:29
2025-11-08 08:39:00
ZFinance
ZFinance
Z世代的一站式AI、科技和财经资讯
64文章数 2关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

福建舰入列消息刷屏 美媒对其达到的技术高度表示赞叹

头条要闻

福建舰入列消息刷屏 美媒对其达到的技术高度表示赞叹

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

健康
手机
旅游
亲子
军事航空

超声探头会加重受伤情况吗?

手机要闻

iPhone18 Pro系列新进展:可变光圈+透明后盖,还有啥惊喜?

旅游要闻

河南多家景区发布公告:今天,这些人可免费游园、看演出!

亲子要闻

罕见同卵三胞胎中,有俩是更罕见连体婴?!战胜1/5千万概率,成功分离!

军事要闻

中国第三艘航空母舰福建舰入列

无障碍浏览 进入关怀版