网易首页 > 网易号 > 正文 申请入驻

开源新纪录!月之暗面 Kimi K2 实测超越 GPT-5 和 Claude 4.5,完全免费

0
分享至


开源模型的历史性突破

就在美国AI巨头OpenAI因高额支出承诺而备受质疑之际,中国开源AI供应商正在加速竞争——其中一家甚至在关键的第三方性能基准测试中赶超了OpenAI的旗舰付费专有模型GPT-5,而且是用一个完全免费的模型

月之暗面(Moonshot AI)今日发布的全新Kimi K2 Thinking模型,在推理、编程和智能体工具使用等基准测试中一举超越了所有专有和开源竞争对手,登顶榜首。

尽管是完全开源,该模型目前在多项标准评估中的表现已超过OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思维模式)以及xAI的Grok-4——这标志着开放AI系统竞争力的一个历史性拐点

开发者可以通过 platform.moonshot.ai 和 kimi.com 访问该模型;权重和代码托管在 Hugging Face 上。开源发布包含了聊天、推理和多工具工作流的API。

用户可以直接通过其类似ChatGPT的网站以及Hugging Face空间试用Kimi K2 Thinking。

修改版开源协议:商业友好

月之暗面在Hugging Face上以修改版MIT协议正式发布了Kimi K2 Thinking。

该协议授予完整的商业和衍生权利——这意味着个人研究者和代表企业客户工作的开发者可以免费访问并在商业应用中使用——但增加了一项限制:

“如果软件或任何衍生产品的月活跃用户超过1亿,或每月收入超过2000万美元,部署方必须在产品用户界面上显著展示’Kimi K2’标识。”

对于大多数研究和企业应用,这一条款相当于一个轻量级的署名要求,同时保留了标准MIT协议的自由度。

这使得K2 Thinking成为目前可用的最宽松授权的前沿级模型之一

新的基准测试领跑者

Kimi K2 Thinking是一个基于万亿参数的混合专家(MoE)模型,每次推理激活320亿参数

它将长程推理与结构化工具使用相结合,能够在无需人工干预的情况下执行200-300次连续的工具调用

性能数据一览

根据月之暗面公布的测试结果,K2 Thinking取得了:

  • 44.9% - Humanity’s Last Exam(HLE),达到业界最先进水平
  • 60.2% - BrowseComp(智能体网络搜索和推理测试)
  • 71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6(关键编程评估)
  • 56.3% -Seal-0(真实世界信息检索基准)

在这些任务中,K2 Thinking持续超越GPT-5的相应得分,并超过了几周前MiniMax AI发布的前开源领跑者MiniMax-M2。

开源模型超越专有系统

GPT-5和Claude Sonnet 4.5 Thinking仍是领先的专有"思维"模型。

然而在同一基准测试套件中,K2 Thinking的智能体推理得分超过了两者:例如在BrowseComp上,开源模型的60.2%明显领先GPT-5的54.9%和Claude 4.5的24.1%。

K2 Thinking在GPQA Diamond上也略胜GPT-5一筹(85.7% vs 84.5%),并在AIME 2025和HMMT 2025等数学推理任务上与之持平。

只有在某些重度模式配置下——GPT-5聚合多条推理轨迹——专有模型才能重新取得平衡。

月之暗面的全开源权重发布能够达到或超过GPT-5的得分,标志着一个转折点。封闭前沿系统与公开可用模型之间的差距,在高端推理和编程领域已经事实上消失

超越MiniMax-M2:前任开源王者

就在一周半前,VentureBeat报道MiniMax-M2时,它还被誉为"开源LLM新王",在开源权重系统中取得了顶尖得分:

  • τ²-Bench: 77.2

  • BrowseComp: 44.0

  • FinSearchComp-global: 65.5

  • SWE-Bench Verified: 69.4

这些结果使MiniMax-M2在智能体工具使用方面接近GPT-5级别的能力。然而Kimi K2 Thinking现在以大幅优势超越了它们。

其BrowseComp结果60.2%超过M2的44.0%,SWE-Bench Verified的71.3%也胜过M2的69.4%。即使在FinSearchComp-T3(47.4%)等金融推理任务上,K2 Thinking表现相当,同时保持了卓越的通用推理能力。

技术创新

从技术角度看,两个模型都采用稀疏混合专家架构以提高计算效率,但月之暗面的网络激活了更多专家,并部署了先进的量化感知训练(INT4 QAT)

这种设计在不降低准确性的情况下使推理速度翻倍——这对于支持高达256k上下文窗口的长"思维token"会话至关重要。

智能体推理与工具使用

K2 Thinking的核心能力在于其显式推理轨迹。模型输出一个辅助字段reasoning_content,在每个最终响应之前揭示中间逻辑。这种透明性在长时间多轮任务和多步骤工具调用中保持了连贯性。

月之暗面发布的参考实现演示了模型如何自主执行"每日新闻报告"工作流:调用日期和网络搜索工具、分析检索内容、生成结构化输出——同时保持内部推理状态。

这种端到端的自主性使模型能够在数百个步骤中进行规划、搜索、执行和综合证据,反映了正在崛起的"智能体AI"系统类别,这些系统以最少的监督运行。

效率与访问成本

尽管规模达到万亿参数,K2 Thinking的运行成本保持适中。月之暗面列出的使用价格为:

  • $0.15 / 100万tokens(缓存命中)
  • $0.60 / 100万tokens(缓存未命中)
  • $2.50 / 100万tokens(输出)

这些价格甚至优于MiniMax-M2的$0.30输入/$1.20输出定价——比GPT-5($1.25输入/$10输出)低了一个数量级

对比背景:开源权重加速

M2和K2 Thinking的快速接连发布,展示了开源研究追赶前沿系统的速度有多快。MiniMax-M2证明了开源模型可以以一小部分计算成本接近GPT-5级别的智能体能力。月之暗面现在将这一前沿推进得更远,将开源权重从平衡推向了彻底领先

两个模型都依赖稀疏激活来提高效率,但K2 Thinking更高的激活数(320亿 vs 100亿活跃参数)在各个领域产生了更强的推理保真度。其测试时缩放——扩展"思维tokens"和工具调用轮次——提供了可测量的性能提升,无需重新训练,这是MiniMax-M2中尚未观察到的特性。

技术展望

月之暗面报告称,K2 Thinking支持原生INT4推理和256k token上下文,性能下降微乎其微。其架构集成了量化、并行轨迹聚合(“重度模式”)以及针对推理任务调优的混合专家路由。

在实践中,这些优化使K2 Thinking能够维持复杂的规划循环——代码编译-测试-修复、搜索-分析-总结——跨越数百次工具调用。这种能力支撑了它在BrowseComp和SWE-Bench上的优异表现,而推理连续性在这些任务中至关重要。

对AI生态系统的巨大影响

开放和封闭模型在高端的趋同,标志着AI格局的结构性转变。曾经完全依赖专有API的企业,现在可以部署匹配GPT-5级别推理的开源替代方案,同时保留对权重、数据和合规性的完全控制

月之暗面的开放发布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2设定的先例,但将其扩展到完整的智能体推理

对于学术和企业开发者来说,K2 Thinking提供了透明性和互操作性——检查推理轨迹和针对特定领域智能体微调性能的能力。

战略时机:对AI投资模式的挑战

K2 Thinking的到来表明,月之暗面——这家2023年成立、获得中国一些最大应用和科技公司投资的年轻初创公司——已经准备好在日益激烈的竞争中一展身手,而这正值AI行业最大玩家的财务可持续性受到越来越多审视之际。

就在一天前,OpenAI首席财务官Sarah Friar在WSJ Tech Live活动上表示,美国政府可能最终需要为该公司超过1.4万亿美元的计算和数据中心承诺提供"后盾"——这一评论被广泛解读为呼吁纳税人支持的贷款担保,引发了争议。

尽管Friar后来澄清OpenAI并未寻求直接的联邦支持,但这一事件重新点燃了关于AI资本支出规模和集中度的辩论。

随着OpenAI、微软、Meta和Google都在竞相确保长期芯片供应,批评者警告说,这是一场不可持续的投资泡沫和"AI军备竞赛",更多是由战略恐惧驱动,而非商业回报——如果出现犹豫或市场不确定性,可能会"爆炸"并拖垮整个全球经济,因为现在已经有太多交易和估值是基于对AI持续巨额投资和巨额回报的预期。

在这种背景下,月之暗面和MiniMax的开源权重发布给美国专有AI公司及其支持者带来了更大压力,要求他们证明投资规模和盈利路径的合理性。

商业逻辑的根本性挑战

如果企业客户从免费开源的中国AI模型中获得的性能可以与付费专有AI解决方案(如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro)相当甚至更好——他们为什么还要继续付费访问专有模型?

硅谷的标杆企业如Airbnb已经引起关注,因为它们承认大量使用阿里巴巴的Qwen等中国开源替代方案,而非OpenAI的专有产品。

对于投资者和企业来说,这些发展表明,高端AI能力不再等同于高端资本支出。最先进的推理系统可能不是来自建造超大规模数据中心的公司,而是来自优化架构和量化以提高效率的研究团队。

从这个意义上说,K2 Thinking的基准主导地位不仅仅是一个技术里程碑——它是一个战略里程碑,到来的时机正值AI市场最大的问题已经从"模型能变得多强大"转变为"谁能负担得起维持它们"。

对企业的前瞻意义

在MiniMax-M2崛起后的几周内,Kimi K2 Thinking已经超越了它——以及GPT-5和Claude 4.5——在几乎每一个推理和智能体基准测试中。

该模型证明,开源权重系统现在可以在能力和效率上达到或超越专有前沿模型。

对于AI研究社区来说,K2 Thinking不仅仅是又一个开源模型:它是前沿已经变得协作化的证据。

今天可用的性能最佳的推理模型不是封闭的商业产品,而是任何人都可以访问的开源系统。


原文来源: VentureBeat

整理:周华香

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯诺克世锦赛战报:中国新秀6-0,63岁老将4-1中国00后,附赛程

斯诺克世锦赛战报:中国新秀6-0,63岁老将4-1中国00后,附赛程

求球不落谛
2026-04-06 19:43:13
印度曾反对中国建雅鲁藏布江水电站,现才彻底明白,真不是一般精

印度曾反对中国建雅鲁藏布江水电站,现才彻底明白,真不是一般精

掠影后有感
2026-04-06 11:40:04
伊朗愿意给韩国开绿灯,话音刚落,特朗普:4.5万美军处于危险中

伊朗愿意给韩国开绿灯,话音刚落,特朗普:4.5万美军处于危险中

小叨娱乐
2026-04-06 22:40:43
中国移动正式发出官方通知:2026年4月30日开始,开始全国执行

中国移动正式发出官方通知:2026年4月30日开始,开始全国执行

小谈食刻美食
2026-04-05 10:28:19
突发 张雪ADV350踏板最新进展曝光 双缸+辐条轮毂 PPT终于变真车

突发 张雪ADV350踏板最新进展曝光 双缸+辐条轮毂 PPT终于变真车

沙雕小琳琳
2026-04-05 17:25:40
李讷带全家去祭拜毛主席,儿媳王伟漂亮懂事,王景清搀扶着李讷

李讷带全家去祭拜毛主席,儿媳王伟漂亮懂事,王景清搀扶着李讷

大江
2026-03-14 08:17:36
尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

史之铭
2026-04-06 17:12:29
全网热议!马筱梅赖在台北不愿离开,历史重现,汪小菲又要头疼了

全网热议!马筱梅赖在台北不愿离开,历史重现,汪小菲又要头疼了

一盅情怀
2026-04-06 19:31:12
2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

2年和领导开房410次!从临时工“睡”成处长,南航女经理升迁之路

就一点
2026-03-28 17:42:50
海水再澎湃,也干不过王李丹妮的“波涛”

海水再澎湃,也干不过王李丹妮的“波涛”

飛娱日记
2026-03-23 09:27:55
“姜子牙”饰演者,95岁的蓝天野:白天当演员,晚上当间谍,隐姓埋名75年,他的人生,比电影还精彩

“姜子牙”饰演者,95岁的蓝天野:白天当演员,晚上当间谍,隐姓埋名75年,他的人生,比电影还精彩

In风尚
2025-12-10 19:24:10
从三聚氰胺到优思益:十七年过去,我们还在原地打转

从三聚氰胺到优思益:十七年过去,我们还在原地打转

凤眼论
2026-04-02 15:35:27
徐州“公厕版瑞幸”火出圈,景区工作人员回应:曾是游客服务点而非公厕

徐州“公厕版瑞幸”火出圈,景区工作人员回应:曾是游客服务点而非公厕

现代快报
2026-04-04 15:00:11
NASA用4部iPhone 17 Pro Max拍月球

NASA用4部iPhone 17 Pro Max拍月球

Ping值焦虑
2026-04-06 00:14:35
小米的“生态故事”到头了?核心业务全线承压

小米的“生态故事”到头了?核心业务全线承压

新浪财经
2026-04-07 01:29:49
美一次性解雇12名将军暴露霸权野心

美一次性解雇12名将军暴露霸权野心

烽火瞭望者
2026-04-06 06:23:04
外卖时代将被终结?一个全新行业正悄悄取代外卖,你准备好了吗?

外卖时代将被终结?一个全新行业正悄悄取代外卖,你准备好了吗?

兴史兴谈
2026-04-06 08:54:42
张紫妍被潜规则后自杀!曾同时“接待”4位客人,被玩到无法走路

张紫妍被潜规则后自杀!曾同时“接待”4位客人,被玩到无法走路

小徐讲八卦
2026-02-27 14:46:01
坎塞洛踢疯了,巴萨态度彻底变了

坎塞洛踢疯了,巴萨态度彻底变了

徐扙老表哥
2026-04-06 22:10:48
阿斯:皇马内部对输马略卡极度失望,同时不再信任西班牙裁判

阿斯:皇马内部对输马略卡极度失望,同时不再信任西班牙裁判

懂球帝
2026-04-06 06:22:05
2026-04-07 02:07:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先进入GenAl。
264文章数 17关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

本地
亲子
艺术
公开课
军事航空

本地新闻

跟着歌声游安徽,听古村回响

亲子要闻

哪款儿童祛疤膏好用又不刺激?2026温和修护祛疤好物分析:舒缓疤痕不适

艺术要闻

张雪机车logo陷抄袭争议?商标还被人抢先注册了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:在C-130运输机残骸中发现一具美军士兵遗体

无障碍浏览 进入关怀版