开源新纪录！月之暗面 Kimi K2 实测超越 GPT-5 和 Claude 4.5，完全免费|推理|swe|kimi|claude|视频生成模型|thinking

分享至

就在美国AI巨头OpenAI因高额支出承诺而备受质疑之际，中国开源AI供应商正在加速竞争——其中一家甚至在关键的第三方性能基准测试中赶超了OpenAI的旗舰付费专有模型GPT-5，而且是用一个完全免费的模型。

月之暗面（Moonshot AI）今日发布的全新Kimi K2 Thinking模型，在推理、编程和智能体工具使用等基准测试中一举超越了所有专有和开源竞争对手，登顶榜首。

尽管是完全开源，该模型目前在多项标准评估中的表现已超过OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5（思维模式）以及xAI的Grok-4——这标志着开放AI系统竞争力的一个历史性拐点。

开发者可以通过 platform.moonshot.ai 和 kimi.com 访问该模型；权重和代码托管在 Hugging Face 上。开源发布包含了聊天、推理和多工具工作流的API。

用户可以直接通过其类似ChatGPT的网站以及Hugging Face空间试用Kimi K2 Thinking。

修改版开源协议：商业友好

月之暗面在Hugging Face上以修改版MIT协议正式发布了Kimi K2 Thinking。

该协议授予完整的商业和衍生权利——这意味着个人研究者和代表企业客户工作的开发者可以免费访问并在商业应用中使用——但增加了一项限制：

“如果软件或任何衍生产品的月活跃用户超过1亿，或每月收入超过2000万美元，部署方必须在产品用户界面上显著展示’Kimi K2’标识。”

对于大多数研究和企业应用，这一条款相当于一个轻量级的署名要求，同时保留了标准MIT协议的自由度。

这使得K2 Thinking成为目前可用的最宽松授权的前沿级模型之一。

新的基准测试领跑者

Kimi K2 Thinking是一个基于万亿参数的混合专家（MoE）模型，每次推理激活320亿参数。

它将长程推理与结构化工具使用相结合，能够在无需人工干预的情况下执行200-300次连续的工具调用。

性能数据一览

根据月之暗面公布的测试结果，K2 Thinking取得了：

44.9% - Humanity’s Last Exam（HLE），达到业界最先进水平
60.2% - BrowseComp（智能体网络搜索和推理测试）
71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6（关键编程评估）
56.3% -Seal-0（真实世界信息检索基准）

在这些任务中，K2 Thinking持续超越GPT-5的相应得分，并超过了几周前MiniMax AI发布的前开源领跑者MiniMax-M2。

开源模型超越专有系统

GPT-5和Claude Sonnet 4.5 Thinking仍是领先的专有"思维"模型。

然而在同一基准测试套件中，K2 Thinking的智能体推理得分超过了两者：例如在BrowseComp上，开源模型的60.2%明显领先GPT-5的54.9%和Claude 4.5的24.1%。

K2 Thinking在GPQA Diamond上也略胜GPT-5一筹（85.7% vs 84.5%），并在AIME 2025和HMMT 2025等数学推理任务上与之持平。

只有在某些重度模式配置下——GPT-5聚合多条推理轨迹——专有模型才能重新取得平衡。

月之暗面的全开源权重发布能够达到或超过GPT-5的得分，标志着一个转折点。封闭前沿系统与公开可用模型之间的差距，在高端推理和编程领域已经事实上消失。

超越MiniMax-M2：前任开源王者

就在一周半前，VentureBeat报道MiniMax-M2时，它还被誉为"开源LLM新王"，在开源权重系统中取得了顶尖得分：

τ²-Bench: 77.2

BrowseComp: 44.0

FinSearchComp-global: 65.5

SWE-Bench Verified: 69.4

这些结果使MiniMax-M2在智能体工具使用方面接近GPT-5级别的能力。然而Kimi K2 Thinking现在以大幅优势超越了它们。

其BrowseComp结果60.2%超过M2的44.0%，SWE-Bench Verified的71.3%也胜过M2的69.4%。即使在FinSearchComp-T3（47.4%）等金融推理任务上，K2 Thinking表现相当，同时保持了卓越的通用推理能力。

技术创新

从技术角度看，两个模型都采用稀疏混合专家架构以提高计算效率，但月之暗面的网络激活了更多专家，并部署了先进的量化感知训练（INT4 QAT）。

这种设计在不降低准确性的情况下使推理速度翻倍——这对于支持高达256k上下文窗口的长"思维token"会话至关重要。

智能体推理与工具使用

K2 Thinking的核心能力在于其显式推理轨迹。模型输出一个辅助字段reasoning_content，在每个最终响应之前揭示中间逻辑。这种透明性在长时间多轮任务和多步骤工具调用中保持了连贯性。

月之暗面发布的参考实现演示了模型如何自主执行"每日新闻报告"工作流：调用日期和网络搜索工具、分析检索内容、生成结构化输出——同时保持内部推理状态。

这种端到端的自主性使模型能够在数百个步骤中进行规划、搜索、执行和综合证据，反映了正在崛起的"智能体AI"系统类别，这些系统以最少的监督运行。

效率与访问成本

尽管规模达到万亿参数，K2 Thinking的运行成本保持适中。月之暗面列出的使用价格为：

$0.15 / 100万tokens（缓存命中）
$0.60 / 100万tokens（缓存未命中）
$2.50 / 100万tokens（输出）

这些价格甚至优于MiniMax-M2的$0.30输入/$1.20输出定价——比GPT-5（$1.25输入/$10输出）低了一个数量级。

对比背景：开源权重加速

M2和K2 Thinking的快速接连发布，展示了开源研究追赶前沿系统的速度有多快。MiniMax-M2证明了开源模型可以以一小部分计算成本接近GPT-5级别的智能体能力。月之暗面现在将这一前沿推进得更远，将开源权重从平衡推向了彻底领先。

两个模型都依赖稀疏激活来提高效率，但K2 Thinking更高的激活数（320亿 vs 100亿活跃参数）在各个领域产生了更强的推理保真度。其测试时缩放——扩展"思维tokens"和工具调用轮次——提供了可测量的性能提升，无需重新训练，这是MiniMax-M2中尚未观察到的特性。

技术展望

月之暗面报告称，K2 Thinking支持原生INT4推理和256k token上下文，性能下降微乎其微。其架构集成了量化、并行轨迹聚合（“重度模式”）以及针对推理任务调优的混合专家路由。

在实践中，这些优化使K2 Thinking能够维持复杂的规划循环——代码编译-测试-修复、搜索-分析-总结——跨越数百次工具调用。这种能力支撑了它在BrowseComp和SWE-Bench上的优异表现，而推理连续性在这些任务中至关重要。

对AI生态系统的巨大影响

开放和封闭模型在高端的趋同，标志着AI格局的结构性转变。曾经完全依赖专有API的企业，现在可以部署匹配GPT-5级别推理的开源替代方案，同时保留对权重、数据和合规性的完全控制。

月之暗面的开放发布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2设定的先例，但将其扩展到完整的智能体推理。

对于学术和企业开发者来说，K2 Thinking提供了透明性和互操作性——检查推理轨迹和针对特定领域智能体微调性能的能力。

战略时机：对AI投资模式的挑战

K2 Thinking的到来表明，月之暗面——这家2023年成立、获得中国一些最大应用和科技公司投资的年轻初创公司——已经准备好在日益激烈的竞争中一展身手，而这正值AI行业最大玩家的财务可持续性受到越来越多审视之际。

就在一天前，OpenAI首席财务官Sarah Friar在WSJ Tech Live活动上表示，美国政府可能最终需要为该公司超过1.4万亿美元的计算和数据中心承诺提供"后盾"——这一评论被广泛解读为呼吁纳税人支持的贷款担保，引发了争议。

尽管Friar后来澄清OpenAI并未寻求直接的联邦支持，但这一事件重新点燃了关于AI资本支出规模和集中度的辩论。

随着OpenAI、微软、Meta和Google都在竞相确保长期芯片供应，批评者警告说，这是一场不可持续的投资泡沫和"AI军备竞赛"，更多是由战略恐惧驱动，而非商业回报——如果出现犹豫或市场不确定性，可能会"爆炸"并拖垮整个全球经济，因为现在已经有太多交易和估值是基于对AI持续巨额投资和巨额回报的预期。

在这种背景下，月之暗面和MiniMax的开源权重发布给美国专有AI公司及其支持者带来了更大压力，要求他们证明投资规模和盈利路径的合理性。

商业逻辑的根本性挑战

如果企业客户从免费开源的中国AI模型中获得的性能可以与付费专有AI解决方案（如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro）相当甚至更好——他们为什么还要继续付费访问专有模型？

硅谷的标杆企业如Airbnb已经引起关注，因为它们承认大量使用阿里巴巴的Qwen等中国开源替代方案，而非OpenAI的专有产品。

对于投资者和企业来说，这些发展表明，高端AI能力不再等同于高端资本支出。最先进的推理系统可能不是来自建造超大规模数据中心的公司，而是来自优化架构和量化以提高效率的研究团队。

从这个意义上说，K2 Thinking的基准主导地位不仅仅是一个技术里程碑——它是一个战略里程碑，到来的时机正值AI市场最大的问题已经从"模型能变得多强大"转变为"谁能负担得起维持它们"。

对企业的前瞻意义

在MiniMax-M2崛起后的几周内，Kimi K2 Thinking已经超越了它——以及GPT-5和Claude 4.5——在几乎每一个推理和智能体基准测试中。

该模型证明，开源权重系统现在可以在能力和效率上达到或超越专有前沿模型。

对于AI研究社区来说，K2 Thinking不仅仅是又一个开源模型：它是前沿已经变得协作化的证据。

今天可用的性能最佳的推理模型不是封闭的商业产品，而是任何人都可以访问的开源系统。

原文来源: VentureBeat

整理：周华香

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.