网易首页 > 网易号 > 正文 申请入驻

开源新纪录!月之暗面 Kimi K2 实测超越 GPT-5 和 Claude 4.5,完全免费

0
分享至

就在美国AI巨头OpenAI因高额支出承诺而备受质疑之际,中国开源AI供应商正在加速竞争——其中一家甚至在关键的第三方性能基准测试中赶超了OpenAI的旗舰付费专有模型GPT-5,而且是用一个完全免费的模型

月之暗面(Moonshot AI)今日发布的全新Kimi K2 Thinking模型,在推理、编程和智能体工具使用等基准测试中一举超越了所有专有和开源竞争对手,登顶榜首。

尽管是完全开源,该模型目前在多项标准评估中的表现已超过OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思维模式)以及xAI的Grok-4——这标志着开放AI系统竞争力的一个历史性拐点

开发者可以通过 platform.moonshot.ai 和 kimi.com 访问该模型;权重和代码托管在 Hugging Face 上。开源发布包含了聊天、推理和多工具工作流的API。

用户可以直接通过其类似ChatGPT的网站以及Hugging Face空间试用Kimi K2 Thinking。

修改版开源协议:商业友好

月之暗面在Hugging Face上以修改版MIT协议正式发布了Kimi K2 Thinking。

该协议授予完整的商业和衍生权利——这意味着个人研究者和代表企业客户工作的开发者可以免费访问并在商业应用中使用——但增加了一项限制:

“如果软件或任何衍生产品的月活跃用户超过1亿,或每月收入超过2000万美元,部署方必须在产品用户界面上显著展示’Kimi K2’标识。”

对于大多数研究和企业应用,这一条款相当于一个轻量级的署名要求,同时保留了标准MIT协议的自由度。

这使得K2 Thinking成为目前可用的最宽松授权的前沿级模型之一

新的基准测试领跑者

Kimi K2 Thinking是一个基于万亿参数的混合专家(MoE)模型,每次推理激活320亿参数

它将长程推理与结构化工具使用相结合,能够在无需人工干预的情况下执行200-300次连续的工具调用

性能数据一览

根据月之暗面公布的测试结果,K2 Thinking取得了:

  • 44.9% - Humanity’s Last Exam(HLE),达到业界最先进水平
  • 60.2% - BrowseComp(智能体网络搜索和推理测试)
  • 71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6(关键编程评估)
  • 56.3% -Seal-0(真实世界信息检索基准)

在这些任务中,K2 Thinking持续超越GPT-5的相应得分,并超过了几周前MiniMax AI发布的前开源领跑者MiniMax-M2。

开源模型超越专有系统

GPT-5和Claude Sonnet 4.5 Thinking仍是领先的专有"思维"模型。

然而在同一基准测试套件中,K2 Thinking的智能体推理得分超过了两者:例如在BrowseComp上,开源模型的60.2%明显领先GPT-5的54.9%和Claude 4.5的24.1%。

K2 Thinking在GPQA Diamond上也略胜GPT-5一筹(85.7% vs 84.5%),并在AIME 2025和HMMT 2025等数学推理任务上与之持平。

只有在某些重度模式配置下——GPT-5聚合多条推理轨迹——专有模型才能重新取得平衡。

月之暗面的全开源权重发布能够达到或超过GPT-5的得分,标志着一个转折点。封闭前沿系统与公开可用模型之间的差距,在高端推理和编程领域已经事实上消失

超越MiniMax-M2:前任开源王者

就在一周半前,VentureBeat报道MiniMax-M2时,它还被誉为"开源LLM新王",在开源权重系统中取得了顶尖得分:

  • τ²-Bench: 77.2

  • BrowseComp: 44.0

  • FinSearchComp-global: 65.5

  • SWE-Bench Verified: 69.4

这些结果使MiniMax-M2在智能体工具使用方面接近GPT-5级别的能力。然而Kimi K2 Thinking现在以大幅优势超越了它们。

其BrowseComp结果60.2%超过M2的44.0%,SWE-Bench Verified的71.3%也胜过M2的69.4%。即使在FinSearchComp-T3(47.4%)等金融推理任务上,K2 Thinking表现相当,同时保持了卓越的通用推理能力。

技术创新

从技术角度看,两个模型都采用稀疏混合专家架构以提高计算效率,但月之暗面的网络激活了更多专家,并部署了先进的量化感知训练(INT4 QAT)

这种设计在不降低准确性的情况下使推理速度翻倍——这对于支持高达256k上下文窗口的长"思维token"会话至关重要。

智能体推理与工具使用

K2 Thinking的核心能力在于其显式推理轨迹。模型输出一个辅助字段reasoning_content,在每个最终响应之前揭示中间逻辑。这种透明性在长时间多轮任务和多步骤工具调用中保持了连贯性。

月之暗面发布的参考实现演示了模型如何自主执行"每日新闻报告"工作流:调用日期和网络搜索工具、分析检索内容、生成结构化输出——同时保持内部推理状态。

这种端到端的自主性使模型能够在数百个步骤中进行规划、搜索、执行和综合证据,反映了正在崛起的"智能体AI"系统类别,这些系统以最少的监督运行。

效率与访问成本

尽管规模达到万亿参数,K2 Thinking的运行成本保持适中。月之暗面列出的使用价格为:

  • $0.15 / 100万tokens(缓存命中)
  • $0.60 / 100万tokens(缓存未命中)
  • $2.50 / 100万tokens(输出)

这些价格甚至优于MiniMax-M2的$0.30输入/$1.20输出定价——比GPT-5($1.25输入/$10输出)低了一个数量级

对比背景:开源权重加速

M2和K2 Thinking的快速接连发布,展示了开源研究追赶前沿系统的速度有多快。MiniMax-M2证明了开源模型可以以一小部分计算成本接近GPT-5级别的智能体能力。月之暗面现在将这一前沿推进得更远,将开源权重从平衡推向了彻底领先

两个模型都依赖稀疏激活来提高效率,但K2 Thinking更高的激活数(320亿 vs 100亿活跃参数)在各个领域产生了更强的推理保真度。其测试时缩放——扩展"思维tokens"和工具调用轮次——提供了可测量的性能提升,无需重新训练,这是MiniMax-M2中尚未观察到的特性。

技术展望

月之暗面报告称,K2 Thinking支持原生INT4推理和256k token上下文,性能下降微乎其微。其架构集成了量化、并行轨迹聚合(“重度模式”)以及针对推理任务调优的混合专家路由。

在实践中,这些优化使K2 Thinking能够维持复杂的规划循环——代码编译-测试-修复、搜索-分析-总结——跨越数百次工具调用。这种能力支撑了它在BrowseComp和SWE-Bench上的优异表现,而推理连续性在这些任务中至关重要。

对AI生态系统的巨大影响

开放和封闭模型在高端的趋同,标志着AI格局的结构性转变。曾经完全依赖专有API的企业,现在可以部署匹配GPT-5级别推理的开源替代方案,同时保留对权重、数据和合规性的完全控制

月之暗面的开放发布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2设定的先例,但将其扩展到完整的智能体推理

对于学术和企业开发者来说,K2 Thinking提供了透明性和互操作性——检查推理轨迹和针对特定领域智能体微调性能的能力。

战略时机:对AI投资模式的挑战

K2 Thinking的到来表明,月之暗面——这家2023年成立、获得中国一些最大应用和科技公司投资的年轻初创公司——已经准备好在日益激烈的竞争中一展身手,而这正值AI行业最大玩家的财务可持续性受到越来越多审视之际。

就在一天前,OpenAI首席财务官Sarah Friar在WSJ Tech Live活动上表示,美国政府可能最终需要为该公司超过1.4万亿美元的计算和数据中心承诺提供"后盾"——这一评论被广泛解读为呼吁纳税人支持的贷款担保,引发了争议。

尽管Friar后来澄清OpenAI并未寻求直接的联邦支持,但这一事件重新点燃了关于AI资本支出规模和集中度的辩论。

随着OpenAI、微软、Meta和Google都在竞相确保长期芯片供应,批评者警告说,这是一场不可持续的投资泡沫和"AI军备竞赛",更多是由战略恐惧驱动,而非商业回报——如果出现犹豫或市场不确定性,可能会"爆炸"并拖垮整个全球经济,因为现在已经有太多交易和估值是基于对AI持续巨额投资和巨额回报的预期。

在这种背景下,月之暗面和MiniMax的开源权重发布给美国专有AI公司及其支持者带来了更大压力,要求他们证明投资规模和盈利路径的合理性。

商业逻辑的根本性挑战

如果企业客户从免费开源的中国AI模型中获得的性能可以与付费专有AI解决方案(如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro)相当甚至更好——他们为什么还要继续付费访问专有模型?

硅谷的标杆企业如Airbnb已经引起关注,因为它们承认大量使用阿里巴巴的Qwen等中国开源替代方案,而非OpenAI的专有产品。

对于投资者和企业来说,这些发展表明,高端AI能力不再等同于高端资本支出。最先进的推理系统可能不是来自建造超大规模数据中心的公司,而是来自优化架构和量化以提高效率的研究团队。

从这个意义上说,K2 Thinking的基准主导地位不仅仅是一个技术里程碑——它是一个战略里程碑,到来的时机正值AI市场最大的问题已经从"模型能变得多强大"转变为"谁能负担得起维持它们"。

对企业的前瞻意义

在MiniMax-M2崛起后的几周内,Kimi K2 Thinking已经超越了它——以及GPT-5和Claude 4.5——在几乎每一个推理和智能体基准测试中。

该模型证明,开源权重系统现在可以在能力和效率上达到或超越专有前沿模型。

对于AI研究社区来说,K2 Thinking不仅仅是又一个开源模型:它是前沿已经变得协作化的证据。

今天可用的性能最佳的推理模型不是封闭的商业产品,而是任何人都可以访问的开源系统。


原文来源: VentureBeat

整理:周华香

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

和没教养的人一起吃饭,能恶心到啥程度?如果我是这样,请打死我

夜深爱杂谈
2026-06-02 21:07:12
蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

星耀国际足坛
2026-06-02 22:59:16
游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

游客吃潮汕火锅嫌“口太淡”要挟写“5000字差评”要免单,火锅店最新回应:高峰期排队上千桌,为顾全大局妥协

洪观新闻
2026-06-02 13:19:43
女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

女老师上课汗流浃背,博主感叹老师不容易,反遭全网谩骂、泼冷水

谭谈社会
2026-06-01 17:39:07
54岁吴越下厨被拍,单身生活细节让无数人沉默

54岁吴越下厨被拍,单身生活细节让无数人沉默

天马幸福的人生
2026-05-31 14:54:35
你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

你最接近生理极限的一次经历是什么?网友分享让人目瞪口呆!

夜深爱杂谈
2026-04-09 19:39:13
“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

“不理解但尊重”,家长打扮粉嫩幼态送娃上学,网友:很不得体

蝴蝶花雨话教育
2026-06-03 00:05:12
菲戈:不能拿姆巴佩和C罗比较

菲戈:不能拿姆巴佩和C罗比较

懂球帝
2026-06-02 12:28:06
3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

3年斩获12个冠军!恩里克和大巴黎续约四年,冲击欧冠三连冠!

海浪星体育
2026-06-02 11:32:20
37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

37岁奚梦瑶!嫁给何猷君生一对儿女,如今补办婚礼超幸福

小妹讲史
2026-06-02 16:13:11
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

懂球帝
2026-06-02 20:59:08
被骂疯子的米莱终结阿根廷几十年赤字

被骂疯子的米莱终结阿根廷几十年赤字

桂系007
2026-04-28 15:20:23
深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

深圳K11店员讥讽顾客穷逛后续:脸丢光,工作没了,商场惨遭牵连

老特有话说
2026-06-02 21:21:03
普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

普京亮剑,下达立陶宛“灭国”警告,不到24小时,立总统紧急灭火

李健政观察
2026-06-02 19:05:48
豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

豆包预计6月下旬正式收费 每月最低68元 你还会继续用吗?

TechWeb
2026-06-02 09:19:35
打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

打脸!巴萨 8000 万核心刚表忠心,转头就接近加盟阿森纳

澜归序
2026-06-02 07:29:35
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

夜白侃球
2026-06-02 11:05:46
中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

薇说体育
2026-06-02 11:49:56
2026-06-03 02:44:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先进入GenAl。
283文章数 42关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

数码
健康
手机
公开课
军事航空

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

违规干细胞应用,暗藏致命隐患!

手机要闻

华为畅享100 Pro Max被曝立项:代号叶问,真的要打十个了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版