网易首页 > 网易号 > 正文 申请入驻

开源新纪录!月之暗面 Kimi K2 实测超越 GPT-5 和 Claude 4.5,完全免费

0
分享至


开源模型的历史性突破

就在美国AI巨头OpenAI因高额支出承诺而备受质疑之际,中国开源AI供应商正在加速竞争——其中一家甚至在关键的第三方性能基准测试中赶超了OpenAI的旗舰付费专有模型GPT-5,而且是用一个完全免费的模型

月之暗面(Moonshot AI)今日发布的全新Kimi K2 Thinking模型,在推理、编程和智能体工具使用等基准测试中一举超越了所有专有和开源竞争对手,登顶榜首。

尽管是完全开源,该模型目前在多项标准评估中的表现已超过OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思维模式)以及xAI的Grok-4——这标志着开放AI系统竞争力的一个历史性拐点

开发者可以通过 platform.moonshot.ai 和 kimi.com 访问该模型;权重和代码托管在 Hugging Face 上。开源发布包含了聊天、推理和多工具工作流的API。

用户可以直接通过其类似ChatGPT的网站以及Hugging Face空间试用Kimi K2 Thinking。

修改版开源协议:商业友好

月之暗面在Hugging Face上以修改版MIT协议正式发布了Kimi K2 Thinking。

该协议授予完整的商业和衍生权利——这意味着个人研究者和代表企业客户工作的开发者可以免费访问并在商业应用中使用——但增加了一项限制:

“如果软件或任何衍生产品的月活跃用户超过1亿,或每月收入超过2000万美元,部署方必须在产品用户界面上显著展示’Kimi K2’标识。”

对于大多数研究和企业应用,这一条款相当于一个轻量级的署名要求,同时保留了标准MIT协议的自由度。

这使得K2 Thinking成为目前可用的最宽松授权的前沿级模型之一

新的基准测试领跑者

Kimi K2 Thinking是一个基于万亿参数的混合专家(MoE)模型,每次推理激活320亿参数

它将长程推理与结构化工具使用相结合,能够在无需人工干预的情况下执行200-300次连续的工具调用

性能数据一览

根据月之暗面公布的测试结果,K2 Thinking取得了:

  • 44.9% - Humanity’s Last Exam(HLE),达到业界最先进水平
  • 60.2% - BrowseComp(智能体网络搜索和推理测试)
  • 71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6(关键编程评估)
  • 56.3% -Seal-0(真实世界信息检索基准)

在这些任务中,K2 Thinking持续超越GPT-5的相应得分,并超过了几周前MiniMax AI发布的前开源领跑者MiniMax-M2。

开源模型超越专有系统

GPT-5和Claude Sonnet 4.5 Thinking仍是领先的专有"思维"模型。

然而在同一基准测试套件中,K2 Thinking的智能体推理得分超过了两者:例如在BrowseComp上,开源模型的60.2%明显领先GPT-5的54.9%和Claude 4.5的24.1%。

K2 Thinking在GPQA Diamond上也略胜GPT-5一筹(85.7% vs 84.5%),并在AIME 2025和HMMT 2025等数学推理任务上与之持平。

只有在某些重度模式配置下——GPT-5聚合多条推理轨迹——专有模型才能重新取得平衡。

月之暗面的全开源权重发布能够达到或超过GPT-5的得分,标志着一个转折点。封闭前沿系统与公开可用模型之间的差距,在高端推理和编程领域已经事实上消失

超越MiniMax-M2:前任开源王者

就在一周半前,VentureBeat报道MiniMax-M2时,它还被誉为"开源LLM新王",在开源权重系统中取得了顶尖得分:

  • τ²-Bench: 77.2

  • BrowseComp: 44.0

  • FinSearchComp-global: 65.5

  • SWE-Bench Verified: 69.4

这些结果使MiniMax-M2在智能体工具使用方面接近GPT-5级别的能力。然而Kimi K2 Thinking现在以大幅优势超越了它们。

其BrowseComp结果60.2%超过M2的44.0%,SWE-Bench Verified的71.3%也胜过M2的69.4%。即使在FinSearchComp-T3(47.4%)等金融推理任务上,K2 Thinking表现相当,同时保持了卓越的通用推理能力。

技术创新

从技术角度看,两个模型都采用稀疏混合专家架构以提高计算效率,但月之暗面的网络激活了更多专家,并部署了先进的量化感知训练(INT4 QAT)

这种设计在不降低准确性的情况下使推理速度翻倍——这对于支持高达256k上下文窗口的长"思维token"会话至关重要。

智能体推理与工具使用

K2 Thinking的核心能力在于其显式推理轨迹。模型输出一个辅助字段reasoning_content,在每个最终响应之前揭示中间逻辑。这种透明性在长时间多轮任务和多步骤工具调用中保持了连贯性。

月之暗面发布的参考实现演示了模型如何自主执行"每日新闻报告"工作流:调用日期和网络搜索工具、分析检索内容、生成结构化输出——同时保持内部推理状态。

这种端到端的自主性使模型能够在数百个步骤中进行规划、搜索、执行和综合证据,反映了正在崛起的"智能体AI"系统类别,这些系统以最少的监督运行。

效率与访问成本

尽管规模达到万亿参数,K2 Thinking的运行成本保持适中。月之暗面列出的使用价格为:

  • $0.15 / 100万tokens(缓存命中)
  • $0.60 / 100万tokens(缓存未命中)
  • $2.50 / 100万tokens(输出)

这些价格甚至优于MiniMax-M2的$0.30输入/$1.20输出定价——比GPT-5($1.25输入/$10输出)低了一个数量级

对比背景:开源权重加速

M2和K2 Thinking的快速接连发布,展示了开源研究追赶前沿系统的速度有多快。MiniMax-M2证明了开源模型可以以一小部分计算成本接近GPT-5级别的智能体能力。月之暗面现在将这一前沿推进得更远,将开源权重从平衡推向了彻底领先

两个模型都依赖稀疏激活来提高效率,但K2 Thinking更高的激活数(320亿 vs 100亿活跃参数)在各个领域产生了更强的推理保真度。其测试时缩放——扩展"思维tokens"和工具调用轮次——提供了可测量的性能提升,无需重新训练,这是MiniMax-M2中尚未观察到的特性。

技术展望

月之暗面报告称,K2 Thinking支持原生INT4推理和256k token上下文,性能下降微乎其微。其架构集成了量化、并行轨迹聚合(“重度模式”)以及针对推理任务调优的混合专家路由。

在实践中,这些优化使K2 Thinking能够维持复杂的规划循环——代码编译-测试-修复、搜索-分析-总结——跨越数百次工具调用。这种能力支撑了它在BrowseComp和SWE-Bench上的优异表现,而推理连续性在这些任务中至关重要。

对AI生态系统的巨大影响

开放和封闭模型在高端的趋同,标志着AI格局的结构性转变。曾经完全依赖专有API的企业,现在可以部署匹配GPT-5级别推理的开源替代方案,同时保留对权重、数据和合规性的完全控制

月之暗面的开放发布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2设定的先例,但将其扩展到完整的智能体推理

对于学术和企业开发者来说,K2 Thinking提供了透明性和互操作性——检查推理轨迹和针对特定领域智能体微调性能的能力。

战略时机:对AI投资模式的挑战

K2 Thinking的到来表明,月之暗面——这家2023年成立、获得中国一些最大应用和科技公司投资的年轻初创公司——已经准备好在日益激烈的竞争中一展身手,而这正值AI行业最大玩家的财务可持续性受到越来越多审视之际。

就在一天前,OpenAI首席财务官Sarah Friar在WSJ Tech Live活动上表示,美国政府可能最终需要为该公司超过1.4万亿美元的计算和数据中心承诺提供"后盾"——这一评论被广泛解读为呼吁纳税人支持的贷款担保,引发了争议。

尽管Friar后来澄清OpenAI并未寻求直接的联邦支持,但这一事件重新点燃了关于AI资本支出规模和集中度的辩论。

随着OpenAI、微软、Meta和Google都在竞相确保长期芯片供应,批评者警告说,这是一场不可持续的投资泡沫和"AI军备竞赛",更多是由战略恐惧驱动,而非商业回报——如果出现犹豫或市场不确定性,可能会"爆炸"并拖垮整个全球经济,因为现在已经有太多交易和估值是基于对AI持续巨额投资和巨额回报的预期。

在这种背景下,月之暗面和MiniMax的开源权重发布给美国专有AI公司及其支持者带来了更大压力,要求他们证明投资规模和盈利路径的合理性。

商业逻辑的根本性挑战

如果企业客户从免费开源的中国AI模型中获得的性能可以与付费专有AI解决方案(如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro)相当甚至更好——他们为什么还要继续付费访问专有模型?

硅谷的标杆企业如Airbnb已经引起关注,因为它们承认大量使用阿里巴巴的Qwen等中国开源替代方案,而非OpenAI的专有产品。

对于投资者和企业来说,这些发展表明,高端AI能力不再等同于高端资本支出。最先进的推理系统可能不是来自建造超大规模数据中心的公司,而是来自优化架构和量化以提高效率的研究团队。

从这个意义上说,K2 Thinking的基准主导地位不仅仅是一个技术里程碑——它是一个战略里程碑,到来的时机正值AI市场最大的问题已经从"模型能变得多强大"转变为"谁能负担得起维持它们"。

对企业的前瞻意义

在MiniMax-M2崛起后的几周内,Kimi K2 Thinking已经超越了它——以及GPT-5和Claude 4.5——在几乎每一个推理和智能体基准测试中。

该模型证明,开源权重系统现在可以在能力和效率上达到或超越专有前沿模型。

对于AI研究社区来说,K2 Thinking不仅仅是又一个开源模型:它是前沿已经变得协作化的证据。

今天可用的性能最佳的推理模型不是封闭的商业产品,而是任何人都可以访问的开源系统。


原文来源: VentureBeat

整理:周华香

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iPhone 18 Pro Max,外观彻底变了!

iPhone 18 Pro Max,外观彻底变了!

果粉俱乐部
2025-11-15 14:12:44
东部第一!活塞双杀76人豪取9连胜 马克西31+7新科探花18+7

东部第一!活塞双杀76人豪取9连胜 马克西31+7新科探花18+7

醉卧浮生
2025-11-15 10:58:40
女单半决赛时间冲突,CCTV5不播陈梦对鳗鱼,节目单调整

女单半决赛时间冲突,CCTV5不播陈梦对鳗鱼,节目单调整

阅尽天下精彩
2025-11-15 10:31:18
全运会乒乓球:女单决赛对阵出炉!希望之星4:1晋级,冲击冠军

全运会乒乓球:女单决赛对阵出炉!希望之星4:1晋级,冲击冠军

国乒二三事
2025-11-15 06:14:50
库里哈登逆天数据只是80后球星回光返照,他们的对手不是争冠球队

库里哈登逆天数据只是80后球星回光返照,他们的对手不是争冠球队

姜大叔侃球
2025-11-15 17:51:00
安德玛为何宁愿多花9500万,也要终止与库里12年的合作?

安德玛为何宁愿多花9500万,也要终止与库里12年的合作?

体育产业独立评论
2025-11-14 22:24:08
柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

红星新闻
2025-11-13 19:47:43
荒野求生大局已定,2人名利双收,2人显露冠军相,只有她被骂惨

荒野求生大局已定,2人名利双收,2人显露冠军相,只有她被骂惨

以茶带书
2025-11-14 21:03:27
“除了鬼,什么都见过了!”陪读妈妈开始“污名化”,太毁三观!

“除了鬼,什么都见过了!”陪读妈妈开始“污名化”,太毁三观!

知晓科普
2025-11-04 09:48:54
2025年全球游客访问量最高的国家/地区

2025年全球游客访问量最高的国家/地区

常涤非观点
2025-11-13 09:11:17
乌国防情报局奔袭6500公里,炸毁俄罗斯西伯利亚铁路导致运输中断

乌国防情报局奔袭6500公里,炸毁俄罗斯西伯利亚铁路导致运输中断

山河路口
2025-11-15 15:35:03
王伟烈士的妻子阮国琴退役了,如今他的儿子 也是一位海军现役军官

王伟烈士的妻子阮国琴退役了,如今他的儿子 也是一位海军现役军官

Ck的蜜糖
2025-11-13 11:46:35
NBA得分榜大乱!5人得分30+,库里升第7,杜兰特19,4人抢得分王

NBA得分榜大乱!5人得分30+,库里升第7,杜兰特19,4人抢得分王

大卫的篮球故事
2025-11-15 17:44:09
4-0!中国队大胜,狂轰4球,全场碾压,球迷欢呼:终于扬眉吐气

4-0!中国队大胜,狂轰4球,全场碾压,球迷欢呼:终于扬眉吐气

二疯说球
2025-11-15 09:08:19
波音737 MAX空难后数十宗诉讼中首个裁决

波音737 MAX空难后数十宗诉讼中首个裁决

北青网-北京青年报
2025-11-14 16:59:03
果然开始上强度了,055大驱率队抵近日本九州岛,高市早苗慌了

果然开始上强度了,055大驱率队抵近日本九州岛,高市早苗慌了

丁丁鲤史纪
2025-11-13 16:28:33
成功着陆!权威解读神舟二十一号太空“生死速递”是如何做到的?

成功着陆!权威解读神舟二十一号太空“生死速递”是如何做到的?

科普岛
2025-11-14 18:58:19
森林狼传闻:凯文·乐福将价值6000万美元的合同揉成一团扔掉

森林狼传闻:凯文·乐福将价值6000万美元的合同揉成一团扔掉

好火子
2025-11-15 03:44:35
局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

云鹏叙事
2025-11-15 13:09:29
七旬爷叔自称“等爱情”每晚伫立南浦大桥下,却拖欠房租、屋中堆满垃圾清运出100多箱,房东:老鼠、蟑螂到处都是

七旬爷叔自称“等爱情”每晚伫立南浦大桥下,却拖欠房租、屋中堆满垃圾清运出100多箱,房东:老鼠、蟑螂到处都是

大象新闻
2025-11-15 00:14:09
2025-11-15 18:07:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先进入GenAl。
219文章数 8关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

旅游
游戏
亲子
公开课
军事航空

旅游要闻

赏彩林不用去川西 凉山人自己的“大兴安岭”美翻了!丨图集

高玩招魂《星鸣特攻》私服成功 宣传片火速被下架

亲子要闻

摊牌了,我不装了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版