网易首页 > 网易号 > 正文 申请入驻

开源新纪录!月之暗面 Kimi K2 实测超越 GPT-5 和 Claude 4.5,完全免费

0
分享至


开源模型的历史性突破

就在美国AI巨头OpenAI因高额支出承诺而备受质疑之际,中国开源AI供应商正在加速竞争——其中一家甚至在关键的第三方性能基准测试中赶超了OpenAI的旗舰付费专有模型GPT-5,而且是用一个完全免费的模型

月之暗面(Moonshot AI)今日发布的全新Kimi K2 Thinking模型,在推理、编程和智能体工具使用等基准测试中一举超越了所有专有和开源竞争对手,登顶榜首。

尽管是完全开源,该模型目前在多项标准评估中的表现已超过OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思维模式)以及xAI的Grok-4——这标志着开放AI系统竞争力的一个历史性拐点

开发者可以通过 platform.moonshot.ai 和 kimi.com 访问该模型;权重和代码托管在 Hugging Face 上。开源发布包含了聊天、推理和多工具工作流的API。

用户可以直接通过其类似ChatGPT的网站以及Hugging Face空间试用Kimi K2 Thinking。

修改版开源协议:商业友好

月之暗面在Hugging Face上以修改版MIT协议正式发布了Kimi K2 Thinking。

该协议授予完整的商业和衍生权利——这意味着个人研究者和代表企业客户工作的开发者可以免费访问并在商业应用中使用——但增加了一项限制:

“如果软件或任何衍生产品的月活跃用户超过1亿,或每月收入超过2000万美元,部署方必须在产品用户界面上显著展示’Kimi K2’标识。”

对于大多数研究和企业应用,这一条款相当于一个轻量级的署名要求,同时保留了标准MIT协议的自由度。

这使得K2 Thinking成为目前可用的最宽松授权的前沿级模型之一

新的基准测试领跑者

Kimi K2 Thinking是一个基于万亿参数的混合专家(MoE)模型,每次推理激活320亿参数

它将长程推理与结构化工具使用相结合,能够在无需人工干预的情况下执行200-300次连续的工具调用

性能数据一览

根据月之暗面公布的测试结果,K2 Thinking取得了:

  • 44.9% - Humanity’s Last Exam(HLE),达到业界最先进水平
  • 60.2% - BrowseComp(智能体网络搜索和推理测试)
  • 71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6(关键编程评估)
  • 56.3% -Seal-0(真实世界信息检索基准)

在这些任务中,K2 Thinking持续超越GPT-5的相应得分,并超过了几周前MiniMax AI发布的前开源领跑者MiniMax-M2。

开源模型超越专有系统

GPT-5和Claude Sonnet 4.5 Thinking仍是领先的专有"思维"模型。

然而在同一基准测试套件中,K2 Thinking的智能体推理得分超过了两者:例如在BrowseComp上,开源模型的60.2%明显领先GPT-5的54.9%和Claude 4.5的24.1%。

K2 Thinking在GPQA Diamond上也略胜GPT-5一筹(85.7% vs 84.5%),并在AIME 2025和HMMT 2025等数学推理任务上与之持平。

只有在某些重度模式配置下——GPT-5聚合多条推理轨迹——专有模型才能重新取得平衡。

月之暗面的全开源权重发布能够达到或超过GPT-5的得分,标志着一个转折点。封闭前沿系统与公开可用模型之间的差距,在高端推理和编程领域已经事实上消失

超越MiniMax-M2:前任开源王者

就在一周半前,VentureBeat报道MiniMax-M2时,它还被誉为"开源LLM新王",在开源权重系统中取得了顶尖得分:

  • τ²-Bench: 77.2

  • BrowseComp: 44.0

  • FinSearchComp-global: 65.5

  • SWE-Bench Verified: 69.4

这些结果使MiniMax-M2在智能体工具使用方面接近GPT-5级别的能力。然而Kimi K2 Thinking现在以大幅优势超越了它们。

其BrowseComp结果60.2%超过M2的44.0%,SWE-Bench Verified的71.3%也胜过M2的69.4%。即使在FinSearchComp-T3(47.4%)等金融推理任务上,K2 Thinking表现相当,同时保持了卓越的通用推理能力。

技术创新

从技术角度看,两个模型都采用稀疏混合专家架构以提高计算效率,但月之暗面的网络激活了更多专家,并部署了先进的量化感知训练(INT4 QAT)

这种设计在不降低准确性的情况下使推理速度翻倍——这对于支持高达256k上下文窗口的长"思维token"会话至关重要。

智能体推理与工具使用

K2 Thinking的核心能力在于其显式推理轨迹。模型输出一个辅助字段reasoning_content,在每个最终响应之前揭示中间逻辑。这种透明性在长时间多轮任务和多步骤工具调用中保持了连贯性。

月之暗面发布的参考实现演示了模型如何自主执行"每日新闻报告"工作流:调用日期和网络搜索工具、分析检索内容、生成结构化输出——同时保持内部推理状态。

这种端到端的自主性使模型能够在数百个步骤中进行规划、搜索、执行和综合证据,反映了正在崛起的"智能体AI"系统类别,这些系统以最少的监督运行。

效率与访问成本

尽管规模达到万亿参数,K2 Thinking的运行成本保持适中。月之暗面列出的使用价格为:

  • $0.15 / 100万tokens(缓存命中)
  • $0.60 / 100万tokens(缓存未命中)
  • $2.50 / 100万tokens(输出)

这些价格甚至优于MiniMax-M2的$0.30输入/$1.20输出定价——比GPT-5($1.25输入/$10输出)低了一个数量级

对比背景:开源权重加速

M2和K2 Thinking的快速接连发布,展示了开源研究追赶前沿系统的速度有多快。MiniMax-M2证明了开源模型可以以一小部分计算成本接近GPT-5级别的智能体能力。月之暗面现在将这一前沿推进得更远,将开源权重从平衡推向了彻底领先

两个模型都依赖稀疏激活来提高效率,但K2 Thinking更高的激活数(320亿 vs 100亿活跃参数)在各个领域产生了更强的推理保真度。其测试时缩放——扩展"思维tokens"和工具调用轮次——提供了可测量的性能提升,无需重新训练,这是MiniMax-M2中尚未观察到的特性。

技术展望

月之暗面报告称,K2 Thinking支持原生INT4推理和256k token上下文,性能下降微乎其微。其架构集成了量化、并行轨迹聚合(“重度模式”)以及针对推理任务调优的混合专家路由。

在实践中,这些优化使K2 Thinking能够维持复杂的规划循环——代码编译-测试-修复、搜索-分析-总结——跨越数百次工具调用。这种能力支撑了它在BrowseComp和SWE-Bench上的优异表现,而推理连续性在这些任务中至关重要。

对AI生态系统的巨大影响

开放和封闭模型在高端的趋同,标志着AI格局的结构性转变。曾经完全依赖专有API的企业,现在可以部署匹配GPT-5级别推理的开源替代方案,同时保留对权重、数据和合规性的完全控制

月之暗面的开放发布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2设定的先例,但将其扩展到完整的智能体推理

对于学术和企业开发者来说,K2 Thinking提供了透明性和互操作性——检查推理轨迹和针对特定领域智能体微调性能的能力。

战略时机:对AI投资模式的挑战

K2 Thinking的到来表明,月之暗面——这家2023年成立、获得中国一些最大应用和科技公司投资的年轻初创公司——已经准备好在日益激烈的竞争中一展身手,而这正值AI行业最大玩家的财务可持续性受到越来越多审视之际。

就在一天前,OpenAI首席财务官Sarah Friar在WSJ Tech Live活动上表示,美国政府可能最终需要为该公司超过1.4万亿美元的计算和数据中心承诺提供"后盾"——这一评论被广泛解读为呼吁纳税人支持的贷款担保,引发了争议。

尽管Friar后来澄清OpenAI并未寻求直接的联邦支持,但这一事件重新点燃了关于AI资本支出规模和集中度的辩论。

随着OpenAI、微软、Meta和Google都在竞相确保长期芯片供应,批评者警告说,这是一场不可持续的投资泡沫和"AI军备竞赛",更多是由战略恐惧驱动,而非商业回报——如果出现犹豫或市场不确定性,可能会"爆炸"并拖垮整个全球经济,因为现在已经有太多交易和估值是基于对AI持续巨额投资和巨额回报的预期。

在这种背景下,月之暗面和MiniMax的开源权重发布给美国专有AI公司及其支持者带来了更大压力,要求他们证明投资规模和盈利路径的合理性。

商业逻辑的根本性挑战

如果企业客户从免费开源的中国AI模型中获得的性能可以与付费专有AI解决方案(如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro)相当甚至更好——他们为什么还要继续付费访问专有模型?

硅谷的标杆企业如Airbnb已经引起关注,因为它们承认大量使用阿里巴巴的Qwen等中国开源替代方案,而非OpenAI的专有产品。

对于投资者和企业来说,这些发展表明,高端AI能力不再等同于高端资本支出。最先进的推理系统可能不是来自建造超大规模数据中心的公司,而是来自优化架构和量化以提高效率的研究团队。

从这个意义上说,K2 Thinking的基准主导地位不仅仅是一个技术里程碑——它是一个战略里程碑,到来的时机正值AI市场最大的问题已经从"模型能变得多强大"转变为"谁能负担得起维持它们"。

对企业的前瞻意义

在MiniMax-M2崛起后的几周内,Kimi K2 Thinking已经超越了它——以及GPT-5和Claude 4.5——在几乎每一个推理和智能体基准测试中。

该模型证明,开源权重系统现在可以在能力和效率上达到或超越专有前沿模型。

对于AI研究社区来说,K2 Thinking不仅仅是又一个开源模型:它是前沿已经变得协作化的证据。

今天可用的性能最佳的推理模型不是封闭的商业产品,而是任何人都可以访问的开源系统。


原文来源: VentureBeat

整理:周华香

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

从排队3000桌到闭店80%!文和友的败局,给网红餐饮上了一课

青眼财经
2026-02-07 22:22:53
4.5万被抽走4.4万,真正的“悲哀”你没看出来!

4.5万被抽走4.4万,真正的“悲哀”你没看出来!

走读新生
2026-02-09 14:18:52
官宣!热刺宣布弗兰克下课,8轮不胜+排英超倒数,2亿引援全废

官宣!热刺宣布弗兰克下课,8轮不胜+排英超倒数,2亿引援全废

阿超他的体育圈
2026-02-11 19:10:42
湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

湖南第一庸官,好面子导致政府负债1000亿,为政绩骗刘强东100亿

芊芊子吟
2026-01-15 10:20:03
继女订婚,我送一套婚房,婚宴前晚她来电:叔叔,明天你别坐主桌

继女订婚,我送一套婚房,婚宴前晚她来电:叔叔,明天你别坐主桌

堇色夜行
2025-12-06 14:47:59
女儿送了父亲一条好烟,父亲不舍得抽,3年后打开泪流满面

女儿送了父亲一条好烟,父亲不舍得抽,3年后打开泪流满面

兰姐说故事
2024-11-06 21:00:02
银行内部实话:存款达这个金额,会被系统盯上

银行内部实话:存款达这个金额,会被系统盯上

小陆搞笑日常
2026-02-10 03:30:26
内存现泡沫信号!DDR4价格闪崩近20%已走到尽头

内存现泡沫信号!DDR4价格闪崩近20%已走到尽头

3DM游戏
2026-02-11 17:41:04
55分+14板+14助,又一次无缘全明星!哈登要逆天改命冲击总冠军

55分+14板+14助,又一次无缘全明星!哈登要逆天改命冲击总冠军

世界体育圈
2026-02-11 10:24:19
我去!塔图姆被下放了!!

我去!塔图姆被下放了!!

柚子说球
2026-02-11 17:20:08
散户攥着手机发抖:比特币跟风入场才半月,43万爆仓大军就有我

散户攥着手机发抖:比特币跟风入场才半月,43万爆仓大军就有我

二大爷观世界
2026-02-11 16:26:30
每周二“发对象”!华裔研究生研发约会软件,斯坦福超5000名学生“沦陷”

每周二“发对象”!华裔研究生研发约会软件,斯坦福超5000名学生“沦陷”

红星新闻
2026-02-11 14:15:36
Seedance2.0刷爆全网!知名财作家:女主播找工作时间不会很多了

Seedance2.0刷爆全网!知名财作家:女主播找工作时间不会很多了

火山詩话
2026-02-11 06:17:37
NBA宣布!再见了,哈登!又喂出一个全明星中锋

NBA宣布!再见了,哈登!又喂出一个全明星中锋

篮球实战宝典
2026-02-11 14:37:42
又表白了!董宇辉最有名的才女粉丝留言火了,是26岁的博士研究生

又表白了!董宇辉最有名的才女粉丝留言火了,是26岁的博士研究生

火山詩话
2026-02-11 16:56:41
大胜20分到溃败!哈登被低估,杜兰特赛后明牌,并向火箭提出要求

大胜20分到溃败!哈登被低估,杜兰特赛后明牌,并向火箭提出要求

巴叔GO聊体育
2026-02-11 15:42:21
房贷利率,又要降了!

房贷利率,又要降了!

新浪财经
2026-02-11 18:17:32
一路走好!离春节仅剩1周,5位名人接连去世,最小20岁令人唏嘘

一路走好!离春节仅剩1周,5位名人接连去世,最小20岁令人唏嘘

青梅侃史啊
2026-02-10 17:09:08
71岁成龙自曝患终身多动症!带病搏命60年,自律炼成真功夫!

71岁成龙自曝患终身多动症!带病搏命60年,自律炼成真功夫!

世界王室那些事
2026-02-11 08:30:11
第一次对“硫磺皂”产生了敬意!2块钱的东西,居然用途这么广

第一次对“硫磺皂”产生了敬意!2块钱的东西,居然用途这么广

装修秀
2026-02-07 11:30:03
2026-02-11 20:48:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先进入GenAl。
234文章数 12关注度
往期回顾 全部

科技要闻

V4来了?DeepSeek 灰度测试新版本

头条要闻

中方回应"若中加达成贸易协议中方会终止加冰球运动"

头条要闻

中方回应"若中加达成贸易协议中方会终止加冰球运动"

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

习酒节前价格雪崩控量稳价变空谈

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

艺术
旅游
数码
房产
军事航空

艺术要闻

康生草书为何远胜郭沫若,因为他练过这幅字

旅游要闻

文化和旅游部公布《旅游投诉处理办法》,3月15日起施行

数码要闻

i7胜i9的低噪声猛机!雷神猎刃 超竞版测评

房产要闻

177亿元,砸向超级城更!海南这座城,正式起飞!

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版