网易首页 > 网易号 > 正文 申请入驻

月之暗面Kimi K2在关键基准测试中超越GPT-4且免费

0
分享至

月之暗面(Moonshot AI),这家开发了热门Kimi聊天机器人的中国人工智能初创公司,于周五发布了一款开源大语言模型,直接挑战OpenAI和Anthropic的专有系统,在编程和自主智能体任务方面表现尤为出色。

这款名为Kimi K2的新模型采用混合专家架构,总参数量达1万亿,激活参数为320亿。公司发布了两个版本:面向研究人员和开发者的基础模型,以及针对聊天和自主智能体应用优化的指令调优版本。

"Kimi K2不仅能回答,更能行动,"公司在发布博客中表示。"有了Kimi K2,先进的智能体智能变得更加开放和易用。我们迫不及待想看到你们的创作。"

该模型的突出特点是针对"智能体"能力的优化——即自主使用工具、编写和执行代码、完成复杂多步骤任务而无需人工干预的能力。在基准测试中,Kimi K2在具有挑战性的软件工程基准SWE-bench Verified上达到65.8%的准确率,超越了大多数开源替代方案,与某些专有模型表现相当。

大卫对战歌利亚:Kimi K2如何超越硅谷数十亿美元的模型

性能指标展现了一个应该让OpenAI和Anthropic高管关注的故事。Kimi K2-Instruct不仅与大厂竞争——它在对企业客户最重要的任务上系统性地超越了它们。

在LiveCodeBench这个最真实的编程基准测试中,Kimi K2达到53.7%的准确率,决定性地击败了DeepSeek-V3的46.9%和GPT-4.1的44.7%。更令人瞩目的是:它在MATH-500上获得97.4%的分数,而GPT-4.1为92.4%,这表明月之暗面在数学推理方面破解了一些让资金更雄厚的大型竞争对手都束手无策的根本问题。

但基准测试没有反映的是:月之暗面用成本仅为现有厂商训练和推理花费一小部分的模型就实现了这些结果。当OpenAI为渐进式改进而烧掉数亿美元计算成本时,月之暗面似乎找到了通往同一目标的更高效路径。这是创新者困境的实时上演——精干的局外者不仅匹配了现有厂商的性能,还做得更好、更快、更便宜。

其影响远超单纯的吹嘘权利。企业客户一直在等待能够真正自主完成复杂工作流程的AI系统,而不仅仅是生成令人印象深刻的演示。Kimi K2在SWE-bench Verified上的强劲表现表明它可能最终兑现这一承诺。

MuonClip突破:为何这个优化器可能重塑AI训练经济学

月之暗面技术文档中埋藏的一个细节可能比模型的基准分数更重要:他们开发的MuonClip优化器,实现了万亿参数模型的稳定训练,"零训练不稳定性"。

这不仅是工程成就——可能是范式转变。训练不稳定性一直是大语言模型开发的隐性税收,迫使公司重启昂贵的训练运行、实施成本高昂的安全措施,并接受次优性能以避免崩溃。月之暗面的解决方案通过重新缩放查询和键投影中的权重矩阵直接解决注意力logits爆炸问题,本质上是从源头解决问题而不是在下游打补丁。

经济影响是惊人的。如果MuonClip被证明是可泛化的——月之暗面表示确实如此——这一技术可能会显著降低训练大型模型的计算开销。在一个训练成本以千万美元计的行业中,即使是适度的效率提升也会转化为以季度而非年计的竞争优势。

更有趣的是,这代表了优化理念的根本分歧。虽然西方AI实验室基本上收敛于AdamW的变体,月之暗面对Muon变体的押注表明他们正在探索优化景观的真正不同的数学方法。有时最重要的创新不是来自扩展现有技术,而是完全质疑其基本假设。

开源作为竞争武器:月之暗面的激进定价策略瞄准大科技公司的利润中心

月之暗面决定开源Kimi K2同时提供有竞争力的API访问价格,揭示了对市场动态的深刻理解,远超利他主义的开源原则。

以缓存命中每百万输入Token 0.15美元和每百万输出Token 2.50美元的价格,月之暗面的定价明显低于OpenAI和Anthropic,同时提供可比较——在某些情况下更优越——的性能。但真正的战略杰作是双重可用性:企业可以从API开始立即部署,然后迁移到自托管版本以优化成本或满足合规要求。

这为现任提供商设置了陷阱。如果他们匹配月之暗面的定价,就会压缩自己在最盈利产品线上的利润率。如果不匹配,就面临客户流失到表现同样好但成本仅为一小部分的模型的风险。与此同时,月之暗面通过两个渠道同时建立市场份额和生态系统采用。

开源组件不是慈善——而是客户获取。每个下载并试验Kimi K2的开发者都成为潜在的企业客户。社区贡献的每个改进都降低了月之暗面自己的开发成本。这是一个利用全球开发者社区加速创新同时建立闭源竞争对手几乎无法复制的竞争护城河的飞轮。

从演示到现实:为何Kimi K2的智能体能力标志着聊天机器人表演的终结

月之暗面在社交媒体上分享的演示揭示了比令人印象深刻的技术能力更重要的东西——它们显示AI终于从客厅把戏毕业到实用功能。

考虑薪资分析示例:Kimi K2不仅回答了关于数据的问题,还自主执行了16个Python操作来生成统计分析和交互式可视化。伦敦音乐会规划演示涉及跨多个平台的17次工具调用——搜索、日历、邮件、航班、住宿和餐厅预订。这些不是设计来打动人的精心策划演示;它们是AI系统实际完成知识工作者日常执行的复杂多步骤工作流程的例子。

这代表了从当前一代在对话方面表现出色但在执行方面有困难的AI助手的理念转变。当竞争对手专注于让他们的模型听起来更像人类时,月之暗面优先考虑让它们更有用。这种区别很重要,因为企业不需要能通过图灵测试的AI——他们需要能通过生产力测试的AI。

真正的突破不在于任何单一能力,而在于多个工具和服务的无缝编排。以往"智能体"AI的尝试需要大量提示工程、仔细的工作流程设计和持续的人工监督。Kimi K2看起来能够自主处理任务分解、工具选择和错误恢复的认知开销——这是精密计算器与真正思维助手之间的区别。

大趋势:当开源模型最终追上领导者

Kimi K2的发布标志着行业观察者预测但很少见证的拐点:开源AI能力真正与专有替代方案趋同的时刻。

与之前在狭窄领域表现出色但在实际应用上失败的"GPT杀手"不同,Kimi K2在定义通用智能的全谱任务上展现了广泛的能力。它编写代码、解决数学问题、使用工具、完成复杂工作流程——所有这些都可以免费获得用于修改和自主部署。

这种趋同出现在AI巨头特别脆弱的时刻。OpenAI面临证明其3000亿美元估值合理性的巨大压力,而Anthropic在日益拥挤的市场中努力区分Claude。两家公司都建立了基于维持技术优势的商业模式,而Kimi K2表明这些优势可能是短暂的。

时机并非巧合。随着Transformer架构成熟和训练技术民主化,竞争优势越来越多地转向部署效率、成本优化和生态系统效应。月之暗面似乎直觉地理解这种转变,将Kimi K2定位不是作为更好的聊天机器人,而是作为下一代AI应用的更实用基础。

现在的问题不是开源模型是否能匹配专有模型——Kimi K2证明了它们已经做到了。问题是现任者是否能足够快地调整其商业模式,以在核心技术优势不再可防御的世界中竞争。基于周五的发布,这个适应期刚刚变得相当短暂。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一语成谶是巧合还是命中注定?网友:用十年换600分,结果出分599

一语成谶是巧合还是命中注定?网友:用十年换600分,结果出分599

另子维爱读史
2026-06-24 22:45:31
媳妇突发奇想“阳台封一半,留一半”,完工后变成“绝美双阳台”,邻居排队过来打卡!

媳妇突发奇想“阳台封一半,留一半”,完工后变成“绝美双阳台”,邻居排队过来打卡!

设计最前沿
2026-06-23 01:59:31
北大武大赴泰招生每月补贴3500,国内孩子学费却在涨,引全民热议

北大武大赴泰招生每月补贴3500,国内孩子学费却在涨,引全民热议

今朝牛马
2026-06-23 17:27:37
出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

出大事了!网传福耀科大校长王树国论文涉嫌抄袭被举报…

慧翔百科
2026-06-23 08:29:42
填报志愿“临床医学”热度依旧第一,还是香饽饽吗?最新医学排行榜出炉,协和、上交、复旦排前三!硕博就业率披露!学医吗?陶勇走心劝告

填报志愿“临床医学”热度依旧第一,还是香饽饽吗?最新医学排行榜出炉,协和、上交、复旦排前三!硕博就业率披露!学医吗?陶勇走心劝告

梅斯医学
2026-06-24 22:39:51
赚疯了!净利润 1921 亿!收入 2821 亿!

赚疯了!净利润 1921 亿!收入 2821 亿!

云头条
2026-06-25 16:30:47
特朗普:委内瑞拉强震造成惨重死亡

特朗普:委内瑞拉强震造成惨重死亡

新京报
2026-06-25 12:12:21
婚闹过头了!新乡一伴娘当众岔腿,要新郎钻过通关,引发对方震怒

婚闹过头了!新乡一伴娘当众岔腿,要新郎钻过通关,引发对方震怒

火山詩话
2026-06-25 15:56:07
22岁文班3次拿下盖帽王!你知道史上盖帽王最多是谁吗?他能破吗

22岁文班3次拿下盖帽王!你知道史上盖帽王最多是谁吗?他能破吗

大西体育
2026-06-25 23:02:55
富二代弑母抛尸,父亲含泪出具谅解书,儿子冷言:你下去陪我妈吧

富二代弑母抛尸,父亲含泪出具谅解书,儿子冷言:你下去陪我妈吧

易玄
2026-06-24 01:47:12
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
委内瑞拉强震已造成至少32人死亡、700人受伤

委内瑞拉强震已造成至少32人死亡、700人受伤

潇湘晨报
2026-06-25 13:06:45
山海关外的比基尼远征

山海关外的比基尼远征

中国新闻周刊
2026-06-25 11:51:54
世界杯表情包最多的男人,来了!

世界杯表情包最多的男人,来了!

浙江卫视
2026-06-25 11:46:31
055将再无短板!中国重型燃气轮机惊天逆袭:打破欧美80年垄断

055将再无短板!中国重型燃气轮机惊天逆袭:打破欧美80年垄断

嫹笔牂牂
2026-06-25 11:37:58
一场4-2逆转,摩洛哥仍无缘头名!淘汰赛对手浮现,日本做好准备

一场4-2逆转,摩洛哥仍无缘头名!淘汰赛对手浮现,日本做好准备

侃球熊弟
2026-06-25 08:02:08
图赫尔回击质疑:阿根廷不依赖梅西吗?

图赫尔回击质疑:阿根廷不依赖梅西吗?

赛场名场面
2026-06-25 00:35:19
4天3板!600584,拟投巨资建高端封测厂

4天3板!600584,拟投巨资建高端封测厂

数据宝
2026-06-25 10:57:20
南方"小清华"赚麻了,却依然是中国最被低估的顶级985

南方"小清华"赚麻了,却依然是中国最被低估的顶级985

新10亿商业参考
2026-06-22 09:35:17
1换3交易!活塞送“追打詹姆斯”斯图尔特去灰熊 换3个次轮签

1换3交易!活塞送“追打詹姆斯”斯图尔特去灰熊 换3个次轮签

醉卧浮生
2026-06-25 09:22:00
2026-06-26 00:07:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19621文章数 49712关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

头条要闻

男子徒手抓蛇被咬还淡定合影 结果历经4次抢救两进ICU

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

家居
旅游
时尚
亲子
艺术

家居要闻

绿意盎然 自然之境

旅游要闻

忻州道东沟风景区:无蚊+天然氧吧,夏日避暑天花板!

女人不管多大年纪,夏天都要准备一两条过膝裙,舒适又提气质

亲子要闻

这10句保命原则一定要让孩子背下来!

艺术要闻

税务局大楼能是这样?5个立方体扭40度,高171米!

无障碍浏览 进入关怀版