网易首页 > 网易号 > 正文 申请入驻

Kimi K2 - 非主流的超级大杯非推理大模型

0
分享至

马斯克的Grok4刚发布没两天,我以为Grok4会是世界上最大的非推理模型,毕竟它背后有世界上最大的GPU集群之一,但是它走的还是其他家的老路,做一个不错的foundation model,然后用RL做post-training,刷榜,最后再搞个一年2万块的会员门槛将普通用户拒之门外。

但Kimi给全世界交出来一份另类的卷子,我觉得简直就是针对于马斯克Grok4的回手掏,这是一点儿不那么技术的分析。

Github:https://github.com/MoonshotAI/Kimi-K2?tab=readme-ov-file#4-deployment

技术报告:https://moonshotai.github.io/Kimi-K2/

使用方式(免费):https://www.kimi.com/

  • 全世界最大的开源模型,总参数量高达1T(Trillion,万亿),以前一般都用B(10亿),比如DeepSeek的671B,Qwen系列的从0.5B到300多B,主流模型都在几百亿-几千亿的区间,以前有万亿模型,但是训练容易爆炸且推理速度极慢,Kimi搞出来一套招法搞定了超大稀疏MoE,它标志着「开源规模」进入了万亿参数时代。

  • Foundation model,也就是它本身是不带有thinking/reasoning能力的,用DeepSeek来比如,V3模型就是foundation model,R1就是推理模型,R1是在V3的基础上后训练出来的。这样做很吃亏,因为Foundation model加点RL post-training就有非常明显的提升,但Kimi没这么做。

  • Agent时代的含金量又一次提升,Agent非常火,大家用的模型都非常的统一,不管事OpenAI的o系列,Google的Gemini系列,DeepSeek的R系列,Claude的4-sonnet或者opus,全都是整齐划一的推理/思考模型,不为别的,本身的foundation model脑子不够聪明,其次脑容量小(context length),做不了动不动运行几十分钟需要吃掉几万十几万token的agent任务。Kimi K2反其道而行,foundation model,直接支持Agent,tool calling。这一点儿非常狠,意味着Kimi给所有人留下了悬念,我Foundation model的agentic能力就这么好,你等我post- training弄好,还不得起飞?

  • 引领新范式,原来的大模型由ChatGPT起了个头,虽然做的是AI,但实际上大家都叫ChatBot,也就是聊天机器人,聊天其实就圈定了一个大概范围,即Conversation,聊天嘛,你撑死了就是你一嘴我一嘴。Kimi K2把foundation model叫做:Open Agentic Intelligence。

翻译过来,就是开放代理型智能,无疑想要引领一把AI大模型的流行趋势,把本身设计为聊天机器人的foundation model,彻底转换成更加适配Agent时代的AI,说实话,我觉得非常的有野心。

这次的kimi技术报告里面有以下的重要细节。

PART 0PART 01

1 模型架构与创新设计

一共发了俩模型:

  • Kimi-K2-Base,这是为需要“完全控制微调”的研究人员准备的基础模型

  • Kimi-K2-Instruct,这是为“即插即用的通用聊天和智能体体验”而优化的训练后模型

两个都是万亿的超大规模MoE(混合专家结构),激活参数只有32B;同样的DeepSeek等一众大模型都用的MoE结构,这不稀奇,但DeepSeek V3/R1的总参数都是671B,而激活参数量比k2还多,37B。

另外,据说GPT-4有约1.8万亿总参数,分布在16个专家中,每次推理激活约2800亿参数(即激活2个专家)。

K2的激活参数量(320亿)远低于此,这表明其设计选择优先考虑了更低的推理计算成本和更快的响应速度,这意味着Kimi依旧觉得今后的几年内算力成本依旧是瓶颈(部分的符合token经济学原理),所以得出来结论,那就是越稀疏越省钱。

值得注意的是,K2的专家数量够多的,一共有384个专家,这种设计可以被理解为构建了一个庞大的“知识库”,而非一个由少数通才组成的委员会。拥有384个专家的模型,其特化潜力远比拥有16个专家(如GPT-4)的模型更为精细。

每次激活8个专家意味着,对于任何给定的任务,模型都会组建一个“专家委员会”来处理信息。庞大的专家数量暗示了一种旨在捕获极其广泛和多样化的知识领域与技能的设计哲学。这些海量的“非激活”参数构成了一个巨大的知识储备库。

这对于模型的下游应用具有重要意义。例如,针对特定任务(如法律分析或医学研究)对Kimi-K2-Base进行微调可能会非常高效。

另外K2支持128K的上下文(Context)长度,在foundation model里面算是非常大的长度来,这得益于MLA的attention机制,再加上本身Kimi起家就是靠的1百万超长上下文,所以这一点儿能实现也不奇怪。

PART 02

2 训练稳定性的主要基石:MuonClip优化器

这部分的写作非常的苏神。

原理比较复杂,简单来讲大模型在训练的时候想要的错误率是这样的,平缓下降,直到降到不能降。

但很不好意思,这种动不动就是几周甚至几个月的训练,非常有可能是你训练到一定程度,模型直接炸了。

这个现象就叫“注意力逻辑值爆炸”(exploding attention logits)。在该现象中,注意力机制中的数值(主要是attention公式里面的q和k值)会失控式增长,最终导致训练过程崩溃。

Kimi发明了MuonClip,这项技术的核心是一种名为qk-clip的创新方法。它在每次优化器更新后,直接对查询(query, q)和键(key, k)投影的权重矩阵进行重新缩放。通过这种方式,qk-clip从源头上控制了注意力逻辑值的尺度,有效防止了其爆炸性增长。

这项创新的效果非常显著,使得月之暗面能够在高达15.5万亿个tokens的数据集上预训练Kimi-K2-Base,并实现了“零训练尖峰”(zero training spikes)的记录。

效果非常好,非常平缓的下降。

这一成就揭示了大型语言模型开发中一个更深层次的现实:训练稳定性是真正的技术前沿。大家对大型语言模型的讨论往往集中在参数数量、数据规模和基准测试分数上。

然而,一个隐藏的、但可以说更为关键的前沿是训练的稳定性。像Kimi-K2这样的万亿参数模型,一次完整的训练运行可能需要耗费价值数千万甚至上亿美元的计算资源。一次“训练spike”就可能使数周的进展和巨大的财务投资付之一炬。

Kimi现在开源了,给友商省钱了,仗义。

PART 03

3 原生工具调用与Agent架构

K2最大的特色亮点之一,是将工具使用能力和Agent能力深度融入模型训练与推理接口中,它的定位为“为智能体能力精心优化”并为“工具使用、推理和自主解决问题”而设计的模型,这是一个概念上的转变。

这个能力是通过这个大规模的智能体数据模拟出来的,说白了,没有数据就没有智能,Kimi构建了这么一套流程来不断的产生数据并反哺自身。

这个过程涉及构建数百个模拟智能体,让它们尝试使用工具完成任务,并使用一个AI裁判来筛选和学习这些交互过程。此外,还辅以一个“通用强化学习”(General Reinforcement Learning)系统,在该系统中,模型充当自己的评审员,以在没有唯一正确答案的任务上进行自我提升。

简单来说,K2当裁判、生成器、环境三合一,看似是 self-play,其实是把人类数据蒸馏成“高维规则”,你看rubric提到了很多次。

说白了,虽然rubric足够的多和详细,但还会有问题:

裁判模型本身如果带有偏见,整个数据飞轮会把偏差指数级放大。更深层的问题是,当 rubric 足够细,模型其实不再是“自主学习”,而是“规则过拟合”。

不过暂时看来,K2还是挺强的,不过未来如何,得看post-training的到的推理模型。

PART 04

4 性能

这一个放最后的原因是刷榜性能评分并不能代表实际表现,只能作为参考。

K2和非推理模型相比,绝大多数在top2,少数top1,top2的也仅比Claude4差点。

在使用工具这个维度上大多数排在top1。

编程部分弱于Claude。

主要的特色在于对于K2工具使用和自主编程的测试,其实就是agent能力。在 TauCoT 工具使用基准(Tau2系列)中,Kimi-K2 在零样本情况下可以理解用户意图并正确选择工具,取得如零售场景70.6、航空56.5的高平均得分,接近甚至超过Claude等模型。

在AceBench(开放代理任务评测)中,Kimi-K2 也达到 76.5% 的准确率,与GPT-4/Claude处于同一量级。从结果看,Kimi-K2 确立了自身作为当今最强开源通用大模型之一的地位,其在知识、推理、编码各方面的表现都逼近甚至部分超越了GPT-4、Claude等业界顶尖水平。

Kimi K2 的发布标志着 2025 年大模型竞赛的赛道还有很多,比如超大规模的开源模型,摈弃chatbot而是直接原生agent能力,还有就是要想实现效率高和性能好,超级稀疏MoE或许是个解法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赚疯了!净利润 1921 亿!收入 2821 亿!

赚疯了!净利润 1921 亿!收入 2821 亿!

云头条
2026-06-25 16:30:47
他的军衔不好评,元帅、大将都不适,对儿子说:苏联同职务是元帅

他的军衔不好评,元帅、大将都不适,对儿子说:苏联同职务是元帅

史之铭
2026-06-26 01:24:23
最佳血压是多少?医生建议:过了71岁以后,血压最好保持这标准

最佳血压是多少?医生建议:过了71岁以后,血压最好保持这标准

叙说医疗健康
2026-06-15 08:00:49
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

磊子讲史
2026-06-22 15:59:52
中国外交官已撤离!比美国还嚣张的国家,不许统一,如今态度急转

中国外交官已撤离!比美国还嚣张的国家,不许统一,如今态度急转

涵豆说娱
2026-06-26 02:37:28
莫言:千万要记住,和周围人处好关系的秘诀是学会三个“假装”:1、假装不在乎得失;2、假装看不懂人心;3、假装自己过得很好

莫言:千万要记住,和周围人处好关系的秘诀是学会三个“假装”:1、假装不在乎得失;2、假装看不懂人心;3、假装自己过得很好

背包旅行
2026-06-25 15:03:55
日本队的世界杯悲剧:小组第二出线,却等于提前出局

日本队的世界杯悲剧:小组第二出线,却等于提前出局

乐乐哥
2026-06-26 02:20:48
外交部长“乔冠华”后人今何在?儿子子承父业,女儿名气家喻户晓

外交部长“乔冠华”后人今何在?儿子子承父业,女儿名气家喻户晓

文史达观
2026-06-17 20:24:25
世界杯历史出场最佳阵容浮现,梅西、马拉多纳和C罗入阵

世界杯历史出场最佳阵容浮现,梅西、马拉多纳和C罗入阵

懂球帝
2026-06-25 21:05:07
我今年72了,用一生的经验告诉你:永远不要跟任何人,透露这3个底牌,哪怕是最亲的人

我今年72了,用一生的经验告诉你:永远不要跟任何人,透露这3个底牌,哪怕是最亲的人

东林夕亭
2026-05-07 09:32:41
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
罗马诺:楚阿梅尼年薪极高,曼联现阶段在财务层面无法承担

罗马诺:楚阿梅尼年薪极高,曼联现阶段在财务层面无法承担

懂球帝
2026-06-25 17:22:12
炸锅!七宝中学直接逆袭冲进前三,8人上榜屏蔽线!

炸锅!七宝中学直接逆袭冲进前三,8人上榜屏蔽线!

马蹄烫嘴说美食
2026-06-25 12:29:05
3换2向上交易31顺位,火箭队选中19+5得分手 补强一号位 模板洛瑞

3换2向上交易31顺位,火箭队选中19+5得分手 补强一号位 模板洛瑞

替补席看球
2026-06-25 08:47:39
一场4-2逆转,摩洛哥仍无缘头名!淘汰赛对手浮现,日本做好准备

一场4-2逆转,摩洛哥仍无缘头名!淘汰赛对手浮现,日本做好准备

侃球熊弟
2026-06-25 08:02:08
新加坡部长警告中国:台海如果爆发战争,等于中美直接对抗

新加坡部长警告中国:台海如果爆发战争,等于中美直接对抗

战域笔墨
2026-06-26 00:23:39
无需催生!中国最愿意生孩子的省,根本不用催,连续七年全国第一

无需催生!中国最愿意生孩子的省,根本不用催,连续七年全国第一

素衣读史
2026-05-26 21:52:56
世界杯比赛前瞻丨日本VS瑞典:有没有勇气战巴西,打脸大罗?

世界杯比赛前瞻丨日本VS瑞典:有没有勇气战巴西,打脸大罗?

体育世界
2026-06-25 19:03:54
焦点式穿搭,效果大大的超出预期

焦点式穿搭,效果大大的超出预期

飛尚日记
2026-06-25 06:40:18
2026-06-26 03:35:00
平凡AI incentive-icons
平凡AI
高校AI从业者
74文章数 24关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

房产
健康
本地
旅游
军事航空

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

医生如何快速诊断脑梗和脑出血?

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

旅游要闻

人生第一次去巴黎,最难忘的竟然是扫墓

军事要闻

特朗普:现在到了关注朝鲜问题的时候了

无障碍浏览 进入关怀版