01
当DeepSeek-R2持续跳票,GPT-5仍在难产,Grok-4不及预期,最近Kimi-K2的发布一时间风光无两。
K2从DeepSeek手中,夺过了全球开源第一的宝座,硅谷的开源社区的AI开发者都在热议Kimi-K2。英国《自然》杂志网站也发表文章称,中国大模型Kimi-K2发布后引发轰动,世界迎来又一个“DeepSeek时刻”。
今天凌晨,Kimi发布了K2的技术报告,有趣的是,K2也在这87个署名作者名单里。意思很明显,K2也参与创造了自己。Kimi算是第一家把AI写进作者名单里的大模型公司。
这种把AI当成协作伙伴,且署名的操作方式,体现出Kimi内部很强的“活人感”。
并非唯一例证。Kimi-K2发布前夜,工程师把它接入公司门口的电钢琴上,演奏了一首卡农。虽然有些磕磕绊绊,C大调和弦弹的也不完整,Kimi工程师chrysvlk在视频号上写道:“这算不算它的第一声‘hello world’呢?”
工程师们浪漫起来,文科生都要自愧不如。对于Kimi这家极具摇滚性的大模型公司来说,做出这种事情并不让人感到意外。
Kimi创始人杨植麟是个典型的文艺青年,以至于这家公司也透露着相同的文艺气质。月之暗面这个名字,就来自平克弗洛伊德最著名的专辑《The Dark Side of The Moon》,团队工程师们同样是一群热爱电台司令、平克·弗洛伊德、昆汀和库布里克的人。
如果让这个团队去玩音乐、拍电影,似乎也毫不违和,“我加入的一个重要原因,就是觉得味道很对味。”月之暗面的团队成员Crystal说。
Kimi的活人感,正体现在工程师们敢于公开说话。K2在钢琴营造的浪漫主义氛围中发布后,Kimi的工程师们还在知乎玩起了接龙,他们发表感想,甚至自爆公司内部决策,解答网友对于技术方面的疑惑。
比如,年初DeepSeek-R1爆火后,曾经作为明星大模型公司的Kimi,完全被DeepSeek抢占风头,外界对Kimi有很多不好的言论,认为Kimi团队一定恨死DeepSeek。
Kimi成员Justin Wong却坦率地说:“恰恰相反,不少Kimi的成员认为这是好事,DeepSeek证明硬实力是最好的推广,只要模型做的好,就能获得市场认可。”
相比其他六小龙以及AI大厂闭起门来搞技术,Kimi让工程师出来发言的操作很新鲜,能感受到他们是一群有激情、有温度的人。
Justin Wong还说,在DeepSeek的冲击下,Kimi团队的反思很激进,最激进的是杨植麟,他直接决定不再更新K1系列模型,而是集中资源搞基础算法和K2。
意图很明显,Kimi放弃短期产品迭代,转向底层技术突破和下一代模型能力的跃进上。
这种激进,正符合一群摇滚爱好者的作风。不过以追求AGI为目标的Kimi,激进中又带着务实,他们没有因为DeepSeek火出圈而陷入内耗,反而借助DeepSeek的开源,Kimi-K2的模型结构完全继承了DeepSeek-V3。
Kimi的工程师刘少伟说,在启动K2训练之前,他们进行了大量模型结构相关的scaling实验,结果是,所有当时与DeepSeek-V3不同的结构,没有一个能真正打败它的。
“在已经有muon优化器和更大参数量两个巨大变量的前提下,我们并不想引入没有明确收益的额外变量来标新立异。”意思是,若强行为了与DeepSeek不同,几乎没有一点优势。
经过综合考虑,Kimi最终选择完全继承DeepSeek-V3的结构,并调整适合他们的模型结构参数。
这是一种妥协后的务实,工程师们对此也很坦诚。Kimi另一位成员苏剑林说,我们最终决定,K2还是先狠狠地致敬DeepSeek了,而不是刻意地标新立异,更多的想法和创意,我们把它们做得更扎实后,在K3、K4再见了。
02
K2被讨论最多的是其总参数和价格。K2采用稀疏激活的混合专家(MoE)架构,总参数量达1万亿,每次推理激活320亿参数(约3.2%),在保持高性能的同时大幅降低算力成本。
但K2的核心亮点不是参数,而是首次让万亿模型在MuonClip优化器下实现零训练崩溃。万亿参数在模型训练中存在稳定性不足问题,K2采用QK-Clip与Muon优化器(这两项是大模型高参数训练中,提升效率和解决稳定性的先进技术)结合的方法,帮助神经网络在训练过程中更好地收敛,提升了模型的准确性。
借助这种方法,K2解决了超大规模训练中的梯度爆炸问题,实现15.5万亿token的稳定训练。在苏剑林看来,QK-Clip给了他们很大启发,在面对一个类似的难题时,应该至少要问自己三个问题:
1.这个方法能保证解决这个问题吗?(我们此前的一系列无效尝试)
2.如果不能,有什么方法能保证解决这个问题吗?(QK-Clip)
3.这是解决这个问题的最小改动的方法吗?(Per-Head的QK-Clip)
苏剑林认为QK-Clip的思路,实际上是解决很多训练不稳定问题的“抗生素”,它可以推广成“哪里不稳Clip哪里”,只要监控指标出现了异常,那么就可以考虑构建类似的Clip。
Kimi成员Flood Sung,对K2的Agent能力更为兴奋,他用“一生二,二生三,三生万物”形容K2的Agent能力。
“我们先让模型生成几百个场景,比如外卖、微博、微信...然后基于场景生成几千个tools,比如点个外卖,发送微博,查找联系人,然后基于不同的tool组合生成几百上千个不同的Agent(不同的sytem prompt+不同的tool set),接下来我们针对每一个不同的agent生成从简单到复杂的具有得分点的任务……”
几千个agent在虚拟世界里疯狂交互,Flood Sung觉得这有点科幻,让他联想到《黑镜》的剧情。
这次Kimi还给Scaling Law 正了身。刘少伟称,他们还验证了在固定activate params(激活参数)不变的前提下,单纯增长 MOE总参数量,Scaling Law依然成立,且不论训练loss还是验证loss,结论始终保持,无需担心增大总参数量会过拟合。
Scaling Law(规模定律)此前一直受到争议,OpenAI前首席科学家 Ilya提出“预训练终结”论点,认为互联网可用数据已接近枯竭,需转向私域高精度数据或强化学习范式。
包括杨植麟此前也曾被认为,在模型训练中过度相信Scaling Law。这次Kimi验证,借助Scaling Law依然能够大力出奇迹。
K2在各项测试中成绩都比较拔尖。在SWE Bench Verified(编程)、LiveCodeBench 等测试中,Kimi K2 以65.8% 和53.7% 的准确率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),编程能力全球仅次于Claude 4 Sonnet。实际测试中,它能生成包含昼夜光影变化的3D HTML场景,并支持复杂代码调试。
MATH-500、AIME 等数学竞赛级测试,Kimi K2分别以97.4% 和69.6% 的成绩领先GPT-4.1(92.4%),成为当前数学推理能力最强的开源模型。
这些成绩自然没能让Kimi像年初DeepSeek那般轰动,但在一定范围内确实产生较大影响。K2发布6天里,已在开源平台HuggingFace上收获10万+下载,1400+点赞。
全球最大开源AI平台Hugging Face联合创始人托马斯评价称:“来自中国的Kimi团队在过去几个月推出的系列模型令人印象深刻,K2更是挑战了闭源模型的极限。”
03
Kimi近大半年像是坐上了过山车,地位起起伏伏。目前Kimi 正被市场追捧,但也不值得懈怠,毕竟大模型竞逐赛依然很激烈。
一个很现实情况是,在当前各家大模型你追我赶的情况下,基本上谁更新版本谁排名就能上升。可以说是,遍地SOTA王,短暂又辉煌。
这边K2全球开源模型第一的位置还没坐稳,昨夜阿里Qwen3又迎来升级。升级后的Qwen3在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超过Kimi-K2和DeepSeek-V3。
要知道,今年DeepSeek R2和GPT 5都还没发布,下半年的大模型竞赛将更加白热化。
实际上Kimi K2的性能并没有到达炸裂程度。一些网友反映,评测得分只是一方面,真实体验才是王道。
包括Kimi的工程师们也不是十分满意,这一点从他们文章里能看出来。如刘少伟所说,K2发布前面临的问题是,他们的“新结构”还没有经历过足够大规模的验证。K2更像是他们下一代模型的一个过渡产品。
前文苏剑林也说,K2先狠狠地致敬DeepSeek,更多的想法和创意,等做得更扎实后,会在K3、K4面世。言辞中多少透露着不甘和遗憾。
Justin Wong知道Kimi K2还有数不清的缺点,所以和苏剑林一样,他说自己比任何时候都更想要K3。
Kimi团队的技术理想主义一直是追求AGI。Justin Wong认为,2025 年智能的上限仍然完全由模型决定,“作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。”
他把AGI形容为极其险峻的独木桥,容不得一丝分心和犹豫,追求也许不会成功,但犹豫一定会失败。他还提到2024年6月智源大会上,听到李开复脱口而出地说:“我作为一个投资人,会关注AI应用的RO!”当时他就判断,李开复的零一万物活不长。
无论如何,Kimi团队摇滚式的反叛精神,以及认真做模型的态度,都融入到了他们在个人社交账号文章里。让大家对Kimi团队多了一些具象的认知。
从长期主义的角度来看,在这场大模型竞赛中,公司文化氛围更好的Kimi或许能走得更远。杨植麟曾说:“AI不是我在接下来一两年找到什么PMF(产品市场匹配),而是接下来十到二十年如何改变世界。”
这位想要改变的世界的90后,眼下一切才刚刚开始。
作者 | 孙方
编辑 | 八尺
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.