月之暗面Kimi，最有活人感的AI公司|卡农|疯狂|kimi|clip|深度思考模型|平克·弗洛伊德

月之暗面Kimi，最有活人感的AI公司

2025-07-22 20:15:54　来源: 白鲸实验室one

北京举报

分享至

当DeepSeek-R2持续跳票，GPT-5仍在难产，Grok-4不及预期，最近Kimi-K2的发布一时间风光无两。

K2从DeepSeek手中，夺过了全球开源第一的宝座，硅谷的开源社区的AI开发者都在热议Kimi-K2。英国《自然》杂志网站也发表文章称，中国大模型Kimi-K2发布后引发轰动，世界迎来又一个“DeepSeek时刻”。

今天凌晨，Kimi发布了K2的技术报告，有趣的是，K2也在这87个署名作者名单里。意思很明显，K2也参与创造了自己。Kimi算是第一家把AI写进作者名单里的大模型公司。

这种把AI当成协作伙伴，且署名的操作方式，体现出Kimi内部很强的“活人感”。

并非唯一例证。Kimi-K2发布前夜，工程师把它接入公司门口的电钢琴上，演奏了一首卡农。虽然有些磕磕绊绊，C大调和弦弹的也不完整，Kimi工程师chrysvlk在视频号上写道：“这算不算它的第一声‘hello world’呢？”

工程师们浪漫起来，文科生都要自愧不如。对于Kimi这家极具摇滚性的大模型公司来说，做出这种事情并不让人感到意外。

Kimi创始人杨植麟是个典型的文艺青年，以至于这家公司也透露着相同的文艺气质。月之暗面这个名字，就来自平克弗洛伊德最著名的专辑《The Dark Side of The Moon》，团队工程师们同样是一群热爱电台司令、平克·弗洛伊德、昆汀和库布里克的人。

如果让这个团队去玩音乐、拍电影，似乎也毫不违和，“我加入的一个重要原因，就是觉得味道很对味。”月之暗面的团队成员Crystal说。

Kimi的活人感，正体现在工程师们敢于公开说话。K2在钢琴营造的浪漫主义氛围中发布后，Kimi的工程师们还在知乎玩起了接龙，他们发表感想，甚至自爆公司内部决策，解答网友对于技术方面的疑惑。

比如，年初DeepSeek-R1爆火后，曾经作为明星大模型公司的Kimi，完全被DeepSeek抢占风头，外界对Kimi有很多不好的言论，认为Kimi团队一定恨死DeepSeek。

Kimi成员Justin Wong却坦率地说：“恰恰相反，不少Kimi的成员认为这是好事，DeepSeek证明硬实力是最好的推广，只要模型做的好，就能获得市场认可。”

相比其他六小龙以及AI大厂闭起门来搞技术，Kimi让工程师出来发言的操作很新鲜，能感受到他们是一群有激情、有温度的人。

Justin Wong还说，在DeepSeek的冲击下，Kimi团队的反思很激进，最激进的是杨植麟，他直接决定不再更新K1系列模型，而是集中资源搞基础算法和K2。

意图很明显，Kimi放弃短期产品迭代，转向底层技术突破和下一代模型能力的跃进上。

这种激进，正符合一群摇滚爱好者的作风。不过以追求AGI为目标的Kimi，激进中又带着务实，他们没有因为DeepSeek火出圈而陷入内耗，反而借助DeepSeek的开源，Kimi-K2的模型结构完全继承了DeepSeek-V3。

Kimi的工程师刘少伟说，在启动K2训练之前，他们进行了大量模型结构相关的scaling实验，结果是，所有当时与DeepSeek-V3不同的结构，没有一个能真正打败它的。

“在已经有muon优化器和更大参数量两个巨大变量的前提下，我们并不想引入没有明确收益的额外变量来标新立异。”意思是，若强行为了与DeepSeek不同，几乎没有一点优势。

经过综合考虑，Kimi最终选择完全继承DeepSeek-V3的结构，并调整适合他们的模型结构参数。

这是一种妥协后的务实，工程师们对此也很坦诚。Kimi另一位成员苏剑林说，我们最终决定，K2还是先狠狠地致敬DeepSeek了，而不是刻意地标新立异，更多的想法和创意，我们把它们做得更扎实后，在K3、K4再见了。

K2被讨论最多的是其总参数和价格。K2采用稀疏激活的混合专家（MoE）架构，总参数量达1万亿，每次推理激活320亿参数（约3.2%），在保持高性能的同时大幅降低算力成本。

但K2的核心亮点不是参数，而是首次让万亿模型在MuonClip优化器下实现零训练崩溃。万亿参数在模型训练中存在稳定性不足问题，K2采用QK-Clip与Muon优化器（这两项是大模型高参数训练中，提升效率和解决稳定性的先进技术）结合的方法，帮助神经网络在训练过程中更好地收敛，提升了模型的准确性。

借助这种方法，K2解决了超大规模训练中的梯度爆炸问题，实现15.5万亿token的稳定训练。在苏剑林看来，QK-Clip给了他们很大启发，在面对一个类似的难题时，应该至少要问自己三个问题：

1.这个方法能保证解决这个问题吗?(我们此前的一系列无效尝试)

2.如果不能，有什么方法能保证解决这个问题吗?(QK-Clip)

3.这是解决这个问题的最小改动的方法吗?(Per-Head的QK-Clip)

苏剑林认为QK-Clip的思路，实际上是解决很多训练不稳定问题的“抗生素”，它可以推广成“哪里不稳Clip哪里”，只要监控指标出现了异常，那么就可以考虑构建类似的Clip。

Kimi成员Flood Sung，对K2的Agent能力更为兴奋，他用“一生二，二生三，三生万物”形容K2的Agent能力。

“我们先让模型生成几百个场景，比如外卖、微博、微信...然后基于场景生成几千个tools，比如点个外卖，发送微博，查找联系人，然后基于不同的tool组合生成几百上千个不同的Agent(不同的sytem prompt+不同的tool set)，接下来我们针对每一个不同的agent生成从简单到复杂的具有得分点的任务……”

几千个agent在虚拟世界里疯狂交互，Flood Sung觉得这有点科幻，让他联想到《黑镜》的剧情。

这次Kimi还给Scaling Law 正了身。刘少伟称，他们还验证了在固定activate params（激活参数）不变的前提下，单纯增长 MOE总参数量，Scaling Law依然成立，且不论训练loss还是验证loss，结论始终保持，无需担心增大总参数量会过拟合。

Scaling Law（规模定律）此前一直受到争议，OpenAI前首席科学家 Ilya提出“预训练终结”论点，认为互联网可用数据已接近枯竭，需转向私域高精度数据或强化学习范式。

包括杨植麟此前也曾被认为，在模型训练中过度相信Scaling Law。这次Kimi验证，借助Scaling Law依然能够大力出奇迹。

K2在各项测试中成绩都比较拔尖。在SWE Bench Verified（编程）、LiveCodeBench 等测试中，Kimi K2 以65.8% 和53.7% 的准确率超越DeepSeek V3（46.9%）和GPT-4.1（44.7%），编程能力全球仅次于Claude 4 Sonnet。实际测试中，它能生成包含昼夜光影变化的3D HTML场景，并支持复杂代码调试。

MATH-500、AIME 等数学竞赛级测试，Kimi K2分别以97.4% 和69.6% 的成绩领先GPT-4.1（92.4%），成为当前数学推理能力最强的开源模型。

这些成绩自然没能让Kimi像年初DeepSeek那般轰动，但在一定范围内确实产生较大影响。K2发布6天里，已在开源平台HuggingFace上收获10万+下载，1400+点赞。

全球最大开源AI平台Hugging Face联合创始人托马斯评价称：“来自中国的Kimi团队在过去几个月推出的系列模型令人印象深刻，K2更是挑战了闭源模型的极限。”

Kimi近大半年像是坐上了过山车，地位起起伏伏。目前Kimi 正被市场追捧，但也不值得懈怠，毕竟大模型竞逐赛依然很激烈。

一个很现实情况是，在当前各家大模型你追我赶的情况下，基本上谁更新版本谁排名就能上升。可以说是，遍地SOTA王，短暂又辉煌。

这边K2全球开源模型第一的位置还没坐稳，昨夜阿里Qwen3又迎来升级。升级后的Qwen3在GQPA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent能力）等众多测评中表现出色，超过Kimi-K2和DeepSeek-V3。

要知道，今年DeepSeek R2和GPT 5都还没发布，下半年的大模型竞赛将更加白热化。

实际上Kimi K2的性能并没有到达炸裂程度。一些网友反映，评测得分只是一方面，真实体验才是王道。

包括Kimi的工程师们也不是十分满意，这一点从他们文章里能看出来。如刘少伟所说，K2发布前面临的问题是，他们的“新结构”还没有经历过足够大规模的验证。K2更像是他们下一代模型的一个过渡产品。

前文苏剑林也说，K2先狠狠地致敬DeepSeek，更多的想法和创意，等做得更扎实后，会在K3、K4面世。言辞中多少透露着不甘和遗憾。

Justin Wong知道Kimi K2还有数不清的缺点，所以和苏剑林一样，他说自己比任何时候都更想要K3。

Kimi团队的技术理想主义一直是追求AGI。Justin Wong认为，2025 年智能的上限仍然完全由模型决定，“作为一家以AGI为目标的公司，如果不去追求智能的上限，那我一天也不会多呆下去。”

他把AGI形容为极其险峻的独木桥，容不得一丝分心和犹豫，追求也许不会成功，但犹豫一定会失败。他还提到2024年6月智源大会上，听到李开复脱口而出地说：“我作为一个投资人，会关注AI应用的RO!”当时他就判断，李开复的零一万物活不长。

无论如何，Kimi团队摇滚式的反叛精神，以及认真做模型的态度，都融入到了他们在个人社交账号文章里。让大家对Kimi团队多了一些具象的认知。

从长期主义的角度来看，在这场大模型竞赛中，公司文化氛围更好的Kimi或许能走得更远。杨植麟曾说：“AI不是我在接下来一两年找到什么PMF（产品市场匹配），而是接下来十到二十年如何改变世界。”

这位想要改变的世界的90后，眼下一切才刚刚开始。

作者｜孙方

编辑｜八尺

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.