网易首页 > 网易号 > 正文 申请入驻

月之暗面Kimi,最有活人感的AI公司

0
分享至

01

当DeepSeek-R2持续跳票,GPT-5仍在难产,Grok-4不及预期,最近Kimi-K2的发布一时间风光无两。

K2从DeepSeek手中,夺过了全球开源第一的宝座,硅谷的开源社区的AI开发者都在热议Kimi-K2。英国《自然》杂志网站也发表文章称,中国大模型Kimi-K2发布后引发轰动,世界迎来又一个“DeepSeek时刻”。

今天凌晨,Kimi发布了K2的技术报告,有趣的是,K2也在这87个署名作者名单里。意思很明显,K2也参与创造了自己。Kimi算是第一家把AI写进作者名单里的大模型公司。

这种把AI当成协作伙伴,且署名的操作方式,体现出Kimi内部很强的“活人感”。

并非唯一例证。Kimi-K2发布前夜,工程师把它接入公司门口的电钢琴上,演奏了一首卡农。虽然有些磕磕绊绊,C大调和弦弹的也不完整,Kimi工程师chrysvlk在视频号上写道:“这算不算它的第一声‘hello world’呢?”

工程师们浪漫起来,文科生都要自愧不如。对于Kimi这家极具摇滚性的大模型公司来说,做出这种事情并不让人感到意外。

Kimi创始人杨植麟是个典型的文艺青年,以至于这家公司也透露着相同的文艺气质。月之暗面这个名字,就来自平克弗洛伊德最著名的专辑《The Dark Side of The Moon》,团队工程师们同样是一群热爱电台司令、平克·弗洛伊德、昆汀和库布里克的人。

如果让这个团队去玩音乐、拍电影,似乎也毫不违和,“我加入的一个重要原因,就是觉得味道很对味。”月之暗面的团队成员Crystal说。

Kimi的活人感,正体现在工程师们敢于公开说话。K2在钢琴营造的浪漫主义氛围中发布后,Kimi的工程师们还在知乎玩起了接龙,他们发表感想,甚至自爆公司内部决策,解答网友对于技术方面的疑惑。

比如,年初DeepSeek-R1爆火后,曾经作为明星大模型公司的Kimi,完全被DeepSeek抢占风头,外界对Kimi有很多不好的言论,认为Kimi团队一定恨死DeepSeek。

Kimi成员Justin Wong却坦率地说:“恰恰相反,不少Kimi的成员认为这是好事,DeepSeek证明硬实力是最好的推广,只要模型做的好,就能获得市场认可。”

相比其他六小龙以及AI大厂闭起门来搞技术,Kimi让工程师出来发言的操作很新鲜,能感受到他们是一群有激情、有温度的人。

Justin Wong还说,在DeepSeek的冲击下,Kimi团队的反思很激进,最激进的是杨植麟,他直接决定不再更新K1系列模型,而是集中资源搞基础算法和K2。

意图很明显,Kimi放弃短期产品迭代,转向底层技术突破和下一代模型能力的跃进上。

这种激进,正符合一群摇滚爱好者的作风。不过以追求AGI为目标的Kimi,激进中又带着务实,他们没有因为DeepSeek火出圈而陷入内耗,反而借助DeepSeek的开源,Kimi-K2的模型结构完全继承了DeepSeek-V3。

Kimi的工程师刘少伟说,在启动K2训练之前,他们进行了大量模型结构相关的scaling实验,结果是,所有当时与DeepSeek-V3不同的结构,没有一个能真正打败它的。

“在已经有muon优化器和更大参数量两个巨大变量的前提下,我们并不想引入没有明确收益的额外变量来标新立异。”意思是,若强行为了与DeepSeek不同,几乎没有一点优势。

经过综合考虑,Kimi最终选择完全继承DeepSeek-V3的结构,并调整适合他们的模型结构参数。

这是一种妥协后的务实,工程师们对此也很坦诚。Kimi另一位成员苏剑林说,我们最终决定,K2还是先狠狠地致敬DeepSeek了,而不是刻意地标新立异,更多的想法和创意,我们把它们做得更扎实后,在K3、K4再见了。

02

K2被讨论最多的是其总参数和价格。K2采用稀疏激活的混合专家(MoE)架构,总参数量达1万亿,每次推理激活320亿参数(约3.2%),在保持高性能的同时大幅降低算力成本。

但K2的核心亮点不是参数,而是首次让万亿模型在MuonClip优化器下实现零训练崩溃。万亿参数在模型训练中存在稳定性不足问题,K2采用QK-Clip与Muon优化器(这两项是大模型高参数训练中,提升效率和解决稳定性的先进技术)结合的方法,帮助神经网络在训练过程中更好地收敛,提升了模型的准确性。

借助这种方法,K2解决了超大规模训练中的梯度爆炸问题,实现15.5万亿token的稳定训练。在苏剑林看来,QK-Clip给了他们很大启发,在面对一个类似的难题时,应该至少要问自己三个问题:

1.这个方法能保证解决这个问题吗?(我们此前的一系列无效尝试)

2.如果不能,有什么方法能保证解决这个问题吗?(QK-Clip)

3.这是解决这个问题的最小改动的方法吗?(Per-Head的QK-Clip)

苏剑林认为QK-Clip的思路,实际上是解决很多训练不稳定问题的“抗生素”,它可以推广成“哪里不稳Clip哪里”,只要监控指标出现了异常,那么就可以考虑构建类似的Clip。

Kimi成员Flood Sung,对K2的Agent能力更为兴奋,他用“一生二,二生三,三生万物”形容K2的Agent能力。

“我们先让模型生成几百个场景,比如外卖、微博、微信...然后基于场景生成几千个tools,比如点个外卖,发送微博,查找联系人,然后基于不同的tool组合生成几百上千个不同的Agent(不同的sytem prompt+不同的tool set),接下来我们针对每一个不同的agent生成从简单到复杂的具有得分点的任务……”

几千个agent在虚拟世界里疯狂交互,Flood Sung觉得这有点科幻,让他联想到《黑镜》的剧情。

这次Kimi还给Scaling Law 正了身。刘少伟称,他们还验证了在固定activate params(激活参数)不变的前提下,单纯增长 MOE总参数量,Scaling Law依然成立,且不论训练loss还是验证loss,结论始终保持,无需担心增大总参数量会过拟合。

Scaling Law(规模定律)此前一直受到争议,OpenAI前首席科学家 Ilya提出“预训练终结”论点,认为互联网可用数据已接近枯竭,需转向私域高精度数据或强化学习范式。

包括杨植麟此前也曾被认为,在模型训练中过度相信Scaling Law。这次Kimi验证,借助Scaling Law依然能够大力出奇迹。

K2在各项测试中成绩都比较拔尖。在SWE Bench Verified(编程)、LiveCodeBench 等测试中,Kimi K2 以65.8% 和53.7% 的准确率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),编程能力全球仅次于Claude 4 Sonnet。实际测试中,它能生成包含昼夜光影变化的3D HTML场景,并支持复杂代码调试。

MATH-500、AIME 等数学竞赛级测试,Kimi K2分别以97.4% 和69.6% 的成绩领先GPT-4.1(92.4%),成为当前数学推理能力最强的开源模型。

这些成绩自然没能让Kimi像年初DeepSeek那般轰动,但在一定范围内确实产生较大影响。K2发布6天里,已在开源平台HuggingFace上收获10万+下载,1400+点赞。

全球最大开源AI平台Hugging Face联合创始人托马斯评价称:“来自中国的Kimi团队在过去几个月推出的系列模型令人印象深刻,K2更是挑战了闭源模型的极限。”

03


Kimi近大半年像是坐上了过山车,地位起起伏伏。目前Kimi 正被市场追捧,但也不值得懈怠,毕竟大模型竞逐赛依然很激烈。

一个很现实情况是,在当前各家大模型你追我赶的情况下,基本上谁更新版本谁排名就能上升。可以说是,遍地SOTA王,短暂又辉煌。

这边K2全球开源模型第一的位置还没坐稳,昨夜阿里Qwen3又迎来升级。升级后的Qwen3在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超过Kimi-K2和DeepSeek-V3。

要知道,今年DeepSeek R2和GPT 5都还没发布,下半年的大模型竞赛将更加白热化。

实际上Kimi K2的性能并没有到达炸裂程度。一些网友反映,评测得分只是一方面,真实体验才是王道。

包括Kimi的工程师们也不是十分满意,这一点从他们文章里能看出来。如刘少伟所说,K2发布前面临的问题是,他们的“新结构”还没有经历过足够大规模的验证。K2更像是他们下一代模型的一个过渡产品。

前文苏剑林也说,K2先狠狠地致敬DeepSeek,更多的想法和创意,等做得更扎实后,会在K3、K4面世。言辞中多少透露着不甘和遗憾。

Justin Wong知道Kimi K2还有数不清的缺点,所以和苏剑林一样,他说自己比任何时候都更想要K3。

Kimi团队的技术理想主义一直是追求AGI。Justin Wong认为,2025 年智能的上限仍然完全由模型决定,“作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。”

他把AGI形容为极其险峻的独木桥,容不得一丝分心和犹豫,追求也许不会成功,但犹豫一定会失败。他还提到2024年6月智源大会上,听到李开复脱口而出地说:“我作为一个投资人,会关注AI应用的RO!”当时他就判断,李开复的零一万物活不长。

无论如何,Kimi团队摇滚式的反叛精神,以及认真做模型的态度,都融入到了他们在个人社交账号文章里。让大家对Kimi团队多了一些具象的认知。

从长期主义的角度来看,在这场大模型竞赛中,公司文化氛围更好的Kimi或许能走得更远。杨植麟曾说:“AI不是我在接下来一两年找到什么PMF(产品市场匹配),而是接下来十到二十年如何改变世界。”

这位想要改变的世界的90后,眼下一切才刚刚开始。

作者 | 孙方

编辑 | 八尺

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
4冠王重磅发声!维斯塔潘威胁FIA,若不修改规则即退出F1

4冠王重磅发声!维斯塔潘威胁FIA,若不修改规则即退出F1

体育妞世界
2026-03-30 00:15:07
何润东15年前谈项羽的采访火了,他的侃侃而谈,够小鲜肉学一辈子

何润东15年前谈项羽的采访火了,他的侃侃而谈,够小鲜肉学一辈子

大铁猫娱乐
2026-03-27 14:20:03
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
古人说的"春药"到底是什么?其实很多你身边就有

古人说的"春药"到底是什么?其实很多你身边就有

西楼知趣杂谈
2026-03-16 06:11:42
为什么现在越来越多的成人确诊 ADHD 了?

为什么现在越来越多的成人确诊 ADHD 了?

尹烨
2026-03-30 07:34:14
两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

两种葬礼,两种人生,张雪峰和李咏的后事安排,差距真是一目了然

离离言几许
2026-03-28 16:40:22
研究发现自慰或性行为有助于改善睡眠

研究发现自慰或性行为有助于改善睡眠

映射生活的身影
2026-03-27 19:44:25
不服就干!比利时打响反华第一枪,通告全球,断的就是中方退路

不服就干!比利时打响反华第一枪,通告全球,断的就是中方退路

梦在深巷aqa
2026-03-29 23:33:33
C1驾驶人开心了!不用增驾,这5类两轮、三轮、四轮电动车都能开,不查不罚

C1驾驶人开心了!不用增驾,这5类两轮、三轮、四轮电动车都能开,不查不罚

电动车小辣椒
2026-03-29 10:09:11
偷鸡不成蚀把米!想让李荣浩道歉赔钱却全网社死,吴向飞要遭殃了

偷鸡不成蚀把米!想让李荣浩道歉赔钱却全网社死,吴向飞要遭殃了

叨唠
2026-03-30 00:09:47
日本或不再欢迎中国人?一封要求不接收中国籍派遣员工的邮件火了

日本或不再欢迎中国人?一封要求不接收中国籍派遣员工的邮件火了

奇葩游戏酱
2026-03-30 00:10:35
反穆情绪高涨,伊斯兰教在印度还能传播开吗?

反穆情绪高涨,伊斯兰教在印度还能传播开吗?

阿讯说天下
2026-03-28 16:16:05
新疆维吾尔自治区人大监察和司法委员会主任委员张秀成接受审查调查

新疆维吾尔自治区人大监察和司法委员会主任委员张秀成接受审查调查

界面新闻
2026-03-30 09:03:21
注意:家里这8样东西是“玻璃纤维品”,一旦坏了赶紧扔掉!

注意:家里这8样东西是“玻璃纤维品”,一旦坏了赶紧扔掉!

抠搜侠
2026-03-29 14:10:03
战争已到临界点!以色列下达决战书:48小时定生死,立刻启用核弹

战争已到临界点!以色列下达决战书:48小时定生死,立刻启用核弹

梦史
2026-03-28 12:31:05
美国会被气死!中国高超导弹用水泥造:想100种可能都没试过水泥

美国会被气死!中国高超导弹用水泥造:想100种可能都没试过水泥

近史谈
2026-03-28 21:46:03
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
徐杰喊话全队!杜锋听劝扶正3人,广东传4利好,下场有望复仇江苏

徐杰喊话全队!杜锋听劝扶正3人,广东传4利好,下场有望复仇江苏

后仰大风车
2026-03-30 07:10:14
足坛奇迹!300万人口乌拉圭,竟孕育出皇马与巴萨双队长!

足坛奇迹!300万人口乌拉圭,竟孕育出皇马与巴萨双队长!

田先生篮球
2026-03-29 17:13:01
2026-03-30 09:59:00
白鲸实验室one incentive-icons
白鲸实验室one
记录 AI改变世界的瞬间
116文章数 15关注度
往期回顾 全部

科技要闻

DeepSeek“崩了”一夜,仍无法正常使用

头条要闻

牛弹琴:开战30天后 一场更猛烈的风暴即将到来

头条要闻

牛弹琴:开战30天后 一场更猛烈的风暴即将到来

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

亲子
房产
健康
艺术
教育

亲子要闻

罕见五胞胎全保住,20多名医护深夜齐上阵

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

干细胞抗衰4大误区,90%的人都中招

艺术要闻

毛主席的草案遭吐槽!退休前能否再创辉煌?

教育要闻

被焦虑压垮的童年:中小学心理问题的系统性反思

无障碍浏览 进入关怀版