网易首页 > 网易号 > 正文 申请入驻

月之暗面Kimi,最有活人感的AI公司

0
分享至


01

当DeepSeek-R2持续跳票,GPT-5仍在难产,Grok-4不及预期,最近Kimi-K2的发布一时间风光无两。

K2从DeepSeek手中,夺过了全球开源第一的宝座,硅谷的开源社区的AI开发者都在热议Kimi-K2。英国《自然》杂志网站也发表文章称,中国大模型Kimi-K2发布后引发轰动,世界迎来又一个“DeepSeek时刻”。

今天凌晨,Kimi发布了K2的技术报告,有趣的是,K2也在这87个署名作者名单里。意思很明显,K2也参与创造了自己。Kimi算是第一家把AI写进作者名单里的大模型公司。


这种把AI当成协作伙伴,且署名的操作方式,体现出Kimi内部很强的“活人感”。

并非唯一例证。Kimi-K2发布前夜,工程师把它接入公司门口的电钢琴上,演奏了一首卡农。虽然有些磕磕绊绊,C大调和弦弹的也不完整,Kimi工程师chrysvlk在视频号上写道:“这算不算它的第一声‘hello world’呢?”

工程师们浪漫起来,文科生都要自愧不如。对于Kimi这家极具摇滚性的大模型公司来说,做出这种事情并不让人感到意外。

Kimi创始人杨植麟是个典型的文艺青年,以至于这家公司也透露着相同的文艺气质。月之暗面这个名字,就来自平克弗洛伊德最著名的专辑《The Dark Side of The Moon》,团队工程师们同样是一群热爱电台司令、平克·弗洛伊德、昆汀和库布里克的人。

如果让这个团队去玩音乐、拍电影,似乎也毫不违和,“我加入的一个重要原因,就是觉得味道很对味。”月之暗面的团队成员Crystal说。

Kimi的活人感,正体现在工程师们敢于公开说话。K2在钢琴营造的浪漫主义氛围中发布后,Kimi的工程师们还在知乎玩起了接龙,他们发表感想,甚至自爆公司内部决策,解答网友对于技术方面的疑惑。

比如,年初DeepSeek-R1爆火后,曾经作为明星大模型公司的Kimi,完全被DeepSeek抢占风头,外界对Kimi有很多不好的言论,认为Kimi团队一定恨死DeepSeek。

Kimi成员Justin Wong却坦率地说:“恰恰相反,不少Kimi的成员认为这是好事,DeepSeek证明硬实力是最好的推广,只要模型做的好,就能获得市场认可。”

相比其他六小龙以及AI大厂闭起门来搞技术,Kimi让工程师出来发言的操作很新鲜,能感受到他们是一群有激情、有温度的人。

Justin Wong还说,在DeepSeek的冲击下,Kimi团队的反思很激进,最激进的是杨植麟,他直接决定不再更新K1系列模型,而是集中资源搞基础算法和K2。

意图很明显,Kimi放弃短期产品迭代,转向底层技术突破和下一代模型能力的跃进上。

这种激进,正符合一群摇滚爱好者的作风。不过以追求AGI为目标的Kimi,激进中又带着务实,他们没有因为DeepSeek火出圈而陷入内耗,反而借助DeepSeek的开源,Kimi-K2的模型结构完全继承了DeepSeek-V3。

Kimi的工程师刘少伟说,在启动K2训练之前,他们进行了大量模型结构相关的scaling实验,结果是,所有当时与DeepSeek-V3不同的结构,没有一个能真正打败它的。

“在已经有muon优化器和更大参数量两个巨大变量的前提下,我们并不想引入没有明确收益的额外变量来标新立异。”意思是,若强行为了与DeepSeek不同,几乎没有一点优势。

经过综合考虑,Kimi最终选择完全继承DeepSeek-V3的结构,并调整适合他们的模型结构参数。


这是一种妥协后的务实,工程师们对此也很坦诚。Kimi另一位成员苏剑林说,我们最终决定,K2还是先狠狠地致敬DeepSeek了,而不是刻意地标新立异,更多的想法和创意,我们把它们做得更扎实后,在K3、K4再见了。

02

K2被讨论最多的是其总参数和价格。K2采用稀疏激活的混合专家(MoE)架构,总参数量达1万亿,每次推理激活320亿参数(约3.2%),在保持高性能的同时大幅降低算力成本。

但K2的核心亮点不是参数,而是首次让万亿模型在MuonClip优化器下实现零训练崩溃。万亿参数在模型训练中存在稳定性不足问题,K2采用QK-Clip与Muon优化器(这两项是大模型高参数训练中,提升效率和解决稳定性的先进技术)结合的方法,帮助神经网络在训练过程中更好地收敛,提升了模型的准确性。

借助这种方法,K2解决了超大规模训练中的梯度爆炸问题,实现15.5万亿token的稳定训练。在苏剑林看来,QK-Clip给了他们很大启发,在面对一个类似的难题时,应该至少要问自己三个问题:

1.这个方法能保证解决这个问题吗?(我们此前的一系列无效尝试)

2.如果不能,有什么方法能保证解决这个问题吗?(QK-Clip)

3.这是解决这个问题的最小改动的方法吗?(Per-Head的QK-Clip)

苏剑林认为QK-Clip的思路,实际上是解决很多训练不稳定问题的“抗生素”,它可以推广成“哪里不稳Clip哪里”,只要监控指标出现了异常,那么就可以考虑构建类似的Clip。

Kimi成员Flood Sung,对K2的Agent能力更为兴奋,他用“一生二,二生三,三生万物”形容K2的Agent能力。

“我们先让模型生成几百个场景,比如外卖、微博、微信...然后基于场景生成几千个tools,比如点个外卖,发送微博,查找联系人,然后基于不同的tool组合生成几百上千个不同的Agent(不同的sytem prompt+不同的tool set),接下来我们针对每一个不同的agent生成从简单到复杂的具有得分点的任务……”

几千个agent在虚拟世界里疯狂交互,Flood Sung觉得这有点科幻,让他联想到《黑镜》的剧情。

这次Kimi还给Scaling Law 正了身。刘少伟称,他们还验证了在固定activate params(激活参数)不变的前提下,单纯增长 MOE总参数量,Scaling Law依然成立,且不论训练loss还是验证loss,结论始终保持,无需担心增大总参数量会过拟合。

Scaling Law(规模定律)此前一直受到争议,OpenAI前首席科学家 Ilya提出“预训练终结”论点,认为互联网可用数据已接近枯竭,需转向私域高精度数据或强化学习范式。

包括杨植麟此前也曾被认为,在模型训练中过度相信Scaling Law。这次Kimi验证,借助Scaling Law依然能够大力出奇迹。

K2在各项测试中成绩都比较拔尖。在SWE Bench Verified(编程)、LiveCodeBench 等测试中,Kimi K2 以65.8% 和53.7% 的准确率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),编程能力全球仅次于Claude 4 Sonnet。实际测试中,它能生成包含昼夜光影变化的3D HTML场景,并支持复杂代码调试。


MATH-500、AIME 等数学竞赛级测试,Kimi K2分别以97.4% 和69.6% 的成绩领先GPT-4.1(92.4%),成为当前数学推理能力最强的开源模型。

这些成绩自然没能让Kimi像年初DeepSeek那般轰动,但在一定范围内确实产生较大影响。K2发布6天里,已在开源平台HuggingFace上收获10万+下载,1400+点赞。

全球最大开源AI平台Hugging Face联合创始人托马斯评价称:“来自中国的Kimi团队在过去几个月推出的系列模型令人印象深刻,K2更是挑战了闭源模型的极限。”

03


Kimi近大半年像是坐上了过山车,地位起起伏伏。目前Kimi 正被市场追捧,但也不值得懈怠,毕竟大模型竞逐赛依然很激烈。

一个很现实情况是,在当前各家大模型你追我赶的情况下,基本上谁更新版本谁排名就能上升。可以说是,遍地SOTA王,短暂又辉煌。

这边K2全球开源模型第一的位置还没坐稳,昨夜阿里Qwen3又迎来升级。升级后的Qwen3在GQPA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超过Kimi-K2和DeepSeek-V3。

要知道,今年DeepSeek R2和GPT 5都还没发布,下半年的大模型竞赛将更加白热化。

实际上Kimi K2的性能并没有到达炸裂程度。一些网友反映,评测得分只是一方面,真实体验才是王道。

包括Kimi的工程师们也不是十分满意,这一点从他们文章里能看出来。如刘少伟所说,K2发布前面临的问题是,他们的“新结构”还没有经历过足够大规模的验证。K2更像是他们下一代模型的一个过渡产品。

前文苏剑林也说,K2先狠狠地致敬DeepSeek,更多的想法和创意,等做得更扎实后,会在K3、K4面世。言辞中多少透露着不甘和遗憾。

Justin Wong知道Kimi K2还有数不清的缺点,所以和苏剑林一样,他说自己比任何时候都更想要K3。

Kimi团队的技术理想主义一直是追求AGI。Justin Wong认为,2025 年智能的上限仍然完全由模型决定,“作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。”

他把AGI形容为极其险峻的独木桥,容不得一丝分心和犹豫,追求也许不会成功,但犹豫一定会失败。他还提到2024年6月智源大会上,听到李开复脱口而出地说:“我作为一个投资人,会关注AI应用的RO!”当时他就判断,李开复的零一万物活不长。

无论如何,Kimi团队摇滚式的反叛精神,以及认真做模型的态度,都融入到了他们在个人社交账号文章里。让大家对Kimi团队多了一些具象的认知。

从长期主义的角度来看,在这场大模型竞赛中,公司文化氛围更好的Kimi或许能走得更远。杨植麟曾说:“AI不是我在接下来一两年找到什么PMF(产品市场匹配),而是接下来十到二十年如何改变世界。”

这位想要改变的世界的90后,眼下一切才刚刚开始。

作者 | 孙方

编辑 | 八尺

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京房价真要到1万时代?回龙观2个月不见135万?

北京房价真要到1万时代?回龙观2个月不见135万?

坠入二次元的海洋
2025-09-19 10:24:27
731刚上映半天,恶心的一幕出现了,有人竟然用实验室干净来攻击

731刚上映半天,恶心的一幕出现了,有人竟然用实验室干净来攻击

花心电影
2025-09-18 12:48:17
上海“臭餐”供应商前科累累,为何垄断500多所?背后还藏一影子

上海“臭餐”供应商前科累累,为何垄断500多所?背后还藏一影子

巷子里的历史
2025-09-19 11:11:40
多地将从今秋起试行中小学“春秋假”

多地将从今秋起试行中小学“春秋假”

澎湃新闻
2025-09-18 10:04:08
吊销绿卡,驱逐出境!哥大抗议学生将被驱逐到叙利亚或阿尔及利亚

吊销绿卡,驱逐出境!哥大抗议学生将被驱逐到叙利亚或阿尔及利亚

大洛杉矶LA
2025-09-19 06:28:48
翟欣欣犯敲诈勒索罪一审获刑12年 苏享茂哥哥:8年来总算有了结果,我们也累了

翟欣欣犯敲诈勒索罪一审获刑12年 苏享茂哥哥:8年来总算有了结果,我们也累了

红星新闻
2025-09-19 13:53:13
上海大叔55岁未婚,住垃圾堆却要穿名牌,打开冰箱后才知啥叫生活

上海大叔55岁未婚,住垃圾堆却要穿名牌,打开冰箱后才知啥叫生活

寒士之言本尊
2025-09-08 23:20:45
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

通文知史
2025-09-18 12:50:07
王祉怡1-2惨遭韩国选手金佳恩逆转,无缘中国赛女单四强

王祉怡1-2惨遭韩国选手金佳恩逆转,无缘中国赛女单四强

懂球帝
2025-09-19 13:53:27
女子破庙避雨,见两黑蛇缠绵不休,她一把扯掉自己红肚兜

女子破庙避雨,见两黑蛇缠绵不休,她一把扯掉自己红肚兜

梦飞故事会
2024-08-03 21:13:29
波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

深度报
2025-09-18 22:47:16
东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

冰点历史
2025-07-15 09:33:13
被排挤打压,郑丽文若败选将另择新枝!

被排挤打压,郑丽文若败选将另择新枝!

观星赏月
2025-09-19 12:03:16
内塔尼亚胡摊牌了,放话要反击中国,中方的回应,给美以提了个醒

内塔尼亚胡摊牌了,放话要反击中国,中方的回应,给美以提了个醒

阿柒的讯
2025-09-19 11:07:11
媒体人:王治郅身份特殊无法全职进入国家队教练组,但每次都有召必到

媒体人:王治郅身份特殊无法全职进入国家队教练组,但每次都有召必到

懂球帝
2025-09-19 09:11:06
为何很多割让外国的土地都被收回,唯独被俄国抢走的土地要不回来

为何很多割让外国的土地都被收回,唯独被俄国抢走的土地要不回来

芳芳历史烩
2025-09-18 08:27:19
“嘎子”被拘最新,名导发文怒怼,央媒发文怒批,被抓早有征兆

“嘎子”被拘最新,名导发文怒怼,央媒发文怒批,被抓早有征兆

以茶带书
2025-09-18 18:13:16
山东三市最新人事任免,涉副区长等

山东三市最新人事任免,涉副区长等

中国山东网
2025-09-19 12:46:32
奋战5天后西贝暂歇!但营业额掉千万,儿童餐难翻身

奋战5天后西贝暂歇!但营业额掉千万,儿童餐难翻身

法老不说教
2025-09-18 17:16:13
在编教师铁饭碗没了

在编教师铁饭碗没了

谭谈投研
2025-09-17 21:22:07
2025-09-19 14:27:00
白鲸实验室one incentive-icons
白鲸实验室one
AI向上,关注AI风向
40文章数 9关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

"入室抢婴案"主犯获死缓后当庭破口大骂 要提出上诉

头条要闻

"入室抢婴案"主犯获死缓后当庭破口大骂 要提出上诉

体育要闻

不会短跑的牙买加人,集体跳槽土耳其

娱乐要闻

关晓彤生日 仅闫妮和化妆师撑场祝福?

财经要闻

小米消金获渝农商行便宜资金 踩红线放贷?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

健康
游戏
艺术
数码
军事航空

内分泌科专家破解身高八大谣言

《鸣潮》官方整活 新角色尤诺曾在2.6版本前消失

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

AMD低调推出RDNA3新卡RX 7700:16GB显存定位2K游戏

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版