网易首页 > 网易号 > 正文 申请入驻

K2大模型受国际关注 Kimi找到了适合自己的路

0
分享至

图说:记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰。

最近两周以来,Kimi K2成为了最受国际关注的国产开源大模型,其不仅登顶全球开源模型榜单,在全球开发者社区引发轰动,还被《自然》杂志网站评价为世界迎来“又一个DeepSeek时刻”,大有在4个月后“接棒”DeepSeek之势。

值得注意的是,两家公司在地理上的距离也并不远,均位于北京市海淀区:从DeepSeek北京总部所在的融科资讯中心向南步行1.4公里,就可以抵达Kimi所在的京东科技大厦。

事实上,2024年以来,Kimi曾历经和豆包在“投流”领域的竞争,以及两次和DeepSeek发布“撞车”。面对陡然加大的竞争压力和市场环境的剧烈变化,这家“清华系”公司坚持住了自己的初心,并通过K2的发布证明了自己的实力。

Kimi发布K2大模型之前经历了哪些故事?新京报贝壳财经记者对北京月之暗面科技有限公司进行了探访。

重回基础研发轨道 Kimi感谢DeepSeek

“从研究者的角度,我其实非常感谢DeepSeek,它的出现对我们是一件好事,让我们更加能够以长期主义视角看待实现AGI的梦想。”Kimi研究人员杜羽伦在接受记者采访时表示。

此前,Kimi1.5的发布日期曾和DeepSeek-R1“撞车”。对此,杜羽伦反思认为Kimi1.5的反响不如deeps-R1热烈,一部分原因是Kimi方面没有进行开源,另外参数规模比较小,技术上也没有强调计算效率,“接下来我们并没有‘一拍脑袋’把强化学习干到底,反而更加注重第一性原理,即先把基座模型做好,所以我们在3到4个月的时间里没有发布任何模型,也拒绝了抢发模型的诱惑,而做了一件更长期的事。”

贝壳财经记者注意到,“第一性原理”也是英伟达创始人黄仁勋经常挂在嘴边的词语,前不久黄仁勋在北京参加链博会期间,也称赞了DeepSeek和Kimi在开源领域取得的成功。这一原理的核心在于回归事物本源,而在大模型领域,这就是基础模型。

事实上,贝壳财经记者曾在今年3月,DeepSeek火爆之后不久这一时间节点上探访过Kimi。一名曾在数据公司工作,后跳槽到Kimi的员工告诉记者,“AI行业迭代速度远超传统领域,现在每周都有重大技术突破,比如我们和DeepSeek曾两次在同一天发布相似论文。在这类竞争压力下,如果研发进度落后,技术优势可能瞬间消失,一旦晚推出,就必须有更显著的提升才有意义。”

但历经DeepSeek冲击后,Kimi公司内部却反而有了一股“解脱”感。“之前许多技术人员的脑子会被产品带着走,需要分出部分精力给用户反馈的问题‘打补丁’、关注DAU(日活跃用户数量),这在让产品变好的同时,也或多或少影响了底层技术的开发。DeepSeek的出现让我们回归到了本来就擅长的技术领域,现在我们集中资源研发下一代模型,就像蒸汽机发明初期,重点在于核心技术创新而非局部优化。”这名员工对贝壳财经记者表示。

显然,从当前的国际反响上来看,Kimi找到了适合自己的路,被誉为“AI搜索神器”,有望接替Google的美国知名创业公司Perplexity首席执行官阿拉温德·斯里尼瓦斯表示Kimi模型在“内部测试中表现卓越”,是一个“不可思议的模型”,该公司将会利用K2来进行训练,而上一个被他们拿来训练的模型是DeepSeek- R1。其表现还征服了致力于大模型生态社区建设的公司Hugging Face。公司联合创始人托马斯·沃尔夫评价Kimi模型“简直令人震惊……月之暗面团队在过去几个月里推出了一系列令人印象深刻的模型,我们很可能会在新闻中频繁看到这些名字。”

当大模型用钢琴弹奏卡农 下一版本的模型会变得更强

获得国际上的“一致好评”后,Kimi还公布了官方技术报告,进一步把开源进行到底。作为北京的大模型公司,这也和北京“建设开源之都”的理念不谋而合。

事实上,DeepSeek开源技术细节后,Kimi K2也继承了DeepSeek-V3的架构。Kimi团队成员刘少伟表示,K2在DeepSeek-V3的基础上进行增加专家数量、减少注意力头数量等调整,最终实现了较强的性能。K2模型架构一共包含384个专家,每层激活其中8个,通过这种高度稀疏的设计在保证性能的同时优化计算效率。

根据Kimi团队公布的技术报告,K2采用了三大核心创新技术:MuonClip优化器,抛弃传统的Adam优化器,创新性地使用了Muon优化器。结合Muon的token效率与QK-Clip的稳定性,支持15.5万亿token无损失spike预训练;大规模Agentic Tool Use数据合成,构建可大规模生成多轮工具使用场景的合成pipeline,覆盖数百领域、数千工具;通用强化学习框架,结合可验证奖励(RLVR)和自我批判评估奖励,将对齐从静态扩展到开放域。

得益于这些技术创新,K2在多项基准性能测试中取得优异表现,展现出在自主编程、智能体工具调用和数学推理等方面的领先能力。根据其公布的测评结果,K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。

Kimi K2项目组成员詹皓冰表示,K2的前端编程能力很强,在3D、游戏、动画制作等场景上,用简单的指令和K2交互,就能得到很惊艳的效果。另一方面,智能体的工具调动能力也让模型整体上有了很大提升。

贝壳财经记者注意到,Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。据悉,月之暗面创始人杨植麟就因为这张专辑定下了公司的名称。

图说:Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。

詹皓冰告诉记者,在K2发布的前夜,公司员工们使用K2编写了一个MCP工具,让它去弹奏这架钢琴,最终K2从“扒琴谱”开始,再学习如何通过代码弹奏钢琴,最终完整弹奏出了一曲《卡农》,“这就像我们听到AI说出的那句‘hello world’,大家很激动。当时创始人在会议室谈发布的事,看到我们在弹钢琴,他特意过来看了钢琴是怎么弹奏的,然后又回去忙。”

杜羽伦表示,贯彻第一性原理,做好基座模型这一长期战略看来对团队非常有益,“我们既得到了技术突破,也得到了一个非常好的模型,并且这个模型目前还没有经过大规模的强化学习,等我们在下一版经过了大规模的强化学习之后,它的能力会变得更强。”

贝壳财经记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰,也许这就是杨植麟为Kimi下一代大模型取名“K2”背后的意义。

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国民党大佬出手!马英九当场服软,向郑丽文交底,亲美派栽大跟头

国民党大佬出手!马英九当场服软,向郑丽文交底,亲美派栽大跟头

临云史策
2026-03-29 14:30:21
通便神器找到了,堪比“开塞露”!一杯下去全排空,肚子平裤腰松

通便神器找到了,堪比“开塞露”!一杯下去全排空,肚子平裤腰松

心灵的触动a
2026-03-24 10:37:43
张雪峰41岁离世!他没有离婚,寡母晚年该何去何从?

张雪峰41岁离世!他没有离婚,寡母晚年该何去何从?

细品名人
2026-03-29 07:44:57
52岁男子一年后血管斑块消失!养成6个习惯,斑块或可慢慢消失

52岁男子一年后血管斑块消失!养成6个习惯,斑块或可慢慢消失

岐黄传人孙大夫
2026-03-28 20:35:03
张雪峰生前最后一瓶水有问题!?

张雪峰生前最后一瓶水有问题!?

八卦疯叔
2026-03-27 11:25:06
她曾经是央视最美的女神级主持人,如今已离开舞台多年,记得她吗

她曾经是央视最美的女神级主持人,如今已离开舞台多年,记得她吗

小椰的奶奶
2026-03-30 00:41:08
别不信,78岁想活过98岁,关键在两性关系!这六句长寿密码要牢记

别不信,78岁想活过98岁,关键在两性关系!这六句长寿密码要牢记

牛锅巴小钒
2026-03-26 13:23:25
为了印度得罪中国,要中国归还港口99年使用权,看到违约金后傻眼

为了印度得罪中国,要中国归还港口99年使用权,看到违约金后傻眼

混沌录
2026-03-29 22:37:05
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开了

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开了

历史点行
2026-03-29 13:38:28
范元甄:与江青齐名的延安四美之一,嫁主席秘书,却输掉了一生

范元甄:与江青齐名的延安四美之一,嫁主席秘书,却输掉了一生

干史人
2026-03-05 21:06:35
印度信用崩盘?三哥买货竟被要求全款先付,这下真成国际笑话了!

印度信用崩盘?三哥买货竟被要求全款先付,这下真成国际笑话了!

眼界看视野
2026-03-12 13:59:14
结婚6年后,唐艺昕宣布新身份:“再见了,张太太!”

结婚6年后,唐艺昕宣布新身份:“再见了,张太太!”

老吴教育课堂
2026-03-29 14:04:52
世体:皇马拥有维克托-穆尼奥斯50%所有权,这让巴萨心存疑虑

世体:皇马拥有维克托-穆尼奥斯50%所有权,这让巴萨心存疑虑

懂球帝
2026-03-29 07:41:05
林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

扬平说史
2026-03-25 21:04:04
国产摩托创造历史!张雪机车碾压杜卡迪、雅马哈 拿下WSBK分站赛冠军

国产摩托创造历史!张雪机车碾压杜卡迪、雅马哈 拿下WSBK分站赛冠军

趣味萌宠的日常
2026-03-29 08:31:30
广西壮族自治区人大常委会副主任、党组副书记方春明,兼新职

广西壮族自治区人大常委会副主任、党组副书记方春明,兼新职

黄河新闻网吕梁
2026-03-29 14:05:22
疯狂被冲!乃万全网删除发文!

疯狂被冲!乃万全网删除发文!

原梦叁生
2026-03-29 18:54:04
44岁人艺演员于明加,红T恤穿出S曲线,这身材谁敢信是两娃妈?

44岁人艺演员于明加,红T恤穿出S曲线,这身材谁敢信是两娃妈?

娱乐领航家
2026-03-29 23:30:03
老罗怕是真踢到铁板了!刚高调力挺杨笠,直播间就迎来第一波伤害

老罗怕是真踢到铁板了!刚高调力挺杨笠,直播间就迎来第一波伤害

火山詩话
2026-03-29 14:09:31
深圳双杀吉林豪取7连胜升第四 贺希宁22+4+5王浩然23+5+4

深圳双杀吉林豪取7连胜升第四 贺希宁22+4+5王浩然23+5+4

醉卧浮生
2026-03-29 21:10:25
2026-03-30 04:20:49
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
62620文章数 13980关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

头条要闻

伊朗议长:美航母遭受巨大损失 我们绝不接受屈辱

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

汪峰定律再现!李荣浩喊话单依纯侵权

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

本地
时尚
游戏
健康
公开课

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

来到1980的周也,好毛利兰

《超级肉肉男孩3D》发售/《海贼王》艾尔巴夫篇开播| 下周玩什么

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版