网易首页 > 网易号 > 正文 申请入驻

K2大模型受国际关注 Kimi找到了适合自己的路

0
分享至

图说:记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰。

最近两周以来,Kimi K2成为了最受国际关注的国产开源大模型,其不仅登顶全球开源模型榜单,在全球开发者社区引发轰动,还被《自然》杂志网站评价为世界迎来“又一个DeepSeek时刻”,大有在4个月后“接棒”DeepSeek之势。

值得注意的是,两家公司在地理上的距离也并不远,均位于北京市海淀区:从DeepSeek北京总部所在的融科资讯中心向南步行1.4公里,就可以抵达Kimi所在的京东科技大厦。

事实上,2024年以来,Kimi曾历经和豆包在“投流”领域的竞争,以及两次和DeepSeek发布“撞车”。面对陡然加大的竞争压力和市场环境的剧烈变化,这家“清华系”公司坚持住了自己的初心,并通过K2的发布证明了自己的实力。

Kimi发布K2大模型之前经历了哪些故事?新京报贝壳财经记者对北京月之暗面科技有限公司进行了探访。

重回基础研发轨道 Kimi感谢DeepSeek

“从研究者的角度,我其实非常感谢DeepSeek,它的出现对我们是一件好事,让我们更加能够以长期主义视角看待实现AGI的梦想。”Kimi研究人员杜羽伦在接受记者采访时表示。

此前,Kimi1.5的发布日期曾和DeepSeek-R1“撞车”。对此,杜羽伦反思认为Kimi1.5的反响不如deeps-R1热烈,一部分原因是Kimi方面没有进行开源,另外参数规模比较小,技术上也没有强调计算效率,“接下来我们并没有‘一拍脑袋’把强化学习干到底,反而更加注重第一性原理,即先把基座模型做好,所以我们在3到4个月的时间里没有发布任何模型,也拒绝了抢发模型的诱惑,而做了一件更长期的事。”

贝壳财经记者注意到,“第一性原理”也是英伟达创始人黄仁勋经常挂在嘴边的词语,前不久黄仁勋在北京参加链博会期间,也称赞了DeepSeek和Kimi在开源领域取得的成功。这一原理的核心在于回归事物本源,而在大模型领域,这就是基础模型。

事实上,贝壳财经记者曾在今年3月,DeepSeek火爆之后不久这一时间节点上探访过Kimi。一名曾在数据公司工作,后跳槽到Kimi的员工告诉记者,“AI行业迭代速度远超传统领域,现在每周都有重大技术突破,比如我们和DeepSeek曾两次在同一天发布相似论文。在这类竞争压力下,如果研发进度落后,技术优势可能瞬间消失,一旦晚推出,就必须有更显著的提升才有意义。”

但历经DeepSeek冲击后,Kimi公司内部却反而有了一股“解脱”感。“之前许多技术人员的脑子会被产品带着走,需要分出部分精力给用户反馈的问题‘打补丁’、关注DAU(日活跃用户数量),这在让产品变好的同时,也或多或少影响了底层技术的开发。DeepSeek的出现让我们回归到了本来就擅长的技术领域,现在我们集中资源研发下一代模型,就像蒸汽机发明初期,重点在于核心技术创新而非局部优化。”这名员工对贝壳财经记者表示。

显然,从当前的国际反响上来看,Kimi找到了适合自己的路,被誉为“AI搜索神器”,有望接替Google的美国知名创业公司Perplexity首席执行官阿拉温德·斯里尼瓦斯表示Kimi模型在“内部测试中表现卓越”,是一个“不可思议的模型”,该公司将会利用K2来进行训练,而上一个被他们拿来训练的模型是DeepSeek- R1。其表现还征服了致力于大模型生态社区建设的公司Hugging Face。公司联合创始人托马斯·沃尔夫评价Kimi模型“简直令人震惊……月之暗面团队在过去几个月里推出了一系列令人印象深刻的模型,我们很可能会在新闻中频繁看到这些名字。”

当大模型用钢琴弹奏卡农 下一版本的模型会变得更强

获得国际上的“一致好评”后,Kimi还公布了官方技术报告,进一步把开源进行到底。作为北京的大模型公司,这也和北京“建设开源之都”的理念不谋而合。

事实上,DeepSeek开源技术细节后,Kimi K2也继承了DeepSeek-V3的架构。Kimi团队成员刘少伟表示,K2在DeepSeek-V3的基础上进行增加专家数量、减少注意力头数量等调整,最终实现了较强的性能。K2模型架构一共包含384个专家,每层激活其中8个,通过这种高度稀疏的设计在保证性能的同时优化计算效率。

根据Kimi团队公布的技术报告,K2采用了三大核心创新技术:MuonClip优化器,抛弃传统的Adam优化器,创新性地使用了Muon优化器。结合Muon的token效率与QK-Clip的稳定性,支持15.5万亿token无损失spike预训练;大规模Agentic Tool Use数据合成,构建可大规模生成多轮工具使用场景的合成pipeline,覆盖数百领域、数千工具;通用强化学习框架,结合可验证奖励(RLVR)和自我批判评估奖励,将对齐从静态扩展到开放域。

得益于这些技术创新,K2在多项基准性能测试中取得优异表现,展现出在自主编程、智能体工具调用和数学推理等方面的领先能力。根据其公布的测评结果,K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。

Kimi K2项目组成员詹皓冰表示,K2的前端编程能力很强,在3D、游戏、动画制作等场景上,用简单的指令和K2交互,就能得到很惊艳的效果。另一方面,智能体的工具调动能力也让模型整体上有了很大提升。

贝壳财经记者注意到,Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。据悉,月之暗面创始人杨植麟就因为这张专辑定下了公司的名称。

图说:Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。

詹皓冰告诉记者,在K2发布的前夜,公司员工们使用K2编写了一个MCP工具,让它去弹奏这架钢琴,最终K2从“扒琴谱”开始,再学习如何通过代码弹奏钢琴,最终完整弹奏出了一曲《卡农》,“这就像我们听到AI说出的那句‘hello world’,大家很激动。当时创始人在会议室谈发布的事,看到我们在弹钢琴,他特意过来看了钢琴是怎么弹奏的,然后又回去忙。”

杜羽伦表示,贯彻第一性原理,做好基座模型这一长期战略看来对团队非常有益,“我们既得到了技术突破,也得到了一个非常好的模型,并且这个模型目前还没有经过大规模的强化学习,等我们在下一版经过了大规模的强化学习之后,它的能力会变得更强。”

贝壳财经记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰,也许这就是杨植麟为Kimi下一代大模型取名“K2”背后的意义。

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
33岁人妻球场换装惊艳四座,这丰满胸围是真实存在的吗?

33岁人妻球场换装惊艳四座,这丰满胸围是真实存在的吗?

娱乐领航家
2026-03-06 20:00:03
郑丽文应邀访陆,不到24小时,一架美专机降落台北,台军开始冒险

郑丽文应邀访陆,不到24小时,一架美专机降落台北,台军开始冒险

影孖看世界
2026-03-30 23:17:44
家庭伦理:楼下的夫妻

家庭伦理:楼下的夫妻

叽里呱啦讲故事
2026-03-30 21:53:12
江苏沸腾了!这两大重点工程迎来新进展↓

江苏沸腾了!这两大重点工程迎来新进展↓

荷兰豆爱健康
2026-03-30 16:30:13
铁了心打垮中国?最大威胁现身!这次不是美国,普京却笑到了最后

铁了心打垮中国?最大威胁现身!这次不是美国,普京却笑到了最后

阿七说史
2026-03-13 15:56:51
夺命电饭煲已被曝光!煮米进去秒变毒药,内胆是肝癌催化剂?

夺命电饭煲已被曝光!煮米进去秒变毒药,内胆是肝癌催化剂?

健康科普365
2026-03-29 17:25:11
特朗普没想到:中东大战打醒了朝韩,朝鲜亮剑,韩国已对华掏心窝

特朗普没想到:中东大战打醒了朝韩,朝鲜亮剑,韩国已对华掏心窝

顾史
2026-03-28 23:33:59
注意!陈垣宇赢球后,说了一件事情,对王楚钦很不利

注意!陈垣宇赢球后,说了一件事情,对王楚钦很不利

十点街球体育
2026-03-31 00:40:03
泽连斯基称伙伴国敦促其减少打击俄罗斯的石油设施

泽连斯基称伙伴国敦促其减少打击俄罗斯的石油设施

财联社
2026-03-30 21:08:11
大水冲了兔王庙,属兔人:家中大事将至,稳字方能渡难关

大水冲了兔王庙,属兔人:家中大事将至,稳字方能渡难关

户外阿崭
2026-03-29 18:36:25
加图索:我们作为职业球员或教练活着的意义就是迎接这种时刻

加图索:我们作为职业球员或教练活着的意义就是迎接这种时刻

懂球帝
2026-03-31 03:31:03
美国如果发动地面战,本次战事军费或突破10万亿美元,“可能导致美国陷入经济衰退等风险”

美国如果发动地面战,本次战事军费或突破10万亿美元,“可能导致美国陷入经济衰退等风险”

都市快报橙柿互动
2026-03-30 13:49:54
伊朗电力设施遭袭

伊朗电力设施遭袭

财联社
2026-03-30 02:35:30
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

小小科普员
2026-03-26 00:27:10
拥有核武器的9个国家中,最穷的巴基斯坦, 是如何获得核武器的?

拥有核武器的9个国家中,最穷的巴基斯坦, 是如何获得核武器的?

文史达观
2025-05-03 06:45:05
广东男子南太行徒步失联20天后遗体被找到

广东男子南太行徒步失联20天后遗体被找到

红星新闻
2026-03-30 18:21:41
伊朗武装部队发言人:伊朗正在制定战争结束条件

伊朗武装部队发言人:伊朗正在制定战争结束条件

财联社
2026-03-28 04:50:19
黄圣依拿钱走人,杨子妈妈当面一套背后一套,笑迎下一任太讽刺

黄圣依拿钱走人,杨子妈妈当面一套背后一套,笑迎下一任太讽刺

一盅情怀
2026-03-30 15:35:50
反转太快!特鲁姆普与女友互相取关,曾为她落户中国香港

反转太快!特鲁姆普与女友互相取关,曾为她落户中国香港

橙星文娱
2026-03-30 14:57:09
6+14+2!火箭新援太能抢了,打爆天才13号秀,670万签约大获成功

6+14+2!火箭新援太能抢了,打爆天才13号秀,670万签约大获成功

球盲姐
2026-03-30 10:20:19
2026-03-31 04:24:49
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
62681文章数 13980关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

头条要闻

特朗普:对伊朗袭击以炼油厂的回应“很快到来”

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

全红婵聊到体重哭了,每天只吃一顿饭

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

教育
健康
家居
艺术
时尚

教育要闻

静待花开:一位母亲与青春期儿子的“破冰”之旅——林亭亭家教好故事

干细胞抗衰4大误区,90%的人都中招

家居要闻

东方法式美学 现代简约

艺术要闻

这个62岁大爷厉害了!他画的超写实美女骗了多少人?.....

“小白鞋”今年春夏又火了!这5双怎么搭都好看

无障碍浏览 进入关怀版