网易首页 > 网易号 > 正文 申请入驻

K2大模型受国际关注 Kimi找到了适合自己的路

0
分享至


图说:记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰。

最近两周以来,Kimi K2成为了最受国际关注的国产开源大模型,其不仅登顶全球开源模型榜单,在全球开发者社区引发轰动,还被《自然》杂志网站评价为世界迎来“又一个DeepSeek时刻”,大有在4个月后“接棒”DeepSeek之势。

值得注意的是,两家公司在地理上的距离也并不远,均位于北京市海淀区:从DeepSeek北京总部所在的融科资讯中心向南步行1.4公里,就可以抵达Kimi所在的京东科技大厦。

事实上,2024年以来,Kimi曾历经和豆包在“投流”领域的竞争,以及两次和DeepSeek发布“撞车”。面对陡然加大的竞争压力和市场环境的剧烈变化,这家“清华系”公司坚持住了自己的初心,并通过K2的发布证明了自己的实力。

Kimi发布K2大模型之前经历了哪些故事?新京报贝壳财经记者对北京月之暗面科技有限公司进行了探访。

重回基础研发轨道 Kimi感谢DeepSeek

“从研究者的角度,我其实非常感谢DeepSeek,它的出现对我们是一件好事,让我们更加能够以长期主义视角看待实现AGI的梦想。”Kimi研究人员杜羽伦在接受记者采访时表示。

此前,Kimi1.5的发布日期曾和DeepSeek-R1“撞车”。对此,杜羽伦反思认为Kimi1.5的反响不如deeps-R1热烈,一部分原因是Kimi方面没有进行开源,另外参数规模比较小,技术上也没有强调计算效率,“接下来我们并没有‘一拍脑袋’把强化学习干到底,反而更加注重第一性原理,即先把基座模型做好,所以我们在3到4个月的时间里没有发布任何模型,也拒绝了抢发模型的诱惑,而做了一件更长期的事。”

贝壳财经记者注意到,“第一性原理”也是英伟达创始人黄仁勋经常挂在嘴边的词语,前不久黄仁勋在北京参加链博会期间,也称赞了DeepSeek和Kimi在开源领域取得的成功。这一原理的核心在于回归事物本源,而在大模型领域,这就是基础模型。

事实上,贝壳财经记者曾在今年3月,DeepSeek火爆之后不久这一时间节点上探访过Kimi。一名曾在数据公司工作,后跳槽到Kimi的员工告诉记者,“AI行业迭代速度远超传统领域,现在每周都有重大技术突破,比如我们和DeepSeek曾两次在同一天发布相似论文。在这类竞争压力下,如果研发进度落后,技术优势可能瞬间消失,一旦晚推出,就必须有更显著的提升才有意义。”

但历经DeepSeek冲击后,Kimi公司内部却反而有了一股“解脱”感。“之前许多技术人员的脑子会被产品带着走,需要分出部分精力给用户反馈的问题‘打补丁’、关注DAU(日活跃用户数量),这在让产品变好的同时,也或多或少影响了底层技术的开发。DeepSeek的出现让我们回归到了本来就擅长的技术领域,现在我们集中资源研发下一代模型,就像蒸汽机发明初期,重点在于核心技术创新而非局部优化。”这名员工对贝壳财经记者表示。

显然,从当前的国际反响上来看,Kimi找到了适合自己的路,被誉为“AI搜索神器”,有望接替Google的美国知名创业公司Perplexity首席执行官阿拉温德·斯里尼瓦斯表示Kimi模型在“内部测试中表现卓越”,是一个“不可思议的模型”,该公司将会利用K2来进行训练,而上一个被他们拿来训练的模型是DeepSeek- R1。其表现还征服了致力于大模型生态社区建设的公司Hugging Face。公司联合创始人托马斯·沃尔夫评价Kimi模型“简直令人震惊……月之暗面团队在过去几个月里推出了一系列令人印象深刻的模型,我们很可能会在新闻中频繁看到这些名字。”

当大模型用钢琴弹奏卡农 下一版本的模型会变得更强

获得国际上的“一致好评”后,Kimi还公布了官方技术报告,进一步把开源进行到底。作为北京的大模型公司,这也和北京“建设开源之都”的理念不谋而合。

事实上,DeepSeek开源技术细节后,Kimi K2也继承了DeepSeek-V3的架构。Kimi团队成员刘少伟表示,K2在DeepSeek-V3的基础上进行增加专家数量、减少注意力头数量等调整,最终实现了较强的性能。K2模型架构一共包含384个专家,每层激活其中8个,通过这种高度稀疏的设计在保证性能的同时优化计算效率。

根据Kimi团队公布的技术报告,K2采用了三大核心创新技术:MuonClip优化器,抛弃传统的Adam优化器,创新性地使用了Muon优化器。结合Muon的token效率与QK-Clip的稳定性,支持15.5万亿token无损失spike预训练;大规模Agentic Tool Use数据合成,构建可大规模生成多轮工具使用场景的合成pipeline,覆盖数百领域、数千工具;通用强化学习框架,结合可验证奖励(RLVR)和自我批判评估奖励,将对齐从静态扩展到开放域。

得益于这些技术创新,K2在多项基准性能测试中取得优异表现,展现出在自主编程、智能体工具调用和数学推理等方面的领先能力。根据其公布的测评结果,K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。

Kimi K2项目组成员詹皓冰表示,K2的前端编程能力很强,在3D、游戏、动画制作等场景上,用简单的指令和K2交互,就能得到很惊艳的效果。另一方面,智能体的工具调动能力也让模型整体上有了很大提升。

贝壳财经记者注意到,Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。据悉,月之暗面创始人杨植麟就因为这张专辑定下了公司的名称。


图说:Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。

詹皓冰告诉记者,在K2发布的前夜,公司员工们使用K2编写了一个MCP工具,让它去弹奏这架钢琴,最终K2从“扒琴谱”开始,再学习如何通过代码弹奏钢琴,最终完整弹奏出了一曲《卡农》,“这就像我们听到AI说出的那句‘hello world’,大家很激动。当时创始人在会议室谈发布的事,看到我们在弹钢琴,他特意过来看了钢琴是怎么弹奏的,然后又回去忙。”

杜羽伦表示,贯彻第一性原理,做好基座模型这一长期战略看来对团队非常有益,“我们既得到了技术突破,也得到了一个非常好的模型,并且这个模型目前还没有经过大规模的强化学习,等我们在下一版经过了大规模的强化学习之后,它的能力会变得更强。”

贝壳财经记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰,也许这就是杨植麟为Kimi下一代大模型取名“K2”背后的意义。

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
善恶到头终有报!77岁瘫坐在轮椅上的秦煌,已然成了一个“笑话”

善恶到头终有报!77岁瘫坐在轮椅上的秦煌,已然成了一个“笑话”

阿涛讲情感
2025-09-14 20:40:05
老罗还是怂,他不敢说出来西贝真正的问题

老罗还是怂,他不敢说出来西贝真正的问题

记忆承载
2025-09-14 18:23:01
如果你是这4个姓氏之一,祖先可能不是炎黄,而是上古蚩尤的后裔

如果你是这4个姓氏之一,祖先可能不是炎黄,而是上古蚩尤的后裔

周哥一影视
2025-09-15 01:13:02
2岁女童家门口失踪超10天,当地成立联合工作组搜寻多日未果

2岁女童家门口失踪超10天,当地成立联合工作组搜寻多日未果

红星新闻
2025-09-14 17:21:18
互撕、故障!中德车企慕尼黑对弈,百年BBA慌了?

互撕、故障!中德车企慕尼黑对弈,百年BBA慌了?

凤凰网财经
2025-09-12 22:35:07
弃用美元,改用人民币结算!美国31万亿美元外债还能撑多久?

弃用美元,改用人民币结算!美国31万亿美元外债还能撑多久?

窥史
2025-09-14 15:06:11
引火上身?胖东来站台西贝遭打脸,亲自承认有隔夜菜,罗永浩说对

引火上身?胖东来站台西贝遭打脸,亲自承认有隔夜菜,罗永浩说对

法老不说教
2025-09-12 22:03:34
央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

大鱼简科
2025-09-02 19:34:00
王菲也没想到,离婚26年,窦唯给自己上了生动一课,窦靖童没说错

王菲也没想到,离婚26年,窦唯给自己上了生动一课,窦靖童没说错

查尔菲的笔记
2025-09-14 11:02:01
父亲下马后妻子要离婚,我转身接受组织调任省长,她后悔我却畅快

父亲下马后妻子要离婚,我转身接受组织调任省长,她后悔我却畅快

红豆讲堂
2025-09-10 08:35:06
莎莎领奖名场面!和局长的拥抱甜到我嘴角咧到耳根

莎莎领奖名场面!和局长的拥抱甜到我嘴角咧到耳根

阿废冷眼观察所
2025-09-10 14:18:45
原国务院总理李鹏:外界传闻自己是周总理养子的说法,并不正确

原国务院总理李鹏:外界传闻自己是周总理养子的说法,并不正确

混沌录
2025-09-10 21:37:12
夸梅:库里的错在于找了不爱自己的女人 她会分走你一半财产

夸梅:库里的错在于找了不爱自己的女人 她会分走你一半财产

直播吧
2025-09-12 14:02:13
乌克兰空袭新战术,俄罗斯难以应对:巨资回购土耳其S-400?

乌克兰空袭新战术,俄罗斯难以应对:巨资回购土耳其S-400?

鹰眼Defence
2025-09-14 16:50:48
浦发银行信用卡遭境外批量盗刷 已销卡用户也未能幸免

浦发银行信用卡遭境外批量盗刷 已销卡用户也未能幸免

信网
2025-09-14 16:24:12
中国开始反制,美国芯片成了烫手山芋,比尔盖茨说的话太准了

中国开始反制,美国芯片成了烫手山芋,比尔盖茨说的话太准了

一个有灵魂的作者
2025-09-14 16:14:32
因为穷认识了它,用了5年一点变化没有!

因为穷认识了它,用了5年一点变化没有!

LOGO研究所
2025-09-05 16:16:40
苍井空近日公开了带双胞胎儿子参加学园祭的照片,引发热议

苍井空近日公开了带双胞胎儿子参加学园祭的照片,引发热议

随波荡漾的漂流瓶
2025-09-14 20:11:06
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

梁讯
2025-09-14 19:15:18
程青松关注列表被扒,曝全是肌肉男,颜值堪比于朦胧,私聊太污

程青松关注列表被扒,曝全是肌肉男,颜值堪比于朦胧,私聊太污

以茶带书
2025-09-13 12:19:28
2025-09-15 03:03:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
54788文章数 13860关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

头条要闻

罗永浩向贾国龙重新开战:我看你智力有问题 不可救药

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

亲子
房产
时尚
手机
军事航空

亲子要闻

人才

房产要闻

「世界冠军×人居升阶」白鹅潭CLD封面,实力馥见人生新高度!

听说现在年轻人的家都“歪七扭八”的?

手机要闻

手机周报份额再次出炉:小米逆袭上位,iPhone蓄势待发!

军事要闻

俄无人机飞入波兰 美国务卿:不可接受

无障碍浏览 进入关怀版