网易首页 > 网易号 > 正文 申请入驻

K2大模型受国际关注 Kimi找到了适合自己的路

0
分享至


图说:记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰。

最近两周以来,Kimi K2成为了最受国际关注的国产开源大模型,其不仅登顶全球开源模型榜单,在全球开发者社区引发轰动,还被《自然》杂志网站评价为世界迎来“又一个DeepSeek时刻”,大有在4个月后“接棒”DeepSeek之势。

值得注意的是,两家公司在地理上的距离也并不远,均位于北京市海淀区:从DeepSeek北京总部所在的融科资讯中心向南步行1.4公里,就可以抵达Kimi所在的京东科技大厦。

事实上,2024年以来,Kimi曾历经和豆包在“投流”领域的竞争,以及两次和DeepSeek发布“撞车”。面对陡然加大的竞争压力和市场环境的剧烈变化,这家“清华系”公司坚持住了自己的初心,并通过K2的发布证明了自己的实力。

Kimi发布K2大模型之前经历了哪些故事?新京报贝壳财经记者对北京月之暗面科技有限公司进行了探访。

重回基础研发轨道 Kimi感谢DeepSeek

“从研究者的角度,我其实非常感谢DeepSeek,它的出现对我们是一件好事,让我们更加能够以长期主义视角看待实现AGI的梦想。”Kimi研究人员杜羽伦在接受记者采访时表示。

此前,Kimi1.5的发布日期曾和DeepSeek-R1“撞车”。对此,杜羽伦反思认为Kimi1.5的反响不如deeps-R1热烈,一部分原因是Kimi方面没有进行开源,另外参数规模比较小,技术上也没有强调计算效率,“接下来我们并没有‘一拍脑袋’把强化学习干到底,反而更加注重第一性原理,即先把基座模型做好,所以我们在3到4个月的时间里没有发布任何模型,也拒绝了抢发模型的诱惑,而做了一件更长期的事。”

贝壳财经记者注意到,“第一性原理”也是英伟达创始人黄仁勋经常挂在嘴边的词语,前不久黄仁勋在北京参加链博会期间,也称赞了DeepSeek和Kimi在开源领域取得的成功。这一原理的核心在于回归事物本源,而在大模型领域,这就是基础模型。

事实上,贝壳财经记者曾在今年3月,DeepSeek火爆之后不久这一时间节点上探访过Kimi。一名曾在数据公司工作,后跳槽到Kimi的员工告诉记者,“AI行业迭代速度远超传统领域,现在每周都有重大技术突破,比如我们和DeepSeek曾两次在同一天发布相似论文。在这类竞争压力下,如果研发进度落后,技术优势可能瞬间消失,一旦晚推出,就必须有更显著的提升才有意义。”

但历经DeepSeek冲击后,Kimi公司内部却反而有了一股“解脱”感。“之前许多技术人员的脑子会被产品带着走,需要分出部分精力给用户反馈的问题‘打补丁’、关注DAU(日活跃用户数量),这在让产品变好的同时,也或多或少影响了底层技术的开发。DeepSeek的出现让我们回归到了本来就擅长的技术领域,现在我们集中资源研发下一代模型,就像蒸汽机发明初期,重点在于核心技术创新而非局部优化。”这名员工对贝壳财经记者表示。

显然,从当前的国际反响上来看,Kimi找到了适合自己的路,被誉为“AI搜索神器”,有望接替Google的美国知名创业公司Perplexity首席执行官阿拉温德·斯里尼瓦斯表示Kimi模型在“内部测试中表现卓越”,是一个“不可思议的模型”,该公司将会利用K2来进行训练,而上一个被他们拿来训练的模型是DeepSeek- R1。其表现还征服了致力于大模型生态社区建设的公司Hugging Face。公司联合创始人托马斯·沃尔夫评价Kimi模型“简直令人震惊……月之暗面团队在过去几个月里推出了一系列令人印象深刻的模型,我们很可能会在新闻中频繁看到这些名字。”

当大模型用钢琴弹奏卡农 下一版本的模型会变得更强

获得国际上的“一致好评”后,Kimi还公布了官方技术报告,进一步把开源进行到底。作为北京的大模型公司,这也和北京“建设开源之都”的理念不谋而合。

事实上,DeepSeek开源技术细节后,Kimi K2也继承了DeepSeek-V3的架构。Kimi团队成员刘少伟表示,K2在DeepSeek-V3的基础上进行增加专家数量、减少注意力头数量等调整,最终实现了较强的性能。K2模型架构一共包含384个专家,每层激活其中8个,通过这种高度稀疏的设计在保证性能的同时优化计算效率。

根据Kimi团队公布的技术报告,K2采用了三大核心创新技术:MuonClip优化器,抛弃传统的Adam优化器,创新性地使用了Muon优化器。结合Muon的token效率与QK-Clip的稳定性,支持15.5万亿token无损失spike预训练;大规模Agentic Tool Use数据合成,构建可大规模生成多轮工具使用场景的合成pipeline,覆盖数百领域、数千工具;通用强化学习框架,结合可验证奖励(RLVR)和自我批判评估奖励,将对齐从静态扩展到开放域。

得益于这些技术创新,K2在多项基准性能测试中取得优异表现,展现出在自主编程、智能体工具调用和数学推理等方面的领先能力。根据其公布的测评结果,K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。

Kimi K2项目组成员詹皓冰表示,K2的前端编程能力很强,在3D、游戏、动画制作等场景上,用简单的指令和K2交互,就能得到很惊艳的效果。另一方面,智能体的工具调动能力也让模型整体上有了很大提升。

贝壳财经记者注意到,Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。据悉,月之暗面创始人杨植麟就因为这张专辑定下了公司的名称。


图说:Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。

詹皓冰告诉记者,在K2发布的前夜,公司员工们使用K2编写了一个MCP工具,让它去弹奏这架钢琴,最终K2从“扒琴谱”开始,再学习如何通过代码弹奏钢琴,最终完整弹奏出了一曲《卡农》,“这就像我们听到AI说出的那句‘hello world’,大家很激动。当时创始人在会议室谈发布的事,看到我们在弹钢琴,他特意过来看了钢琴是怎么弹奏的,然后又回去忙。”

杜羽伦表示,贯彻第一性原理,做好基座模型这一长期战略看来对团队非常有益,“我们既得到了技术突破,也得到了一个非常好的模型,并且这个模型目前还没有经过大规模的强化学习,等我们在下一版经过了大规模的强化学习之后,它的能力会变得更强。”

贝壳财经记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰,也许这就是杨植麟为Kimi下一代大模型取名“K2”背后的意义。

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国国父杰斐逊,曾与 14 岁黑奴育有六子却至死否认,直到两百年后,当年的真相才被查证揭晓

美国国父杰斐逊,曾与 14 岁黑奴育有六子却至死否认,直到两百年后,当年的真相才被查证揭晓

源溯历史
2026-01-13 00:28:21
同性恋为何没有在进化中消失?《Nature》头条:同性性行为有助于灵长类生存和繁衍

同性恋为何没有在进化中消失?《Nature》头条:同性性行为有助于灵长类生存和繁衍

医护健康科普
2026-01-14 10:32:11
日本右翼,到底啥意思?

日本右翼,到底啥意思?

混知
2026-01-14 11:44:51
医生提醒:高血压患者出门时,口袋一定要装3样东西,关键能救命

医生提醒:高血压患者出门时,口袋一定要装3样东西,关键能救命

王二哥老搞笑
2026-01-14 09:32:42
正式退出,25岁钱天一正式上任,亮相新岗位,球迷期待

正式退出,25岁钱天一正式上任,亮相新岗位,球迷期待

卿子书
2025-12-26 08:31:35
隐瞒了整整50年,开国少将临终前才吐露身世:其实我不是你们亲爹

隐瞒了整整50年,开国少将临终前才吐露身世:其实我不是你们亲爹

历史回忆室
2026-01-13 21:53:06
帅T网红爆染爱滋「背长满藤壶颗粒」! 友目睹恐怖画面:以为蚂蚁在爬

帅T网红爆染爱滋「背长满藤壶颗粒」! 友目睹恐怖画面:以为蚂蚁在爬

ETtoday星光云
2026-01-12 10:06:26
幻方量化去年收益率56.6%,为DeepSeek提供超级弹药

幻方量化去年收益率56.6%,为DeepSeek提供超级弹药

21世纪经济报道
2026-01-14 10:09:29
单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

流苏晚晴
2026-01-06 18:25:30
国台办:只要承认体现一个中国原则的“九二共识”,两岸两会就能重启对话协商机制

国台办:只要承认体现一个中国原则的“九二共识”,两岸两会就能重启对话协商机制

环球网资讯
2026-01-14 10:54:43
夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

夫妻性生活中的“小动作”技巧:让妻子“爽”到骨子里的四个秘诀

精彩分享快乐
2025-12-04 13:26:44
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
王石田朴珺运动照流出!网友:这老头,太不容易了……

王石田朴珺运动照流出!网友:这老头,太不容易了……

麦杰逊
2026-01-13 12:09:35
详解U23国足出线形势:战泰国不败即出线,输两球或0-1负必出局

详解U23国足出线形势:战泰国不败即出线,输两球或0-1负必出局

懂球帝
2026-01-14 12:25:07
以色列宣布退出多家联合国 机构 称存在“反以偏见 ”

以色列宣布退出多家联合国 机构 称存在“反以偏见 ”

每日经济新闻
2026-01-14 07:39:08
中国24小时内正式反击对美韩加征113%报复关税

中国24小时内正式反击对美韩加征113%报复关税

阿晪美食
2026-01-13 19:10:25
被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

星宇共鸣
2025-12-29 09:56:33
媒体人:保利尼奥当年有大湾区退税政策,但看广州队没钱就没要

媒体人:保利尼奥当年有大湾区退税政策,但看广州队没钱就没要

懂球帝
2026-01-13 16:26:30
“死了么”APP改名

“死了么”APP改名

吉刻新闻
2026-01-14 13:07:31
为富商海外产子真相大白7个月!江疏影近照太意外,王传君没说错

为富商海外产子真相大白7个月!江疏影近照太意外,王传君没说错

探长影视解说
2026-01-14 13:35:03
2026-01-14 14:15:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
59665文章数 13938关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

沪深北交易所提高融资保证金比例

汽车要闻

曝Model Y或降到20万以内!

态度原创

旅游
亲子
数码
健康
公开课

旅游要闻

从“打卡”到“栖居”: 外国游客为何持续选择中国

亲子要闻

“为什么妈妈明明很爱我 却一到辅导作业的时候就很凶”妈妈也在学着怎么去当妈妈

数码要闻

华硕:TUF GAMING X870-PRO WIFI7 W NEO主板系列首发NitroPath

血常规3项异常,是身体警报!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版