网易首页 > 网易号 > 正文 申请入驻

杨植麟交卷,Kimi 万亿参数K2开源:Agent能力紧逼Anthropic,延展DeepSeek,上手实测如何?

0
分享至

作者 | 周一笑、董道力、Yoky

没有预热,也没有发布会,月之暗面在2025年7月11日深夜选择直接开源Kimi K2 。就在当天,Kimi K2模型悄无声息地出现在Hugging Face上,官网、App和API同步开放,模型参数、训练细节等信息也一并放出 。

这次发布的Kimi K2是一个万亿(1T)参数规模的混合专家(MoE)模型,激活参数为320亿 。其核心能力发生了清晰的转向,Kimi此前的标签是长文本,而K2则为智能体任务(agentic tasks)做了专门优化。

官方展示的例子很能说明问题,比如Kimi K2可以接收一个模糊的需求,通过17次工具调用,自主完成包含航班和酒店预订的旅行规划 ;或是执行16次数据分析指令,完成一份专业的薪资分析报告。

在榜单方面,它在SWE Bench Verified(编程)、Tau2(智能体)、AceBench(工具调用)这三项基准测试中是开源模型表现最好的

在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)这三个能力维度上,Kimi K2也紧逼Claude 4 Opus、OpenAI GPT-4.1等闭源模型。

月之暗面此次开源了两个版本,一个是适合做后续研究和定制化开发的Kimi-K2-Base基础模型,另一个是能直接用于通用聊天和智能体场景的Kimi-K2-Instruct指令微调模型 。

任何模型都有它的取舍和待解问题。那个以超长上下文能力深入人心的Kimi,这次在K2上只配置了128K的窗口虽然以及对表主流模型,但这背后很可能是在当前阶段,优先将资源投入到提升模型的代码和Agent能力上。

另一个现实问题是运行门槛。官方部署指南明确指出,在主流H200等平台上运行Kimi-K2的FP8版本并支持128k上下文,最小硬件需求是一个由16块GPU组成的集群 。尽管模型在vLLM、SGLang等主流推理框架上提供了详细的部署方案,并支持张量并行、专家并行等多种策略来适配不同规模的集群 ,但这个基础的硬件门槛,已将绝大多数个人开发者和中小团队排除在本地化部署之外。这种对大规模、高I/O性能集群的依赖,是其强大能力背后普通用户难以企及的成本。

一些开发者已经在自己尝试把它跑在2个苹果M3芯片的环境里,并表示运转良好。但要提供更好的本地和低资源环境的可用性,还需要Kimi官方的量化版本。

Kimi K2的发布,是杨植麟在给月之暗面调整方向后,交出的一份重要答卷。

DeepSeek出现证明了开源的价值以及底层模型能力依然是竞争的基石,它甚至会“摧毁”在模型单一能力上优化并用在c端产品里然后快速推广的竞争策略。

之后Kimi开始在技术上全线转向预训练,并步步紧跟DeepSeek。2025年2月,两家几乎同时发表论文,挑战Transformer的注意力效率问题,DeepSeek提出了NSA(原生稀疏注意力)架构,月之暗面则提出了MoBA(混合块注意力)架构。两者都试图解决模型处理长文本时的效率瓶颈。清华大学教授章明星曾对此评论,这说明两家顶尖团队对技术演进的方向得出了相似的结论 。但这次K2在文本长度上一般,似乎还没把MoBA彻底用上。

另外,与MiniMax等对手的做法不太相同的地方在于,Kimi此次的开源模型,架构上选择了DeepSeek开发和依赖的MLA(多头潜在注意力),目前技术报告还没发布,从Hugging Face的信息来看,Kimi K2用了结构类似DeepSeek V3的MLA,专家数增加到了384个,激活专家保持在8个。

在优化器上Kimi此前的工作也成了此次模型关键。要训练万亿模型,通用的AdamW优化器已面临挑战。Kimi此前选择了在更新的Muon优化器上深度投入 ,并针对大规模训练中的不稳定性,提出了MuonClip技术,最终支撑了K2在15.5万亿token数据量下的平稳训练。

这些技术投入背后还有一个清晰的技术赌注:“模型即Agent,Agent即模型”的理念。

在K2发布前,月之暗面就通过Kimi-Researcher产品展示了其对智能体的理解——追求一种“零结构”的智能体,不依赖人类预设流程,而是通过端到端的强化学习,让模型在真实的任务反馈中自主学习如何思考、规划和使用工具 。为了实现这一点,Kimi K2在可验证任务(如代码和数学)上进行强化学习的同时,还通过引入“自我评价(self-judging)”机制,解决了在开放性、非验证类任务上的奖励稀缺问题,从而提升了模型的泛化表现。

将这些线索串联起来看,Kimi K2的开源更像是杨植麟给Kimi重新定位后交出的第一个答卷。其实看看这一路的各种动作,会发现这个团队一直有一个明显的特征,他们在技术上还是想争一口气,这体现在他们总会有一个自己的“赌注”,此前是长文本,今天就是Agent,然后围绕一个点,做取舍,押注,交卷。

1

实测K2,瞄准Anthropic的Agent能力

此次Kimi选择先全线上线给用户使用的策略,我们也第一时间上手测了测它的实际能力。

首先是一个“打字游戏”。

我们在cline上接入kimi k2模型,并尝试复现一个中文版打字游戏。

prompts:做一个“打字”游戏,页面上跳出来一句话,用户需要在规定时间内,把这句话打出来。

我们在prompts中只简单描述了一下游戏玩法,而kimi k2自动生成了“需求分析”和“技术方案”,并且针对游戏功能还进行了补充,如进度条、得分系统等。在游戏生成后,kimi k2写了一份简单的游戏介绍,包含了操作说明和游戏特点。

而且,kimi k2的打字游戏一次生成完成度就很高,可以直接运行,基本没有bug。

项目网址:https://ddlpmj.github.io/pw_kimik2_test/

此外,浏览网页获取信息并作出规划,也是Agent的重要能力体现之一。

prompts:我喜欢音乐节,我希望你可以帮我找一下今年各大音乐节的名称、行程等,做成日历清单,并以html的形式整理出来。

我们尝试让kimi k2帮我们做一份“音乐节日历清单”,并以网页的形式展现出来。和打字游戏一样,kimi k2除了prompts中的要求,还像个助理一样,补充了音乐节的其他信息,如地点、是否确认举办等。

在成品页面设计中,kimi k2还做了规划,如1-3月举行的音乐节在同一页面展示,4-6月的在另一页面展示。鼠标移动到具体的音乐节上,还会有放大的特效。

能否取得大量数据,并从中做出洞察也是我们考验的能力之一。我们下载了近5年的上上证指数数据,共1214条,交给kimi k2进行分析。

prompts:@/000001perf.xlsx 这是一份上证指数数据,分析数据并做一份分析报告,报告中要包含图表

可以发现,kimi k2决定用python进行报告生成,为了读取表格文件和生成图表,它会自动检查有没有pyhton相对应的库,并进行下载。

在指标上,kimi k2会自动挑选有代表性的进行分析,如最高/低日成交额,数据波动等。

从分析报告成品来看,kimi k2先生成图表,后生成分析报告,最后将二者结合,逻辑比较顺畅。此外,kimi k2生成的图表形式多样,趋势线、热力散点图等都有。

并且kimi k2基本找出了上证指数的特点。

为了测试K2的风格化文本生成能力,我们选择了一个具有挑战性的任务:让它模仿知名脱口秀演员付航的表演风格,创作一段300字的脱口秀段子。

测试结果显示,K2确实展现出了一定的风格模仿能力。从表面看,生成的文本在语言节奏和表达方式上有那么几分相似,但仔细分析后发现,它并没有真正捕捉到付航段子的核心特质。

初次生成的内容存在明显的逻辑混乱问题,读起来让人摸不着头脑,甚至难以理解基本的表达意图。经过参数调整和prompt优化后,第二次的输出在可理解性方面有了显著提升,至少能够清晰地传达想要表达的内容,但依旧不好笑。

不过值得注意的是,K2在最近的升级中展现出了一个有趣的变化趋势。它的文本表达风格明显向R1靠拢,开始频繁使用一些颇为华丽的比喻和相对复杂的措辞。这很可能也跟Kimi K2在训练中对合成数据的使用有关。

更多的细节等待它的官方技术报告来揭秘。

在Kimi的英文技术博客里,它也直接取名:Kimi K2: Open Agentic Intelligence。在此之前,Anthropic的Claude是把自己和Agent能力捆绑最紧密的模型系列,并且也同样在聚焦Agent能力同时没有太多去提高多模态等能力。此次K2对标Claude的思路很明显,在模型能力上也做了很明显的取舍。

根据Kimi透露,K2现在已具备复杂指令集解析能力,可以兼容Anthropic等的API接口,可以无缝接入Cline,owl等Agent框架。在社区里,各种对K2的实测也纷纷出现。其中不少开发者也表达了对实测上手K2在Agent能力上的惊艳。甚至已经有人“开发”出把Claude Code里的Claude模型替换成Kimi K2的方法,并且表示可以用来平替。

接下来可能可以期待Kimi 的产品上,也会像Claude那样衍生出更多功能,预训练模型的进展最终真正“反哺”到它C端产品上,然后Make Kimi great again。

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

血管狭窄超90%,重油重腻且生活不规律,假如第一时间被抢救,张雪峰能活吗?

消化石医生
2026-03-26 12:52:28
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

A股:低开低走跳水大跌,发生了什么?刚刚,新华社传来重磅消息

虎哥闲聊
2026-03-26 12:06:24
2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

2026年身份证就是老年证!爸妈满60岁别办证,这4件事千万不能忘

复转这些年
2026-03-26 09:26:17
李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

李鑫认亲第3天!姐弟闹掰再次失联,姐姐深夜哭诉,养家姐姐发声

离离言几许
2026-03-26 12:11:37
谈判姿态只是烟雾弹?美国被曝计划向伊朗增派精锐部队第82空降师

谈判姿态只是烟雾弹?美国被曝计划向伊朗增派精锐部队第82空降师

澎湃新闻
2026-03-25 17:18:26
油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

油价调整消息:今天3月26日,全国加油站调整后92、95汽油新售价

沙雕小琳琳
2026-03-26 10:31:28
NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

NBA董事会官宣批准:扩军仅限赌城西雅图 每队预计出70-100亿美元

醉卧浮生
2026-03-25 23:03:44
黄金、白银,直线跳水!特朗普,大消息!

黄金、白银,直线跳水!特朗普,大消息!

证券时报e公司
2026-03-26 14:47:48
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
41岁张雪峰离世,峰学蔚来接班人正式浮出水面

41岁张雪峰离世,峰学蔚来接班人正式浮出水面

秋姐居
2026-03-25 17:02:04
紧急提醒:截图别乱发,暗水印能直接找到你的本人

紧急提醒:截图别乱发,暗水印能直接找到你的本人

戗词夺理
2026-03-25 10:35:41
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

怼得漂亮!伊朗外长:既然我们连领导层都没有了,还有什么好谈的

南风不及你温柔
2026-03-26 14:07:38
800万粉网红挖机小何彻底凉凉?挖机遭厂家回收,流量密码没了

800万粉网红挖机小何彻底凉凉?挖机遭厂家回收,流量密码没了

雷科技
2026-03-24 14:32:17
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

大风新闻
2026-03-26 18:09:04
简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

史行途
2026-03-26 07:36:04
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
2026-03-26 18:31:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
房产
旅游
亲子
公开课

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

视点|陶然亭公园海棠春花文化节,解锁春日新体验

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版