网易首页 > 网易号 > 正文 申请入驻

杨植麟交卷,Kimi 万亿参数K2开源:Agent能力紧逼Anthropic,延展DeepSeek,上手实测如何?

0
分享至

作者 | 周一笑、董道力、Yoky

没有预热,也没有发布会,月之暗面在2025年7月11日深夜选择直接开源Kimi K2 。就在当天,Kimi K2模型悄无声息地出现在Hugging Face上,官网、App和API同步开放,模型参数、训练细节等信息也一并放出 。

这次发布的Kimi K2是一个万亿(1T)参数规模的混合专家(MoE)模型,激活参数为320亿 。其核心能力发生了清晰的转向,Kimi此前的标签是长文本,而K2则为智能体任务(agentic tasks)做了专门优化。

官方展示的例子很能说明问题,比如Kimi K2可以接收一个模糊的需求,通过17次工具调用,自主完成包含航班和酒店预订的旅行规划 ;或是执行16次数据分析指令,完成一份专业的薪资分析报告。

在榜单方面,它在SWE Bench Verified(编程)、Tau2(智能体)、AceBench(工具调用)这三项基准测试中是开源模型表现最好的

在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)这三个能力维度上,Kimi K2也紧逼Claude 4 Opus、OpenAI GPT-4.1等闭源模型。

月之暗面此次开源了两个版本,一个是适合做后续研究和定制化开发的Kimi-K2-Base基础模型,另一个是能直接用于通用聊天和智能体场景的Kimi-K2-Instruct指令微调模型 。

任何模型都有它的取舍和待解问题。那个以超长上下文能力深入人心的Kimi,这次在K2上只配置了128K的窗口虽然以及对表主流模型,但这背后很可能是在当前阶段,优先将资源投入到提升模型的代码和Agent能力上。

另一个现实问题是运行门槛。官方部署指南明确指出,在主流H200等平台上运行Kimi-K2的FP8版本并支持128k上下文,最小硬件需求是一个由16块GPU组成的集群 。尽管模型在vLLM、SGLang等主流推理框架上提供了详细的部署方案,并支持张量并行、专家并行等多种策略来适配不同规模的集群 ,但这个基础的硬件门槛,已将绝大多数个人开发者和中小团队排除在本地化部署之外。这种对大规模、高I/O性能集群的依赖,是其强大能力背后普通用户难以企及的成本。

一些开发者已经在自己尝试把它跑在2个苹果M3芯片的环境里,并表示运转良好。但要提供更好的本地和低资源环境的可用性,还需要Kimi官方的量化版本。

Kimi K2的发布,是杨植麟在给月之暗面调整方向后,交出的一份重要答卷。

DeepSeek出现证明了开源的价值以及底层模型能力依然是竞争的基石,它甚至会“摧毁”在模型单一能力上优化并用在c端产品里然后快速推广的竞争策略。

之后Kimi开始在技术上全线转向预训练,并步步紧跟DeepSeek。2025年2月,两家几乎同时发表论文,挑战Transformer的注意力效率问题,DeepSeek提出了NSA(原生稀疏注意力)架构,月之暗面则提出了MoBA(混合块注意力)架构。两者都试图解决模型处理长文本时的效率瓶颈。清华大学教授章明星曾对此评论,这说明两家顶尖团队对技术演进的方向得出了相似的结论 。但这次K2在文本长度上一般,似乎还没把MoBA彻底用上。

另外,与MiniMax等对手的做法不太相同的地方在于,Kimi此次的开源模型,架构上选择了DeepSeek开发和依赖的MLA(多头潜在注意力),目前技术报告还没发布,从Hugging Face的信息来看,Kimi K2用了结构类似DeepSeek V3的MLA,专家数增加到了384个,激活专家保持在8个。

在优化器上Kimi此前的工作也成了此次模型关键。要训练万亿模型,通用的AdamW优化器已面临挑战。Kimi此前选择了在更新的Muon优化器上深度投入 ,并针对大规模训练中的不稳定性,提出了MuonClip技术,最终支撑了K2在15.5万亿token数据量下的平稳训练。

这些技术投入背后还有一个清晰的技术赌注:“模型即Agent,Agent即模型”的理念。

在K2发布前,月之暗面就通过Kimi-Researcher产品展示了其对智能体的理解——追求一种“零结构”的智能体,不依赖人类预设流程,而是通过端到端的强化学习,让模型在真实的任务反馈中自主学习如何思考、规划和使用工具 。为了实现这一点,Kimi K2在可验证任务(如代码和数学)上进行强化学习的同时,还通过引入“自我评价(self-judging)”机制,解决了在开放性、非验证类任务上的奖励稀缺问题,从而提升了模型的泛化表现。

将这些线索串联起来看,Kimi K2的开源更像是杨植麟给Kimi重新定位后交出的第一个答卷。其实看看这一路的各种动作,会发现这个团队一直有一个明显的特征,他们在技术上还是想争一口气,这体现在他们总会有一个自己的“赌注”,此前是长文本,今天就是Agent,然后围绕一个点,做取舍,押注,交卷。

1

实测K2,瞄准Anthropic的Agent能力

此次Kimi选择先全线上线给用户使用的策略,我们也第一时间上手测了测它的实际能力。

首先是一个“打字游戏”。

我们在cline上接入kimi k2模型,并尝试复现一个中文版打字游戏。

prompts:做一个“打字”游戏,页面上跳出来一句话,用户需要在规定时间内,把这句话打出来。

我们在prompts中只简单描述了一下游戏玩法,而kimi k2自动生成了“需求分析”和“技术方案”,并且针对游戏功能还进行了补充,如进度条、得分系统等。在游戏生成后,kimi k2写了一份简单的游戏介绍,包含了操作说明和游戏特点。

而且,kimi k2的打字游戏一次生成完成度就很高,可以直接运行,基本没有bug。

项目网址:https://ddlpmj.github.io/pw_kimik2_test/

此外,浏览网页获取信息并作出规划,也是Agent的重要能力体现之一。

prompts:我喜欢音乐节,我希望你可以帮我找一下今年各大音乐节的名称、行程等,做成日历清单,并以html的形式整理出来。

我们尝试让kimi k2帮我们做一份“音乐节日历清单”,并以网页的形式展现出来。和打字游戏一样,kimi k2除了prompts中的要求,还像个助理一样,补充了音乐节的其他信息,如地点、是否确认举办等。

在成品页面设计中,kimi k2还做了规划,如1-3月举行的音乐节在同一页面展示,4-6月的在另一页面展示。鼠标移动到具体的音乐节上,还会有放大的特效。

能否取得大量数据,并从中做出洞察也是我们考验的能力之一。我们下载了近5年的上上证指数数据,共1214条,交给kimi k2进行分析。

prompts:@/000001perf.xlsx 这是一份上证指数数据,分析数据并做一份分析报告,报告中要包含图表

可以发现,kimi k2决定用python进行报告生成,为了读取表格文件和生成图表,它会自动检查有没有pyhton相对应的库,并进行下载。

在指标上,kimi k2会自动挑选有代表性的进行分析,如最高/低日成交额,数据波动等。

从分析报告成品来看,kimi k2先生成图表,后生成分析报告,最后将二者结合,逻辑比较顺畅。此外,kimi k2生成的图表形式多样,趋势线、热力散点图等都有。

并且kimi k2基本找出了上证指数的特点。

为了测试K2的风格化文本生成能力,我们选择了一个具有挑战性的任务:让它模仿知名脱口秀演员付航的表演风格,创作一段300字的脱口秀段子。

测试结果显示,K2确实展现出了一定的风格模仿能力。从表面看,生成的文本在语言节奏和表达方式上有那么几分相似,但仔细分析后发现,它并没有真正捕捉到付航段子的核心特质。

初次生成的内容存在明显的逻辑混乱问题,读起来让人摸不着头脑,甚至难以理解基本的表达意图。经过参数调整和prompt优化后,第二次的输出在可理解性方面有了显著提升,至少能够清晰地传达想要表达的内容,但依旧不好笑。

不过值得注意的是,K2在最近的升级中展现出了一个有趣的变化趋势。它的文本表达风格明显向R1靠拢,开始频繁使用一些颇为华丽的比喻和相对复杂的措辞。这很可能也跟Kimi K2在训练中对合成数据的使用有关。

更多的细节等待它的官方技术报告来揭秘。

在Kimi的英文技术博客里,它也直接取名:Kimi K2: Open Agentic Intelligence。在此之前,Anthropic的Claude是把自己和Agent能力捆绑最紧密的模型系列,并且也同样在聚焦Agent能力同时没有太多去提高多模态等能力。此次K2对标Claude的思路很明显,在模型能力上也做了很明显的取舍。

根据Kimi透露,K2现在已具备复杂指令集解析能力,可以兼容Anthropic等的API接口,可以无缝接入Cline,owl等Agent框架。在社区里,各种对K2的实测也纷纷出现。其中不少开发者也表达了对实测上手K2在Agent能力上的惊艳。甚至已经有人“开发”出把Claude Code里的Claude模型替换成Kimi K2的方法,并且表示可以用来平替。

接下来可能可以期待Kimi 的产品上,也会像Claude那样衍生出更多功能,预训练模型的进展最终真正“反哺”到它C端产品上,然后Make Kimi great again。

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:尾盘加速跳水,释放了两个信号,明天或将这样走!

A股:尾盘加速跳水,释放了两个信号,明天或将这样走!

明心
2026-02-02 16:32:01
春运抢票高峰“上线”!记者探访12306售票监控中心

春运抢票高峰“上线”!记者探访12306售票监控中心

上观新闻
2026-02-02 07:25:31
“全面拆迁”来了?2026年住建部已明确,这两类房子或将统通拆迁

“全面拆迁”来了?2026年住建部已明确,这两类房子或将统通拆迁

趣文说娱
2026-01-31 19:23:15
广东一初中生背影火了,网友怒赞!

广东一初中生背影火了,网友怒赞!

深圳晚报
2026-01-31 23:00:48
哈登或将成为NBA一分球、两分球和三分球得分全部破万历史第一人

哈登或将成为NBA一分球、两分球和三分球得分全部破万历史第一人

大眼瞄世界
2026-02-01 22:41:38
1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

寄史言志
2026-01-20 13:57:07
现货黄金日内跌幅扩大至7%,报4519.53美元/盎司

现货黄金日内跌幅扩大至7%,报4519.53美元/盎司

每日经济新闻
2026-02-02 14:00:12
221名女囚流放澳洲,下船时很多怀孕,这批女囚孕育出了一个国家

221名女囚流放澳洲,下船时很多怀孕,这批女囚孕育出了一个国家

千秋文化
2026-01-30 21:45:45
永远不可能被抹杀的历史:四野部队里的那三万日籍士兵

永远不可能被抹杀的历史:四野部队里的那三万日籍士兵

深度报
2026-01-21 21:25:16
难以置信!广东有人在李亚鹏直播间抢购34000多普洱,追问怎么喝

难以置信!广东有人在李亚鹏直播间抢购34000多普洱,追问怎么喝

火山诗话
2026-01-31 11:52:11
谁还敢得罪中国?全球不再疯抢芯片,而是中国20万一台的变压器

谁还敢得罪中国?全球不再疯抢芯片,而是中国20万一台的变压器

王新喜
2026-01-29 07:36:48
李敏与李讷是毛主席的亲生女儿,原总参文化部长李静则是被毛主席认作的 “女儿”

李敏与李讷是毛主席的亲生女儿,原总参文化部长李静则是被毛主席认作的 “女儿”

文史明鉴
2026-01-03 21:04:12
金价:大家不必再等待了!接下来,金价有可能会重演历史

金价:大家不必再等待了!接下来,金价有可能会重演历史

除夕烟火灿烂
2026-02-01 16:57:25
真狂!狄龙:面对快船我会使出全力,并想法让哈登单场拿不到9分

真狂!狄龙:面对快船我会使出全力,并想法让哈登单场拿不到9分

移动挡拆
2026-02-01 23:58:43
莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

乔话
2026-01-31 22:52:04
什刹海大爷雕的抽象“玲娜贝儿”爆火,迪士尼法务部看了都沉默!

什刹海大爷雕的抽象“玲娜贝儿”爆火,迪士尼法务部看了都沉默!

广告案例精选
2026-01-31 19:38:10
颠覆认知!刚刚,美国重大突破或造出永不沉没的船只?

颠覆认知!刚刚,美国重大突破或造出永不沉没的船只?

徐德文科学频道
2026-02-01 19:47:05
俄方明确:美国若攻打伊朗,俄罗斯不会出兵

俄方明确:美国若攻打伊朗,俄罗斯不会出兵

桂系007
2026-02-02 03:18:48
NVIDIA发福利:突袭发售原价RTX 50公版卡!几分钟即被秒光

NVIDIA发福利:突袭发售原价RTX 50公版卡!几分钟即被秒光

快科技
2026-02-01 23:04:23
特朗普再次表态:将与古巴达成协议

特朗普再次表态:将与古巴达成协议

新京报
2026-02-02 07:28:03
2026-02-02 18:28:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2836文章数 10435关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

本地
家居
亲子
艺术
游戏

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

现代几何彩拼 智焕童梦居

亲子要闻

儿女长大,这四件事不要管

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

《HighGuard》试玩:它正于争议旋涡中稳步向前

无障碍浏览 进入关怀版