网易首页 > 网易号 > 正文 申请入驻

杨植麟亲自发布Kimi K2.5开源新王 指挥智能体大军效率暴涨450%

0
分享至



智东西

作者 | 王涵

编辑 | 云鹏

智东西1月27日报道,今天,月之暗面Kimi开源了新模型——K2.5,杨植麟还特别发视频亲自介绍。

杨植麟分享称,K2.5是Kimi迄今为止最强大的模型。面对复杂任务时,Kimi K2.5可自主调度包含多达100个子智能体的集群,并行执行最高1500次工具调用。

相较于单智能体模式,其任务执行效率提升最高达4.5倍。整个Agent集群由K2.5模型全自动创建与协调,无需任何预定义子智能体或工作流。该模型以Kimi K2为基础技术架构,在原有架构之上进行了持续的预训练优化,且训练过程中学习、融合了约15万亿个“视觉+文本”混合形式的训练数据单元。



K2.5模型开源页面(来源:Hugging Face)

基准测试上,在Agents方面,HLE-Full(综合推理)、BrowseComp(浏览交互)、DeepSearchQA(深度搜索问答)三个基准测试中K2.5得分均位列第一;在编码方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual两项中均排名第一;在图像多模态方面,K2.5在文档理解测试mniDocBench 1.5中得分88.8,为第一名



K2.5模型基准测试

在Agent基准测试HLE、BrowseComp和SWE-Veried中,K2.5与GPT-5.2(xhigh)相比,在性能逼近的同时成本更低



K2.5模型性价比对比

外网网友对Kimi K2.5模型的评价可以说是好评如潮。FireworksAI联合创始人兼首席技术官Dmytro Dzhulgakov评论称“Kimi K2.5=开源SOTA推理+视觉+256K 上下文+智能体编码”。



外网网友评价(来源:X)

Thrive Protocol AI与数据工程师、Ethers Club播客主持人0xSero说(他用)Kimi创建了新的网站页面。



外网网友评价(来源:X)

KEA Research协作平台创立者Stanislaw则评价Kimi看起来十分有潜力。



外网网友评价(来源:X)

除了K2.5模型外,针对软件工程场景,Kimi团队还推出了编程产品Kimi Code。Kimi Code可直接在终端运行,并支持与VSCode、Cursor、Zed等主流IDE集成。该产品已开源,支持图像与视频输入,还能自动发现现有技能及MCP协议并迁移至Kimi Code工作环境。

价格上,K2.5模型API输入(每百万Token)4元,缓存输入0.7元;输出(每百万Token)21元



K2.5模型API价格

K2.5模型提供了四种模式:

1、快速模式:提供最快的响应体验;

2、思考模式:可以用来解答复杂问题;

3、Agent模式:擅长深度研究、PPT、Excel、Word、PDF和网页生成等任务;

4、Agent集群模式:适合需要并行处理的复杂任务。



K2.5模型主页

开源地址:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社区:

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、几句话生成能交互的动态网页界面,K2.5降低视觉表达门槛

在Kimi团队内部编程基准测试集Kimi Code Bench中,K2.5在多语言环境下从构建、调试、重构、测试到脚本编写的端到端任务上均较K2有所增强。



内部编程基准测试集Kimi Code Bench

杨植麟称,Kimi团队不只是想让K2.5学会写代码,更希望它具备设计审美。在前端开发领域,K2.5能将简单对话转化为完整的前端界面,可以做出像专业设计师出品一样,有高级审美和动效的网页,就像这样:

在视觉编程方面,通过对图像与视频的推理,K2.5的图像/视频转代码生成与视觉调试能力增强,降低了用户通过视觉表达创意的门槛,直接上传一个录屏,就可以重建网页。

此能力源于K2.5的大规模视觉-文本联合预训练。当数据规模足够庞大时,视觉与文本能力实现同步提升。

K2.5还可以通过代码推理谜题并标记最短路径:

二、自主调动1500个协调步骤,K2.5端到端运行时间缩短80%

半年前,Kimi发布了首个万亿参数开源Agent模型Kimi K2。随后推出的Kimi K2 Thinking,通过增加思考时间,具备了独立完成长达300步操作的长程任务能力,但这还不够。

通过并行智能体强化学习(PARL)训练,K2.5模型学会了自主调度最多100个子智能体组成的集群,并行执行最多1500个协调步骤的工作流,整个过程无需预定义角色或人工设计工作流。

可以说,K2.5是从“单个专家”升级为了一个“专业团队”。



K2.5 Agent集群结构

K2.5 Agent集群通过并行、专门化的执行方式能够提升复杂任务的性能。在Kimi团队内部评估中,其能够将端到端运行时间缩短80%,同时支持更复杂、更长期的工作负载。



Kimi团队内部评估

在广泛搜索场景中,与单智能体执行相比,Agent集群可以将达到目标性能所需的最小关键步骤减少至原先的1/4到1/5.5。通过并行化,Agent集群实际运行时间最多可减少至原先的1/5.5



运行时间对比

在实际任务中,例如在大规模并行处理方面,面对在100个细分领域中找出排名前三的YouTube创作者的任务,K2.5 Agent集群首先研究并定义每个领域,然后自主创建100个子智能体进行并行搜索。

每个子智能体在其分配的细分领域内识别出领先的创作者,并将结果汇总到一个结构化的电子表格中。

在大规模使用工具方面,K2.5 Agent集群仅凭一张结婚照,就能启动20个并行子智能体,生成符合当地文化背景的全球婚礼旅行场景,并将它们整合到一个具有统一身份和服饰的互动网页中。

此外,在规模化产出方面,K2.5 Agent集群可以将一项涵盖40篇社会心理学论文的文献综述任务分解为多个专注于写作的子智能体。

每个子智能体负责综述的特定部分,它们的输出最终被综合成一份100页的双栏学术文档,其中包含格式完整的引文和参考文献。

最后,在大规模下载方面,K2.5 Agent集群能够调度多个具有专业分工的子智能体,共同协作处理保罗·格雷厄姆(Paul Graham)的文章。这些子智能体分别负责搜索、下载、分类、总结与汇编任务。

在协同工作下,系统将超过200篇原始文章按主题整理至6个分类文件夹,并生成了一份结构清晰的综合摘要报告。报告中所有引用均明确标注了对应的原始文章来源。

三、AI办公质量提升近60%,K2.5能处理大规模办公任务

不仅如此,K2.5已经开始熟练掌握Office套件的核心技能。

其能够端到端处理高密度、大规模的办公任务,该模型能解析大规模高密度输入,协调多步骤工具使用,并通过直接对话生成专业级输出成果,包括Word、Excel、PPT和PDF。

KImi团队针对真实职场场景,设计了两套内部专家生产力基准测试。AI办公基准测试评估端到端的办公输出质量,而通用智能体基准测试则以人类专家表现为标准,衡量多步骤生产级工作流的表现。

在这两项测试中,在两项基准测试中,K2.5的性能分别比K2 Thinking提升了59.3%24.3%



kimi内部专家生产力基准测试

K2.5智能体支持高级办公任务,例如在Word中添加批注、使用数据透视表构建财务模型、在PDF中编写LaTeX公式,并能处理长达万字的论文或百页文档等长篇输出。

例如生成包含图片的100个镜头的分镜脚本表格:

给技术报告增添行内注释:

从数据中提取30个带密码的工资单PDF文件:

结语:月之暗面或将着重多模态及智能体集群能力

一周前,市场还在为月之暗面在20天内估值暴涨约34亿人民币的消息而惊叹。一周后,这家北京AI独角兽就开源了新模型。

此次开源的K2.5模型,最亮眼的就是其“智能体集群”能力,将AI从执行单一指令的工具,升级为能自主调度、并行处理上千步骤的“团队”,而这正直指企业级应用的核心痛点:复杂、高成本、长周期的知识工作流程自动化。

整体来看,这是一次聚焦于提升模型实际效能、扩展多模态能力的技术迭代。此次发布展示了月之暗面近期的研发重心与成果,此前曝光的新融资或为这类深度研发提供更多支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
加拿大对华态度反转,面对100%关税威胁,卡尼向特朗普低头认输

加拿大对华态度反转,面对100%关税威胁,卡尼向特朗普低头认输

策前论
2026-01-27 11:45:03
翟欣欣邻居曝猛料:她被带走时哭疯了,父母跟着落泪,称跟她无关

翟欣欣邻居曝猛料:她被带走时哭疯了,父母跟着落泪,称跟她无关

谈史论天地
2026-01-26 18:40:03
女子在盒马app下单鲜百合被误送成水仙球,致老人和小孩误食中毒

女子在盒马app下单鲜百合被误送成水仙球,致老人和小孩误食中毒

半岛晨报
2026-01-27 20:40:33
特朗普施压伊朗:美军派遣舰队规模,“比在委内瑞拉的还大”;舆论认为伊朗回击目标涵盖美军事基地及以色列

特朗普施压伊朗:美军派遣舰队规模,“比在委内瑞拉的还大”;舆论认为伊朗回击目标涵盖美军事基地及以色列

大风新闻
2026-01-27 11:02:05
斯诺克赛程:决出4席16强,赵心童首秀,NO.1或躺赢,火箭退赛?

斯诺克赛程:决出4席16强,赵心童首秀,NO.1或躺赢,火箭退赛?

刘姚尧的文字城堡
2026-01-27 07:18:44
特朗普还是大意了,刚腾出手要干伊朗,回头发现委内瑞拉失控了?

特朗普还是大意了,刚腾出手要干伊朗,回头发现委内瑞拉失控了?

柏拉图的诉说1
2026-01-27 12:20:26
伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

伊朗已被包围,美军开战在即,哈梅内伊进地堡,中方要做最坏打算

墨印斋
2026-01-27 16:50:44
10球10助!曝巴萨与22岁核心续约至2031年:年薪翻50% 违约金5亿

10球10助!曝巴萨与22岁核心续约至2031年:年薪翻50% 违约金5亿

风过乡
2026-01-27 06:36:16
曾仕强预言:2026年有一道坎,不是天灾人祸,可能有些人撑不过去

曾仕强预言:2026年有一道坎,不是天灾人祸,可能有些人撑不过去

小月故事
2025-12-16 11:51:21
椰树为徐冬冬婚礼推出定制饮料包装“从单身喝到结婚”,集团回应

椰树为徐冬冬婚礼推出定制饮料包装“从单身喝到结婚”,集团回应

中国品牌
2026-01-27 19:24:12
黄金站上5100美元创历史行情,全港唯一黄金矿业 ETF——易方达黄金矿(2824)火热申购中

黄金站上5100美元创历史行情,全港唯一黄金矿业 ETF——易方达黄金矿(2824)火热申购中

和讯网
2026-01-27 13:35:37
一定要大量读书,读书多了就会明白:不要对认知层次低的人太好

一定要大量读书,读书多了就会明白:不要对认知层次低的人太好

富书
2026-01-17 16:58:03
央媒点名不到7天!周鸿祎直言:罗永浩性格傲慢,贾国龙终能翻身

央媒点名不到7天!周鸿祎直言:罗永浩性格傲慢,贾国龙终能翻身

特特农村生活
2026-01-28 02:39:06
太平公主在一个夜晚宠幸了四名男子,清晨四名男子早已经没了气息

太平公主在一个夜晚宠幸了四名男子,清晨四名男子早已经没了气息

西楼知趣杂谈
2025-12-22 17:14:04
冷空气,今日抵达!广州马上又有新阿冷

冷空气,今日抵达!广州马上又有新阿冷

羊城攻略
2026-01-27 21:49:17
最不该反的人,反了

最不该反的人,反了

我是历史其实挺有趣
2025-11-22 08:46:10
网传全国多家门店拒绝为小米车主服务

网传全国多家门店拒绝为小米车主服务

汽车有文化
2026-01-26 20:49:05
社会百态:43岁失足妇女自述,很多客人比我儿子年龄还小!

社会百态:43岁失足妇女自述,很多客人比我儿子年龄还小!

城南雪花开
2025-04-23 03:02:01
千万别姐弟恋,很累!

千万别姐弟恋,很累!

果粉之家
2026-01-06 11:26:21
胖东来调改的超市,连房租都交不起了?

胖东来调改的超市,连房租都交不起了?

中国新闻周刊
2026-01-27 15:10:40
2026-01-28 05:15:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11134文章数 116945关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

教育
时尚
手机
艺术
房产

教育要闻

对话陈妤颉:闪闪发光的赛道,追逐梦想

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

手机要闻

苹果连发4版系统:从iPhone 5s到iOS 26,果粉福音来了!

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

无障碍浏览 进入关怀版