网易首页 > 网易号 > 正文 申请入驻

刚刚,杨植麟亲自发布Kimi K2.5开源新王:指挥“智能体大军”,效率暴涨450%

0
分享至


智东西
作者 王涵
编辑 云鹏

智东西1月27日报道,今天,月之暗面Kimi开源了新模型——K2.5,杨植麟还特别发视频亲自介绍。

杨植麟分享称,K2.5是Kimi迄今为止最强大的模型。面对复杂任务时,Kimi K2.5可自主调度包含多达100个子智能体的集群,并行执行最高1500次工具调用。

相较于单智能体模式,其任务执行效率提升最高达4.5倍。整个Agent集群由K2.5模型全自动创建与协调,无需任何预定义子智能体或工作流。该模型以Kimi K2为基础技术架构,在原有架构之上进行了持续的预训练优化,且训练过程中学习、融合了约15万亿个“视觉+文本”混合形式的训练数据单元。

▲K2.5模型开源页面(来源:Hugging Face)

基准测试上,在Agents方面,HLE-Full(综合推理)、BrowseComp(浏览交互)、DeepSearchQA(深度搜索问答)三个基准测试中K2.5得分均位列第一;在编码方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual两项中均排名第一;在图像多模态方面,K2.5在文档理解测试mniDocBench 1.5中得分88.8,为第一名


▲K2.5模型基准测试

在Agent基准测试HLE、BrowseComp和SWE-Veried中,K2.5与GPT-5.2(xhigh)相比,在性能逼近的同时成本更低


▲K2.5模型性价比对比

外网网友对Kimi K2.5模型的评价可以说是好评如潮。FireworksAI联合创始人兼首席技术官Dmytro Dzhulgakov评论称“Kimi K2.5=开源SOTA推理+视觉+256K 上下文+智能体编码”。


▲外网网友评价(来源:X)

Thrive Protocol AI与数据工程师、Ethers Club播客主持人0xSero说(他用)Kimi创建了新的网站页面。


▲外网网友评价(来源:X)

KEA Research协作平台创立者Stanislaw则评价Kimi看起来十分有潜力。


▲外网网友评价(来源:X)

除了K2.5模型外,针对软件工程场景,Kimi团队还推出了编程产品Kimi Code。Kimi Code可直接在终端运行,并支持与VSCode、Cursor、Zed等主流IDE集成。该产品已开源,支持图像与视频输入,还能自动发现现有技能及MCP协议并迁移至Kimi Code工作环境。

价格上,K2.5模型API输入(每百万Token)4元,缓存输入0.7元;输出(每百万Token)21元


▲K2.5模型API价格

K2.5模型提供了四种模式:

1、快速模式:提供最快的响应体验;

2、思考模式:可以用来解答复杂问题;

3、Agent模式:擅长深度研究、PPT、Excel、Word、PDF和网页生成等任务;

4、Agent集群模式:适合需要并行处理的复杂任务。


▲K2.5模型主页

开源地址:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社区:

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、几句话生成能交互的动态网页界面,K2.5降低视觉表达门槛

在Kimi团队内部编程基准测试集Kimi Code Bench中,K2.5在多语言环境下从构建、调试、重构、测试到脚本编写的端到端任务上均较K2有所增强。


▲内部编程基准测试集Kimi Code Bench

杨植麟称,Kimi团队不只是想让K2.5学会写代码,更希望它具备设计审美。在前端开发领域,K2.5能将简单对话转化为完整的前端界面,可以做出像专业设计师出品一样,有高级审美和动效的网页,就像这样:

在视觉编程方面,通过对图像与视频的推理,K2.5的图像/视频转代码生成与视觉调试能力增强,降低了用户通过视觉表达创意的门槛,直接上传一个录屏,就可以重建网页。

此能力源于K2.5的大规模视觉-文本联合预训练。当数据规模足够庞大时,视觉与文本能力实现同步提升。

K2.5还可以通过代码推理谜题并标记最短路径:


二、自主调动1500个协调步骤,K2.5端到端运行时间缩短80%

半年前,Kimi发布了首个万亿参数开源Agent模型Kimi K2。随后推出的Kimi K2 Thinking,通过增加思考时间,具备了独立完成长达300步操作的长程任务能力,但这还不够。

通过并行智能体强化学习(PARL)训练,K2.5模型学会了自主调度最多100个子智能体组成的集群,并行执行最多1500个协调步骤的工作流,整个过程无需预定义角色或人工设计工作流。

可以说,K2.5是从“单个专家”升级为了一个“专业团队”。


▲K2.5 Agent集群结构

K2.5 Agent集群通过并行、专门化的执行方式能够提升复杂任务的性能。在Kimi团队内部评估中,其能够将端到端运行时间缩短80%,同时支持更复杂、更长期的工作负载。


▲Kimi团队内部评估

在广泛搜索场景中,与单智能体执行相比,Agent集群可以将达到目标性能所需的最小关键步骤减少至原先的1/4到1/5.5。通过并行化,Agent集群实际运行时间最多可减少至原先的1/5.5


▲运行时间对比

在实际任务中,例如在大规模并行处理方面,面对在100个细分领域中找出排名前三的YouTube创作者的任务,K2.5 Agent集群首先研究并定义每个领域,然后自主创建100个子智能体进行并行搜索。

每个子智能体在其分配的细分领域内识别出领先的创作者,并将结果汇总到一个结构化的电子表格中。

在大规模使用工具方面,K2.5 Agent集群仅凭一张结婚照,就能启动20个并行子智能体,生成符合当地文化背景的全球婚礼旅行场景,并将它们整合到一个具有统一身份和服饰的互动网页中。

此外,在规模化产出方面,K2.5 Agent集群可以将一项涵盖40篇社会心理学论文的文献综述任务分解为多个专注于写作的子智能体。

每个子智能体负责综述的特定部分,它们的输出最终被综合成一份100页的双栏学术文档,其中包含格式完整的引文和参考文献。

最后,在大规模下载方面,K2.5 Agent集群能够调度多个具有专业分工的子智能体,共同协作处理保罗·格雷厄姆(Paul Graham)的文章。这些子智能体分别负责搜索、下载、分类、总结与汇编任务。

在协同工作下,系统将超过200篇原始文章按主题整理至6个分类文件夹,并生成了一份结构清晰的综合摘要报告。报告中所有引用均明确标注了对应的原始文章来源。


三、AI办公质量提升近60%,K2.5能处理大规模办公任务

不仅如此,K2.5已经开始熟练掌握Office套件的核心技能。

其能够端到端处理高密度、大规模的办公任务,该模型能解析大规模高密度输入,协调多步骤工具使用,并通过直接对话生成专业级输出成果,包括Word、Excel、PPT和PDF。

KImi团队针对真实职场场景,设计了两套内部专家生产力基准测试。AI办公基准测试评估端到端的办公输出质量,而通用智能体基准测试则以人类专家表现为标准,衡量多步骤生产级工作流的表现。

在这两项测试中,在两项基准测试中,K2.5的性能分别比K2 Thinking提升了59.3%24.3%


▲kimi内部专家生产力基准测试

K2.5智能体支持高级办公任务,例如在Word中添加批注、使用数据透视表构建财务模型、在PDF中编写LaTeX公式,并能处理长达万字的论文或百页文档等长篇输出。

例如生成包含图片的100个镜头的分镜脚本表格:

给技术报告增添行内注释:

从数据中提取30个带密码的工资单PDF文件:


结语:月之暗面或将着重多模态及智能体集群能力

一周前,市场还在为月之暗面在20天内估值暴涨约34亿人民币的消息而惊叹。一周后,这家北京AI独角兽就开源了新模型。

此次开源的K2.5模型,最亮眼的就是其“智能体集群”能力,将AI从执行单一指令的工具,升级为能自主调度、并行处理上千步骤的“团队”,而这正直指企业级应用的核心痛点:复杂、高成本、长周期的知识工作流程自动化。

整体来看,这是一次聚焦于提升模型实际效能、扩展多模态能力的技术迭代。此次发布展示了月之暗面近期的研发重心与成果,此前曝光的新融资或为这类深度研发提供更多支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武汉病毒研究所:发现对尼帕病毒有效药物!印度暴发“人传人”疫情,张文宏发声;专家提醒:春节出行非必要不前往疫区

武汉病毒研究所:发现对尼帕病毒有效药物!印度暴发“人传人”疫情,张文宏发声;专家提醒:春节出行非必要不前往疫区

每日经济新闻
2026-01-27 16:15:23
1974年我国参加亚运会,邓小平说:要让给伊朗一块金牌,还人情债

1974年我国参加亚运会,邓小平说:要让给伊朗一块金牌,还人情债

帝哥说史
2026-01-06 06:35:03
北京局地将再飘雪,具体时间——

北京局地将再飘雪,具体时间——

首都之窗
2026-01-27 17:09:21
是什么逼的国企干部上门打人

是什么逼的国企干部上门打人

阿亮评论
2026-01-27 12:11:01
楼大鹏同志逝世

楼大鹏同志逝世

澎湃新闻
2026-01-27 08:58:05
李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

李宗仁归国之后,希望能出任人大副委员长一职,毛主席却给出了三条关键理由,直言此事并不合适

史海孤雁
2025-12-25 16:48:16
普京出招了,美军刚要抵达格陵兰,中俄联手开发北极,谁都挡不住

普京出招了,美军刚要抵达格陵兰,中俄联手开发北极,谁都挡不住

老范谈史
2026-01-26 18:31:54
周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

周总理逝世21年后,中国银行核查账目时发现他名下存有巨额存款,一番调查后揭开了背后的真相

寄史言志
2026-01-17 16:37:15
国运来了挡不住?这三个人,正用各自的方式“助攻”中国崛起

国运来了挡不住?这三个人,正用各自的方式“助攻”中国崛起

远方风林
2025-12-18 23:53:12
通勤、玩乐、巡航,这些摩托车帮你打破“不可能三角”

通勤、玩乐、巡航,这些摩托车帮你打破“不可能三角”

三农老历
2026-01-26 06:04:57
湖南省人大常委会最新人事任免

湖南省人大常委会最新人事任免

耒阳社区
2026-01-27 18:32:41
够硬!CBA联盟犯规第一球队,近12战11胜,晋京厦3强,全赢了个遍

够硬!CBA联盟犯规第一球队,近12战11胜,晋京厦3强,全赢了个遍

金山话体育
2026-01-27 17:39:10
澳州杨姑娘现身了,但谎言才刚刚开始

澳州杨姑娘现身了,但谎言才刚刚开始

深度报
2026-01-26 22:47:46
A股:明天周三股市开盘前,紧急提前给大家5点提醒!

A股:明天周三股市开盘前,紧急提前给大家5点提醒!

股市皆大事
2026-01-27 15:33:14
又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

墨兰史书
2026-01-17 08:30:09
因母亲被人利用AI诈骗,阿德里亚诺:我给你24小时把钱还回来

因母亲被人利用AI诈骗,阿德里亚诺:我给你24小时把钱还回来

懂球帝
2026-01-27 15:17:07
11分钟,“地天板”!003042,三连涨停!

11分钟,“地天板”!003042,三连涨停!

证券时报
2026-01-27 13:03:03
1979年对越自卫反击战期间,中央早已下达撤军命令,许世友却坚持要再打两小时,这是为何?

1979年对越自卫反击战期间,中央早已下达撤军命令,许世友却坚持要再打两小时,这是为何?

史海残云
2025-12-25 12:05:18
特斯拉新款Model Y换装HW4.5:升级三芯片架构,为AI 5做准备

特斯拉新款Model Y换装HW4.5:升级三芯片架构,为AI 5做准备

车东西
2026-01-27 18:51:30
要开始了!伊朗,在劫难逃了!

要开始了!伊朗,在劫难逃了!

大嘴说天下
2026-01-25 19:59:24
2026-01-27 23:19:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11133文章数 116945关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

体大毕业生收费教人骑自行车800元1次 网友直呼"离谱"

头条要闻

体大毕业生收费教人骑自行车800元1次 网友直呼"离谱"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

房产
数码
时尚
旅游
军事航空

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

数码要闻

华硕无畏Pro 14/16 2026款酷睿版发布,6999元起

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

旅游要闻

连线亲历北海道暴雪的中国游客:离开机场时列车半路停好几次

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版