网易首页 > 网易号 > 正文 申请入驻

Kimi K2.5来了:杨植麟亲自站台,还能分身出100个Agent!

0
分享至


作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

没坐在实木茶几前,没坐在沙发里,背景也没有高雅的绿植映衬,月之暗面的CEO杨植麟在视频里站着就发布了Kimi最新的模型K2.5。

而且还是中英文双语的。

“Hi 大家好,我是植麟。”杨植麟说。“K2.5是我们目前最强大的模型,它是一个全能模型,不管是视觉还是文本,对话还是agent,思考还是非思考——所有这些能力,都集中在这一个模型里。重要的是,K2.5是一个开源模型。”

显然,一个疯狂的模型集体更新季到来了。

而即便如此,在诸多新发布的模型之间,月之暗面刚刚最新发布的Kimi K2.5依然区分度明显。

根据Kimi的数据,K2.5在包括HLE、BrowseComp 和 DeepSearchQA等极具挑战性的 agent 评测中取得了当前最佳表现。在编程能力测试上,它在 SWE-bench Verified 上拿到了 76.8 分,缩小了与顶尖闭源模型之间的差距。多项视觉理解评测上也实现了当前最佳效果。


在这些能力指标之外,更重要的是,K2.5是至今为止最能充分展现月之暗面特质的一代模型:

这家公司一直被寄予厚望的是它的算法研究和产品创新能力,而这代更全面的模型充分展示了这家公司在研究和产品设计上很强的少年气。

1

先看看K2.5的几个核心特点:

在模型具体单点的能力上,它终于有了视觉能力,可以基于视觉,包括图片和视频,进行理解和推理。同时它是一个all in one架构的模型,多模态和文本、思考和快速回答、代码和agent能力都统一于一个模型一身。

在月之暗面一直坚信的“模型即产品”思路之下,K2.5这次做了多个很有新意的功能封装。

它把视觉和编码能力结合,把模型追求的few shots甚至zero shot能力直接体现在Kimi的产品上,你可以用更简单的自然语言和更直观的视觉编辑的方式,比如直接给他一个你要的产品的视频,让它拆解后还原复刻,比如直接在生成的UI上圈圈改改,就能完成创作和开发以及修改。

官方给出的一个用视觉能力复刻项目的例子

除了前端设计,伴随K2.5,Kimi还推出了Kimi Code,可以在终端里直接运行,也能集成到 VSCode、Cursor 等主流编辑器中。你可以直接输入图片和视频进行编程辅助,而且它还可以自动发现并将你现有的Skills迁移到新的工作流中。

更亮眼的则是此次发布的但依然在beta阶段的多agent能力。Kimi直接通过产品把模型训练出来的“多agent平行与串行调度能力”封装提供了出来:

当你选择Agent集群模式,模型开始给你打造一个专业团队,100个agent集群可以同时并发,串行+并行来完成复杂任务。根据Kimi介绍,这些专项 agents 本质上都是 K2.5 的“分身”但各自承担不同的角色和子任务。

“没有任何预设的规则,所有的角色分配和任务拆解,都由 K2.5 现场即时决定。”依然是模型通用能力最终大过垂直打造工作流的产品思路。

目前Agent 集群功能正在进行 Beta 测试,部分 Kimi 会员可提前试用,接下来会逐渐推广。

而在这一切的底座上,在模型训练方法以及AI技术演进的方向上杨植麟继续完善着他scale to AGI的路线。

在训练上,Agent集群对模型提出新的要求,Kimi为此重构了强化学习的基建,专门优化了训练算法,以确保它能达到极致的效率和性能。

而从K1.5开始,每一代的模型其实都在Scale一个不同的方向,K1.5 是在 token上继续Scale,到了agent能力增强的K2,重点scale 思考的步骤,而K2.5 则是对agent的规模,也就是多agent的共同协作能力做Scale,进而保持scale的可延续。

“Scaling Out, Not Just Up.”

2

这次K2.5让Kimi变成一个全面的模型,更难得的,是这些背后都有它自己思路清晰的创新思考。

都说scaling law不持续,我就要给你延续下去,而且是一个又一个“新花样”的延续。

而且这些Scale的方向后来也都成为了模型研究界在那一阶段的主流。此次的多agent其实再次把agent swarm摆到了大家面前,这个“agent蜂巢”的概念提了很久,这次Kimi用一个模型来把它展示出来,接下来如何提高高并发、大批量、多样性以及智能“分身”的能力,会成为又一个各大厂商比拼的重点。

在此次的技术报告里,Kimi也着重分享了Agent swarm背后的创新。

K2.5使用了一种并行智能体强化学习(PARL)的方法进行训练,让模型学会自我指导一个多达100个子智能体的蜂群,在最多1500个协调步骤内执行并行工作流。而这个过程里无需预定义角色或手工设计的工作流。

PARL其实包括三个部分,一个可训练的编排智能体,负责拆解任务,“分身”出可并行化的子任务,这些子任务由动态实例化的冻结子智能体执行。

这个训练过程困难重重,比如当你让它们并行后再串联起来时,很可能会发现编排器默认退化为了单智能体执行,于是一切都崩了。Kimi为解决此问题,给PARL采用了分阶段奖励塑形,在训练早期鼓励并行,并逐步将重心转向任务成功。


这一套创新带来很好的效果。在Kimi的内部评估中,Agent Swarm使端到端运行时间缩短80%,并支持更复杂的长周期任务负载。


在广泛搜索场景下,相比单智能体执行,它将达成目标性能所需的最小关键步骤减少3至4.5倍,且节省效果随目标提升而扩展——通过并行化实现高达4.5倍的实际耗时缩减。

同时,在多模态上,它不只是给一个文本模型补上这个能力就完事了,它同样展现了自己对这个能力究竟能给人们带来什么价值的思考。

眼看人们的创造都已离不开AI却又逐渐沦陷在AI味儿的模版化里无暇逃离,它就花大力气去训模型的“美学品味”。

眼看提示词工程正变得越来越悬乎,本该简洁的AI交互里,它(很多时候瞎热闹)的复杂性正被反过来用作一种新的FOMO来源,于是Kimi强化了K2.5的意图理解能力,并且在交互上做文章——

都知道多模态是必备能力,但Kimi觉得它不该是“目的”本身,而应该是一把利刃,加持到Coding的能力上去,这样能让更多人平等的享受AI带来的编程“普惠”红利,不用陷入提示词陷阱里去。

有用户使用K2.5生成的网页 Prompt: Code me a landing page for a gym super good UI/UX single file html css javascript no limit.

Kimi从成立到今天,有一个地方一直没变,就是它是一个最有自己想法的,甚至有时候让人感到充满一股中二气质和热血感的模型公司。

一个很有意思的地方是,当这个多agent调用时,它会给不同agent起名字,在一个案例里,这些agent的名字中二气十足:


比起在榜单上对闭源模型的逼近,其实今天我们更需要的没有被困在某个阶段或是困在原地的模型和公司们,它们能让人看到继续打破一些桎梏往前走的希望,让人看到一些少年气,这真的很重要。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
B费40万周薪续约传闻真相揭秘!曼联不再两难,留下队长已成必然

B费40万周薪续约传闻真相揭秘!曼联不再两难,留下队长已成必然

罗米的曼联博客
2026-01-28 09:34:44
云南2026年预期目标建议:地区生产总值增长4.5%左右

云南2026年预期目标建议:地区生产总值增长4.5%左右

界面新闻
2026-01-28 12:29:20
2025全球车企销量TOP10

2025全球车企销量TOP10

大象新闻
2026-01-26 11:01:05
958克坚果礼盒实际只有33克坚果,百草味回应:系经销商私自组合,现已下架

958克坚果礼盒实际只有33克坚果,百草味回应:系经销商私自组合,现已下架

中国能源网
2026-01-27 11:58:04
原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

原来马斯克没说错,全球抢的不是芯片,而是中国20万一台的变压器

云上乌托邦
2026-01-22 13:10:38
1949年蒋介石率部退守台湾,当时他手里到底还剩多少兵力?答案简直让人难以置信

1949年蒋介石率部退守台湾,当时他手里到底还剩多少兵力?答案简直让人难以置信

史海孤雁
2026-01-26 15:10:17
首都机场“大老虎”:下班飞澳门,早上坐专机上班,一晚输600万

首都机场“大老虎”:下班飞澳门,早上坐专机上班,一晚输600万

牛牛叨史
2026-01-27 23:54:21
PC装机梦碎!内存平均暴涨超3倍:SSD已涨59%、显卡也悬了

PC装机梦碎!内存平均暴涨超3倍:SSD已涨59%、显卡也悬了

快科技
2026-01-27 10:10:08
要打就打痛!中国手段已升级,日本:中方不批准驻重庆总领事任命

要打就打痛!中国手段已升级,日本:中方不批准驻重庆总领事任命

近史阁
2026-01-28 11:10:42
亚历克斯・霍诺德徒手登顶台北101,坦言金属龙形装饰最令人恐惧

亚历克斯・霍诺德徒手登顶台北101,坦言金属龙形装饰最令人恐惧

译言
2026-01-27 13:28:15
巴西总统卢拉向安切洛蒂开玩笑:赢下世界杯,然后执教科林蒂安

巴西总统卢拉向安切洛蒂开玩笑:赢下世界杯,然后执教科林蒂安

懂球帝
2026-01-28 11:37:05
第2第4大经济体联手,印度与欧盟全方位合作,20亿人口的市场启动

第2第4大经济体联手,印度与欧盟全方位合作,20亿人口的市场启动

史政先锋
2026-01-28 11:49:57
花椒立大功?浙大研究发现:花椒可在36小时清除70%老化细胞?

花椒立大功?浙大研究发现:花椒可在36小时清除70%老化细胞?

蜉蝣说
2026-01-28 11:09:12
他是国务院原副总理,秘书官至正国级,唯一的儿子娶了元帅之女

他是国务院原副总理,秘书官至正国级,唯一的儿子娶了元帅之女

浔阳咸鱼
2026-01-28 11:50:06
成龙砸4000万认回女儿,房祖名帮忙,林凤娇沉默,吴卓林的话最清醒

成龙砸4000万认回女儿,房祖名帮忙,林凤娇沉默,吴卓林的话最清醒

黎兜兜
2026-01-27 12:16:08
柬副首相通告全球,减少对华依赖,转头发现,美军高速战舰抵云壤

柬副首相通告全球,减少对华依赖,转头发现,美军高速战舰抵云壤

兴史兴谈
2026-01-27 12:34:46
湖人、骑士爵士三方交易方案,詹姆斯重回骑士,马尔卡宁加盟湖人

湖人、骑士爵士三方交易方案,詹姆斯重回骑士,马尔卡宁加盟湖人

君子一剑似水流年
2026-01-28 08:01:06
又捡人家不要的?辽篮第6外援要来了,上赛季曾绝杀过广东男篮

又捡人家不要的?辽篮第6外援要来了,上赛季曾绝杀过广东男篮

萌兰聊个球
2026-01-28 10:29:29
相声演员笑林:不抽烟,不喝酒,一天100个俯卧撑,59岁骤然离世

相声演员笑林:不抽烟,不喝酒,一天100个俯卧撑,59岁骤然离世

林雁飞
2026-01-10 15:24:20
北约秘书长:乌将不得不作出领土妥协

北约秘书长:乌将不得不作出领土妥协

参考消息
2026-01-27 11:34:12
2026-01-28 12:47:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2824文章数 10431关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

德媒封面:5位欧洲领导人手持武器 配文"唐纳德够了"

头条要闻

德媒封面:5位欧洲领导人手持武器 配文"唐纳德够了"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

态度原创

家居
数码
亲子
房产
公开课

家居要闻

跃式别墅 包络石木为生

数码要闻

AMD Ryzen AI软件更新1.7版本:支持新模型,优化多项参数表现

亲子要闻

液体钙哪个牌子好?十款权威认证儿童液体钙品牌,归一食口碑推荐

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版