网易首页 > 网易号 > 正文 申请入驻

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

0
分享至


现在的 AI 大模型,越来越像是一个许愿机了。

人类想要,人类得到。

不管是让 AI 写首小诗,还是让 AI 来帮我们点个外卖,还是直接做些游戏。。。

大模型能做到的事情越来越多。

甚至可以让它根据你的需求,直接帮我们定制一个独一无二的应用出来。

而今天,Kimi 开源的新模型 Kimi 2.5,再次把大模型干活的能力推到了一个全新的高度。


能帮你干活的不再只是单个的 AI agent 智能体,而是一群 Agents。

光看跑分测试就能发现,Kimi 这次更新的模型,完全就是冲着解决 “怎么让 AI 能更好地干活” 这个问题去的。整个评测指标的设计,也明显围绕着实际生产力展开。

不仅在 Agent 测试,也就是模型动手干活的能力测试里全面领先,而且同时在写代码、图片识别、视频理解这三个方面全面开花,作为一个开源模型,能和 GPT、Claude、Gemini 这些顶尖的闭源模型打个有来有回。


在大模型真刀实枪线上 PVP 的正面战场 LLMarena 里,Kimi 更是仅次于 Claude 和 Google 这俩老伙计。


而且在成本上还是个传奇省钱王,Kimi 在跑完分之后,还特意留意了一下,看看这次测试跑分花了多少钱。

结果发现,Kimi在跑分成绩和 GPT5.2 差不多的情况下,只花了 GPT 的二十分之一,甚至是五分之一的成本,这还要啥自行车了兄弟们。。。

模型性能与成本对比分析


当然,经常看大模型发布的差友们都知道,跑分仅供参考,实战才是王道。为了验验 Kimi K2.5的成色,世超也是在模型发布的第一时间帮大家来体验了一波。

先来个简单的任务试试水,让 Kimi 来帮我统计一下,B 站上的差评君,在过去一年里发了多少视频,这些视频的数据质量如何。

这个任务如果让人工来做的话难度也不高,无非是需要花点时间,去 B 站上把视频一个一个搜索,然后把结果一个一个的粘贴到 Excel 表格里。


结果在两轮对话后,Kimi 就通过写代码的方式,成功的把大家去年一年来的工作成功给收集了下来,在数据的准确程度上也没出啥岔子。


很稳啊,说真的,如果 Kimi 能早一个月发布的话,那世超就不用跨年夜熬夜扒数据,自己手动写报告了。。。

接下来,世超又测试了一下 Kimi 这回重点宣传的 Agent Swarm 能力,也就是让一群 Agent 来帮你一起干活。

毕竟单个 Agent 的能力是有极限的,就和我们人类需要分工合作一样,AI 在处理复杂任务的时候,为了避免干活干到一半报错,有时也需要在 AI 和 AI 之间展开合作.

Kimi 官方也在测试中发现:随着问题越来越复杂,让 AI 组团处理的效率就越好。


世超也简单试了一下这个 Agent 集群功能。最近国产 GPU 在大 A 市场不是很火么,那么这些公司到底发展的咋样?于是就准备让 Kimi 去尽可能详细地调研一下这行的发展情况。

结果没想到 Kimi 在收到了这个任务之后,直接原地给我开了家数据调研公司,拆分出了“市场格局分析师 —— 东坡”、“技术对比专家——李斯特”、“产业链研究员——小杨博士”,这一群 Agent 们。


然后再让这一堆 Agent 分头行动,从不同的视角收集不同的信息。


等它们都完成了工作后,最后再把这些不同维度的信息来一起做个整合,生成了一份最终的报告。


世超仔细看了一下这份报告,不仅讨论了市场规模、行业龙头、产品的硬实力指标,就连上下游产业线都给分析了一波。光看信息的思考维度和广度,确实比之前用 GPT 和 Gemini 的 Deep Research 做出来的要更全面,逻辑也更顺畅。


而代码能力就更不用多说了,编程一直是 Kimi 的强项,世超随便截了个 B 站的主页丢给它,结果 Kimi 就自己跑回去哼哧哼哧的写代码画图来做了个七七八八。



世超还看到有朋友给咱们分享了一个他拿 Kimi 做出来的 demo。

这哥们为了让自己上班摸鱼的时候能有点背景音乐,用 Kimi K2.5 搓了个能收听全球 33 个电台的网站。

写出来的代码审美也很不错,脱离了 AI 生成代码时常见的神秘渐变蓝紫色模版,不管是太空中缓缓转动的地球,还是角落的像素风播放器都非常解压。


最后,我们来点更刺激的测试。到了 2026 年,单纯的出题目,测试大模型的代码能力已经不稀奇了。

于是世超决定同步来测试一下 Kimi K2.5 的多模态能力和代码能力。

不知道差友们有没有过这种经历:在刷短视频的时候,总能刷到那种看起来特别解压、逻辑甚至有点“弱智”的广告小游戏。


但是当你真的点进去的时候,就发现刚才那个解压小游戏直接不见了。

实际玩的游戏和大家刚才刷到的短视频不能说是风马牛不相及吧,只能说是八竿子打不着了。

又上当了。

为了弥补这种被欺骗的遗憾,世超这次决定让 Kimi 直接把广告里的游戏给“抠”出来。

自己动手,丰衣足食。

当然,为了给 Kimi 上点强度,我决定不像往常一样,写个大几千字的提示词来描述这个小游戏应该怎么玩。

反而是直接丢了一个广告小游戏的视频给它,让Kimi 想办法看视频,自己来生成能生成这个游戏的提示词出来。

Kimi 的反应也很快,马上把视频给截出来一帧一帧的看,然后拆分出了三个专家来理解这个游戏视频,给出了一套提示词。


接下来,我再让 Kimi 根据这个提示词来直接生成游戏。


看着这五个 Agent 员工哼哧哼哧工作几分钟后,世超就收获了第一版的复制小游戏。


说实话,这版小游戏的 bug 还是蛮明显的。跑到一半就消失了的跑道,还有打 Boss 时毫无交互的反馈。。。

还只能支持触碰操作,甚至你仔细看上面这个 GIF 的话,你会发现鼠标滑动的方向,和小人运动的方向实际上是相反的。

第一次尝试的结果只能说是能跑,但是跑得不够完美。

但是好在咱们可以通过和 Agent 的对话来快速的修复这些问题,而且 Kimi 还有个很有趣的设计,大家如果平时喜欢用 AI 写代码的话肯定会非常有感觉。

众所周知,想让 AI 修改画面里的特定元素的话,其实是个非常麻烦的事情,你需要准确的描述你要改的元素在哪里,叫什么,长什么样,不然 AI 可能就会听不懂你在说什么,开始随地大小改,乱改一通。

而 Kimi 为了让大伙能更快的告诉 AI 应该改哪里,直接在它的预览界面增加了一个截图的编辑系统,你可以直接把画面上想改的东西给圈圈画画,然后把这些截图丢给 Kimi 让它来把 Bug 给修改。


虽然 Kimi 最终能修复这些 Bug,靠的还是自己的图像识别多模态能力,但是对用户来说,用平台自带的截图功能显然会更加方便,修改起来也会更加得心应手。

在要求了 Kimi 修复了小人运动方向、延长了游戏的跑道之后,这个游戏就变成了这样:


游戏的核心玩法基本被复刻得明明白白,和最开始的视频相比,差距最大的地方可能就是体现在了美术素材的区别上了。

看着屏幕上那个被我不到半小时就“调教”得服服帖帖的小人儿,世超心里确实有种莫名的成就感。

说实话,从丢过去一段几十秒的视频,到最终拿到一个逻辑通顺、手感丝滑的小游戏,整个过程我几乎没怎么动脑子去想代码逻辑,更多的是在扮演一个“监工”的角色:发现问题,截图圈出来,然后看着AI把活儿干完。

总而言之,从信息收集到代码编程,从 Office 办公到多 Agent 协同。这次 Kimi 的 K2.5 在解决复杂任务上的表现相当硬核。更关键的是,它的使用门槛极低,不仅仅是说上手容易,更是指它的价格便宜。

而且还开源,这种极致的性价比,意味着我们可以毫无顾忌地把繁琐的工作丢给 AI,而不用担心 AI 干活干到一半,就直接把我们的钱包给刷爆了。

这让世超想起杨德昌导演在电影《一一》里那句经典的台词:

“电影发明以后,人类的生命,比起以前延长了至少三倍。”


有了电影,我们就能在短短两个小时里,体验到别人完整的一生。

而现在,大模型也在做类似的事情。

它不是字面意义上地让你活得更久,而是让你在有限的时间里,拥有了三倍、甚至十倍的产出能力

我们可以把复杂的 Office 操作、枯燥的数据收集、掉头发的代码撰写,都丢给大模型,让自己直接享受结果,或者去思考更有创造力的事情。

以前因为怕麻烦、怕花钱而不敢尝试的想法,现在都可以丢给这一群 AI Agent 去试一试。

人类以后只需要学会怎么动嘴就行,剩下的“脏活累活”,就放心交给这个AI项目组吧。

撰文: 早起

编辑: 江江 && 面线

美编: 素描

图片、资料来源:Kimi 官网




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

人类史上最高级零元购,榨干印度200年,留下45万亿天价账单

掠影后有感
2026-03-26 10:39:36
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
中国禁止AI公司Manus两名高管离境?外交部回应

中国禁止AI公司Manus两名高管离境?外交部回应

澎湃新闻
2026-03-26 15:36:31
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:24:44
跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

中国能源网
2026-03-26 14:13:04
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

首个因中东战争宣布进入紧急状态的国家,为何是菲律宾?

上观新闻
2026-03-26 19:36:04
4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

4-3爆冷!中国队双杀亚洲劲旅,比5连胜更惊喜的,又出现一个李昊

侃球熊弟
2026-03-26 00:35:10
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

全新速腾S价格盲猜:若真10万左右,这波“值”字赢麻了!

车知事
2026-03-26 21:34:27
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

以牙还牙!欧盟冻结对匈牙利160亿援助,投降俄军助乌军消灭150人

史政先锋
2026-03-26 20:22:48
2026-03-26 23:47:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10468文章数 489521关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
健康
房产
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

转头就晕的耳石症,能开车上班吗?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版