网易首页 > 网易号 > 正文 申请入驻

实测 Kimi K2.5 新版本,一键让一群 AI 来给我打工。

0
分享至


现在的 AI 大模型,越来越像是一个许愿机了。

人类想要,人类得到。

不管是让 AI 写首小诗,还是让 AI 来帮我们点个外卖,还是直接做些游戏。。。

大模型能做到的事情越来越多。

甚至可以让它根据你的需求,直接帮我们定制一个独一无二的应用出来。

而今天,Kimi 开源的新模型 Kimi 2.5,再次把大模型干活的能力推到了一个全新的高度。


能帮你干活的不再只是单个的 AI agent 智能体,而是一群 Agents。

光看跑分测试就能发现,Kimi 这次更新的模型,完全就是冲着解决 “怎么让 AI 能更好地干活” 这个问题去的。整个评测指标的设计,也明显围绕着实际生产力展开。

不仅在 Agent 测试,也就是模型动手干活的能力测试里全面领先,而且同时在写代码、图片识别、视频理解这三个方面全面开花,作为一个开源模型,能和 GPT、Claude、Gemini 这些顶尖的闭源模型打个有来有回。


在大模型真刀实枪线上 PVP 的正面战场 LLMarena 里,Kimi 更是仅次于 Claude 和 Google 这俩老伙计。


而且在成本上还是个传奇省钱王,Kimi 在跑完分之后,还特意留意了一下,看看这次测试跑分花了多少钱。

结果发现,Kimi在跑分成绩和 GPT5.2 差不多的情况下,只花了 GPT 的二十分之一,甚至是五分之一的成本,这还要啥自行车了兄弟们。。。

模型性能与成本对比分析


当然,经常看大模型发布的差友们都知道,跑分仅供参考,实战才是王道。为了验验 Kimi K2.5的成色,世超也是在模型发布的第一时间帮大家来体验了一波。

先来个简单的任务试试水,让 Kimi 来帮我统计一下,B 站上的差评君,在过去一年里发了多少视频,这些视频的数据质量如何。

这个任务如果让人工来做的话难度也不高,无非是需要花点时间,去 B 站上把视频一个一个搜索,然后把结果一个一个的粘贴到 Excel 表格里。


结果在两轮对话后,Kimi 就通过写代码的方式,成功的把大家去年一年来的工作成功给收集了下来,在数据的准确程度上也没出啥岔子。


很稳啊,说真的,如果 Kimi 能早一个月发布的话,那世超就不用跨年夜熬夜扒数据,自己手动写报告了。。。

接下来,世超又测试了一下 Kimi 这回重点宣传的 Agent Swarm 能力,也就是让一群 Agent 来帮你一起干活。

毕竟单个 Agent 的能力是有极限的,就和我们人类需要分工合作一样,AI 在处理复杂任务的时候,为了避免干活干到一半报错,有时也需要在 AI 和 AI 之间展开合作.

Kimi 官方也在测试中发现:随着问题越来越复杂,让 AI 组团处理的效率就越好。


世超也简单试了一下这个 Agent 集群功能。最近国产 GPU 在大 A 市场不是很火么,那么这些公司到底发展的咋样?于是就准备让 Kimi 去尽可能详细地调研一下这行的发展情况。

结果没想到 Kimi 在收到了这个任务之后,直接原地给我开了家数据调研公司,拆分出了“市场格局分析师 —— 东坡”、“技术对比专家——李斯特”、“产业链研究员——小杨博士”,这一群 Agent 们。


然后再让这一堆 Agent 分头行动,从不同的视角收集不同的信息。


等它们都完成了工作后,最后再把这些不同维度的信息来一起做个整合,生成了一份最终的报告。


世超仔细看了一下这份报告,不仅讨论了市场规模、行业龙头、产品的硬实力指标,就连上下游产业线都给分析了一波。光看信息的思考维度和广度,确实比之前用 GPT 和 Gemini 的 Deep Research 做出来的要更全面,逻辑也更顺畅。


而代码能力就更不用多说了,编程一直是 Kimi 的强项,世超随便截了个 B 站的主页丢给它,结果 Kimi 就自己跑回去哼哧哼哧的写代码画图来做了个七七八八。



世超还看到有朋友给咱们分享了一个他拿 Kimi 做出来的 demo。

这哥们为了让自己上班摸鱼的时候能有点背景音乐,用 Kimi K2.5 搓了个能收听全球 33 个电台的网站。

写出来的代码审美也很不错,脱离了 AI 生成代码时常见的神秘渐变蓝紫色模版,不管是太空中缓缓转动的地球,还是角落的像素风播放器都非常解压。


最后,我们来点更刺激的测试。到了 2026 年,单纯的出题目,测试大模型的代码能力已经不稀奇了。

于是世超决定同步来测试一下 Kimi K2.5 的多模态能力和代码能力。

不知道差友们有没有过这种经历:在刷短视频的时候,总能刷到那种看起来特别解压、逻辑甚至有点“弱智”的广告小游戏。


但是当你真的点进去的时候,就发现刚才那个解压小游戏直接不见了。

实际玩的游戏和大家刚才刷到的短视频不能说是风马牛不相及吧,只能说是八竿子打不着了。

又上当了。

为了弥补这种被欺骗的遗憾,世超这次决定让 Kimi 直接把广告里的游戏给“抠”出来。

自己动手,丰衣足食。

当然,为了给 Kimi 上点强度,我决定不像往常一样,写个大几千字的提示词来描述这个小游戏应该怎么玩。

反而是直接丢了一个广告小游戏的视频给它,让Kimi 想办法看视频,自己来生成能生成这个游戏的提示词出来。

Kimi 的反应也很快,马上把视频给截出来一帧一帧的看,然后拆分出了三个专家来理解这个游戏视频,给出了一套提示词。


接下来,我再让 Kimi 根据这个提示词来直接生成游戏。


看着这五个 Agent 员工哼哧哼哧工作几分钟后,世超就收获了第一版的复制小游戏。


说实话,这版小游戏的 bug 还是蛮明显的。跑到一半就消失了的跑道,还有打 Boss 时毫无交互的反馈。。。

还只能支持触碰操作,甚至你仔细看上面这个 GIF 的话,你会发现鼠标滑动的方向,和小人运动的方向实际上是相反的。

第一次尝试的结果只能说是能跑,但是跑得不够完美。

但是好在咱们可以通过和 Agent 的对话来快速的修复这些问题,而且 Kimi 还有个很有趣的设计,大家如果平时喜欢用 AI 写代码的话肯定会非常有感觉。

众所周知,想让 AI 修改画面里的特定元素的话,其实是个非常麻烦的事情,你需要准确的描述你要改的元素在哪里,叫什么,长什么样,不然 AI 可能就会听不懂你在说什么,开始随地大小改,乱改一通。

而 Kimi 为了让大伙能更快的告诉 AI 应该改哪里,直接在它的预览界面增加了一个截图的编辑系统,你可以直接把画面上想改的东西给圈圈画画,然后把这些截图丢给 Kimi 让它来把 Bug 给修改。


虽然 Kimi 最终能修复这些 Bug,靠的还是自己的图像识别多模态能力,但是对用户来说,用平台自带的截图功能显然会更加方便,修改起来也会更加得心应手。

在要求了 Kimi 修复了小人运动方向、延长了游戏的跑道之后,这个游戏就变成了这样:


游戏的核心玩法基本被复刻得明明白白,和最开始的视频相比,差距最大的地方可能就是体现在了美术素材的区别上了。

看着屏幕上那个被我不到半小时就“调教”得服服帖帖的小人儿,世超心里确实有种莫名的成就感。

说实话,从丢过去一段几十秒的视频,到最终拿到一个逻辑通顺、手感丝滑的小游戏,整个过程我几乎没怎么动脑子去想代码逻辑,更多的是在扮演一个“监工”的角色:发现问题,截图圈出来,然后看着AI把活儿干完。

总而言之,从信息收集到代码编程,从 Office 办公到多 Agent 协同。这次 Kimi 的 K2.5 在解决复杂任务上的表现相当硬核。更关键的是,它的使用门槛极低,不仅仅是说上手容易,更是指它的价格便宜。

而且还开源,这种极致的性价比,意味着我们可以毫无顾忌地把繁琐的工作丢给 AI,而不用担心 AI 干活干到一半,就直接把我们的钱包给刷爆了。

这让世超想起杨德昌导演在电影《一一》里那句经典的台词:

“电影发明以后,人类的生命,比起以前延长了至少三倍。”


有了电影,我们就能在短短两个小时里,体验到别人完整的一生。

而现在,大模型也在做类似的事情。

它不是字面意义上地让你活得更久,而是让你在有限的时间里,拥有了三倍、甚至十倍的产出能力

我们可以把复杂的 Office 操作、枯燥的数据收集、掉头发的代码撰写,都丢给大模型,让自己直接享受结果,或者去思考更有创造力的事情。

以前因为怕麻烦、怕花钱而不敢尝试的想法,现在都可以丢给这一群 AI Agent 去试一试。

人类以后只需要学会怎么动嘴就行,剩下的“脏活累活”,就放心交给这个AI项目组吧。

撰文: 早起

编辑: 江江 && 面线

美编: 素描

图片、资料来源:Kimi 官网




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

被戴8次绿帽子,3次被捉奸在床,这就是我们“玉女”守卫的爱情?

素衣读史
2026-01-30 17:15:38
对手官方致敬梅西!球迷为梅西激动!伊基塔和梅西互动!

对手官方致敬梅西!球迷为梅西激动!伊基塔和梅西互动!

氧气是个地铁
2026-02-01 22:45:23
小卡带队大胜太阳,快船裁判待遇堪比湖人,交易哈登并非空穴来风

小卡带队大胜太阳,快船裁判待遇堪比湖人,交易哈登并非空穴来风

姜大叔侃球
2026-02-02 12:31:49
如果有一天,你和兄弟姐妹渐渐疏远了!记住这2句话

如果有一天,你和兄弟姐妹渐渐疏远了!记住这2句话

李虰手工制作
2026-01-30 16:34:02
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
特朗普已听取打击方案,关键时刻,伊朗突发多起爆炸

特朗普已听取打击方案,关键时刻,伊朗突发多起爆炸

兵国大事
2026-02-01 18:12:18
看了《太平年》很多人都不明白,赵匡胤为啥在跟赵光义喝酒时暴亡

看了《太平年》很多人都不明白,赵匡胤为啥在跟赵光义喝酒时暴亡

观察鉴娱
2026-01-30 09:40:35
贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

铭记历史呀
2026-01-26 19:39:13
吴树国不幸去世,年仅55岁,学校官网已变黑白

吴树国不幸去世,年仅55岁,学校官网已变黑白

黄河新闻网吕梁频道
2026-02-01 09:32:36
现货黄金失守4590美元/盎司

现货黄金失守4590美元/盎司

澎湃新闻
2026-02-02 09:35:09
30岁男子上厕所猝死,妻子见状哭倒,留下3个孩子,最大才12岁

30岁男子上厕所猝死,妻子见状哭倒,留下3个孩子,最大才12岁

离离言几许
2026-02-01 19:50:11
预警!2月起若无意外,中国将迎5大降价潮,普通人提前准备不吃亏

预警!2月起若无意外,中国将迎5大降价潮,普通人提前准备不吃亏

老特有话说
2026-01-30 23:12:22
贪财好色、薄情寡义、直播哭穷,近期这4位老戏骨翻车理由太离谱

贪财好色、薄情寡义、直播哭穷,近期这4位老戏骨翻车理由太离谱

说历史的老牢
2026-01-05 15:07:58
不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

不敢置信!女子十二乐坊成员直播养不活自己,一晚上打赏不到3000

云中浮生
2026-01-24 21:37:46
海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

南权先生
2025-12-23 16:16:33
3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

3年大合同+全家迁居!张本智和官宣震撼抉择,日本队慌了

卿子书
2026-02-02 08:59:31
武汉内环知名医院将改为住宅!拟对口顶级双学区!

武汉内环知名医院将改为住宅!拟对口顶级双学区!

椰青美食分享
2026-02-02 13:47:26
儿子丢了、父亲走了、妻子跑了,央视主持张泽群如今落到这般田地

儿子丢了、父亲走了、妻子跑了,央视主持张泽群如今落到这般田地

蜉蝣说
2026-01-31 15:10:43
足球报:恒大足校有1050人次进国字号,可能与广东省深度合作

足球报:恒大足校有1050人次进国字号,可能与广东省深度合作

懂球帝
2026-02-01 14:34:13
重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

重磅!40岁C罗拒绝为利雅得胜利出战 不满沙特联赛老板:偏袒对手

风过乡
2026-02-02 06:38:53
2026-02-02 18:51:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10215文章数 489432关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

头条要闻

捧红王菲、那英的袁惟仁走了 曾被陶晶莹公开调侃

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

数码
艺术
亲子
公开课
军事航空

数码要闻

TrendForce:预计PC DRAM内存价格2026Q1将翻倍,涨幅创新高

艺术要闻

马斯克花5万买的折叠屋,是预制住宅的未来吗?

亲子要闻

孩子出现5种症状,可能是白血病

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版