网易首页 > 网易号 > 正文 申请入驻

Kimi K2.5 深度实测:变强了,但尚未「封神」|AI 上新

0
分享至


人人可用的 AI Agent,应该是什么样的?


作者|徐珊

编辑|靖宇

三天,四款模型,N 个产品。这就是 2026 年开年,大模型行业展现出的态势。

沉寂了小半年,Kimi 显然不想将 2026 年的第一个有关通用大模型的话题权交给其他人。

这次,Kimi 终于将产品线补齐,无论是视觉感知,还是 Agent 能力,又或者编程能力,Kimi 都用 Kimi K2.5 这款万亿大模型证明自己在通用领域的实力。


Kimi K2.5 在多个领域的最新评分|图源:Kimi

简单来说,Kimi K2.5 在推理能力、认知图谱上都更强了。

基于 Kimi K2.5 的能力,Kimi 现在能够提供单个性能的 Kimi Agent 和多个 Agent 协作的 Agent Swarm(多智能体集群),允许多个 AI Agent 并行协作处理复杂任务的架构。

此外,Kimi K2.5 还打造了 Kimi Code 平台,它能接入本地开发环境,可阅读项目文件、分析代码结构,并据此自动生成或修改代码、执行测试与命令。

整体产品线来说,Kimi K2.5 是针对普通人的,相当于模型性能迭代提高。Kimi Code 和 Kimi Agent 功能都是面向程序员的,开源代码放在 GitHub 上了,有算力都可以尝试使用,但对普通人来说,使用门槛仍然较高。

不知道是实际体验的用户真的变多了,还是 Kimi 想要用户付费订阅的意愿变得更强了,在我们体验的过程中,Kimi 官网常常跳出正在「和很多人沟通,加入订阅能够优先排队哟」的提示界面,一时间幻视打开某些视频平台,观看 3 分钟开始付费。并且,Kimi Code 和 Kimi Agent Swarm 暂时没有免费体验机会。

整体体验下来,Kimi K2.5 本身在长文本理解、思考维度以及「通人性」变得更强了,一些文本深度分析能力也有了不小的进步。尤其是在视觉理解能力上,效果超出预期。

基于 Kimi K2.5 的 Agent 功能,我们在测试了网页制作、行业报告撰写以及新闻图表等多个维度。在网页制作的程序上,Agent 表现的效果很好,但是在专业性的内容制作,以及带有审美感的新闻图表上展现出来的能力都比较一般,没有特别惊艳。

此外,在调用相关 Agent 能力时,模型运转的流畅程度也比较一般,偶尔会出现停止运转的情况,常常一个复杂 Agent 指令需要运行 30 分钟左右才能看到结果。而且对于有明显矛盾的指令也会直接响应,没有反馈或者询问环节。

2026 刚开年,这场有关 AI 自动化执行的火已经开始烧得越来越旺了。Kimi 作为作为较早推出 Agent 产品的通用大模型厂商,也借着 Kimi K2.5 表明了自己在通用领域的站位和思考,Kimi K2.5 也算是给正在急着尝试玩转 Agent 的中国开发者们,一个值得选择的工具。


栏目作者召集

极客公园的新栏目「AI 上新」,将带大家体验最新的 AI 应用和硬件,让你成为 AI 时代「最靓的仔」!

现在,我们也向所有喜欢尝鲜和体验 AI 的同学发出召集,只要你发现并体验了新的 AI 应用或者功能,按照格式(参考案例:)向栏目投稿,在极客公园公众号发布,不仅能获得相应稿费,且会为你「报销」AI 应用的订阅费用。

同时,优秀作者还有机会进入极客公园 AI 体验群,获得最新 AI 应用和工具的内测资格,参加极客公园专属相关 AI 活动,和 AI 应用创始人一对一沟通。

AGI 太久,只争朝夕,让一部分人先 AI 起来吧!投稿、进群请扫描下方二维码添加极客小助手微信

01

Kimi K2.5,变强了,

但未必变得更聪明了?

为验证 Kimi K2.5 的实际能力边界,我们选取了三个关键维度进行实测:通过长文本理解考验基础能力,通过视觉分析考验多模态能力,再通过创意设计考验审美与执行。

首个测试聚焦其最擅长的长文本处理。我们分别喂了一篇 40 万字的长篇小说给 Kimi K2.5 和 Qwen3-Max,让其分析主要关系人物图以及梳理主角成长路线。

Qwen3-Max 的分析速度非常快,但是给出的关系图也比较简单,包括人物成长经历分析上理解比较浅层,但框架正确。Kimi K2.5 则是给出较为详尽的关系图谱,并且对于小说中出现的其他人物均能够按照势力、关系远近进行梳理。从小说内容理解上,比 Qwen3-Max 要更深一步,并且大多数小说暗线也能够理解,对于人物身份走向的揣测也基本正确。


Qwen3-Max 分析结果 图源|极客公园


Kimi K2.5 分析结果 图源|极客公园

随后,我们追问了一个开放性回答,有关对主人公最重要的人是谁?Qwen3-Max 则给出了多个角度,避开唯一性,而 Kimi K2.5 则选择多种角度分析,还能够从多维度上比较后,给出最终答案,从思考能力、推理方向以及理解能力上都有比较明显的进步。


Qwen3-Max 分析结果 图源|极客公园


Kimi K2.5 分析结果 图源|极客公园

其次,我们测试了 Kimi K2.5 的视觉理解能力,将其与 Gemini 模型对比。我们上传了一张 3 页 PDF 的指令集,并且附有分析例图,让 Kimi K2.5 来分析一段 30 秒的网球动作,并给出错误姿势纠正。首先在视频格式上,Kimi K2.5 能够支持苹果 MOV 模式,形式更加多样化。但是,其单段视频内存限制仍在 100MB 以内,也就是大约 3 分钟以内。

这次结果比较意外,Kimi K2.5 能够读懂复杂的长指令,并且给出合适的指导建议,并且非常详细,也相对专业。


Kimi K2.5 测试结果 图源|极客公园

我们之前曾用 Gemini 做过相似的测试,得出结果图如下,整体看来两者对图片分析能力不分上下,但 Kimi K2.5 对指令理解相对更优。


Gemini 测试结果 图源|极客公园

最后,我们来考验 Kimi K2.5 的审美能力,同样将其与 Qwen3-Max 进行比较。我们上传了一段复杂指令,让其基于《中国城市公共充电桩空间公平性报告》打造一个数据新闻,最终考验其数据新闻是否能够达到专业媒体水准。

但最后呈现效果,并不如预期,呈现的效果比较简陋。但对于整体复杂涉及到多模态的任务,完成得比较仔细。但数据来源并没有调用真实参考信息,图表设计也比较基础,没有太多审美感。


Kimi K2.5 测试结果 图源|极客公园

为了再给 Kimi K2.5 一次机会,我们还尝试给出一张素材图,和一段非常详尽的指令集,让其给我们设计一张新闻头图以考验其审美能力。但是输出的结果来看,PPT 感非常浓。


Kimi K2.5 测试结果 图源|极客公园

不过,Kimi K2.5 也算交出了一份答卷出来。我们带着同样的问题问了问 Qwen3-Max,Qwen3-Max 直接婉拒了回答。


Qwen3-Max 测试结果 图源|极客公园

从目前的测试效果来看,审美或许还是一个主观的视角,在多类不同领域的审美训练下,大模型对于「美」的定义和认知仍有一定差距。

02

上新 Skills 案例库,

Kimi 开始学会多想一步

打开 Kimi 官网,我们能看到 Kimi 官网的对话框内已经添加了 Agent 选项框,用户可以随时调用 Agent 程序。并且,对话框中还新添了一栏,可以让用户储存常用指令。

在对话框下,Kimi 提供了不少智能 Agent 参考案例,涉及网页应用、移动应用、数据分析三大类,提供了大约 20 个案例参考。只要你选择做同款,就会呈现完整的指令集,某种程度上也算是上了 Skills 案例库。


Kimi K2.5 参考测试案例 图源|极客公园

数据分析上,我们让 AI 跑了一下英伟达财报分析。在参考页面中,我们看到的数据分析非常的详尽,但是等我们正式开始体验的时候,发现 Agent 也并不是完美。

其中,最为明显的是,在我们最开始的一版提示词有明显矛盾点的时候,AI 并不会和你确认问题的选项,而是按照自己的推测去做后续执行。这也意味着如果你特别信任 AI,完全不看后续的执行路径的话,一个指令错误可能会造成整个 Agent 程序走向完全错误。

我们在官网运行跑完整个程序,15 张 PPT 大约跑了接近 30 分钟。并且,在 Prompt 几乎没有变动的情况下,两个 Agent 给出完全不同的结论推理。

参考案例给出的推论是,「英伟达财报效应确实存在」,而我们跑出来的结果则是「财报发布并非上涨催化剂,财报交易策略无效」。

同样的 Prompt,却给出了不同的答案,或许也从一定程度说明了当下 Agent 属于能用,但不够可靠,仍需使用者拥有明辨是非的能力,同时缺乏主动意图反馈机制,容错性不足。

第二次,我们自己参考 Prompt,编写了一段提示词。


测试 Kimi K2.5 提示词 图源|极客公园

又等待了接近半小时后,我们看到了一个初步的网页设计界面。从页面设计来看,基本上能够满足原提示词的指令,并且符合一个科技公司常见的主页界面。


Kimi K2.5 测试结果 图源|极客公园

但是在理解能力,还是会有一些小问题,比如说,图上的品牌宣言,一般会是被隐去而不是用直接作为标题显示。这也说明 AI 在理解和执行上还是有需要改进的地方。

也会有些令人惊喜的地方,比如在网页设计提示词上我们并没有提到相关联系方式收集等,但是 Kimi 参考了大多数的网站之后,可以直接在官网设计建联页面。



Kimi K2.5 测试结果 图源|极客公园

甚至在底栏的一些设计上也比较贴心,有外置链接,甚至有小红书,也是十分与时俱进了。


Kimi K2.5 测试结果 图源|极客公园

体验完之后,能够明显感受到,当下 Agent 能力未必能够在执行上做到完美,但是能够通过指令的意图丰富整个执行细节,能够明白核心需求点是什么,给出更多的意外之喜。并且,Kimi 能够将网页链接直接部署到位,给出预览和安装包,供用户使用。

这是我们的测试结果链接:https://e56oqk3weoe7k.ok.kimi.link/#

此外,由于 Kimi Code 和 Agent Swarm 功能均需要高级会员才可以使用,因此我们很可惜暂时不能得出第一手测试结果。据了解,Kimi K2.5 的 Agent Swarm 功能采用分布式协同架构,最多可并行调度与管理 100 个子智能体。每个智能体均配备独立的工作记忆,能够自主执行任务,并遵循高效通信协议,仅在关键节点将处理结果汇总至中央调度器,从而大幅提升复杂任务的解决效率。

03

Agent 转向之年

从基于 Kimi K2.5 视觉理解的出色表现,我们可以预见多模态的 Agent 将成为 2026 年的竞争焦点,我们也嗅到了一些 2026 年模型界不一样的转向。

首先是,视觉能力的增强。无论是 Claude 还是 DeepSeek,在琢磨了一年的文本交互后,终于转向视频能力,补强此前视频分析的短板。视频理解能力超强带来的不仅是用户主动上传视频信息的分析更强,更是未来一些被动记录视频能力发挥更多的空间,会带来更多玩法。

其次,从目前通用模型生态来看,开源模型的活跃度在社区渗透和第三方集成上展现出更强能力,前有 Gemini、 Claude、GPT 对比,后有 Qwen3- max,Kimi K2.5 和 DeepSeek。Kimi K2.5 的开源虽然是在意料之外,但也算情理之中。但值得注意的是,消费者的付费意愿养成仍需依赖闭源模型的高端功能。

第三,是所有的通用大模型开始争取更好的利润,更多的付费形式。这次 Kimi Code 功能和 Agent 集群功能直接提供给高端付费用户,不开放任何试用,且 Kimi 的付费模式也开始变化,最高 199 元每月。OpenAI 要卖广告,Gemini 要上 Chrome 几乎都是一个原因,开源节流,模型公司们开始两手抓资金流向。

最后,通用模型公司们已经开始为 Agent 走入垂直场景做准备。Kimi K2.5 上线的 Agent Swarm 功能就是帮助更多企业打造垂类应用时能有模型底座支撑,方便企业能够通过不同类型的 Agent 扮演企业中的不同员工,各司其职,最终协同办公。

如果说 2025 年 DeepSeek 将模型成本降到无限低,是让人看到模型走向千行百业的关键之一。2026 年的开端,似乎预示围绕 AI 自动化的一切即将开始改变。从单个 Agent,走向几个 Agent,再到一群 Agent。Kimi K2.5 的出现,代表已经有通用大模型厂商看到这一趋势,并做出改变。

目前,从 Manus 到豆包手机,再到 Clawdbot,其实从模型诞生的第一天开始,人们对 AI 自动化的探索并未停止。当模型公司、应用公司以及硬件公司都瞄准一个方向发展,或许 2026 年也将会是 Agent 逐渐成熟,落地场景的一年。

*头图来源:Kimi

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得 Kimi K2.5 还有哪些玩法?

曝 SpaceX 正评估与特斯拉或 xAI 合并,以作为 IPO 之前另一种选择。

点赞关注极客公园视频号,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
55年陈赓来到张万年的办公室,为何开玩笑说:你是个“野心家”

55年陈赓来到张万年的办公室,为何开玩笑说:你是个“野心家”

大运河时空
2026-02-18 13:40:03
超级巨大失误!日本门将送礼,韦世豪铲射破门,破847天亚冠球荒

超级巨大失误!日本门将送礼,韦世豪铲射破门,破847天亚冠球荒

奥拜尔
2026-02-17 18:38:12
这7位央视主持至今未嫁,她们人人都是美女,最大的年龄已到60岁

这7位央视主持至今未嫁,她们人人都是美女,最大的年龄已到60岁

TVB的四小花
2026-02-18 08:42:26
中国有多少核弹头?美方情报精确到个位数,我国只回复了几个字!

中国有多少核弹头?美方情报精确到个位数,我国只回复了几个字!

青橘罐头
2026-02-18 07:11:00
图片报:沃尔特马德在纽卡不开心,他愿意加盟拜仁或斯图加特

图片报:沃尔特马德在纽卡不开心,他愿意加盟拜仁或斯图加特

懂球帝
2026-02-18 14:36:09
美国传奇歌手John Legend首登央视春晚,分享演出及中国之行感受

美国传奇歌手John Legend首登央视春晚,分享演出及中国之行感受

草莓解说体育
2026-02-18 08:18:08
美深夜“暂停”,民主党一声令后,民众齐声抗议,特朗普气得跳脚

美深夜“暂停”,民主党一声令后,民众齐声抗议,特朗普气得跳脚

一盅情怀
2026-02-18 18:24:01
万向钱潮、奋达科技、广汇能源,三家公司刚刚发布重要公告

万向钱潮、奋达科技、广汇能源,三家公司刚刚发布重要公告

慧眼看世界哈哈
2026-02-18 15:53:06
报应来了!捐给美国7千万,满嘴“中国穷关我啥事”,如今破产了

报应来了!捐给美国7千万,满嘴“中国穷关我啥事”,如今破产了

徐醇老表哥
2026-02-18 17:48:11
西方国家纷纷与昂山素季划清界限,背后的原因是什么,她究竟做错了什么?

西方国家纷纷与昂山素季划清界限,背后的原因是什么,她究竟做错了什么?

老杉说历史
2026-01-20 16:58:09
美国媒体惊叹:过中国年,怎么就成了席卷全球的新潮流?

美国媒体惊叹:过中国年,怎么就成了席卷全球的新潮流?

命运自认幽默
2026-02-18 10:12:28
佩蒂特:赖斯有望领跑金球奖争夺,但别忘了今年还有世界杯

佩蒂特:赖斯有望领跑金球奖争夺,但别忘了今年还有世界杯

懂球帝
2026-02-18 16:00:08
美国为何不愿平视中国?牢A揭秘:在西方眼里,我们不能算“人”

美国为何不愿平视中国?牢A揭秘:在西方眼里,我们不能算“人”

史智文道
2026-02-15 17:31:46
全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

知鉴明史
2026-02-17 19:10:41
朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

朝鲜副国级高官叛逃脱北,曝光金家秘闻:酒池肉林、80万买轩尼诗

猫眼观史
2024-03-25 14:31:14
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
艾伦:奥沙利文赞扬其他球员是为了施压,我认为吴宜泽并不全面!

艾伦:奥沙利文赞扬其他球员是为了施压,我认为吴宜泽并不全面!

世界体坛观察家
2026-02-18 16:44:04
被网友的“热熔胶棒”用法惊艳到了,1元1根,用处这么厉害?

被网友的“热熔胶棒”用法惊艳到了,1元1根,用处这么厉害?

室内设计师有料儿
2026-01-26 09:57:39
俄罗斯石油神话破灭:1.5亿桶原油在海上漂着!为什么卖不动了?

俄罗斯石油神话破灭:1.5亿桶原油在海上漂着!为什么卖不动了?

王爷说图表
2026-02-17 17:03:31
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
2026-02-18 19:20:49
极客公园
极客公园
让最棒的创新成为头条
11807文章数 78761关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

媒体:高市早苗2.0施政清单披露 野心很大挑战不小

头条要闻

媒体:高市早苗2.0施政清单披露 野心很大挑战不小

体育要闻

夺银被问丢金,谷爱凌回击外媒:很荒谬

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

健康
本地
手机
家居
游戏

转头就晕的耳石症,能开车上班吗?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

表现惨淡!2025年2000-4000元价位段品牌份额出炉:苹果仅1.3%

家居要闻

中古雅韵 乐韵伴日常

PS Plus玩家额外福利!免费领取两款大作DLC

无障碍浏览 进入关怀版