网易首页 > 网易号 > 正文 申请入驻

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测

0
分享至

近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信,

叫做:「OK Computer」。


不同于此前 Kimi 发布的 Researcher 专精 Deep Research 任务,「OK Computer」则是 Kimi 模型的通用 Agent 模式,

配备了单独虚拟电脑,支持更多工具调用,能够完成 网站开发、PPT 设计、数据可视化分析、深度研究、方案策划 等任务。

自然,从 25 年 3 月 Manus 发布以来,我们已经见过了层出不穷的通用 Agent 产品,如 Claude Code、扣子空间、Skywork、Lovable 等等……

阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。

我也会将它的表现,和过往深度体验的 Manus 等顶尖 Agent 进行参照,

来看这个以 90 年代最伟大的摇滚专辑之一命名的 Agent,能否如其名般地带来惊喜。

写在测试之前

与先前已发布的 Kimi Researcher 一脉相承,OK Computer 与已有通用 Agent 产品不同,继续延续了端到端强化学习的训练路线:模型即 Agent。

为了能够更好地真实探究 OK Computer 的水平,我已将测试设计为三部分:

1. 网页应用开发:从 0-1 设计、开发 Html 宝可梦养成与对战游戏,考察 Agent 自主深度规划与长程执行

2. 复杂数据可视化:给定数千条表格数据,呈现可视化分析

3. 其他 case 展示,包括绘制 AI PPT、制作个人博客等

并适当选择同类任务下备受用户好评的友商 Agent 进行参照,校准它当下的行业身位。

你可以带着对 Kimi Agent 的好奇,在实测中找到答案。

文末我将向你分享我理解的,OK Computer 对于 Kimi 的特殊意义。

真实实测表现 1️⃣ 网页应用开发:宝可梦网页游戏

要测试一个 Agent 的极限,比较好的方式就是给它足够复杂、多步骤、开放式的项目。

我选择让 Agent 从 0-1 自主设计 Html 版宝可梦养成对战游戏,并选择了擅长构建 Web 应用的 Manus、Lovable 作为参照对比。

此题难度在于,考验 Agent 的 Coding 能力外,更考验 Agent 自主规划的完整性,以及长程任务中的 推理-执行-反馈 的循环质量。

测试 Prompt 如下:

我想做一个 Html 版宝可梦养成与对战游戏,能够基于宝可梦游戏的主要玩法,设计一套完整、适合在 Html 游玩的游戏内容,请仔细推敲游戏玩法,使用合适的像素风格宝可梦素材,设计对应游戏 UI 与内容,并完成开发上线。要求实现移动端兼容。

我录了一下各个 Agent 生成的网页游戏的效果,你可以自行来看看效果:

1)Kimi - OK Computer:

OK Computer 独立设计了一个适配 Web 玩法的全新 UI。生成的游戏系统更为完整,比起 Manus、Lovable,多了大厅、宝可梦图鉴,物品背包界面。

对战系统基本实现,但不能更换上阵宝可梦。另外还能查看宝可梦的详细属性,有丰富的疗伤物品、精灵球等不同物品的管理系统。

不过,虽然规划了区域探索、商店、成就系统的功能入口,但并没有一次完成开发,还是有些遗憾。

应用整体无恶性 bug,作为 one prompt 结果相当完整与稳定,在游戏方案的规划上给出了惊喜。

2)Manus:

Manus 作为我的老朋友厂商,表现一如既往的亮眼。虽然首页略微粗糙,但整个游戏的加载过场却是最为接近原版。

另外,Manus 唯一实现了地图探险功能(但地图显示有明显显示 Bug)。

不过你可以看到随着我点击方向键,是能触发出“草丛遇怪”的逻辑。也是唯一一个直接使用了外网宝可梦图像资源,作为游戏贴图的 Agent。

但比起 Kimi,其游戏性功能的实现熟练就少了许多,没有实现背包,也没有宝可梦栏管理等,算是各有侧重。

3)Lovable:

Lovable 在初始界面上给到了最风格化的效果。

但整体实现的玩法实现的是三者最少:仅支持选择宝可梦进行战斗。

战斗系统,比起其他家,还少了道具使用、逃跑等基础功能。从这次测试来看,Agent 可能存在规划不足,执行轮次过少的问题。

另外,下图为移动端兼容效果对比:


BTW:关于各家选择的 UI 风格,我倒是觉得不算决定性差异,因为也没有规定 UI 风格要求 100% 复刻原版游戏,只要 UI 与玩法系统自洽,能稳定运行即可。

综合列出效果对比如下:


不难看出 OK Computer 继承了 K2 模型的优秀 Coding 能力,在另外两家使用 Claude 模型的情况下,仅凭自有国产模型,网页开发效果不弱下风。

另外,可能是得益于端到端强化学习路线,Kimi 也确实展现出 One prompt 下,极为优秀的 Agent 自主规划与多轮执行能力,以及熟练使用图片生成等工具能力。

2️⃣ 复杂数据可视化:洞察数千条 IMDB 剧集数据

在 OK Computer 的宣传视频中,着重宣传了支持海量数据上传,单次处理百万行数据的可视化分析能力。

为了能够测试 Agent 的复杂数据的关联洞察效果,我选择了让 AI 们,来尝试处理来自 IMDb 的数据集,每个数据表包含上千条电影和电视剧数据。

测试 Prompt 如下:

请基于我提供的5份IMDb数据(涵盖电影、电视剧与电子游戏),交付一份独立的HTML深度可视化分析报告。你的任务是超越数据本身,洞察其背后反映的文化趋势和社会现象,并形成一套完整、深刻的分析结论。请自主设计分析框架,运用具有顶级美感的多维信息图表,构建出逻辑清晰的报告结构和解读,最终呈现一份兼具专业深度与视觉冲击力的作品。

共找了 5 份数据集:


每一份数据表内容大概是这样的,以独立剧集的最小粒度数据组成:


在接到任务后,Kimi 首先规划了任务执行的环节:


随后,自行编写了 python 脚本,对数据进行清洗和处理(嗯,不是直接用 LLM 文本能力读取,有效避免幻觉问题,还是很聪明的)


在自主连续运行长达 31 步子任务后,OK Computer 输出了以下可视化数据分析页面:

能够看出分析维度非常多元。

特别棒的是, OK Computer 能够根据分析数据的类型,自主选择太阳图、雷达图、三维散点图、小提琴图等不同合适的图表,来展项数据趋势。

这一点倒是在用过的 Agent 里,会更具有主动性。


另外,这是同提示下 Manus 的效果:

必须声明,Manus 在同类产品中,产出的质量已经是大幅领先。

但仅论可视化的数据呈现,Kimi OK Computer 明显在该类任务中,能够提供更加复杂、多维的效果。

值得一提的是,在测试本轮任务中,我发现不同 Agent 产品对上传文件数量有着不同的控制。

实测中 Kimi、Manus、Skywork 没有限制文件上传数量,而 Minimax Agent、扣子空间 均限制上传数量为 10 个以内。

这项区别也会影响部分用户的选择。

其他的一些 Case

另外也跑了一些零散、但效果都挺不错的 Case,与你分享 Kimi OK Computer 的各项表现:

1)PPT 设计,样式美观,自由编辑

基于上面的 IMDb 剧集数据,我又新开对话,让其生成主题数据洞察 PPT。

阅读附件中的5份IMDb数据(涵盖电影、电视剧与电子游戏),洞察这些数据背后反映的文化趋势与大众品味的变迁,设计一份 20 页的汇报 PPT。要求:1. 只允许使用附件中的数据,不得胡编乱造。2. 尽可能呈现 PPT 的全部要点、关键数据3. 使用 chart 呈现图表,不要用 AI 图片生成来呈现图表4. PPT 美观有设计感

OK Computer 效果如下:


整体来说,OK Computer 所输出的 PPT 设计不错,图文并茂,设计符合主题风格。部分元素会超出页面,需要和 Agent 沟通修改要求后,进行一次修复。

同 Prompt 任务下,对比精通 PPT 的 Skywork 的效果:


结论是,从设计角度来看 Kimi 胜出,幻灯片高度更一致,适合演讲呈现;

而内容丰富度 Skywork 则更胜一筹,更适合内部汇报。

强调一个特别好用的点,对于用户真实使用时,OK Computer 还支持了高自由度的编辑,不仅是文本替换,还支持更改格式、添加图片、流程图、新幻灯片,基本与完整 Office 功能等同。这一点在其他友商 Agent 中格外少见。


导出到本地后,样式与网页 Html 版 PPT 基本一致,不会产生常见的排版变形问题。


2)个人博客开发,设计效果非常 ok


请为我的个人博客「一泽的沉思录」创建一个三栏式布局的网站原型。风格: 我想要一种极简、沉静的黑白风格,字体要优雅。内容:左栏是导航,包含 首页、文章、关于我;中栏是文章列表;右栏放一张能体现‘思考与科技’的黑白摄影风格的图片,请你帮我生成。请确保整个网站的视觉风格高度统一。

诚然在测试过程中,我还是能观察到 OK Computer 待改进的一些问题。

譬如:

暂时还不支持用户接管 Browser,所以无法让 Kimi 替自己调研一些需要登录的网站内容;

在给 PPT 配图时,有时也会过度依赖 AI 生图,而不是正确使用网页图表组件,创建数据图。

这些问题我也一一反馈给了在 Kimi 的朋友,期待他们的改进。

但我们回过头来不能忽略的一点是:

与全球化 Agent 产品不同,Kimi OK Computer 始终使用的都只是 Kimi K2 这款自研 LLM 模型。

不依靠 Claude 的 Coding 能力、不使用 Gemini 的分析规划能力,OK Computer 在众多友商 Agent 之中,依然能展示出其独到的优势。

不得不说,在测试过程中,还是令我感到诧异与惊喜,也值得国内用户试用。

写在最后:OK Computer 于 Kimi 的特殊意义

此前,Kimi 早就发布了 Researcher 产品。

当时我就评论,Kimi Researcher 达到了国内最佳的 Deep Research 效果(非常长且细致的研究过程,以及相对可控的幻觉水平,时常能关联分析出意外的好观点),

将其大量推荐给了我所认识的 AI 从业者、投资人、学生朋友:

“如果对国外资料检索没有诉求,Kimi Researcher 很可能就是国内研究质量最佳,分析结论常有意外惊喜的 Deep Research 产品”


⬆️ 余杭水质问题发生时,曾用 Researcher 进行事件分析,体感效果仅次于 Gemini DR,为国内最佳

月之暗面研究员 @冯一尘 此前在知乎,公开分享了内部洞察:

Researcher 研发过程中,Kimi 团队内部对于 Agent 保持了两个关键信念,一是要做“能长思考”的Agent,二要用端到端强化学习。

他们认为,区别于传统 Agent 的 Workflow 拼装 或 SFT 训练方案, Kimi 通过端到端 RL 所训练的 Agent 模型,能够挣脱“固定提示”的束缚,更加灵活通用,具备更好的主动反思,多轮行动的积极效果。

(此文不论两种技术线路的终局优劣,但这条路线下的 Kimi Researcher,也确实在用户群体中备受好评)

时至今日,Kimi 推出的「OK Computer」新 Agent 模式,依然遵循着这些理念

借助端到端强化学习技术,将 Kimi K2 模型训练为原生 Agent,让模型学会了 文件系统、浏览器、终端、代码/图片/音频生成 等 20 多种工具的使用方式,自然涌现出「完成一项复杂 Agent 任务」的内在知识。

实测下来,OK Computer 也确实兼具了 K2 模型与模型即 Agent 路线的优势,包括:


  1. 1. 继承 K2 的优秀 Coding 能力 :生成具备强美观度的前端产物(网页、PPT 等)

  2. 2. One prompt 下更好的规划执行: 发挥端到端强化学习的优势,在单一提示下,实现更多、更全面的推理,执行轮次更多、报错更少

  3. 3. 丰富的工具能力: 图片、音频生成;浏览器使用;使用虚拟电脑作为响应环境等

但,如果仅仅将这三点看作孤立的优势,我们就错过了 OK Computer 真正想讲述的故事。

这个故事的核心,是 Kimi 对模型智能的又一次扩展:

从文本模型,扩展为能「拆解目标、规划长程任务、通过行动-反馈达成更优结果」的全能型 Agent。

又名——模型即 Agent。

对于我们用户,尤其是非技术的普通 AI 使用者而言,

则是国内多了一个在轻量网页开发、PPT 设计、数据分析等复杂任务中,表现都相当不错的,全新的全栈 AI 助理。

希望一泽的文章对你有所启发。

如果觉得这波内容不错,希望帮忙点个赞,分享给你身边有趣的朋友们~

Ref:冯一尘,知乎下的 Kimi Researcher 回答:https://www.zhihu.com/question/1919712376204256921/answer/1920925901035644513

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
机器人唯一隐形冠军,存储芯片严重低估大龙头,北向资金重仓锁定

机器人唯一隐形冠军,存储芯片严重低估大龙头,北向资金重仓锁定

财报翻译官
2026-01-17 06:42:53
聂卫平逝世!3妻3子女现状曝光,长子入籍日本,长孙姓氏或成遗憾

聂卫平逝世!3妻3子女现状曝光,长子入籍日本,长孙姓氏或成遗憾

娱说瑜悦
2026-01-16 16:24:55
天赋被埋没了一辈子是啥体验?网友:学啥都快,放弃也特别快

天赋被埋没了一辈子是啥体验?网友:学啥都快,放弃也特别快

带你感受人间冷暖
2026-01-02 00:10:08
快船配角井喷暴走!邓恩桑德斯攻守兼备,米勒全面,克里斯蒂高效

快船配角井喷暴走!邓恩桑德斯攻守兼备,米勒全面,克里斯蒂高效

篮球资讯达人
2026-01-17 12:13:53
这10个指标正常,证明你的血糖基本没毛病,别担心,勿盲目检查

这10个指标正常,证明你的血糖基本没毛病,别担心,勿盲目检查

健康之光
2025-12-26 09:23:21
江西新“特大城市”曝光,南昌让位,吉安成最大黑马!

江西新“特大城市”曝光,南昌让位,吉安成最大黑马!

叮当当科技
2026-01-17 09:22:34
三面围剿!中国正在把日本打回原形

三面围剿!中国正在把日本打回原形

听风听你
2026-01-15 17:44:04
你敢信?统一台湾的关键人物,可能已经出现了!

你敢信?统一台湾的关键人物,可能已经出现了!

鹤羽说个事
2026-01-15 14:55:30
谈崩了!7国派兵格陵兰岛,美国轻飘飘的2句话,让欧洲成了笑话

谈崩了!7国派兵格陵兰岛,美国轻飘飘的2句话,让欧洲成了笑话

知鉴明史
2026-01-17 09:35:06
公积金超10万亿资金或将被激活

公积金超10万亿资金或将被激活

21世纪经济报道
2026-01-16 21:57:10
税率从100%降至6.1%,加拿大总理宣布进口4.9万辆中国电动汽车

税率从100%降至6.1%,加拿大总理宣布进口4.9万辆中国电动汽车

界面新闻
2026-01-16 23:02:38
重庆可以包分配的3所大学,毕业就有编制,干到退休都没问题!

重庆可以包分配的3所大学,毕业就有编制,干到退休都没问题!

高三倒计时
2026-01-16 17:07:59
张家港“59岁再当妈”原来不是空巢寂寞!而是女婿死磕孩子跟谁姓

张家港“59岁再当妈”原来不是空巢寂寞!而是女婿死磕孩子跟谁姓

火山诗话
2026-01-17 06:42:11
党组织派她潜伏,给她二十根金条,她竟打三年麻将,输了个精光

党组织派她潜伏,给她二十根金条,她竟打三年麻将,输了个精光

鹤羽说个事
2026-01-15 14:51:42
大脑最爱的3种菜,冬天多给孩子吃,有助大脑发育,增强记忆力!

大脑最爱的3种菜,冬天多给孩子吃,有助大脑发育,增强记忆力!

阿龙美食记
2026-01-14 10:53:15
中国股市:如果接下来迎来牛市,牢记"锤子线买进,上吊线卖出"

中国股市:如果接下来迎来牛市,牢记"锤子线买进,上吊线卖出"

股经纵横谈
2026-01-17 10:41:48
胎死腹中!贾国龙16日晚的直播禁言收场,李国庆声称要出手搭救…

胎死腹中!贾国龙16日晚的直播禁言收场,李国庆声称要出手搭救…

火山诗话
2026-01-17 05:44:43
什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

带你感受人间冷暖
2025-11-12 00:05:08
波兰领事馆被炸后,普京对美国发出通牒,不到24小时,特朗普让步

波兰领事馆被炸后,普京对美国发出通牒,不到24小时,特朗普让步

沈言论
2026-01-17 12:05:03
甘肃一“退休老领导”被逮捕!

甘肃一“退休老领导”被逮捕!

大美甘肃
2026-01-16 20:41:46
2026-01-17 13:27:00
一泽Eze
一泽Eze
AI 产品,提示工程师 ? 探索AI应用边界,寻找人与AI共处的答案
39文章数 2关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

癌症晚期男子驾车撞死婆孙2人后病亡 法院判赔超200万

头条要闻

癌症晚期男子驾车撞死婆孙2人后病亡 法院判赔超200万

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

艺术
本地
亲子
家居
时尚

艺术要闻

12个字竟引发书法教育大讨论,你怎么看?

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

亲子要闻

五乱毁一生,宝妈分享:教会孩子原则和底线

家居要闻

岁月柔情 现代品质轻奢

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

无障碍浏览 进入关怀版