新发布的Kimi K2.5是AI界的“老实人”？——实测后我的4点思考|翻译|白鹿|金庸|kimi|agent|深度思考按钮

分享至

前几天，Kimi的朋友神秘兮兮地说：卫老师，我们准备发最新的Kimi K2.5了，来测一测？

说实话，这个年底的确很热闹，各家都在整新东西，可惜我一直没抽出时间，直到今天他们上线了我才开始跑case。

下面咱们就不紧不慢来看一看这些有意思的case以及我个人的几点思考——

一

在实测之前，我们先来了解一下Kimi K2.5最基本的信息——

它采用原生的多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务，通过约15T混合视觉和文本token进行的预训练。

来，先跑个分——

可以看到它在 Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA的表现。

具体而言，在包括HLE、BrowseComp和DeepSearchQA在内的多个极具挑战性的Agent评测中取得了最佳表现，部分指标超越了最前沿的闭源模型。

这些领先的Agentic的能力让它可以从容面对复杂任务，KIMIK2.5驱动的Agent集群，能同时调度多达100个Agent分身，并行处理1500个步骤。

在正式的实测之前，我们先来看月之暗面的CEO杨植麟自己的介绍视频——

二

视觉提升是这次的关键。

按官方的说话，Kimi K2.5是一个全能型的统一模型（Unified Model），实现了视觉与文本的统一：

它不再需要外挂插件来看图，而是天生具备视觉能力，理解图片和视频就像阅读文字一样自然。

废话少说，我们还是来一个我之前试过的谷歌DeepMind纪录片《The Thinking Game》里哈萨比斯结尾的国际象棋case。

我照例上传了前几天我和我女儿下的双马防御的照片——

可以看到，面对这张意大利开局盘面，K2.5没掉链子。

一眼认出这是双马防御的经典局面，直接给出了Ng5的答案：马跳g5猛攻f7弱点。

这属于弗里德里希攻击的起手式，选点很精准。

而且它把道理也讲得很明白：f7是黑方王前最软的格子，只有王在保护，后续还列出了Nxf7弃马后的连续步骤，说明它理解这个开局的套路，不是瞎蒙。

整个过程反应快，视觉识别很准确，没把棋子位置认错，对于国际象棋初学者，这种一眼看穿的能力够用了。

就这个case来说，Kimi K2.5的视觉识别和推理能力，看得懂、答得准。

我再给它一张我在宜家买的椅子，让它指导我怎么安装——

可以看到，K2.5把这张椅子零件图吃得挺准：一扫就认出是椅子套件，靠背、前后腿、支撑横梁、软坐垫、那包内六角螺丝，挨个儿点名。

安装指导也很实在，没拽术语，步骤按先腿后靠再装垫的常识顺序来，还特别叮嘱螺丝别拧死，留点余量好调。

总体而言很照顾过动手能力参差的用户，靠谱。

三

我决定给它稍微上点强度。

于是我随手在手机中找出了去年我看的汉斯·季默（Hans Zimmer）在北京音乐会的现场照片，我问他舞台上那个穿白色衣服的歌手是谁？

注意，这张照片是我的实拍，比较模糊，像素只有600x800，很难通过面部识别来确定到底是谁？

可以看到，面对这张演唱会现场图，K2.5没急着瞎猜，而是先动手搜了图片——这是聪明的第一步，看不清歌手正脸，与其蒙答案，不如先找线索。

很快，它通过图片搜索结果确认是Hans Zimmer Live，这时候模型没停着，脑子已经转起来了：

背景是《狮子王》的画面，穿白衣服的人在舞台中央演唱，大概率是唱《Circle of Life》的那位。

于是马上追了一轮搜索+思考。

第二轮结果指向了Lebo M，但模型还是没直接回答——

它又补了一轮验证，专门搜 Lebo M 的现场照片和身份，确认这位南非老兄确实是《狮子王》主题曲的原唱，而且确实常穿白色非洲服饰登台。

三轮思考与行动环环相扣，这就是K2.5思维与行动交织的能力（Interleaved Reasoning）：

不是先想十分钟再一次性搜完，而是搜一点、看一点、想一下再决定下一步干什么。

这种边想边做的能力很接地气——

它知道什么时候该停手（确认是 Lebo M 就收了），也知道什么时候该继续（光靠图片搜不出来，得补文字搜索），不死脑筋硬猜，也不过度搜索浪费算力，分寸感刚好。

一句话——Interleaved Reasoning，好使。

四

咱们继续，这次Kimi K2.5的代码能力也得到了大幅提升。

Benchmark分数是一回事，实际表现又是一回事，我只相信实测，咱们先来一道经典的——鹈鹕骑自行车的SVG动画：

“make an animated SVG of a pelican riding a bicycle.”

玩过模型测评的都知道这题挺刁的——对功能和审美的要求都不低。

SVG要做好不简单，K2.5结果很靠谱，车轮、脚蹬的联动很流畅，背景云彩还做了视差滚动。

细看的话，鹈鹕握车把的姿态像那么回事，脚踏板带上下相位差，车座底下还藏着阴影跟着车身一颠一颠，细节控应该很喜欢。。

颜色也不糊弄，天空渐变、柏油路上的速度线全配齐了，当然，还是有点瑕疵的，比如速度线的方向貌似搞反了，但瑕不掩瑜。

作为一个三体迷，每次测试模型网页能力，我都会下达一个任务——

“做一个以《三体》为主题的网站。”

可以看到，Kimi K2.5 这个 case 表现挺稳的，我总共用三句话迭代了三次。

整个过程，K2.5整理解需求，输出设计文档、生成图片、写代码、部署，流程很顺。

从结果上看代码质量可以，TypeScript、React、Tailwind用得熟练，报错能自己修，交互细节考虑周到，加载动画、悬停效果都有。

事实上，生成的网页还可以直接修改，在预览界面圈选需要修改的地方，用大白话告诉Kimi怎么改，它就能精准调整。

我喜欢它的点在于，这个网站拿捏住了三体冷峻的风格。

深黑背景，不张扬但抓人，留白给得足，看着就安静、孤独，跟书里的气质对味。

人物图生成得挺准——叶文洁有那种历经沧桑的决绝，章北海一身军人硬气，都贴原著，不是那种网红脸。

Kimi产品层面也打磨得很好，最实在的是Kimi K2.5 Agent生成的网站能直接部署，流程一条龙走完。

用户拿到手就是个能打开的网址，不用自己折腾服务器、配环境，这个网站大家可以直接去玩——

（可直接复制访问https://sk2b45gfnxilo.beta-ok.kimi.link/）

对普通用户来说，这是实实在在的方便，很多其他产品到出代码那步就停了，Kimi能推到最后一公里，nice。

更有意思的是，你可以直接上传图片和视频，让K2.5 Agent照着图片里或视频里的样式来生成网站。

我找了一个交互不错的网站录屏给它（https://orbitaix.webflow.io），让K2.5把上面的三体网站转化成视频中的设计。

5分钟之后，风格复刻就完成了，大伙可以自行对比一下效果：

供K2.5参考的网站case

K2.5复刻后的三体网站

再来看一个更有意思一点的——

创建一个用手势识别切西瓜的网页小游戏。

可以看到，Kimi K2.5在这个小游戏开发任务上表现相当扎实。

从需求理解到最终交付，模型展现了完整的工程能力。

我总共提出了6轮修改——包括30秒倒计时调整、水果变大变多、特效炫酷——模型能准确理解并执行，没有遗漏或误解。

最终完成度还是很高的，反正我女儿玩了半个小时，下面是网址，大伙可以自己玩一玩——

https://zympv3awn3nay.beta-ok.kimi.link/

摄像头手势追踪流畅，五种水果爆炸效果不错，连击系统、倒计时、摄像头小窗口、分值提示等功能也都有，符合我最初的意图。

作为单次对话的多轮迭代开发，Kimi K2.5 展现了不错的需求跟随能力和代码组织水平，最终交付物直接可部署、可游玩，实用性强。

这是我复刻的网页版的Mac OS，里边的App都能用

五

Kimi K2.5推出了Agent Swarm，也就是“蜂群模式”，简单来说就是让一群AI分工协作，并行处理海量任务。

这个功能最厉害的地方在于它能分身，原本得一步步盯着的操作，它能拆解成多个子任务（最多高达1500个），对咱们普通用户来说，它就是个批量处理神器。

咱们看下面这个任务——

搞金融研究的都知道，查30家公司的季度数据是体力活——得翻公告、算汇率、对口径，还得盯着港股和A股披露差异。

可以看到，Kimi K2.5面对这个脏活累活展现出实打实的工程能力，先拉清单定框架，再自动切换美股、港股、A股三套数据库。

碰到滴滴退市这种边缘案例，也没瞎编，老老实实标OTC市值。

还有一点难得的是诚实——9家公司市值查不到就写未找到，15家员工数缺失也不硬凑，每个数字都带来源脚注。

全程无需人工盯盘，它自己调度搜索、API、Python计算，最后吐出带引用链的Excel。

这种批量作业不串行的路子感觉的确适合做脏活累活，多源数据自动对齐、拿不准就标红，确实让复杂的研究简单很多。

再看披露生成图片的case——

请用14个不同的艺术家风格，给金庸的14部小说设计14个封面，顺序按照“飞雪连天射白鹿，笑书神侠倚碧鸳”排列。

可以看到，Kimi K2.5的批量处理能力确实能打，14张图分两次就全搞定了。

第一次7张，第二次7张，衔接顺畅，画质稳定，没有前面精细后面应付的情况。

这种愿意接活的吞吐量，对实际工作很友好，做系列设计、批量配图时能省下大量反复调试的麻烦。

整体看，多任务并行这块Kimi K2.5有两把刷子。

六

作为行业的观察者，我并不擅长无死角地测试模型的每一项能力。

我更愿意结合行业演进趋势，从这些有限的case看一看新模型迭代和突破背后的逻辑。

以下是我测完Kimi K2.5之后的4点思考——

1.KimiK2.5 的这次更新有一种朴素的实用主义取向

我的直观感觉，Kimi的这次更新更接地气了，换句话说Kimi K2.5这东西变得越来越像个老实人。

别笑，在AI这个圈子里，老实人是个稀缺物种。

原生视觉、Visual Coding、Agent Swarm、Office Agent，还有开源的Kimi Code，这些东西都指向一个目标——让你能真真切切地把活儿干完。

给它一张设计稿，撸出一个能用的网页来，不满意，圈选就能修改还能一键部署上线，是真干活。

Agent Swarm的批量处理也是把模型能力转化成刚需场景的又一个出手，实打实地干脏活累活。

Office Agent也是这个思路，PPT、Word、Excel都给你优化到位，交付物得有专业审美和结构，不用操心格式问题、排版问题，直接拿来就能用。

这年头，用户是识货的，虚头巴脑的东西没有，能不能真正干货，一上手就知道，这种朴素的实用主义取向对行业是正向风向标。

我想，这也是Kimi敢在国内在C端推出付费套餐的底气。

2.Kimi这次干了很多最后一公里的活。

什么叫最后一公里？

其实就是直接能用，扔给你一张图纸让你自己去盖房不是最后一公里，直接交给一把钥匙才是。

Kimi这次做了大量的工作，算是把用户伺候到位了。

批量搜索、批量下载论文、批量生图，这些并不性感的工作才是生产力痛点。

对于坐在办公室里苦逼写报告的打工人来说，能不能瞬间帮他把100份财报扒下来分析好、PPT和Excel能不能整明白才是关键。

这说明Kimi产品经理是真在办公室里被虐过的，切实地知道打工人的痛。

的确，过去一年AI领域最重要的突破是长时程任务能力(long-horizon capabilities)。

METR的研究显示，GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能完成需要人类数小时的任务，而2024年的最佳模型只能完成30分钟以内的工作，

坦率地讲，KIMI这次的上下文长度离Gemini这类顶尖模型还是存在差距的。

但它聪明的地方在于它用Agent Swarm的批量处理很好地解决了很多日常复杂工作的痛点。

这其实也是帮用户走完最后一公里的努力。

3.视觉是乘法，而不是直观意义上的加法

KIMI K2.5将视觉能力从外挂插件升级为原生能力，这是从感知到理解的进步，是乘法。

Claude Sonnet 4.5在2025年9月的更新中强调“Vision for computer use”、Gemini 3 Pro强调“multimodal input with real-time reasoning”，行业共识是:原生多模态才是真正的AI Native。

在过去，很多模型处理图片是先用OCR把字提出来，再丢给大模型，这导致图表中的趋势、颜色、空间关系全部丢失。

Kimi2.5的原生多模态保证了不同模态之间的对齐更精准，减少了信息在不同神经网络模块传递时的翻译损耗。

而这会解锁极多的能力，官方的case中有对森林图 (Forest Plots)等专业图表的深度解析，说明Kimi K2.5经过了大量专业垂直领域数据的Post-training。

它不仅能读数，还能理解更复杂的统计学意义（如P值、置信区间）。

这对于金融、科研等依赖图表数据的行业是非常直接的利好。

4.高带宽的Context会成为未来模型能力的重要维度

在Kimi官方的case中，有一个让我印象很深刻——

将演示视频转化成编程项目（上传一段100MB以内的操作视频，Kimi看懂意图，复刻出可交互网页）。

这超越了截图生成代码，视频包含着时间维度的逻辑、交互的动态反馈、甚至是微妙的动效。

某种意义上，视频等更多元的模态或许成为未来AI开发的通用语言，K2.5验证了演示即编程的可行性。

如果AI能看懂视频并生成代码，这极大地压缩了软件供应链。

以前是“需求->文档->设计->代码->测试”，现在变成了“视频演示->成品”。

Kimi2.5在这里展现了很强的视觉理解能力，而更重要的是对动态逻辑的捕捉能力，我把这种能力粗浅地理解为最小规模的在线学习。

我坚定地相信，未来Context的带宽会比现在大很多倍，视频也仅仅只是其中的一种。

事实上，作为一个模型的人脑，它的Context带宽其实也是非常高的。

如何在高带宽的Context下提升效率，是未来每个模型要面临的实际挑战。

结语

以前我们总觉得，搞懂复杂的科研图表或者是批量处理上百份文件，是属于专业人士的特权，但 Kimi K2.5把这道门槛踏平了。

K2.5就像个眼里有活儿、心里有数的老伙计——聪明、靠谱，我们常说AI要快，但K2.5却学会了慢下来思考。

好的模型，是润物细无声滴，Kimi K2.5，值得一试。

——End——

作者简介：卫夕，公众号“卫夕指北”出品人，科技专栏作者，专写长文，专注剖析AI、广告、互联网的底层逻辑；不关注这个账号，你都不知道你会错过神马！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

新发布的Kimi K2.5是AI界的“老实人”？——实测后我的4点思考

宇树发布载人变形机甲，定价390万元起

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

特朗普称将同中方讨论对台军售和黎智英案 外交部回应

骑士终于玩明白了？

白鹿风波升级！掉粉20万评论区沦陷

利润再腰斩 京东干外卖后就没过过好日子

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

求求你试试「5+1+1」学习法!!!

普通人真该学学如何穿搭！多穿裙子比裤子更时髦，大方提气质

故宫挤满游客，人人撑伞前行：宁愿热到出汗，也要奔赴紫禁城！

10年支持不变：谷歌力保现有Chromebook

知情人士披露：美国或考虑恢复对伊朗军事行动

特朗普称将同中方讨论对台军售和黎智英案外交部回应

特朗普称将同中方讨论对台军售和黎智英案外交部回应

利润再腰斩京东干外卖后就没过过好日子

吉利银河“TT”申报图曝光电动尾翼+激光雷达