网易首页 > 网易号 > 正文 申请入驻

新发布的Kimi K2.5是AI界的“老实人”?——实测后我的4点思考

0
分享至

前几天,Kimi的朋友神秘兮兮地说:卫老师,我们准备发最新的Kimi K2.5了,来测一测?

说实话,这个年底的确很热闹,各家都在整新东西,可惜我一直没抽出时间,直到今天他们上线了我才开始跑case。

下面咱们就不紧不慢来看一看这些有意思的case以及我个人的几点思考——

在实测之前,我们先来了解一下Kimi K2.5最基本的信息——

它采用原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务,通过约15T混合视觉和文本token进行的预训练。

来,先跑个分——


可以看到它在 Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA的表现。

具体而言,在包括HLE、BrowseComp和DeepSearchQA在内的多个极具挑战性的Agent评测中取得了最佳表现,部分指标超越了最前沿的闭源模型。

这些领先的Agentic的能力让它可以从容面对复杂任务,KIMIK2.5驱动的Agent集群,能同时调度多达100个Agent分身,并行处理1500个步骤。

在正式的实测之前,我们先来看月之暗面的CEO杨植麟自己的介绍视频——

视觉提升是这次的关键。

按官方的说话,Kimi K2.5是一个全能型的统一模型(Unified Model),实现了视觉与文本的统一:

它不再需要外挂插件来看图,而是天生具备视觉能力,理解图片和视频就像阅读文字一样自然。

废话少说,我们还是来一个我之前试过的谷歌DeepMind纪录片《The Thinking Game》里哈萨比斯结尾的国际象棋case。

我照例上传了前几天我和我女儿下的双马防御的照片——


可以看到,面对这张意大利开局盘面,K2.5没掉链子。

一眼认出这是双马防御的经典局面,直接给出了Ng5的答案:马跳g5猛攻f7弱点

这属于弗里德里希攻击的起手式,选点很精准。


而且它把道理也讲得很明白:f7是黑方王前最软的格子,只有王在保护,后续还列出了Nxf7弃马后的连续步骤,说明它理解这个开局的套路,不是瞎蒙。

整个过程反应快,视觉识别很准确,没把棋子位置认错,对于国际象棋初学者,这种一眼看穿的能力够用了。

就这个case来说,Kimi K2.5的视觉识别和推理能力,看得懂、答得准。

我再给它一张我在宜家买的椅子,让它指导我怎么安装——


可以看到,K2.5把这张椅子零件图吃得挺准:一扫就认出是椅子套件,靠背、前后腿、支撑横梁、软坐垫、那包内六角螺丝,挨个儿点名。


安装指导也很实在,没拽术语,步骤按先腿后靠再装垫的常识顺序来,还特别叮嘱螺丝别拧死,留点余量好调。

总体而言很照顾过动手能力参差的用户,靠谱。

我决定给它稍微上点强度。

于是我随手在手机中找出了去年我看的汉斯·季默(Hans Zimmer)在北京音乐会的现场照片,我问他舞台上那个穿白色衣服的歌手是谁?

注意,这张照片是我的实拍,比较模糊,像素只有600x800,很难通过面部识别来确定到底是谁?


可以看到,面对这张演唱会现场图,K2.5没急着瞎猜,而是先动手搜了图片——这是聪明的第一步,看不清歌手正脸,与其蒙答案,不如先找线索。


很快,它通过图片搜索结果确认是Hans Zimmer Live,这时候模型没停着,脑子已经转起来了:

背景是《狮子王》的画面,穿白衣服的人在舞台中央演唱,大概率是唱《Circle of Life》的那位。

于是马上追了一轮搜索+思考。

第二轮结果指向了Lebo M,但模型还是没直接回答——

它又补了一轮验证,专门搜 Lebo M 的现场照片和身份,确认这位南非老兄确实是《狮子王》主题曲的原唱,而且确实常穿白色非洲服饰登台。

三轮思考与行动环环相扣,这就是K2.5思维与行动交织的能力(Interleaved Reasoning):

不是先想十分钟再一次性搜完,而是搜一点、看一点、想一下再决定下一步干什么。

这种边想边做的能力很接地气——

它知道什么时候该停手(确认是 Lebo M 就收了),也知道什么时候该继续(光靠图片搜不出来,得补文字搜索),不死脑筋硬猜,也不过度搜索浪费算力,分寸感刚好。

一句话——Interleaved Reasoning,好使。

咱们继续,这次Kimi K2.5的代码能力也得到了大幅提升。

Benchmark分数是一回事,实际表现又是一回事,我只相信实测,咱们先来一道经典的——鹈鹕骑自行车的SVG动画:


“make an animated SVG of a pelican riding a bicycle.”

玩过模型测评的都知道这题挺刁的——对功能和审美的要求都不低。

SVG要做好不简单,K2.5结果很靠谱,车轮、脚蹬的联动很流畅,背景云彩还做了视差滚动。

细看的话,鹈鹕握车把的姿态像那么回事,脚踏板带上下相位差,车座底下还藏着阴影跟着车身一颠一颠,细节控应该很喜欢。。

颜色也不糊弄,天空渐变、柏油路上的速度线全配齐了,当然,还是有点瑕疵的,比如速度线的方向貌似搞反了,但瑕不掩瑜。

作为一个三体迷,每次测试模型网页能力,我都会下达一个任务——


“做一个以《三体》为主题的网站。”

可以看到,Kimi K2.5 这个 case 表现挺稳的,我总共用三句话迭代了三次。

整个过程,K2.5整理解需求,输出设计文档、生成图片、写代码、部署,流程很顺。

从结果上看代码质量可以,TypeScript、React、Tailwind用得熟练,报错能自己修,交互细节考虑周到,加载动画、悬停效果都有。

事实上,生成的网页还可以直接修改,在预览界面圈选需要修改的地方,用大白话告诉Kimi怎么改,它就能精准调整。


我喜欢它的点在于,这个网站拿捏住了三体冷峻的风格。

深黑背景,不张扬但抓人,留白给得足,看着就安静、孤独,跟书里的气质对味。

人物图生成得挺准——叶文洁有那种历经沧桑的决绝,章北海一身军人硬气,都贴原著,不是那种网红脸。

Kimi产品层面也打磨得很好,最实在的是Kimi K2.5 Agent生成的网站能直接部署,流程一条龙走完。

用户拿到手就是个能打开的网址,不用自己折腾服务器、配环境,这个网站大家可以直接去玩——

(可直接复制访问https://sk2b45gfnxilo.beta-ok.kimi.link/)

对普通用户来说,这是实实在在的方便,很多其他产品到出代码那步就停了,Kimi能推到最后一公里,nice。

更有意思的是,你可以直接上传图片和视频,让K2.5 Agent照着图片里或视频里的样式来生成网站。

我找了一个交互不错的网站录屏给它(https://orbitaix.webflow.io),让K2.5把上面的三体网站转化成视频中的设计。

5分钟之后,风格复刻就完成了,大伙可以自行对比一下效果:

供K2.5参考的网站case

K2.5复刻后的三体网站

再来看一个更有意思一点的——


创建一个用手势识别切西瓜的网页小游戏。

可以看到,Kimi K2.5在这个小游戏开发任务上表现相当扎实。

从需求理解到最终交付,模型展现了完整的工程能力。

我总共提出了6轮修改——包括30秒倒计时调整、水果变大变多、特效炫酷——模型能准确理解并执行,没有遗漏或误解。

最终完成度还是很高的,反正我女儿玩了半个小时,下面是网址,大伙可以自己玩一玩——

https://zympv3awn3nay.beta-ok.kimi.link/

摄像头手势追踪流畅,五种水果爆炸效果不错,连击系统、倒计时、摄像头小窗口、分值提示等功能也都有,符合我最初的意图。

作为单次对话的多轮迭代开发,Kimi K2.5 展现了不错的需求跟随能力和代码组织水平,最终交付物直接可部署、可游玩,实用性强。

这是我复刻的网页版的Mac OS,里边的App都能用

Kimi K2.5推出了Agent Swarm,也就是“蜂群模式”,简单来说就是让一群AI分工协作,并行处理海量任务。

这个功能最厉害的地方在于它能分身,原本得一步步盯着的操作,它能拆解成多个子任务(最多高达1500个),对咱们普通用户来说,它就是个批量处理神器。

咱们看下面这个任务——

搞金融研究的都知道,查30家公司的季度数据是体力活——得翻公告、算汇率、对口径,还得盯着港股和A股披露差异。



可以看到,Kimi K2.5面对这个脏活累活展现出实打实的工程能力,先拉清单定框架,再自动切换美股、港股、A股三套数据库。

碰到滴滴退市这种边缘案例,也没瞎编,老老实实标OTC市值。

还有一点难得的是诚实——9家公司市值查不到就写未找到,15家员工数缺失也不硬凑,每个数字都带来源脚注。

全程无需人工盯盘,它自己调度搜索、API、Python计算,最后吐出带引用链的Excel。

这种批量作业不串行的路子感觉的确适合做脏活累活,多源数据自动对齐、拿不准就标红,确实让复杂的研究简单很多。

再看披露生成图片的case——


请用14个不同的艺术家风格,给金庸的14部小说设计14个封面,顺序按照“飞雪连天射白鹿,笑书神侠倚碧鸳”排列。


可以看到,Kimi K2.5的批量处理能力确实能打,14张图分两次就全搞定了。

第一次7张,第二次7张,衔接顺畅,画质稳定,没有前面精细后面应付的情况。

这种愿意接活的吞吐量,对实际工作很友好,做系列设计、批量配图时能省下大量反复调试的麻烦。

整体看,多任务并行这块Kimi K2.5有两把刷子。

作为行业的观察者,我并不擅长无死角地测试模型的每一项能力。

我更愿意结合行业演进趋势,从这些有限的case看一看新模型迭代和突破背后的逻辑。

以下是我测完Kimi K2.5之后的4点思考——

1.KimiK2.5 的这次更新有一种朴素的实用主义取向

我的直观感觉,Kimi的这次更新更接地气了,换句话说Kimi K2.5这东西变得越来越像个老实人。

别笑,在AI这个圈子里,老实人是个稀缺物种。

原生视觉、Visual Coding、Agent Swarm、Office Agent,还有开源的Kimi Code,这些东西都指向一个目标——让你能真真切切地把活儿干完。

给它一张设计稿,撸出一个能用的网页来,不满意,圈选就能修改还能一键部署上线,是真干活。

Agent Swarm的批量处理也是把模型能力转化成刚需场景的又一个出手,实打实地干脏活累活。

Office Agent也是这个思路,PPT、Word、Excel都给你优化到位,交付物得有专业审美和结构,不用操心格式问题、排版问题,直接拿来就能用。

这年头,用户是识货的,虚头巴脑的东西没有,能不能真正干货,一上手就知道,这种朴素的实用主义取向对行业是正向风向标。

我想,这也是Kimi敢在国内在C端推出付费套餐的底气。

2.Kimi这次干了很多最后一公里的活。

什么叫最后一公里?

其实就是直接能用,扔给你一张图纸让你自己去盖房不是最后一公里,直接交给一把钥匙才是。

Kimi这次做了大量的工作,算是把用户伺候到位了。

批量搜索、批量下载论文、批量生图,这些并不性感的工作才是生产力痛点。

对于坐在办公室里苦逼写报告的打工人来说,能不能瞬间帮他把100份财报扒下来分析好、PPT和Excel能不能整明白才是关键。

这说明Kimi产品经理是真在办公室里被虐过的,切实地知道打工人的痛。

的确,过去一年AI领域最重要的突破是长时程任务能力(long-horizon capabilities)。

METR的研究显示,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能完成需要人类数小时的任务,而2024年的最佳模型只能完成30分钟以内的工作,

坦率地讲,KIMI这次的上下文长度离Gemini这类顶尖模型还是存在差距的。

但它聪明的地方在于它用Agent Swarm的批量处理很好地解决了很多日常复杂工作的痛点。

这其实也是帮用户走完最后一公里的努力。

3.视觉是乘法,而不是直观意义上的加法

KIMI K2.5将视觉能力从外挂插件升级为原生能力,这是从感知到理解的进步,是乘法。

Claude Sonnet 4.5在2025年9月的更新中强调“Vision for computer use”、Gemini 3 Pro强调“multimodal input with real-time reasoning”,行业共识是:原生多模态才是真正的AI Native。

在过去,很多模型处理图片是先用OCR把字提出来,再丢给大模型,这导致图表中的趋势、颜色、空间关系全部丢失。

Kimi2.5的原生多模态保证了不同模态之间的对齐更精准,减少了信息在不同神经网络模块传递时的翻译损耗。

而这会解锁极多的能力,官方的case中有对森林图 (Forest Plots)等专业图表的深度解析,说明Kimi K2.5经过了大量专业垂直领域数据的Post-training。

它不仅能读数,还能理解更复杂的统计学意义(如P值、置信区间)。

这对于金融、科研等依赖图表数据的行业是非常直接的利好。

4.高带宽的Context会成为未来模型能力的重要维度

在Kimi官方的case中,有一个让我印象很深刻——

将演示视频转化成编程项目(上传一段100MB以内的操作视频,Kimi看懂意图,复刻出可交互网页)。

这超越了截图生成代码,视频包含着时间维度的逻辑、交互的动态反馈、甚至是微妙的动效。

某种意义上,视频等更多元的模态或许成为未来AI开发的通用语言,K2.5验证了演示即编程的可行性。

如果AI能看懂视频并生成代码,这极大地压缩了软件供应链。

以前是“需求->文档->设计->代码->测试”,现在变成了“视频演示->成品”。

Kimi2.5在这里展现了很强的视觉理解能力,而更重要的是对动态逻辑的捕捉能力,我把这种能力粗浅地理解为最小规模的在线学习。

我坚定地相信,未来Context的带宽会比现在大很多倍,视频也仅仅只是其中的一种。

事实上,作为一个模型的人脑,它的Context带宽其实也是非常高的。

如何在高带宽的Context下提升效率,是未来每个模型要面临的实际挑战。

结语

以前我们总觉得,搞懂复杂的科研图表或者是批量处理上百份文件,是属于专业人士的特权,但 Kimi K2.5把这道门槛踏平了。

K2.5就像个眼里有活儿、心里有数的老伙计——聪明、靠谱,我们常说AI要快,但K2.5却学会了慢下来思考。

好的模型,是润物细无声滴,Kimi K2.5,值得一试。

——End——

作者简介:卫夕,公众号“卫夕指北”出品人,科技专栏作者,专写长文,专注剖析AI、广告、互联网的底层逻辑;不关注这个账号,你都不知道你会错过神马!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼联连胜卡里克连夜分析比赛,不休假加班备战!拉爵直言非常满意

曼联连胜卡里克连夜分析比赛,不休假加班备战!拉爵直言非常满意

罗米的曼联博客
2026-01-27 09:56:39
柬埔寨铁笼拉人当地辟谣翻车,骗不了寻子妈妈的眼泪和公众的眼睛

柬埔寨铁笼拉人当地辟谣翻车,骗不了寻子妈妈的眼泪和公众的眼睛

你食不食油饼
2026-01-12 15:32:08
炸锅!英超顶级中场亲选利物浦 曼联皇马全成陪跑?

炸锅!英超顶级中场亲选利物浦 曼联皇马全成陪跑?

奶盖熊本熊
2026-01-27 06:58:15
黄多多引爆‘三通一达’争议!留学圈黑话背后藏着什么秘密?

黄多多引爆‘三通一达’争议!留学圈黑话背后藏着什么秘密?

没有偏旁的常庆
2026-01-26 06:12:04
女孩在家被人打伤后续!被认定互殴,警方回应,上门家长录音克制

女孩在家被人打伤后续!被认定互殴,警方回应,上门家长录音克制

奇思妙想草叶君
2025-12-28 01:17:28
罗德里的时代真的结束了

罗德里的时代真的结束了

逗比演员说体育
2026-01-21 14:33:40
黄鼠狼讨封不知道怎么说?太上老君点拨:回这3句话,可保金玉满堂

黄鼠狼讨封不知道怎么说?太上老君点拨:回这3句话,可保金玉满堂

古怪奇谈录
2026-01-14 15:59:57
验尸官:苏格兰足坛名将麦奎因的死因可能是头球导致的脑损伤

验尸官:苏格兰足坛名将麦奎因的死因可能是头球导致的脑损伤

懂球帝
2026-01-27 12:37:14
曝王玉雯杨玏已分手!两人曾拍到牵手回家,女方深夜探班男演员

曝王玉雯杨玏已分手!两人曾拍到牵手回家,女方深夜探班男演员

可乐谈情感
2026-01-28 01:18:02
若出战皇马,奥塔门迪将成为第三位解锁欧冠百场的阿根廷球员

若出战皇马,奥塔门迪将成为第三位解锁欧冠百场的阿根廷球员

懂球帝
2026-01-28 03:50:08
九一三事件后,许世友之女因被林立果拒,执意终生不嫁令人泪目

九一三事件后,许世友之女因被林立果拒,执意终生不嫁令人泪目

唠叨说历史
2026-01-21 15:04:49
1月下旬,开始走好运的三个星座,贵人到位,机会一件接一件出现

1月下旬,开始走好运的三个星座,贵人到位,机会一件接一件出现

小晴星座说
2026-01-26 19:04:14
卡尼沉默24小时后发声,否认与中国签协议,美财长得寸进尺

卡尼沉默24小时后发声,否认与中国签协议,美财长得寸进尺

萧嚉影视解说
2026-01-28 00:49:22
我去精神病院看望44岁失智大嫂,护士趁着喂药递我一张纸张

我去精神病院看望44岁失智大嫂,护士趁着喂药递我一张纸张

今天说故事
2026-01-06 12:20:29
温州一足浴公司破产!

温州一足浴公司破产!

温百君
2026-01-27 22:59:10
关键,姆伯莫本赛季8粒英超进球有6球扳平比分或取得领先

关键,姆伯莫本赛季8粒英超进球有6球扳平比分或取得领先

懂球帝
2026-01-28 00:41:35
伊朗,大的还在后台呢

伊朗,大的还在后台呢

寰宇大观察
2026-01-10 17:10:03
特朗普暴跳如雷!英国专家:一种情况下,美国将立即对华发动核战

特朗普暴跳如雷!英国专家:一种情况下,美国将立即对华发动核战

面包夹知识
2026-01-27 18:08:25
悲剧!福州一小区火灾致“母女”身亡,家属绝望:消防栓没有水

悲剧!福州一小区火灾致“母女”身亡,家属绝望:消防栓没有水

离离言几许
2026-01-27 00:22:38
为什么女生会觉得只有穿紧身牛仔裤才显身材?

为什么女生会觉得只有穿紧身牛仔裤才显身材?

型走衣橱
2026-01-20 11:39:05
2026-01-28 04:04:49
卫夕指北 incentive-icons
卫夕指北
深度剖析互联网底层逻辑
177文章数 4553关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

头条要闻

美报告称中国是其19世纪以来面对过的最强大国家

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

艺术
旅游
房产
家居
公开课

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

旅游要闻

红灯笼映北海:皇家园林里的年味,藏着中国人的精神原乡!

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

家居要闻

现代古典 中性又显韵味

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版