Kimi Agent产品很厉害，然后呢？|算法|智能体|大模型|kimi|agent

分享至

眨眼间，2026年2月了，

AI界的春节，

真的是模型下饺子。

当下，有三件事值得看，

1. ClaudeOpus4.6（闭源）

+Claude Sonnet 4.6（闭源）

2. GPT-5.3-Codex（闭源）

+ Germini 3.1 Pro（闭源）

3. KimiAgent产品

+Kimi K2.5模型（开源）

毕竟，闭源模型能知道的不多，

也就开源的有技术报告可以挖挖。

这一次，我和以下专家进行讨论：

武汉人工智能研究院研究员朱贵波博士，

华为盘古大模型核心算法工程师，

阿里云无影AgentBay工程师，

波士顿动力（Boston Dynamics）强化学习算法工程师，

一位Kimi的产品同学。

我尊重专家的匿名意愿。

几个核心观察，

1.Agentic模型已是当下主流，打法是啥？

有别于此前（约12个月前）的推理模型，

大模型公司没有拿得出手的这类Agentic模型，

面子砸在地板上。那打法是啥？

第一，如果模型与产品的协同得不好，

模型就会替代产品，

甚至“蚕食”产品功能。

Cursor被ClaudeCode赋予了更强的产品能力，

但是ClaudeCode出来也快干掉Cursor了。

包括Claude Cowork问世，

也干掉了一些创业公司。

模型能力增长干掉产品，干掉创业公司，

在AI圈不是新闻。

当然，Agentic模型还有更大的甜点，

在于和MaaS平台协同，这个此处按下不表，

另篇他论。

第二，模型和产品协同得好，

模型让产品赢在起跑线。

Agentic模型为提高了产品赢的概率，

产品经理有机会做出更强的产品，

因为，内建的“执行能力”在处理复杂任务上，

比从产品层面处理，高了一个维度。

Agentic模型的这种训练，

不仅有目的，而且有针对性，

这个思路的效果，在KimiAgent产品上能看到。

整体上，是存在模型往上螺旋上升，

蚕食产品的现象，

所以，产品只能被逼着继续往上去卷新的场景。

但是到底哪个速度更快？

哪个影响力更大？尚未定论。

2.很多老金矿的价值，谁都不能低估。

第一，强化学习是口老金矿，

单轮反馈强化学习卷完，卷Agentic RL，

Kimi和Anthropic在卷群体智能强化学习，

Opus 4.6模型和Kimi K2.5模型都用到了。

群体智能强化学习思路很简洁，

但是怎么实现成为关键，

理论牛不牛似乎不在是决定性，

谁能用极致工程能力做出来，

在更大的规模上做出来，效果好，谁才牛。

第二，与视觉模态融合也是老金矿，

视觉给模型加持能力，

本质是模态融合得好，

理解能力进一步提高，

场景价值也能突显，

比如，Agent这个场景，

它会因为视觉的存在更加智能。

篇幅有限，挑重点讲，后面再写。

Agentic模型到底在卷什么？

先谈Agentic模型，

也就是专注Agent的这种，

不是光吐字那种，

比如，KimiAgent在办公场景

（牛马大战PDF/Excel等），

直接6到飞起。

不用Ctrl+C按到手抽筋了，

这里的干活是指动手干办公室脏活累活（任务），

不是吐字写稿那种。

我有一个word列表，每年都整理，

文章标题，发稿时间，阅读量，点赞数……

全年的量也不少，

再让我手动粘成excel表，

想得美，

我的耐心，

已经在做Word文件的时候用完了。

这事必须AI来。

好处享受了，看看原理。

Kimi K2.5模型开源了，还配有技术报告：

《Kimi K2.5: Visual Agentic Intelligence》。‘

Kimi的节奏一向很快，

早在2025年11月中旬，

Kimi Agent的底层模型，

还是Kimi K2 Thinking模型，

到2025年12月的时候，

Kimi的Agent模式的底层模型是

Kimi K2.5。

可以看到，K2.5是典型的Agentic模型。

这模型有啥好？

当然，我可以捏着鼻子，

学ChatGPT说话：

“这类大模型性能的提升，

标志着人工智能向自主，

深度思考，工具协作的方向迈出了重要一步。”

Agentic模型为啥强？

在我眼里，大模型的本质就是，

你喂给它啥，它就会啥。

你想让它会使用工具，

那就给它喂调用工具的数据。

当下是这类模型的时间窗口期，

厂商为了抢夺排位，又不少花钱，

没有万卡，很难加入战斗。

而谭老师我买Claude Code会员的钱，

都快要办分期了。

造的人和用的人都狠狠花钱，

AI再继续涨价，人类可能要从昂贵的AI手里，

把失去的工作抢回来了。

聊完钱，再聊能力。

Agentic能力变强到底指啥能力变强？

指的是模型在干活的时候，

如何自己拿主意干活，

如何分步骤思考

如何把活干完，

数据就需要是：

工具怎么调用来的？调用的结果是啥？

你想让它按步骤干活，

那干的活需要分哪几个步骤等等。

总结下来就是：

第一，干活前，分解规划：拆任务，拆步骤；

第二，多个工具一起干活，

该用哪个工具，还用得好。

第三，在相对长的时间内，执行多轮交互的任务。

第四，任务中，能来回调整，干出好结果。

这四个能力怎么训练得到，就得厂商各自摸索。

常见的技术：

多任务管理、跨模态处理、长时推理。

目标都是提高模型干活时的能力。

过程就是把干活的那个结果写训练到模型里面。

Kimi产品同学说得很中肯，

“Kimi的Agent模式有了智能体的这种智能感”，

他也谦虚地说：

“但是，绝大多数有生产力价值的这种场景，

其实AI还是没有服务得很好。

最核心的是，把模型能力做好，

排在对产品差异化的考虑之前。”

听他这么说，相信Kimi内部，

对于模型和产品的博弈哲学有很深的思考。

强化学习这口老金矿，Kimi怎么挖的？

智能体从串行到并行了？

不能这么说。为此，

我请教了波士顿动力公司强化学习算法工程师，

他这样告诉我：

群体智能（Swam）不是新概念。

本质上，智能体可以是一个比较强的中央式系统。

而这种多智能体系统是什么样的呢？

首先，有一个比较强的中央系统，

再加上一堆执行器，

你可以理解为，它大脑很强。

但是，实际去执行工作的那些末端，

是飞机也好，是机器人也好，

甚至是一些小东西，

比如这些个程序也好，

所执行的东西并不复杂。

像Anthropic公司的Opus 4.6那样，

它主要的工作其实是调度各种模型的过程。

这个调度本身并不复杂，

关键在于每个模型本身的执行能力，

这些模型每个都非常强大。

以前的智能体，每个智能体的算力可能没那么强，

更多是依靠“大脑”来给它们详细具体指令，

甚至包括一些细微的操作。

指导不细，干不好。

现在的这种智能体，你可以理解为，

它们之间的交流，

更像更接近于人与人之间的交流方式了。

这是因为本体智能的能力的上限不断提升，

同时，能够完成的任务周期时间也会越来越长。

所以说，智能体通过这样的协作的模式的转变，

办事方式有变化。

过去的智能体怎么办事呢？

一个智能体在那吭哧吭哧搞很久很久。

但是，这么玩是有上限的，

任务的复杂度不可能是非常高。

而现在挑战不同了，

写一个编译器（Compiler）。

那么复杂的工作，仅仅通过一条提示词，

或者说现在单个智能体能干的活，

以前的智能体做不到，因为上难度了。

编译器现在被Anthropic做到了，

虽然这是一个昂贵实验（2万美元）。

在这个背景下的话，

你如何把多个智能体的智力按什么方式融合。

我觉得，在这个时间点上的话，

大家都已经在往这个群体智能的方向去想了。

另外，本质上，

这也是一种Scaling（规模扩展）技术.

过去，我们在扩展能力时，

主要是通过增加模型的上下文长度

（Context length），

和扩展模型的参数量来实现。

现在，扩展的重点变成了增加智能体的数量。

以前有过讨论：如果我投入相同的算力，

是应该扩展智能体的数量，

还是应该扩大每个子智能体的规模，

让它们具备更强的记忆能力？

这两种方式大家都探索过很多，

很值得继续讨论，

如果你有好观点，也欢迎探讨交流。

再细看Kimi K2.5，

会发现一个有意思的点：

K2.5的Agent Swarm，

有一个Orchestrator（可训练编排器）

每个智能体都被分配了具体的任务。

比如，AI研究员、物理研究员、

生命科学研究员等，

这是中心化的思路。

每个智能体的训练目标是帮助整体群体完成任务，

而不是单独优化自身行为。

这个奖励函数用来衡量群体任务完成的质量，

由三个方面组成。

首先是并行度，任务越多、

智能体能同时完成的子任务越多，奖励就越高。

其次是每个子任务完成的情况，

任务完成得越好，奖励越高。

最后是整体任务的完成情况，

如果整体任务成功了，奖励就越大。

奖励也不是简单的累计。

并行度和子任务完成度两个方面的奖励

有两个权重，一个叫λ1，一个叫λ2。

接下来调整权重，

最后，还是以总体任务的成功率为准，给奖励。

另外，资源限制方面，就是任务也不能无限多。

而Kimi K2.5训练数据的获取方式，

主要是通过合成的方式，

即拿到“提示词训练集”（Prompt Construction）。

Kimi K2.5展现了群体智能的潜力，

好巧不巧，这点和Opus 4.6，

“英雄所干略同”。

视觉是一等公民了吗？

我们接着聊，

谭老师我历来把视觉作为重点，

从未敢轻视。

有文章为证《2023年终盘点：图文大模型编年简史》

Kimi K2.5也把视觉视为重点，

你在知乎上好好看看Kimi的VLM算法小哥哥写的感想，

发自内心的成就感，喷薄而出。

反观有的大厂，GitHub口碑真是不忍直视。

其实，Kimi K2.5技术报告有几个重点：

一个是视觉，一个是群体智能；

你说是什么超级革新的方法吗？

表面上看都不是，

专家笑谈：“这个方法虽然大家都知道，

但是真正训出来的，也没几家。”

我始终认为，视觉是一个要死磕的技术路线，

最坚定的追随者，非谷歌Gemini莫属，

人家从头到尾，一路死磕融合。

Nano、Banana这些小模型做PPT，

画图、文生图效果贼稳，

现在连学生写论文都用Gemini画流程图了

那些字、那些示意框，比以前准太多。

提示词遵循得特别好，

画流程图时字在哪、

箭头怎么指都明明白白。

这也是同一棵果树上摘的果子（重视视觉融合）。

Kimi这次也是摘到果子了。

他们的算法工程师，

不认为K2.5是一个传统意义上的VLM。

MoonViT这个架构，

对前序工作借鉴的基础上，

数据上下的功夫也不少，

扛住了预训练视觉数据15T总训练量的规模，

图片是2维，视频3维，

给视觉提供了多一维度的信息量，

只要能处理的好额外学习时序和动态这部分独特的能力，

性能可按预期提升。

K2.5所用的方法，

总是深思熟虑且实用，

比如，用一个极小的输入来激活视觉能力，

这样不仅有效，

且避免了传统方法中，

对大量视觉数据的依赖。

通过冷启动，让模型能够迅速启动视觉能力，

使得视觉信息直接融入到文本推理过程当中。

用有限的数据量，

激活视觉能力。

这样，有了K2 Thinking的能力，

（也就是上一版发纯文本模型的能力），

视觉能力强，

Tool use能力也很强。

力图多训练出一个维度，

性能就上一个大台阶。

虽然阿里Qwen模型先发优势极大，

而Kimi呈现出强势的追赶势头。

有好看的了。

One More thing

思考得科幻一些，

AI写代码的产品从第一天起，

就是Agent形态的，

未来，代码模型和Agent模型，

是否可能会汇合成一套，

反正模型也是把API视为工具的一种，

如果汇合成为一个大类，

而这一类大大有别于大语言模型，

也就是说，这两类可能会走出模型差异化的道路。

AI的世界，卷卷更精彩。

（放一些PPT成果）

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Kimi Agent产品很厉害，然后呢？

荣耀发布机器人手机、折叠屏、人形机器人

36岁副镇长开会晕倒除夕当天不幸离世 家中有3个孩子

36岁副镇长开会晕倒除夕当天不幸离世 家中有3个孩子

“想要我签名吗” 梅西逆转后嘲讽对手主帅

美伊以冲突爆发，多位明星被困中东

金银大涨 市场仍在评估冲突会否长期化

国民SUV再添一员 瑞虎7L静态体验

态度原创

香港展出王羲之书法，足有60篇、10多米长！

停摆800天仍坚挺，《坦克世界》为何让6000万军迷念念不忘

津南好·四时总相宜

河南上元节去哪儿观灯逛庙会？超全攻略在此，跟着逛就对了！

给中国姥姥拿鞋，一岁半的乖宝宝

36岁副镇长开会晕倒除夕当天不幸离世家中有3个孩子

36岁副镇长开会晕倒除夕当天不幸离世家中有3个孩子

金银大涨市场仍在评估冲突会否长期化

国民SUV再添一员瑞虎7L静态体验