Kimi K2.5 发布了，月之暗面能做中国的Anthropic吗？|新论文|kimi|react|agent|anthropic

分享至

Hi，我是洛小山，你学习 AI 的搭子，这是我写的第 73 篇原创分享。

今天我想和你聊聊，Kimi 2.5 的发布对我们开发者来说，带来了什么。

如果你也是 AI 产品经理或者应用架构师，正在寻找 Claude 的国产平替，这篇关于国产模型的实战笔记，或许能帮到你。

欢迎先转发给自己收藏，然后抽空慢慢看。

01｜Dario 说他从未输给中国模型

前几天，Anthropic CEO Dario Amodei 在达沃斯世界经济论坛接受采访。

主持人问：你觉得中国模型现在已经落后了吗？

Dario 是这么回答的：

我觉得他们从来没有真正追上来那么多。那些模型非常针对基准测试进行了优化，优化有限的基准测试列表很容易。当我们和其他公司竞争企业合同时，我们看到的是谷歌和 OpenAI。偶尔会看到其他美国玩家。我几乎从未输过合同，也没输给过中国模型。

不过，他说的是企业合同的竞争。

由于风控、合规、数据出境等各种原因，在中国市场，Anthropic 根本没有资格进场。

所以：怒从心头起，酸向胆边生。

高情商：我们从未输给中国模型。

低情商：我不能上桌吃饭，就说中国菜不好吃，我要掀桌。

有一说一，作为应用开发者，我确实很需要 Claude 级别的模型能力。

但由于一些众所周知的原因，我们在国内上架应用只能选择经过备案的国产模型。

前两天 Kimi K2.5 发布了，一个开源的、免费的、全量开放的、不需要魔法的国产备选。

不过，在聊实测之前，我想先聊聊 Kimi 的定位。因为我觉得，理解它想做什么，比测几个案例更重要。

01｜国内的 Anthropic ？

那 Kimi 和其他国产模型厂商有什么不一样呢？

我觉得最大的区别是：Kimi 走的是 Anthropic 的路，专注生产力的场景。

先看其他玩家的定位吧：

MiniMax / 即梦：走的是娱乐场景。比如视频生成、语音克隆、虚拟角色，目标是卖内容。
豆包 / 千问 / 元宝：生活场景。比如点外卖、查快递、知识库管理，目标是超级助手卖场景。
DeepSeek / Qwen：开发者生态。开源模型、API 服务，路子是模型基建卖生态。

然后看一下 Kimi 产品矩阵：

1. Kimi Chat（Office 办公）
长文档处理、会议纪要、PPT 生成。这个就不展开说了… DDDD

2. Kimi Code（编程）
对标 Claude Code。命令行工具 kimi-cli，可以直接在终端调用 Kimi，支持 MCP。

3. Kimi Cowork（Agent 集群）
对标 Anthropic 的 Cowork 和 Skills。

高时薪任务外包给 AI Agent，燃烧 Token 换你的时薪。

然后这三个产品，指向的都是生产力场景：办公、编程、自动化。这和 Anthropic 的路子不能说一模一样吧，只能说…

然后说下这个模型的具体情况。

K2.5 是一个总参数 1000B，激活参数 32B的 MoE 模型。算力消耗更低，推理成本更便宜。

上面这张表来自 Kimi K2.5 技术博客，我挑几个有意思的点讲讲。

原文：https://huggingface.co/moonshotai/Kimi-K2.5

384 个专家，每次只激活 8 个，激活比例 3.2%，比 DeepSeek-V3 的 5.5% 更低。1T 的参数存着，32B 激活跑着。

存储成本还行，然后推理成本往死里压。

这个模型注意力机制用的是经典的 MLA，来自 DeepSeek-V2（arXiv:2405.04434），专门解决这种长文本场景下 KV Cache 爆显存的问题。

Kimi 一直主打长上下文，这个选择确实挺合理的。

从 benchmark 看，Longbench v2 拿到 61.0，LongVideoBench 79.8，长上下文能力也确实兑现。

K2.5 的词表尺寸是 160K，比 DeepSeek-V3 的 128K 大了 25%。

词表越大有啥用呢？

意味着中文编码效率越高，换言之，同样的内容消耗更少 Token。

如果按 Token 计费的话，这个差异能省下挺多钱。

有兴趣可以看看我那篇关于模型成本的推文。

这样的效率提升的直接体现，就是模型报价。

在 OpenRouter 里，Kimi K2.5 的价格是 2.5 刀 / 百万 Token，比 Gemini 3 Flash（3 刀）还便宜。

这也让 Kimi K2.5 在 OpenRouter 里直接干到 Token 消耗榜 Top 3。

02｜从 Benchmark 看 Kimi 在赌什么

说实话，我一般不太信模型方的刷榜。发布即 SOTA 嘛，懂的都懂。

但这次 Kimi K2.5 的榜单选择，我觉得还挺有意思的。

因为它暴露了 Kimi 的焦虑。

有意思的点是，Kimi 的榜单居然在对标御三家的 T0 的模型。但我觉得这可能不完全是嚣张，它的目的是占领国内开发者的心智。

毕竟普通用户又不看你的榜单，大部分都是开发者看（其实好多开发者也不看）。

六小虎这边，智谱上市了，MiniMax 也上市了，弹药开始充足了起来。而且 MiniMax 的 M2.1 在 Agent 能力上跟 Kimi 真·刚正面。

Old Money 这边，BAT 三家就更不用说了，字节豆包、阿里通义、腾讯混元，财大气粗，烧得起。

还有富二代 DeepSeek，幻方背景，不差钱。然后来自神秘力量加持，流量充沛。

月之暗面呢？打的明显是一场不对称战争。

通用对话？豆包、元宝、通义的用户规模摆在那；
企业服务？阿里的客户关系和渠道积累是壁垒，很难追；
烧钱补贴？BAT…Excuse me？
开发者生态？Qwen、DeepSeek 已经在这儿了…

这局太难了吧…

理解了 Kimi 的处境之后，你就能 Get 到，为什么 Kimi 单拎这几个指标做对比了。

四个类别：Agents、Coding、Image、Video。

没有 MMLU。没有 HumanEval。

没有 GPQA。没有 MATH-500。

然后 Kimi 刻意选择了比较有优势的几个类别…

先看传统榜单有什么问题吧。

1、容易刷。

Dario 在达沃斯说得虽然难听，但确实是事实。

很多模型专门为基准测试进行了定向优化，在有限的基准测试列表里刷分很容易，而且刷出来，大家也不认啊。

2、刷赢了也没用。

MMLU 第一又怎样？用户不会因为你 MMLU 高几个点就换应用。开发者也不会因为你高几个点就换基模，一切都得算性价比。说白了这些榜单已经和用户价值脱钩了。

那 Kimi 选的这四个类别是啥？

Agents：HLE-Full、BrowseComp、DeepSearchQA 是模拟真实场景的任务。

这正好是 B 端企业级应用的核心卡点：自动化运维、AI SDR、Manus 这类产品对模型要求最大的，就是这个能力。

Image / Video：长视频理解、全文档处理。

Kimi 在 LongVideoBench 拿到 79.8，Gemini 3 Pro 才 67.2。

那这对应的是什么场景？

办公助手、会议录屏、长文档、视频素材… 这些都是高付费意愿的场景。

Coding：SWE-Bench，目前最接近真实软件工程的榜单。

Kimi 这块确实不太行，才 76.8，其他三家都是 80 左右。不过 Kimi 也没藏着，相对老实放出来了（虽然也有技巧）。

所以，这份榜单的意思是：Kimi 在赌 Agentic 战场，然后表现它是一个能做 Agent 的全模态模型。

毕竟 Chatbot 能力在 2025 年已经是红海了。

下一个战场是 Agentic，Kimi 在赌 Agentic 应用的战场上占住的身位。

这也解释了为什么他们要做全模态统一的模型，因为 Agent 必须同时要「调用工具」和「理解结果」。文本生成和图像理解如果是两套系统，这就没法闭环了。

但你这样的 Benchmark 风险也很凸显。

1、用户的预期被你强行拉高了。

你的 Benchmark 上来就直接对标 GPT 5.2、Claude 4.5 Opus、Gemini 3 Pro。

那你基本上等于主动放弃了「国产模型还要啥自行车」的这个容错空间。

Benchmark 分数可以接近，甚至可以刷，可以超。

但大模型响应流畅度、指令遵循的细腻程度、边界 case 的处理能力，这些很多难以量化的体验层面都要打磨。

第二，时间窗口很脆弱。

OpenAI 和 Anthropic 的迭代周期大概 4-6 个月。如果 GPT 5.3 或 Claude 5 在 Q2 发布，一下子和你又拉开差距，这种「并驾齐驱」的叙事就崩了。

这下就令我搞混了，这份榜单到底是给谁看的？

我猜可能还是投资人吧，毕竟开发者不仅仅简单看你这张图。

这份榜单的核心信息是：我们烧你们的钱之后，这已经转化成世界级的竞争力了，估值逻辑成立。来投来投。

03｜实测：论文搜索场景对比

说完战略层面，聊聊我的实际使用的体感吧。

熟悉我的小伙伴都比较清楚，我是比较学院派的产品经理，工程化落地时很少参考公众号的文章，信源一般以论文为主。

为了更好看论文，我开发了一个 AI 读论文的 MCP 服务，叫 Paper Reader。

地址：https://paper.lxshan.com/

这个是 MIT License，你可以自己部署一套，也可以直接用我的服务，免费的，随便用。

这个 MCP 有啥功能？

说白了就是搜论文、拿论文原文这两个关键能力。

我会在 2026 年重点持续维护这个 MCP 的服务。

以前我一直用 Gemini 3 Flash 帮我读论文，因为这是能满足 ReAct 要求的最便宜好用的模型了。但 Gemini Flash 有个问题：对意图的理解不够深。

比如我让模型去找「我想研究上下文腐化的问题，你帮我找找有没有相关论文可以参考的。」

Gemini Flash：搜三轮，返回 4 篇论文。分类比较粗（现象定义、机制探究、优化方案），给了个阅读建议。

然后…就没了。

Kimi K2.5：先进行深度思考，然后从多个角度继续搜索（信息丢失、注意力稀释、中间内容遗忘、前摄干扰、上下文污染…）。搜

出来 6 篇核心论文，分成 5 类，还整理了推荐阅读顺序。

差距在哪呢？

表面看，一个搜了 4 篇，一个搜了 6 篇。

但真正的差距不是数量，是搜索策略的质量。

Gemini Flash 用的是「单次关键词匹配」：你说上下文腐化，我就搜 context corruption，搜到啥算啥。

Kimi 用的是「语义展开 + 多轮验证」：先理解「上下文腐化」可能涉及哪些子问题（信息丢失、注意力稀释、中间遗忘…），然后分别搜索，最后交叉验证整理。

在工作流里，这样的差距意味着什么？

用 Gemini Flash，我需要自己想关键词变体，手动多搜几轮，然后自己整理。模型只是个搜索工具。

用 Kimi，我只需要描述问题，它会自己展开维度、自己验证、自己整理。

这才是 ReAct 能力的价值。

根据结果判断够不够，不够就换个角度继续搜一搜。

性价比呢？

刚才提到，Gemini 3 Flash 是 $3/百万 Token，Kimi K2.5 是 $2.5/百万 Token。

论文场景是 Token 粉碎机，动辄几万字，10轮对话下来轻松百万 Token。

如果上 Claude Sonnet 这些 $15的，实在是遭不住。

Kimi K2.5 比 Gemini Flash 便宜，效果还更好一些。

虽然上下文长度只有 256k，但对我来说基本足够了。

于是，秒换了，88。

另一个场景，是我会使用 Claude Code 来整理材料。

我会让 AI 帮我看一些论文，然后基于论文生成 Survey，再发给其他同学们参考。

如果你也有类似需要，你可以跟着我的教程走一遍。

Kimi 官方提供了命令行工具kimi-cli，可以直接在终端里调用 Kimi K2.5，并使用 MCP 服务。

安装步骤：

# 1. 安装 kimi-cli
uv tool install kimi-cli

 # 2. 添加 Paper Reader MCP 服务
kimi mcp add --transport http paper_reader https://paper.lxshan.com/mcp \
  --header "Authorization: Bearer 你的Token"

 # 3. 测试连接
kimi mcp test paper_reader

测试成功之后，你会看到两个可用工具：

search_papers- 搜索 arXiv 论文，返回摘要内容
get_paper_content- 获取论文全文，返回 PDF 转 Markdown 后的内容

输入 quit 退出再启动，就可以使用了。

我用 Kimi CLI 来演示一下完整流程。

先给 Kimi 发了一条指令：

帮我找一找关于 ReAct 方法论相关的 survey，最好完整读完相关论文，再帮我整理一份 survey，可以的话把论文下载到本地。survey 保存为 md 格式。

Kimi 的工作流比较明确：

分析意图：判断「ReAct」可能是 LLM Agent 的方法论（ReAct = Reasoning + Acting），也可能是前端框架 React.js，于是同时搜索两个方向
搜索论文：调用 search_papers 工具，在 arXiv 上搜索相关 survey
读取内容：调用 get_paper_content，一次性读取多篇论文（每篇 30000-50000 字符）
下载 PDF：调用 Shell 命令，把论文下载到本地 papers/ 目录
整理 Survey：生成结构化的 md 文档（16KB）

不过，我觉得三篇论文实在太少，而且有失偏颇，内容也极其精简令我不忍卒读。

于是，Kimi 再扩大搜索范围，增加了 6 个方向，120+ 篇论文：

ReAct 变体与自我改进：20 篇
Chain-of-Thought 及扩展：20 篇
Tool Learning / Function Calling：20 篇
Multi-Agent 协作框架：20 篇
Test-time Compute 方法：20 篇
RL 在推理中的应用：20 篇

接下来，它重新阅读了 8 篇核心论文，重新整理了一份 25KB 的 survey。

我看了一下结果，虽然有调研，但纯表格的罗列其实不是我需要的。

我就给了新的要求：「每一个项目不应该只给一个表格，而应该详详细细描述。」

这一次，它能基于已下载的 PDF 文件，逐个章节展开：

核心动机：为什么需要这个方法
形式化定义：数学公式表达
算法流程：详细的步骤描述
实验细节：具体数据集、指标、结果分析
优缺点讨论：适用场景和局限性

最终输出接近 12000 字的深度技术 Survey。

虽然是个小案例，但我觉得已经能代表它「工具调度」、「ReAct 反思」、「约束遵循」三大核心能力了。

如果你也想用 Kimi CLI 来调用 Paper Reader，后台回复「阅读论文」获取完整配置教程。

终｜你也可以试试

回到开头那个问题：Dario 说「我从未输给中国模型」。

在中国市场，这话没啥意义。

因为在这个市场，能上场的，才有资格对比。

7 月份我的推文讲过，Kimi 要做中国的 Anthropic，现在走的这条路更清楚了。

这是我 7 月份的观点。

不做超级助手，专注生产力；

不拼用户规模，拼开发者生态；

在算力紧缺的情况下，把效率做到极致。

能不能走通？我不知道。但我觉得至少方向是对的。

你用过 Kimi K2.5 吗？体验如何？

欢迎在评论区里聊一聊哦。

我是洛小山，我们下次见。

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

本文知识产权归洛小山所有。

未经授权，禁止抓取本文内容，用于模型训练以及二次创作等用途。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.