![]()
Hi,我是洛小山,你学习 AI 的搭子,这是我写的第 73 篇原创分享。
今天我想和你聊聊,Kimi 2.5 的发布对我们开发者来说,带来了什么。
如果你也是 AI 产品经理或者应用架构师,正在寻找 Claude 的国产平替,这篇关于国产模型的实战笔记,或许能帮到你。
欢迎先转发给自己收藏,然后抽空慢慢看。
01|Dario 说他从未输给中国模型
前几天,Anthropic CEO Dario Amodei 在达沃斯世界经济论坛接受采访。
主持人问:你觉得中国模型现在已经落后了吗?
Dario 是这么回答的:
我觉得他们从来没有真正追上来那么多。 那些模型非常针对基准测试进行了优化,优化有限的基准测试列表很容易。 当我们和其他公司竞争企业合同时,我们看到的是谷歌和 OpenAI。 偶尔会看到其他美国玩家。 我几乎从未输过合同,也没输给过中国模型。
![]()
![]()
![]()
不过,他说的是企业合同的竞争。
由于风控、合规、数据出境等各种原因,在中国市场,Anthropic 根本没有资格进场。
所以:怒从心头起,酸向胆边生。
高情商:我们从未输给中国模型。
低情商:我不能上桌吃饭,就说中国菜不好吃,我要掀桌。
有一说一,作为应用开发者,我确实很需要 Claude 级别的模型能力。
但由于一些众所周知的原因,我们在国内上架应用只能选择经过备案的国产模型。
前两天 Kimi K2.5 发布了,一个开源的、免费的、全量开放的、不需要魔法的国产备选。
不过,在聊实测之前,我想先聊聊 Kimi 的定位。因为我觉得,理解它想做什么,比测几个案例更重要。
01|国内的 Anthropic ?
那 Kimi 和其他国产模型厂商有什么不一样呢?
我觉得最大的区别是:Kimi 走的是 Anthropic 的路,专注生产力的场景。
先看其他玩家的定位吧:
- MiniMax / 即梦:走的是娱乐场景。比如视频生成、语音克隆、虚拟角色,目标是卖内容。
- 豆包 / 千问 / 元宝:生活场景。比如点外卖、查快递、知识库管理,目标是超级助手卖场景。
- DeepSeek / Qwen:开发者生态。开源模型、API 服务,路子是模型基建卖生态。
然后看一下 Kimi 产品矩阵:
1. Kimi Chat(Office 办公)
长文档处理、会议纪要、PPT 生成。这个就不展开说了… DDDD
2. Kimi Code(编程)
对标 Claude Code。命令行工具 kimi-cli,可以直接在终端调用 Kimi,支持 MCP。
3. Kimi Cowork(Agent 集群)
对标 Anthropic 的 Cowork 和 Skills。
高时薪任务外包给 AI Agent,燃烧 Token 换你的时薪。
然后这三个产品,指向的都是生产力场景:办公、编程、自动化。这和 Anthropic 的路子不能说一模一样吧,只能说…
然后说下这个模型的具体情况。
K2.5 是一个总参数 1000B,激活参数 32B的 MoE 模型。算力消耗更低,推理成本更便宜。
![]()
上面这张表来自 Kimi K2.5 技术博客,我挑几个有意思的点讲讲。
原文:https://huggingface.co/moonshotai/Kimi-K2.5
384 个专家,每次只激活 8 个,激活比例 3.2%,比 DeepSeek-V3 的 5.5% 更低。1T 的参数存着,32B 激活跑着。
存储成本还行,然后推理成本往死里压。
这个模型注意力机制用的是经典的 MLA,来自 DeepSeek-V2(arXiv:2405.04434),专门解决这种长文本场景下 KV Cache 爆显存的问题。
Kimi 一直主打长上下文,这个选择确实挺合理的。
从 benchmark 看,Longbench v2 拿到 61.0,LongVideoBench 79.8,长上下文能力也确实兑现。
K2.5 的词表尺寸是 160K,比 DeepSeek-V3 的 128K 大了 25%。
词表越大有啥用呢?
意味着中文编码效率越高,换言之,同样的内容消耗更少 Token。
如果按 Token 计费的话,这个差异能省下挺多钱。
有兴趣可以看看我那篇关于模型成本的推文。
这样的效率提升的直接体现,就是模型报价。
在 OpenRouter 里,Kimi K2.5 的价格是 2.5 刀 / 百万 Token,比 Gemini 3 Flash(3 刀)还便宜。
![]()
这也让 Kimi K2.5 在 OpenRouter 里直接干到 Token 消耗榜 Top 3。
![]()
02|从 Benchmark 看 Kimi 在赌什么
说实话,我一般不太信模型方的刷榜。发布即 SOTA 嘛,懂的都懂。
但这次 Kimi K2.5 的榜单选择,我觉得还挺有意思的。
![]()
因为它暴露了 Kimi 的焦虑。
有意思的点是,Kimi 的榜单居然在对标御三家的 T0 的模型。但我觉得这可能不完全是嚣张,它的目的是占领国内开发者的心智。
毕竟普通用户又不看你的榜单,大部分都是开发者看(其实好多开发者也不看)。
六小虎这边,智谱上市了,MiniMax 也上市了,弹药开始充足了起来。而且 MiniMax 的 M2.1 在 Agent 能力上跟 Kimi 真·刚正面。
Old Money 这边,BAT 三家就更不用说了,字节豆包、阿里通义、腾讯混元,财大气粗,烧得起。
还有富二代 DeepSeek,幻方背景,不差钱。然后来自神秘力量加持,流量充沛。
月之暗面呢?打的明显是一场不对称战争。
- 通用对话?豆包、元宝、通义的用户规模摆在那;
- 企业服务?阿里的客户关系和渠道积累是壁垒,很难追;
- 烧钱补贴?BAT…Excuse me?
- 开发者生态?Qwen、DeepSeek 已经在这儿了…
这局太难了吧…
![]()
理解了 Kimi 的处境之后,你就能 Get 到,为什么 Kimi 单拎这几个指标做对比了。
四个类别:Agents、Coding、Image、Video。
没有 MMLU。没有 HumanEval。
没有 GPQA。没有 MATH-500。
然后 Kimi 刻意选择了比较有优势的几个类别…
先看传统榜单有什么问题吧。
1、 容易刷。
Dario 在达沃斯说得虽然难听,但确实是事实。
很多模型专门为基准测试进行了定向优化,在有限的基准测试列表里刷分很容易,而且刷出来,大家也不认啊。
2、刷赢了也没用。
MMLU 第一又怎样?用户不会因为你 MMLU 高几个点就换应用。开发者也不会因为你高几个点就换基模,一切都得算性价比。说白了这些榜单已经和用户价值脱钩了。
那 Kimi 选的这四个类别是啥?
Agents:HLE-Full、BrowseComp、DeepSearchQA 是模拟真实场景的任务。
这正好是 B 端企业级应用的核心卡点:自动化运维、AI SDR、Manus 这类产品对模型要求最大的,就是这个能力。
Image / Video:长视频理解、全文档处理。
Kimi 在 LongVideoBench 拿到 79.8,Gemini 3 Pro 才 67.2。
那这对应的是什么场景?
办公助手、会议录屏、长文档、视频素材… 这些都是高付费意愿的场景。
Coding:SWE-Bench,目前最接近真实软件工程的榜单。
Kimi 这块确实不太行,才 76.8,其他三家都是 80 左右。不过 Kimi 也没藏着,相对老实放出来了(虽然也有技巧)。
所以,这份榜单的意思是:Kimi 在赌 Agentic 战场,然后表现它是一个能做 Agent 的全模态模型。
毕竟 Chatbot 能力在 2025 年已经是红海了。
下一个战场是 Agentic,Kimi 在赌 Agentic 应用的战场上占住的身位。
这也解释了为什么他们要做全模态统一的模型,因为 Agent 必须同时要「调用工具」和「理解结果」。文本生成和图像理解如果是两套系统,这就没法闭环了。
但你这样的 Benchmark 风险也很凸显。
1、用户的预期被你强行拉高了。
你的 Benchmark 上来就直接对标 GPT 5.2、Claude 4.5 Opus、Gemini 3 Pro。
那你基本上等于主动放弃了「国产模型还要啥自行车」的这个容错空间。
Benchmark 分数可以接近,甚至可以刷,可以超。
但大模型响应流畅度、指令遵循的细腻程度、边界 case 的处理能力,这些很多难以量化的体验层面都要打磨。
第二,时间窗口很脆弱。
OpenAI 和 Anthropic 的迭代周期大概 4-6 个月。如果 GPT 5.3 或 Claude 5 在 Q2 发布,一下子和你又拉开差距,这种「并驾齐驱」的叙事就崩了。
这下就令我搞混了,这份榜单到底是给谁看的?
我猜可能还是投资人吧,毕竟开发者不仅仅简单看你这张图。
这份榜单的核心信息是:我们烧你们的钱之后,这已经转化成世界级的竞争力了,估值逻辑成立。来投来投。
03|实测:论文搜索场景对比
说完战略层面,聊聊我的实际使用的体感吧。
熟悉我的小伙伴都比较清楚,我是比较学院派的产品经理,工程化落地时很少参考公众号的文章,信源一般以论文为主。
为了更好看论文,我开发了一个 AI 读论文的 MCP 服务,叫 Paper Reader。
地址:https://paper.lxshan.com/
![]()
这个是 MIT License,你可以自己部署一套,也可以直接用我的服务,免费的,随便用。
这个 MCP 有啥功能?
说白了就是搜论文、拿论文原文这两个关键能力。
我会在 2026 年重点持续维护这个 MCP 的服务。
以前我一直用 Gemini 3 Flash 帮我读论文,因为这是能满足 ReAct 要求的最便宜好用的模型了。但 Gemini Flash 有个问题:对意图的理解不够深。
比如我让模型去找「我想研究上下文腐化的问题,你帮我找找有没有相关论文可以参考的。」
Gemini Flash:搜三轮,返回 4 篇论文。分类比较粗(现象定义、机制探究、优化方案),给了个阅读建议。
然后…就没了。
![]()
Kimi K2.5:先进行深度思考,然后从多个角度继续搜索(信息丢失、注意力稀释、中间内容遗忘、前摄干扰、上下文污染…)。搜
出来 6 篇核心论文,分成 5 类,还整理了推荐阅读顺序。
![]()
![]()
差距在哪呢?
表面看,一个搜了 4 篇,一个搜了 6 篇。
但真正的差距不是数量,是搜索策略的质量。
Gemini Flash 用的是「单次关键词匹配」:你说上下文腐化,我就搜 context corruption,搜到啥算啥。
Kimi 用的是「语义展开 + 多轮验证」:先理解「上下文腐化」可能涉及哪些子问题(信息丢失、注意力稀释、中间遗忘…),然后分别搜索,最后交叉验证整理。
在工作流里,这样的差距意味着什么?
用 Gemini Flash,我需要自己想关键词变体,手动多搜几轮,然后自己整理。模型只是个搜索工具。
用 Kimi,我只需要描述问题,它会自己展开维度、自己验证、自己整理。
这才是 ReAct 能力的价值。
根据结果判断够不够,不够就换个角度继续搜一搜。
性价比呢?
刚才提到,Gemini 3 Flash 是 $3/百万 Token,Kimi K2.5 是 $2.5/百万 Token。
论文场景是 Token 粉碎机,动辄几万字,10轮对话下来轻松百万 Token。
如果上 Claude Sonnet 这些 $15的,实在是遭不住。
Kimi K2.5 比 Gemini Flash 便宜,效果还更好一些。
虽然上下文长度只有 256k,但对我来说基本足够了。
于是,秒换了,88。
![]()
另一个场景,是我会使用 Claude Code 来整理材料。
我会让 AI 帮我看一些论文,然后基于论文生成 Survey,再发给其他同学们参考。
如果你也有类似需要,你可以跟着我的教程走一遍。
Kimi 官方提供了命令行工具kimi-cli,可以直接在终端里调用 Kimi K2.5,并使用 MCP 服务。
安装步骤:
# 1. 安装 kimi-cli
uv tool install kimi-cli
# 2. 添加 Paper Reader MCP 服务
kimi mcp add --transport http paper_reader https://paper.lxshan.com/mcp \
--header "Authorization: Bearer 你的Token"# 3. 测试连接
kimi mcp test paper_reader
测试成功之后,你会看到两个可用工具:
search_papers- 搜索 arXiv 论文,返回摘要内容get_paper_content- 获取论文全文,返回 PDF 转 Markdown 后的内容
输入 quit 退出再启动,就可以使用了。
我用 Kimi CLI 来演示一下完整流程。
先给 Kimi 发了一条指令:
帮我找一找关于 ReAct 方法论相关的 survey,最好完整读完相关论文,再帮我整理一份 survey,可以的话把论文下载到本地。survey 保存为 md 格式。
![]()
Kimi 的工作流比较明确:
- 分析意图:判断「ReAct」可能是 LLM Agent 的方法论(ReAct = Reasoning + Acting),也可能是前端框架 React.js,于是同时搜索两个方向
- 搜索论文:调用 search_papers 工具,在 arXiv 上搜索相关 survey
- 读取内容:调用 get_paper_content,一次性读取多篇论文(每篇 30000-50000 字符)
- 下载 PDF:调用 Shell 命令,把论文下载到本地 papers/ 目录
- 整理 Survey:生成结构化的 md 文档(16KB)
![]()
不过,我觉得三篇论文实在太少,而且有失偏颇,内容也极其精简令我不忍卒读。
于是,Kimi 再扩大搜索范围,增加了 6 个方向,120+ 篇论文:
- ReAct 变体与自我改进:20 篇
- Chain-of-Thought 及扩展:20 篇
- Tool Learning / Function Calling:20 篇
- Multi-Agent 协作框架:20 篇
- Test-time Compute 方法:20 篇
- RL 在推理中的应用:20 篇
![]()
接下来,它重新阅读了 8 篇核心论文,重新整理了一份 25KB 的 survey。
我看了一下结果,虽然有调研,但纯表格的罗列其实不是我需要的。
![]()
我就给了新的要求:「每一个项目不应该只给一个表格,而应该详详细细描述。」
这一次,它能基于已下载的 PDF 文件,逐个章节展开:
- 核心动机:为什么需要这个方法
- 形式化定义:数学公式表达
- 算法流程:详细的步骤描述
- 实验细节:具体数据集、指标、结果分析
- 优缺点讨论:适用场景和局限性
最终输出接近 12000 字的深度技术 Survey。
![]()
虽然是个小案例,但我觉得已经能代表它「工具调度」、「ReAct 反思」、「约束遵循」三大核心能力了。
如果你也想用 Kimi CLI 来调用 Paper Reader,后台回复「阅读论文」获取完整配置教程。
终|你也可以试试
回到开头那个问题:Dario 说「我从未输给中国模型」。
在中国市场,这话没啥意义。
因为在这个市场,能上场的,才有资格对比。
7 月份我的推文讲过,Kimi 要做中国的 Anthropic,现在走的这条路更清楚了。
这是我 7 月份的观点。
![]()
不做超级助手,专注生产力;
不拼用户规模,拼开发者生态;
在算力紧缺的情况下,把效率做到极致。
能不能走通?我不知道。但我觉得至少方向是对的。
你用过 Kimi K2.5 吗?体验如何?
欢迎在评论区里聊一聊哦。
我是洛小山,我们下次见。
关于我
我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。
我不追热点,只分享那些能真正改变我们工作模式的观察和工具。
如果你也在做 AI 产品,欢迎关注我,我们一起进化。
本文知识产权归洛小山所有。
未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.