网易首页 > 网易号 > 正文 申请入驻

Kimi K2.5 发布了 ,月之暗面能做中国的Anthropic吗?

0
分享至


Hi,我是洛小山,你学习 AI 的搭子,这是我写的第 73 篇原创分享。

今天我想和你聊聊,Kimi 2.5 的发布对我们开发者来说,带来了什么。

如果你也是 AI 产品经理或者应用架构师,正在寻找 Claude 的国产平替,这篇关于国产模型的实战笔记,或许能帮到你。

欢迎先转发给自己收藏,然后抽空慢慢看。

01|Dario 说他从未输给中国模型

前几天,Anthropic CEO Dario Amodei 在达沃斯世界经济论坛接受采访。

主持人问:你觉得中国模型现在已经落后了吗?

Dario 是这么回答的:

我觉得他们从来没有真正追上来那么多。 那些模型非常针对基准测试进行了优化,优化有限的基准测试列表很容易。 当我们和其他公司竞争企业合同时,我们看到的是谷歌和 OpenAI。 偶尔会看到其他美国玩家。 我几乎从未输过合同,也没输给过中国模型。




不过,他说的是企业合同的竞争。

由于风控、合规、数据出境等各种原因,在中国市场,Anthropic 根本没有资格进场。

所以:怒从心头起,酸向胆边生。

高情商:我们从未输给中国模型。

低情商:我不能上桌吃饭,就说中国菜不好吃,我要掀桌。

有一说一,作为应用开发者,我确实很需要 Claude 级别的模型能力。

但由于一些众所周知的原因,我们在国内上架应用只能选择经过备案的国产模型。

前两天 Kimi K2.5 发布了,一个开源的、免费的、全量开放的、不需要魔法的国产备选。

不过,在聊实测之前,我想先聊聊 Kimi 的定位。因为我觉得,理解它想做什么,比测几个案例更重要。

01|国内的 Anthropic ?

那 Kimi 和其他国产模型厂商有什么不一样呢?

我觉得最大的区别是:Kimi 走的是 Anthropic 的路,专注生产力的场景。

先看其他玩家的定位吧:

  • MiniMax / 即梦:走的是娱乐场景。比如视频生成、语音克隆、虚拟角色,目标是卖内容。
  • 豆包 / 千问 / 元宝:生活场景。比如点外卖、查快递、知识库管理,目标是超级助手卖场景。
  • DeepSeek / Qwen:开发者生态。开源模型、API 服务,路子是模型基建卖生态。

然后看一下 Kimi 产品矩阵:

1. Kimi Chat(Office 办公)
长文档处理、会议纪要、PPT 生成。这个就不展开说了… DDDD

2. Kimi Code(编程)
对标 Claude Code。命令行工具 kimi-cli,可以直接在终端调用 Kimi,支持 MCP。

3. Kimi Cowork(Agent 集群)
对标 Anthropic 的 Cowork 和 Skills。

高时薪任务外包给 AI Agent,燃烧 Token 换你的时薪。

然后这三个产品,指向的都是生产力场景:办公、编程、自动化。这和 Anthropic 的路子不能说一模一样吧,只能说…

然后说下这个模型的具体情况。

K2.5 是一个总参数 1000B,激活参数 32B的 MoE 模型。算力消耗更低,推理成本更便宜。


上面这张表来自 Kimi K2.5 技术博客,我挑几个有意思的点讲讲。

原文:https://huggingface.co/moonshotai/Kimi-K2.5

384 个专家,每次只激活 8 个,激活比例 3.2%,比 DeepSeek-V3 的 5.5% 更低。1T 的参数存着,32B 激活跑着。

存储成本还行,然后推理成本往死里压。

这个模型注意力机制用的是经典的 MLA,来自 DeepSeek-V2(arXiv:2405.04434),专门解决这种长文本场景下 KV Cache 爆显存的问题。

Kimi 一直主打长上下文,这个选择确实挺合理的。

从 benchmark 看,Longbench v2 拿到 61.0,LongVideoBench 79.8,长上下文能力也确实兑现。

K2.5 的词表尺寸是 160K,比 DeepSeek-V3 的 128K 大了 25%。

词表越大有啥用呢?

意味着中文编码效率越高,换言之,同样的内容消耗更少 Token。

如果按 Token 计费的话,这个差异能省下挺多钱。

有兴趣可以看看我那篇关于模型成本的推文。

这样的效率提升的直接体现,就是模型报价。

在 OpenRouter 里,Kimi K2.5 的价格是 2.5 刀 / 百万 Token,比 Gemini 3 Flash(3 刀)还便宜。


这也让 Kimi K2.5 在 OpenRouter 里直接干到 Token 消耗榜 Top 3。


02|从 Benchmark 看 Kimi 在赌什么

说实话,我一般不太信模型方的刷榜。发布即 SOTA 嘛,懂的都懂。

但这次 Kimi K2.5 的榜单选择,我觉得还挺有意思的。


因为它暴露了 Kimi 的焦虑。

有意思的点是,Kimi 的榜单居然在对标御三家的 T0 的模型。但我觉得这可能不完全是嚣张,它的目的是占领国内开发者的心智。

毕竟普通用户又不看你的榜单,大部分都是开发者看(其实好多开发者也不看)。

六小虎这边,智谱上市了,MiniMax 也上市了,弹药开始充足了起来。而且 MiniMax 的 M2.1 在 Agent 能力上跟 Kimi 真·刚正面。

Old Money 这边,BAT 三家就更不用说了,字节豆包、阿里通义、腾讯混元,财大气粗,烧得起。

还有富二代 DeepSeek,幻方背景,不差钱。然后来自神秘力量加持,流量充沛。

月之暗面呢?打的明显是一场不对称战争。

  • 通用对话?豆包、元宝、通义的用户规模摆在那;
  • 企业服务?阿里的客户关系和渠道积累是壁垒,很难追;
  • 烧钱补贴?BAT…Excuse me?
  • 开发者生态?Qwen、DeepSeek 已经在这儿了…

这局太难了吧…


理解了 Kimi 的处境之后,你就能 Get 到,为什么 Kimi 单拎这几个指标做对比了。

四个类别:Agents、Coding、Image、Video。

没有 MMLU。没有 HumanEval。

没有 GPQA。没有 MATH-500。

然后 Kimi 刻意选择了比较有优势的几个类别…

先看传统榜单有什么问题吧。

1、 容易刷。

Dario 在达沃斯说得虽然难听,但确实是事实。

很多模型专门为基准测试进行了定向优化,在有限的基准测试列表里刷分很容易,而且刷出来,大家也不认啊。

2、刷赢了也没用。

MMLU 第一又怎样?用户不会因为你 MMLU 高几个点就换应用。开发者也不会因为你高几个点就换基模,一切都得算性价比。说白了这些榜单已经和用户价值脱钩了。

那 Kimi 选的这四个类别是啥?

Agents:HLE-Full、BrowseComp、DeepSearchQA 是模拟真实场景的任务。

这正好是 B 端企业级应用的核心卡点:自动化运维、AI SDR、Manus 这类产品对模型要求最大的,就是这个能力。

Image / Video:长视频理解、全文档处理。

Kimi 在 LongVideoBench 拿到 79.8,Gemini 3 Pro 才 67.2。

那这对应的是什么场景?

办公助手、会议录屏、长文档、视频素材… 这些都是高付费意愿的场景。

Coding:SWE-Bench,目前最接近真实软件工程的榜单。

Kimi 这块确实不太行,才 76.8,其他三家都是 80 左右。不过 Kimi 也没藏着,相对老实放出来了(虽然也有技巧)。

所以,这份榜单的意思是:Kimi 在赌 Agentic 战场,然后表现它是一个能做 Agent 的全模态模型。

毕竟 Chatbot 能力在 2025 年已经是红海了。

下一个战场是 Agentic,Kimi 在赌 Agentic 应用的战场上占住的身位。

这也解释了为什么他们要做全模态统一的模型,因为 Agent 必须同时要「调用工具」和「理解结果」。文本生成和图像理解如果是两套系统,这就没法闭环了。

但你这样的 Benchmark 风险也很凸显。

1、用户的预期被你强行拉高了。

你的 Benchmark 上来就直接对标 GPT 5.2、Claude 4.5 Opus、Gemini 3 Pro。

那你基本上等于主动放弃了「国产模型还要啥自行车」的这个容错空间。

Benchmark 分数可以接近,甚至可以刷,可以超。

但大模型响应流畅度、指令遵循的细腻程度、边界 case 的处理能力,这些很多难以量化的体验层面都要打磨。

第二,时间窗口很脆弱。

OpenAI 和 Anthropic 的迭代周期大概 4-6 个月。如果 GPT 5.3 或 Claude 5 在 Q2 发布,一下子和你又拉开差距,这种「并驾齐驱」的叙事就崩了。

这下就令我搞混了,这份榜单到底是给谁看的?

我猜可能还是投资人吧,毕竟开发者不仅仅简单看你这张图。

这份榜单的核心信息是:我们烧你们的钱之后,这已经转化成世界级的竞争力了,估值逻辑成立。来投来投

03|实测:论文搜索场景对比

说完战略层面,聊聊我的实际使用的体感吧。

熟悉我的小伙伴都比较清楚,我是比较学院派的产品经理,工程化落地时很少参考公众号的文章,信源一般以论文为主。

为了更好看论文,我开发了一个 AI 读论文的 MCP 服务,叫 Paper Reader。

地址:https://paper.lxshan.com/


这个是 MIT License,你可以自己部署一套,也可以直接用我的服务,免费的,随便用。

这个 MCP 有啥功能?

说白了就是搜论文、拿论文原文这两个关键能力。

我会在 2026 年重点持续维护这个 MCP 的服务。

以前我一直用 Gemini 3 Flash 帮我读论文,因为这是能满足 ReAct 要求的最便宜好用的模型了。但 Gemini Flash 有个问题:对意图的理解不够深。

比如我让模型去找「我想研究上下文腐化的问题,你帮我找找有没有相关论文可以参考的。」

Gemini Flash:搜三轮,返回 4 篇论文。分类比较粗(现象定义、机制探究、优化方案),给了个阅读建议。

然后…就没了。


Kimi K2.5:先进行深度思考,然后从多个角度继续搜索(信息丢失、注意力稀释、中间内容遗忘、前摄干扰、上下文污染…)。搜

出来 6 篇核心论文,分成 5 类,还整理了推荐阅读顺序。



差距在哪呢?

表面看,一个搜了 4 篇,一个搜了 6 篇。

但真正的差距不是数量,是搜索策略的质量。

Gemini Flash 用的是「单次关键词匹配」:你说上下文腐化,我就搜 context corruption,搜到啥算啥。

Kimi 用的是「语义展开 + 多轮验证」:先理解「上下文腐化」可能涉及哪些子问题(信息丢失、注意力稀释、中间遗忘…),然后分别搜索,最后交叉验证整理。

在工作流里,这样的差距意味着什么?

用 Gemini Flash,我需要自己想关键词变体,手动多搜几轮,然后自己整理。模型只是个搜索工具。

用 Kimi,我只需要描述问题,它会自己展开维度、自己验证、自己整理。

这才是 ReAct 能力的价值。

根据结果判断够不够,不够就换个角度继续搜一搜。

性价比呢?

刚才提到,Gemini 3 Flash 是 $3/百万 Token,Kimi K2.5 是 $2.5/百万 Token。

论文场景是 Token 粉碎机,动辄几万字,10轮对话下来轻松百万 Token。

如果上 Claude Sonnet 这些 $15的,实在是遭不住。

Kimi K2.5 比 Gemini Flash 便宜,效果还更好一些。

虽然上下文长度只有 256k,但对我来说基本足够了。

于是,秒换了,88。


另一个场景,是我会使用 Claude Code 来整理材料。

我会让 AI 帮我看一些论文,然后基于论文生成 Survey,再发给其他同学们参考。

如果你也有类似需要,你可以跟着我的教程走一遍。

Kimi 官方提供了命令行工具kimi-cli,可以直接在终端里调用 Kimi K2.5,并使用 MCP 服务。

安装步骤:

# 1. 安装 kimi-cli
uv tool install kimi-cli

# 2. 添加 Paper Reader MCP 服务
kimi mcp add --transport http paper_reader https://paper.lxshan.com/mcp \
--header "Authorization: Bearer 你的Token"

# 3. 测试连接
kimi mcp test paper_reader

测试成功之后,你会看到两个可用工具:

  • search_papers- 搜索 arXiv 论文,返回摘要内容
  • get_paper_content- 获取论文全文,返回 PDF 转 Markdown 后的内容

输入 quit 退出再启动,就可以使用了。

我用 Kimi CLI 来演示一下完整流程。

先给 Kimi 发了一条指令:

帮我找一找关于 ReAct 方法论相关的 survey,最好完整读完相关论文,再帮我整理一份 survey,可以的话把论文下载到本地。survey 保存为 md 格式。


Kimi 的工作流比较明确:

  1. 分析意图:判断「ReAct」可能是 LLM Agent 的方法论(ReAct = Reasoning + Acting),也可能是前端框架 React.js,于是同时搜索两个方向
  2. 搜索论文:调用 search_papers 工具,在 arXiv 上搜索相关 survey
  3. 读取内容:调用 get_paper_content,一次性读取多篇论文(每篇 30000-50000 字符)
  4. 下载 PDF:调用 Shell 命令,把论文下载到本地 papers/ 目录
  5. 整理 Survey:生成结构化的 md 文档(16KB)


不过,我觉得三篇论文实在太少,而且有失偏颇,内容也极其精简令我不忍卒读。

于是,Kimi 再扩大搜索范围,增加了 6 个方向,120+ 篇论文:

  • ReAct 变体与自我改进:20 篇
  • Chain-of-Thought 及扩展:20 篇
  • Tool Learning / Function Calling:20 篇
  • Multi-Agent 协作框架:20 篇
  • Test-time Compute 方法:20 篇
  • RL 在推理中的应用:20 篇


接下来,它重新阅读了 8 篇核心论文,重新整理了一份 25KB 的 survey。

我看了一下结果,虽然有调研,但纯表格的罗列其实不是我需要的。


我就给了新的要求:「每一个项目不应该只给一个表格,而应该详详细细描述。」

这一次,它能基于已下载的 PDF 文件,逐个章节展开:

  • 核心动机:为什么需要这个方法
  • 形式化定义:数学公式表达
  • 算法流程:详细的步骤描述
  • 实验细节:具体数据集、指标、结果分析
  • 优缺点讨论:适用场景和局限性

最终输出接近 12000 字的深度技术 Survey。


虽然是个小案例,但我觉得已经能代表它「工具调度」、「ReAct 反思」、「约束遵循」三大核心能力了。

如果你也想用 Kimi CLI 来调用 Paper Reader,后台回复「阅读论文」获取完整配置教程。

终|你也可以试试

回到开头那个问题:Dario 说「我从未输给中国模型」。

在中国市场,这话没啥意义。

因为在这个市场,能上场的,才有资格对比。

7 月份我的推文讲过,Kimi 要做中国的 Anthropic,现在走的这条路更清楚了。

这是我 7 月份的观点。


不做超级助手,专注生产力;

不拼用户规模,拼开发者生态;

在算力紧缺的情况下,把效率做到极致。

能不能走通?我不知道。但我觉得至少方向是对的。

你用过 Kimi K2.5 吗?体验如何?

欢迎在评论区里聊一聊哦。

我是洛小山,我们下次见。

关于我

我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点,只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品,欢迎关注我,我们一起进化。

本文知识产权归洛小山所有。

未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
42岁王濛再破"天花板",这一次,她让李琰跟整个冰坛都“沉默”了

42岁王濛再破"天花板",这一次,她让李琰跟整个冰坛都“沉默”了

林轻吟
2026-01-31 21:25:50
青岛任命三家国企高管,两名省属企业高管调任青岛市属企业正职

青岛任命三家国企高管,两名省属企业高管调任青岛市属企业正职

观星赏月
2026-01-31 16:02:58
癌症去世的人越来越多?医生反复叮嘱:宁可打打牌,也别做这5事

癌症去世的人越来越多?医生反复叮嘱:宁可打打牌,也别做这5事

医学原创故事会
2026-01-25 22:54:04
炸裂!埃梅里入主皇马条件曝光:5 人必走,维尼修斯竟遭弃用?

炸裂!埃梅里入主皇马条件曝光:5 人必走,维尼修斯竟遭弃用?

澜归序
2026-01-31 06:14:00
刘雯走秀僵硬翻车,疑似跛脚消极怠工,被嘲与何穗争台步倒数第一

刘雯走秀僵硬翻车,疑似跛脚消极怠工,被嘲与何穗争台步倒数第一

萌神木木
2026-01-31 12:34:20
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

素素娱乐
2026-01-23 11:07:53
17岁女孩遭200斤男子强奸后续:更多细节难以启齿,男子母亲发声

17岁女孩遭200斤男子强奸后续:更多细节难以启齿,男子母亲发声

古希腊掌管松饼的神
2024-09-30 10:43:45
一封来自美国的“情书”:开了中国电车,再也不想美国车

一封来自美国的“情书”:开了中国电车,再也不想美国车

观察者网
2026-01-30 15:27:19
纳达尔三句肺腑之言:德约是GOAT,我绝不会说谎!

纳达尔三句肺腑之言:德约是GOAT,我绝不会说谎!

田先生篮球
2026-01-31 14:13:23
醪糟被关注!医生:常吃醪糟的人,不用多久,肠道或迎来3个变化

醪糟被关注!医生:常吃醪糟的人,不用多久,肠道或迎来3个变化

阿兵科普
2025-11-30 20:53:55
致所有网贷人:别再死扛了!这3个“救命信息差”知道一个算一个

致所有网贷人:别再死扛了!这3个“救命信息差”知道一个算一个

我不叫阿哏
2026-01-19 08:37:13
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
马年春晚主持天团大洗牌!老面孔调岗新面孔挑梁,这变动太有看头

马年春晚主持天团大洗牌!老面孔调岗新面孔挑梁,这变动太有看头

复转这些年
2026-01-30 23:38:18
银价暴涨后CT废胶片回收价涨幅250%,曾有夫妻雇人用胶片提炼白银27余斤,两人被判缓刑罚7万元

银价暴涨后CT废胶片回收价涨幅250%,曾有夫妻雇人用胶片提炼白银27余斤,两人被判缓刑罚7万元

每日经济新闻
2026-01-30 14:10:33
黄金、白银持续重挫!创下40年最大单日跌幅

黄金、白银持续重挫!创下40年最大单日跌幅

新京报
2026-01-31 10:20:22
俄罗斯重新将14名日本人列为战犯

俄罗斯重新将14名日本人列为战犯

界面新闻
2026-01-31 07:18:15
麦当劳新包装被网友称像祭祀用品,客服回应

麦当劳新包装被网友称像祭祀用品,客服回应

黄河新闻网吕梁频道
2026-01-30 16:30:45
英高官硬气了,“特朗普错了,英中关系搞不好才是真疯了”

英高官硬气了,“特朗普错了,英中关系搞不好才是真疯了”

观察者网
2026-01-30 23:25:07
2026-02-01 03:40:49
洛小山
洛小山
用体验做推演,用产品思维看AI。
49文章数 8关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

本地
教育
家居
艺术
游戏

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

教育要闻

一年一度“花式”期末考,成都的小学今年做了哪些探索?又有哪些特别?

家居要闻

蓝调空舍 自由与个性

艺术要闻

半世纪的蜕变:她从初中辍学到传奇艺术家!

B社大佬:《老滚6》必须好好学《博德3》!

无障碍浏览 进入关怀版