原生掌握“边思考，边用工具”，Kimi “史上最强”开源思考模型能否破局AI红海？|编程|大模型|kimi|agent|thinking

原生掌握“边思考，边用工具”，Kimi “史上最强”开源思考模型能否破局AI红海？

分享至

月之暗面今年以来的技术迭代还在继续。

11月6日晚间，月之暗面旗下Kimi大模型发布了Kimi K2 Thinking，并称其为“Kimi迄今能力最强的开源思考模型”。

Kimi官方表示，Kimi K2 Thinking是基于“模型即Agent（智能体）”理念训练的新一代Thinking Agent，它原生掌握“边思考，边使用工具”的能力。

从实测成绩来看，Kimi K2 Thinking在“人类最后的考试”（Humanity's Last Exam）、自主网络浏览能力（BrowseComp）、复杂信息收集推理（SEAL-0）等多项基准测试中表现达到SOTA（当前技术水平的最前沿）水平。

自7月进入“K2”版本之后，Kimi的升级正在提速。9月5日，Kimi发布Kimi K2模型的最新版本“0905”，进一步提升其在真实编程任务中的表现。9月25日，月之暗面Kimi发布全新Agent模式“OK Computer”并开启灰度测试。

这也是整个AI市场的一个缩影。事实上，AI市场正进入快速迭代阶段。据QuestMobile发布的2025年三季度AI应用行业报告，以头部互联网集团为例，今年1月—9月共完成182次模型发布/更新/迭代，平均每5.7天就迎来一次模型升级。

模型迭代节奏持续加快，技术竞争正转向应用能力与推理深度的实战较量。

在“人类最后的考试”中超越GPT-5（High）

据Kimi官方，Kimi K2 Thinking是“Kimi迄今能力最强的开源思考模型”，这一定位源于其在技术架构、任务执行与评测表现上的系统性突破。

作为基于“模型即Agent”理念训练的新一代Thinking Agent，Kimi K2 Thinking实现了“边思考，边使用工具”的原生能力融合。该模型可在无人干预的情况下，自主完成多达300轮的工具调用与多轮思考，可提升处理复杂问题的连续性与稳定性。

在多项关键能力维度上，Kimi K2 Thinking均有明显进步，其Agentic（智能代理）搜索、Agentic编程、写作与综合推理性能得到进一步强化。

在推理能力方面，该模型在涵盖100多个专业领域的“人类最后的考试”（Humanity's Last Exam）中取得了卓越成绩。该测试允许使用搜索、Python及网络浏览等工具，Kimi K2 Thinking以44.9%的得分达到SOTA水平。作为对比，Kimi公布的同场测试中GPT-5（High）的成绩为41.7%。

面对信息过载的复杂搜索场景，Kimi K2 Thinking同样表现出色。BrowseComp测试旨在评估AI在信息密集环境中的坚持性与创造力。在该项测试中，人类平均得分仅为29.2%，而Kimi K2 Thinking以60.2%的成绩刷新了SOTA纪录。

此外，该模型在编程相关任务中亦有稳步提升。在多语言软件工程基准SWE-Multilingual、SWE-bench验证集以及Terminal终端使用等测试中，其表现有了进一步提升。

除了专项能力的突破，Kimi表示Kimi K2 Thinking模型在通用基础能力上也实现同步升级。无论是在创意写作、学术研究，还是在回应个人与情感类问题时，模型都展现出更成熟的理解与表达能力。

为进行对比验证，《每日经济新闻》记者使用与测试Kimi K2时相同的提示词，要求Kimi K2 Thinking模型以2025年北京高考作文题“数字闪耀时”为例，模拟高中生身份完成一篇一类记叙文。从结果看，文章结构完整、扣题准确，但在切题方式上，该模型与K2一样，仍存在表达略显生硬的情况。

打开百度APP畅享高清图片

使用了长思考模式的Kimi撰写的作文图片来源：Kimi网页版截图

目前，Kimi K2 Thinking模型的API（应用程序编程接口）已在Kimi开放平台正式上架，支持256K上下文长度，定价与Kimi K2-0905相同：每百万Token（大模型处理文本时的最小单位）输入收费4元，输出16元，若命中缓存，输入费用仅为1元。同时，平台也推出了生成速度高达100 Token/s的Turbo API，其每百万Token输入为8元，输出58元，命中缓存的输入同样为1元。

Kimi能否破局“红海”竞争

然而，技术优势能否成功转化为市场认可，是摆在Kimi K2面前的首要挑战。

QuestMobile数据显示，今年三季度，接近60%的原生App陷入负增长，对于新入局者或中小应用而言，独立打造一款成功的原生App的窗口正在收窄。2025年，国内大模型竞争已从初期的“百花齐放”步入“巨头主导”的新阶段。

Kimi自身的增长也面临压力。

根据量子位智库10月数据，在AI助手APP新增下载榜上，Kimi与DeepSeek分别以超420万和360万的下载量位列第三、四位，但相较9月，两者的下载量均下滑超过13%。与此同时，字节跳动的“豆包”以近2800万新增下载稳居第一，腾讯“元宝”则以超1300万下载、环比14%的涨幅位列第二。大厂凭借其生态优势，持续挤压着独立应用的生存空间。

并且，更多跨界玩家正依托自身业务场景加速入局。11月3日，美团LongCat（龙猫）团队宣布推出全新开源大模型LongCat-Flash-Omni，这也是美团在两个月内第四次发布新模型。

另一个行业信号是AI交互成本的下降。

QuestMobile在报告中表示，人均单次Token消耗的下降也标志着AI行业进入了一个以“效率提升、成本控制、价值驱动”为特征的新阶段。这是行业走向成熟和商业化的关键信号。

在此背景下，今年以来的Kimi正尝试通过垂类合作探索商业化路径。今年“双11”期间，《每日经济新闻》记者测试发现Kimi更新了“导购”功能，可根据用户需求推荐商品并附带淘宝或京东链接，不过商品多来自代理店铺，尚未与官方旗舰店打通。相较于字节“豆包+抖音”、阿里“通义+电商”的生态闭环，Kimi暂未形成同等强度的业务绑定。

数据表明，具备清晰场景的垂直类AI应用仍具有增长潜力。据QuestMobile，字节跳动旗下即梦AI、豆包爱学及蚂蚁集团旗下AQ健康管家等垂类应用三季度月活跃用户规模复合增长率分别达12.1%、15.7%和83.4%。

对Kimi而言，差异化的核心在于将模型能力转化为用户可感知的价值。其能否在Agent搜索、编程助手、深度研究等场景建立起不可替代性，将决定技术升级的市场成效。

Kimi K2 Thinking展现出的技术纵深，为月之暗面在“思考型Agent”这一差异化路径上赢得了重要筹码。然而，在白热化的大模型竞争中，技术领先性只是入场券，能否将“长思考”“强推理”的模型能力，转化为用户高频依赖的应用场景，并构建起可持续的商业模式，才是真正的破局关键。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.