网易首页 > 网易号 > 正文 申请入驻

原生掌握“边思考,边用工具” ,Kimi “史上最强”开源思考模型能否破局AI红海?

0
分享至

来源:市场资讯

(来源:每日经济新闻)

月之暗面今年以来的技术迭代还在继续。

11月6日晚间,月之暗面旗下Kimi大模型发布了Kimi K2 Thinking,并称其为“Kimi迄今能力最强的开源思考模型”。

Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能体)”理念训练的新一代Thinking Agent,它原生掌握“边思考,边使用工具”的能力。

从实测成绩来看,Kimi K2 Thinking在“人类最后的考试”(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到SOTA(当前技术水平的最前沿)水平。

自7月进入“K2”版本之后,Kimi的升级正在提速。9月5日,Kimi发布Kimi K2模型的最新版本“0905”,进一步提升其在真实编程任务中的表现。9月25日,月之暗面Kimi发布全新Agent模式“OK Computer”并开启灰度测试。

这也是整个AI市场的一个缩影。事实上,AI市场正进入快速迭代阶段。据QuestMobile发布的2025年三季度AI应用行业报告,以头部互联网集团为例,今年1月—9月共完成182次模型发布/更新/迭代,平均每5.7天就迎来一次模型升级。

模型迭代节奏持续加快,技术竞争正转向应用能力与推理深度的实战较量。

在“人类最后的考试”中超越GPT-5(High)

据Kimi官方,Kimi K2 Thinking是“Kimi迄今能力最强的开源思考模型”,这一定位源于其在技术架构、任务执行与评测表现上的系统性突破。

作为基于“模型即Agent”理念训练的新一代Thinking Agent,Kimi K2 Thinking实现了“边思考,边使用工具”的原生能力融合。该模型可在无人干预的情况下,自主完成多达300轮的工具调用与多轮思考,可提升处理复杂问题的连续性与稳定性。

在多项关键能力维度上,Kimi K2 Thinking均有明显进步,其Agentic(智能代理)搜索、Agentic编程、写作与综合推理性能得到进一步强化。

在推理能力方面,该模型在涵盖100多个专业领域的“人类最后的考试”(Humanity's Last Exam)中取得了卓越成绩。该测试允许使用搜索、Python及网络浏览等工具,Kimi K2 Thinking以44.9%的得分达到SOTA水平。作为对比,Kimi公布的同场测试中GPT-5(High)的成绩为41.7%。

面对信息过载的复杂搜索场景,Kimi K2 Thinking同样表现出色。BrowseComp测试旨在评估AI在信息密集环境中的坚持性与创造力。在该项测试中,人类平均得分仅为29.2%,而Kimi K2 Thinking以60.2%的成绩刷新了SOTA纪录。

此外,该模型在编程相关任务中亦有稳步提升。在多语言软件工程基准SWE-Multilingual、SWE-bench验证集以及Terminal终端使用等测试中,其表现有了进一步提升。

除了专项能力的突破,Kimi表示Kimi K2 Thinking模型在通用基础能力上也实现同步升级。无论是在创意写作、学术研究,还是在回应个人与情感类问题时,模型都展现出更成熟的理解与表达能力。

为进行对比验证,《每日经济新闻》记者使用与测试Kimi K2时相同的提示词,要求Kimi K2 Thinking模型以2025年北京高考作文题“数字闪耀时”为例,模拟高中生身份完成一篇一类记叙文。从结果看,文章结构完整、扣题准确,但在切题方式上,该模型与K2一样,仍存在表达略显生硬的情况。


使用了长思考模式的Kimi撰写的作文图片来源:Kimi网页版截图

目前,Kimi K2 Thinking模型的API(应用程序编程接口)已在Kimi开放平台正式上架,支持256K上下文长度,定价与Kimi K2-0905相同:每百万Token(大模型处理文本时的最小单位)输入收费4元,输出16元,若命中缓存,输入费用仅为1元。同时,平台也推出了生成速度高达100 Token/s的Turbo API,其每百万Token输入为8元,输出58元,命中缓存的输入同样为1元。

Kimi能否破局“红海”竞争

然而,技术优势能否成功转化为市场认可,是摆在Kimi K2面前的首要挑战。

QuestMobile数据显示,今年三季度,接近60%的原生App陷入负增长,对于新入局者或中小应用而言,独立打造一款成功的原生App的窗口正在收窄。2025年,国内大模型竞争已从初期的“百花齐放”步入“巨头主导”的新阶段。

Kimi自身的增长也面临压力。

根据量子位智库10月数据,在AI助手APP新增下载榜上,Kimi与DeepSeek分别以超420万和360万的下载量位列第三、四位,但相较9月,两者的下载量均下滑超过13%。与此同时,字节跳动的“豆包”以近2800万新增下载稳居第一,腾讯“元宝”则以超1300万下载、环比14%的涨幅位列第二。大厂凭借其生态优势,持续挤压着独立应用的生存空间。

并且,更多跨界玩家正依托自身业务场景加速入局。11月3日,美团LongCat(龙猫)团队宣布推出全新开源大模型LongCat-Flash-Omni,这也是美团在两个月内第四次发布新模型。

另一个行业信号是AI交互成本的下降。

QuestMobile在报告中表示,人均单次Token消耗的下降也标志着AI行业进入了一个以“效率提升、成本控制、价值驱动”为特征的新阶段。这是行业走向成熟和商业化的关键信号。

在此背景下,今年以来的Kimi正尝试通过垂类合作探索商业化路径。今年“双11”期间,《每日经济新闻》记者测试发现Kimi更新了“导购”功能,可根据用户需求推荐商品并附带淘宝或京东链接,不过商品多来自代理店铺,尚未与官方旗舰店打通。相较于字节“豆包+抖音”、阿里“通义+电商”的生态闭环,Kimi暂未形成同等强度的业务绑定。

数据表明,具备清晰场景的垂直类AI应用仍具有增长潜力。据QuestMobile,字节跳动旗下即梦AI、豆包爱学及蚂蚁集团旗下AQ健康管家等垂类应用三季度月活跃用户规模复合增长率分别达12.1%、15.7%和83.4%。

对Kimi而言,差异化的核心在于将模型能力转化为用户可感知的价值。其能否在Agent搜索、编程助手、深度研究等场景建立起不可替代性,将决定技术升级的市场成效。

Kimi K2 Thinking展现出的技术纵深,为月之暗面在“思考型Agent”这一差异化路径上赢得了重要筹码。然而,在白热化的大模型竞争中,技术领先性只是入场券,能否将“长思考”“强推理”的模型能力,转化为用户高频依赖的应用场景,并构建起可持续的商业模式,才是真正的破局关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王建国与爱奇艺副总裁小红结婚,后者为三档爆款节目总导演

王建国与爱奇艺副总裁小红结婚,后者为三档爆款节目总导演

草莓解说体育
2025-10-27 02:33:04
四野资深旅长,得知授少校军衔,苦笑道:太丢脸了,请允许我转业

四野资深旅长,得知授少校军衔,苦笑道:太丢脸了,请允许我转业

阿校谈史
2025-11-10 17:27:42
神舟二十即将返回?央视发声,空间站传来好消息,着陆地开展演练

神舟二十即将返回?央视发声,空间站传来好消息,着陆地开展演练

以茶带书
2025-11-12 12:42:51
向太曝光刘德华夫妇隐私!晒出与朱丽倩聊天记录,刘德华爱称曝光

向太曝光刘德华夫妇隐私!晒出与朱丽倩聊天记录,刘德华爱称曝光

八星人
2025-11-10 15:32:29
这种丰满的腿,穿紧身瑜伽裤真的好看吗?

这种丰满的腿,穿紧身瑜伽裤真的好看吗?

小乔古装汉服
2025-10-15 17:16:17
北京男篮续约奥莫特真因?曝曾凡博引起多支澳大利亚NBL球队兴趣

北京男篮续约奥莫特真因?曝曾凡博引起多支澳大利亚NBL球队兴趣

狼叔评论
2025-11-12 12:58:04
战掘金快船不变阵!哈登继续单核,比尔短板被揭开,名嘴替卢说话

战掘金快船不变阵!哈登继续单核,比尔短板被揭开,名嘴替卢说话

刘哥谈体育
2025-11-12 11:44:58
极目政情丨上海市委原常委朱芝松被公诉,曾长期从事军品工作,违规决定降低国有土地使用权出让价格

极目政情丨上海市委原常委朱芝松被公诉,曾长期从事军品工作,违规决定降低国有土地使用权出让价格

极目新闻
2025-11-11 15:54:17
仅剩2000多万人?比乌克兰投降更可怕的事情是,再打可能亡国了

仅剩2000多万人?比乌克兰投降更可怕的事情是,再打可能亡国了

历史求知所
2025-11-11 07:05:03
霍启刚没想到,自己辛辛苦苦娶回家的郭晶晶,一打扮就怕她被抢走

霍启刚没想到,自己辛辛苦苦娶回家的郭晶晶,一打扮就怕她被抢走

花心电影
2025-09-15 22:06:31
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
体坛:刘若钒曾想回成都却被徐正源拒绝,后获里卡多、穆斯卡特赏识

体坛:刘若钒曾想回成都却被徐正源拒绝,后获里卡多、穆斯卡特赏识

懂球帝
2025-11-12 10:26:08
女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

女高中生发明“咯噔字体”,被老师0分警告:别挑战考试的底线

妍妍教育日记
2025-11-10 18:21:35
湖南省农村信用社联合社原党委委员、副主任舒立凡,被决定逮捕

湖南省农村信用社联合社原党委委员、副主任舒立凡,被决定逮捕

三湘都市报
2025-11-11 16:46:25
事实证明:德不配位的人能力也不会怎么样?果然祖院长又出事了…

事实证明:德不配位的人能力也不会怎么样?果然祖院长又出事了…

慧翔百科
2025-11-12 08:54:10
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
中国网红在涩谷十字路口大跳群舞!惹怒日本网友,被狂喷刷屏!

中国网红在涩谷十字路口大跳群舞!惹怒日本网友,被狂喷刷屏!

东京新青年
2025-11-11 18:47:29
中国人集体戒酒

中国人集体戒酒

马蹄烫嘴说美食
2025-11-12 11:33:45
世欧预晋级形势:葡萄牙赢球出线!挪威形势大好 西班牙或鏖战至末轮

世欧预晋级形势:葡萄牙赢球出线!挪威形势大好 西班牙或鏖战至末轮

新英体育
2025-11-12 10:41:12
更释放、更轻快的樊振东,晋级全运会乒乓球男单八强

更释放、更轻快的樊振东,晋级全运会乒乓球男单八强

澎湃新闻
2025-11-12 13:12:27
2025-11-12 14:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1355728文章数 4452关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

头条要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

能得到央视的肯定 长安马自达EZ-60可不简单

态度原创

本地
健康
数码
教育
旅游

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

血液科专家揭秘白血病七大误区

数码要闻

微软史上销量最惨淡产品:仅售出 11 套,还被退回 8 套

教育要闻

吉林省:将上线800所冰雪特色校,鼓励学校自浇冰场

旅游要闻

100多株百岁古树连成一片太壮观

无障碍浏览 进入关怀版