网易首页 > 网易号 > 正文 申请入驻

原生掌握“边思考,边用工具” ,Kimi “史上最强”开源思考模型能否破局AI红海?

0
分享至

月之暗面今年以来的技术迭代还在继续。

11月6日晚间,月之暗面旗下Kimi大模型发布了Kimi K2 Thinking,并称其为“Kimi迄今能力最强的开源思考模型”。

Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能体)”理念训练的新一代Thinking Agent,它原生掌握“边思考,边使用工具”的能力。

从实测成绩来看,Kimi K2 Thinking在“人类最后的考试”(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到SOTA(当前技术水平的最前沿)水平。

自7月进入“K2”版本之后,Kimi的升级正在提速。9月5日,Kimi发布Kimi K2模型的最新版本“0905”,进一步提升其在真实编程任务中的表现。9月25日,月之暗面Kimi发布全新Agent模式“OK Computer”并开启灰度测试。

这也是整个AI市场的一个缩影。事实上,AI市场正进入快速迭代阶段。据QuestMobile发布的2025年三季度AI应用行业报告,以头部互联网集团为例,今年1月—9月共完成182次模型发布/更新/迭代,平均每5.7天就迎来一次模型升级。

模型迭代节奏持续加快,技术竞争正转向应用能力与推理深度的实战较量。

在“人类最后的考试”中超越GPT-5(High)

据Kimi官方,Kimi K2 Thinking是“Kimi迄今能力最强的开源思考模型”,这一定位源于其在技术架构、任务执行与评测表现上的系统性突破。

作为基于“模型即Agent”理念训练的新一代Thinking Agent,Kimi K2 Thinking实现了“边思考,边使用工具”的原生能力融合。该模型可在无人干预的情况下,自主完成多达300轮的工具调用与多轮思考,可提升处理复杂问题的连续性与稳定性。

在多项关键能力维度上,Kimi K2 Thinking均有明显进步,其Agentic(智能代理)搜索、Agentic编程、写作与综合推理性能得到进一步强化。

在推理能力方面,该模型在涵盖100多个专业领域的“人类最后的考试”(Humanity's Last Exam)中取得了卓越成绩。该测试允许使用搜索、Python及网络浏览等工具,Kimi K2 Thinking以44.9%的得分达到SOTA水平。作为对比,Kimi公布的同场测试中GPT-5(High)的成绩为41.7%。

面对信息过载的复杂搜索场景,Kimi K2 Thinking同样表现出色。BrowseComp测试旨在评估AI在信息密集环境中的坚持性与创造力。在该项测试中,人类平均得分仅为29.2%,而Kimi K2 Thinking以60.2%的成绩刷新了SOTA纪录。

此外,该模型在编程相关任务中亦有稳步提升。在多语言软件工程基准SWE-Multilingual、SWE-bench验证集以及Terminal终端使用等测试中,其表现有了进一步提升。

除了专项能力的突破,Kimi表示Kimi K2 Thinking模型在通用基础能力上也实现同步升级。无论是在创意写作、学术研究,还是在回应个人与情感类问题时,模型都展现出更成熟的理解与表达能力。

为进行对比验证,《每日经济新闻》记者使用与测试Kimi K2时相同的提示词,要求Kimi K2 Thinking模型以2025年北京高考作文题“数字闪耀时”为例,模拟高中生身份完成一篇一类记叙文。从结果看,文章结构完整、扣题准确,但在切题方式上,该模型与K2一样,仍存在表达略显生硬的情况。


使用了长思考模式的Kimi撰写的作文图片来源:Kimi网页版截图

目前,Kimi K2 Thinking模型的API(应用程序编程接口)已在Kimi开放平台正式上架,支持256K上下文长度,定价与Kimi K2-0905相同:每百万Token(大模型处理文本时的最小单位)输入收费4元,输出16元,若命中缓存,输入费用仅为1元。同时,平台也推出了生成速度高达100 Token/s的Turbo API,其每百万Token输入为8元,输出58元,命中缓存的输入同样为1元。

Kimi能否破局“红海”竞争

然而,技术优势能否成功转化为市场认可,是摆在Kimi K2面前的首要挑战。

QuestMobile数据显示,今年三季度,接近60%的原生App陷入负增长,对于新入局者或中小应用而言,独立打造一款成功的原生App的窗口正在收窄。2025年,国内大模型竞争已从初期的“百花齐放”步入“巨头主导”的新阶段。

Kimi自身的增长也面临压力。

根据量子位智库10月数据,在AI助手APP新增下载榜上,Kimi与DeepSeek分别以超420万和360万的下载量位列第三、四位,但相较9月,两者的下载量均下滑超过13%。与此同时,字节跳动的“豆包”以近2800万新增下载稳居第一,腾讯“元宝”则以超1300万下载、环比14%的涨幅位列第二。大厂凭借其生态优势,持续挤压着独立应用的生存空间。

并且,更多跨界玩家正依托自身业务场景加速入局。11月3日,美团LongCat(龙猫)团队宣布推出全新开源大模型LongCat-Flash-Omni,这也是美团在两个月内第四次发布新模型。

另一个行业信号是AI交互成本的下降。

QuestMobile在报告中表示,人均单次Token消耗的下降也标志着AI行业进入了一个以“效率提升、成本控制、价值驱动”为特征的新阶段。这是行业走向成熟和商业化的关键信号。

在此背景下,今年以来的Kimi正尝试通过垂类合作探索商业化路径。今年“双11”期间,《每日经济新闻》记者测试发现Kimi更新了“导购”功能,可根据用户需求推荐商品并附带淘宝或京东链接,不过商品多来自代理店铺,尚未与官方旗舰店打通。相较于字节“豆包+抖音”、阿里“通义+电商”的生态闭环,Kimi暂未形成同等强度的业务绑定。

数据表明,具备清晰场景的垂直类AI应用仍具有增长潜力。据QuestMobile,字节跳动旗下即梦AI、豆包爱学及蚂蚁集团旗下AQ健康管家等垂类应用三季度月活跃用户规模复合增长率分别达12.1%、15.7%和83.4%。

对Kimi而言,差异化的核心在于将模型能力转化为用户可感知的价值。其能否在Agent搜索、编程助手、深度研究等场景建立起不可替代性,将决定技术升级的市场成效。

Kimi K2 Thinking展现出的技术纵深,为月之暗面在“思考型Agent”这一差异化路径上赢得了重要筹码。然而,在白热化的大模型竞争中,技术领先性只是入场券,能否将“长思考”“强推理”的模型能力,转化为用户高频依赖的应用场景,并构建起可持续的商业模式,才是真正的破局关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
94分钟遭绝平!阿森纳2-2爆大冷,10连胜被终结,利物浦曼城利好

94分钟遭绝平!阿森纳2-2爆大冷,10连胜被终结,利物浦曼城利好

侃球熊弟
2025-11-09 03:08:21
别说模仿了,复制都做不到,可口可乐的配方,为何至今无人破解?

别说模仿了,复制都做不到,可口可乐的配方,为何至今无人破解?

法老不说教
2025-11-05 23:07:28
跨年潜力股会是哪些?五大特征锁定,低价+低市值的绩优潜力热门股出炉

跨年潜力股会是哪些?五大特征锁定,低价+低市值的绩优潜力热门股出炉

数据宝
2025-11-08 18:53:23
你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

带你感受人间冷暖
2025-11-06 00:05:14
乌方遭大规模联合攻击!红军城告急,俄军一天拿下64座建筑!普京最新支持率出炉,特朗普:希望继续与普京会晤

乌方遭大规模联合攻击!红军城告急,俄军一天拿下64座建筑!普京最新支持率出炉,特朗普:希望继续与普京会晤

每日经济新闻
2025-11-08 18:29:09
豪门悲喜夜:拜仁16连胜结束 阿森纳10连胜终止 曼联2-2绝平热刺

豪门悲喜夜:拜仁16连胜结束 阿森纳10连胜终止 曼联2-2绝平热刺

侃球熊弟
2025-11-09 03:54:11
英国国殇日最讽刺一幕:主持人请百岁老兵发表感言,老兵:这个国家根本不值得我和战友拼命守护!

英国国殇日最讽刺一幕:主持人请百岁老兵发表感言,老兵:这个国家根本不值得我和战友拼命守护!

悦居英国
2025-11-08 00:04:46
正式退出?杨瀚森发声,官宣决定,损失金额曝光,王治郅也曾遭遇

正式退出?杨瀚森发声,官宣决定,损失金额曝光,王治郅也曾遭遇

体育有点水
2025-11-08 16:39:49
祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

鋭娱之乐
2025-11-08 15:05:47
刚刚确认:12级!今晚抵达浙江!太凶了

刚刚确认:12级!今晚抵达浙江!太凶了

FM93浙江交通之声
2025-11-08 16:50:59
悲催!东莞一家30年大厂轰然倒下,负债2个亿,近2000人面临失业

悲催!东莞一家30年大厂轰然倒下,负债2个亿,近2000人面临失业

火山诗话
2025-11-08 10:42:07
8旬阿婆一口锅用了34年,对话“传家锅”老板:正筹备复工,紧密观察市场情况

8旬阿婆一口锅用了34年,对话“传家锅”老板:正筹备复工,紧密观察市场情况

红星新闻
2025-11-08 18:07:26
15小时亏损百亿,订单暴跌9%,跨境电商为何集体倒戈中国平台?

15小时亏损百亿,订单暴跌9%,跨境电商为何集体倒戈中国平台?

削桐作琴
2025-11-07 14:57:56
卢秀燕如此不堪一击!被郑丽文甩十八条街!幸好没选国民党主席!

卢秀燕如此不堪一击!被郑丽文甩十八条街!幸好没选国民党主席!

娱乐的宅急便
2025-11-08 13:07:44
辽宁省委书记、省长会见华晨宝马总裁宝思齐

辽宁省委书记、省长会见华晨宝马总裁宝思齐

政知新媒体
2025-11-08 20:51:07
古二再度放料!秦雯王家卫吐槽出现新人物,陈坤周迅被嘲开班骗稿

古二再度放料!秦雯王家卫吐槽出现新人物,陈坤周迅被嘲开班骗稿

萌神木木
2025-11-08 15:21:49
演都不演了!全红婵复出夺冠不到24小时,三大恶心情况发生了

演都不演了!全红婵复出夺冠不到24小时,三大恶心情况发生了

boss外传
2025-11-08 04:00:03
140万人受灾急需救援,菲律宾向中国求助,外交官回应获网友点赞

140万人受灾急需救援,菲律宾向中国求助,外交官回应获网友点赞

丫头舫
2025-11-08 14:32:09
3-1,40岁C罗腾空转体180度怒吼庆祝:制造2球,率队8连胜领跑

3-1,40岁C罗腾空转体180度怒吼庆祝:制造2球,率队8连胜领跑

侧身凌空斩
2025-11-08 23:44:04
不雅视频偷拍者传被带走调查!地点不是医院值班室!!

不雅视频偷拍者传被带走调查!地点不是医院值班室!!

医护健康科普
2025-11-08 22:11:54
2025-11-09 06:11:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1395839文章数 2719755关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

亲子
教育
手机
公开课
军事航空

亲子要闻

权威医者说|“备孕夫妻”饮食小技巧

教育要闻

原来四级临时抱佛脚就能过一个月足够了啊

手机要闻

iPhone 18全系标配2400万前摄:苹果史上最强

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

福建舰常驻地为三亚军港

无障碍浏览 进入关怀版