网易首页 > 网易号 > 正文 申请入驻

Artificial Analysis评测新鲜出炉:Kimi K2 thinking位居世界第二,开源第一

0
分享至


根据著名AI分析机构Artificial Analysis的评估,Kimi K2 Thinking在智能体(agentic)相关任务中表现非常突出,但在完成评测时生成了所有模型中最多的token,表现出非常“话痨”的特性

以下是其核心要点:

智能指数67分,登顶开源榜首

Kimi K2 Thinking在Artificial Analysis智能指数中获得67分。

这一成绩使其明确领先于所有其他开源权重模型,包括最近发布的MiniMax-M2(61分)和DeepSeek-V3.2-Exp(57分),在所有模型中仅次于GPT-5


Agent能力突出,推理表现强劲

Kimi K2 Thinking在智能体应用场景中展现出强大实力,在Artificial Analysis智能体指数中排名第二,仅次于GPT-5

其优异表现主要得益于在²-Bench Telecom基准测试中取得了93%的成绩。这是一个智能体工具使用评测。这是该机构独立测量到的最高分


此外,在Humanity’s Last Exam(人类终极考试)评测中,Kimi K2 Thinking在无工具情况下的得分为22.3%,创下开源模型历史新高,仅次于GPT-5和Grok 4


成为新晋开源代码模型冠军

尽管Kimi K2 Thinking并未在任何一项代码评测中夺得总冠军,但相较于其他开源模型,它在各项评测中均排名第一或并列第一

具体排名为:Terminal-Bench Hard第6名,SciCode第7名,LiveCodeBench第2名

因此,它在Artificial Analysis代码指数中超越了先前的开源领导者DeepSeek V3.2

更多排名:


模型细节:1万亿参数,INT4原生精度

模型规格:总参数量1万亿,激活参数320亿(约594GB),仅支持文本输入,拥有256K上下文窗口

模型定位:该模型是Kimi K2 Instruct的推理变体,拥有相同的架构和参数数量

INT4精度:与此前Kimi K2 Instruct发布的FP8精度不同,该模型原生以INT4精度发布。月之暗面在后训练阶段使用了量化感知训练来实现这一点。这使得模型大小仅为约594GB,相比K2 Instruct的1TB以上大幅缩小,从而提升了推理和训练效率

代价:高冗余度、成本与延迟

Kimi K2 Thinking表现得非常“话痨”。在完成智能指数评测时,它总共使用了1.4亿个token,约为DeepSeek V3.2的2.5倍,GPT-5的2倍。


高冗余度直接影响了成本和延迟

基础版API

定价:输入 百 万 , 输 出 2.5/百万token。

评测总成本:$356,比顶尖前沿模型便宜(比GPT-5(高)便宜2.5倍),但比DeepSeek V3.2贵9倍

速度:非常慢,约8个输出token/秒

Turbo版API

定价:输入 百 万 , 输 出 8/百万token。
评测总成本:$1172,是第二昂贵的模型,仅次于Grok 4。
速度:相对较快,约50个输出token/秒

报告指出,此次发布再次凸显了一个持续的趋势:后训练,特别是强化学习(RL),正在推动推理模型和涉及工具调用的长程任务性能实现增长

参考:

https://artificialanalysis.ai/models/kimi-k2-thinking

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重返诺坎普!梅西引爆足坛,巴萨官方表态,四大阻力让其难回西甲

重返诺坎普!梅西引爆足坛,巴萨官方表态,四大阻力让其难回西甲

篮球圈里的那些事
2025-11-11 18:06:17
陪睡陪玩只是小场面!撒谎、嫉妒、诬陷,白百何的私心藏不住了

陪睡陪玩只是小场面!撒谎、嫉妒、诬陷,白百何的私心藏不住了

叶公子
2025-11-10 19:57:30
明天开始运势顺利!3 大生肖钱包鼓起来,扬眉吐气咸鱼翻身

明天开始运势顺利!3 大生肖钱包鼓起来,扬眉吐气咸鱼翻身

人閒情事
2025-11-11 10:59:40
2025年GDP惊天逆转!中国的真实GDP,竟然比美国多出10万亿美元?

2025年GDP惊天逆转!中国的真实GDP,竟然比美国多出10万亿美元?

墨兰史书
2025-11-11 13:20:03
西安超大城中村拆迁11年后按下停止键,网友感叹:做人不要太贪婪

西安超大城中村拆迁11年后按下停止键,网友感叹:做人不要太贪婪

天气观察站
2025-11-11 15:23:38
范思琦微笑祝贺曼昱!赛后为自己打20分:1-3落后将巨星逼入绝境

范思琦微笑祝贺曼昱!赛后为自己打20分:1-3落后将巨星逼入绝境

颜小白的篮球梦
2025-11-11 16:09:14
至此,蔡振华留下的王牌全部打完了

至此,蔡振华留下的王牌全部打完了

中场阴谋家
2025-11-01 08:18:57
事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

优趣纪史记
2025-08-13 18:46:36
特朗普万万没想到,中方再次打到美国“七寸”,是自己亲手递的刀

特朗普万万没想到,中方再次打到美国“七寸”,是自己亲手递的刀

闻识
2025-11-11 15:50:55
中国鼓励生育措施前移:多地发钱鼓励结婚

中国鼓励生育措施前移:多地发钱鼓励结婚

界面新闻
2025-11-11 10:28:28
保密工作究竟能有多严格?网友:有着大好未来,一时炫耀前途尽毁

保密工作究竟能有多严格?网友:有着大好未来,一时炫耀前途尽毁

另子维爱读史
2025-11-09 21:40:51
国足有救了?新帅上任拒绝足协塞人,30岁老将被踢出局,小将上位

国足有救了?新帅上任拒绝足协塞人,30岁老将被踢出局,小将上位

不写散文诗
2025-11-11 16:27:24
知名导演陈可辛突发车祸,车头被撞毁,警方正调查原因

知名导演陈可辛突发车祸,车头被撞毁,警方正调查原因

封面新闻
2025-11-11 18:47:04
我们为什么不愿意在举办奥运会了?事情坏就坏在国际奥委会自身。

我们为什么不愿意在举办奥运会了?事情坏就坏在国际奥委会自身。

百态人间
2025-10-18 11:53:06
许家印为保命爆出三大靠山!百亿房东浮出水面,抱得美人归引热议

许家印为保命爆出三大靠山!百亿房东浮出水面,抱得美人归引热议

诗意世界
2025-09-26 10:31:06
放弃10万吨核动力!第4艘航母技术惹热议,五角大楼彻夜难安

放弃10万吨核动力!第4艘航母技术惹热议,五角大楼彻夜难安

壹只灰鸽子
2025-11-11 15:12:26
福建商人苏炳海涉新加坡洗钱案,被英国没收163亿9公寓及恐龙化石

福建商人苏炳海涉新加坡洗钱案,被英国没收163亿9公寓及恐龙化石

环球趣闻分享
2025-11-10 13:00:19
行程开始,黄仁勋抵达台湾省,下飞机后讲出2句话,岛内转移资产

行程开始,黄仁勋抵达台湾省,下飞机后讲出2句话,岛内转移资产

娱乐叭叭君
2025-11-11 18:08:38
湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

湖底惊现39年前失踪的运钞车,钞箱毫发无损,撬开后却傻眼了

青青会讲故事
2025-09-17 11:32:38
华中农业大学一学生在校内溺亡,当地警方:排除案件

华中农业大学一学生在校内溺亡,当地警方:排除案件

扬子晚报
2025-11-10 23:03:41
2025-11-11 19:31:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
966文章数 370关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

欧委会迫使欧盟成员排除中兴、华为设备 外交部回应

头条要闻

欧委会迫使欧盟成员排除中兴、华为设备 外交部回应

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

手机
家居
教育
亲子
公开课

手机要闻

鸿蒙6加速完善生态:华为Mate 80出厂预装

家居要闻

国美学子 打造筑梦空间

教育要闻

徐凯文:当代全球青少年心理健康危机的釜底抽薪之策

亲子要闻

宝宝巴士,不是第一次“翻车”了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版