网易首页 > 网易号 > 正文 申请入驻

Artificial Analysis评测新鲜出炉:Kimi K2 thinking位居世界第二,开源第一

0
分享至


根据著名AI分析机构Artificial Analysis的评估,Kimi K2 Thinking在智能体(agentic)相关任务中表现非常突出,但在完成评测时生成了所有模型中最多的token,表现出非常“话痨”的特性

以下是其核心要点:

智能指数67分,登顶开源榜首

Kimi K2 Thinking在Artificial Analysis智能指数中获得67分。

这一成绩使其明确领先于所有其他开源权重模型,包括最近发布的MiniMax-M2(61分)和DeepSeek-V3.2-Exp(57分),在所有模型中仅次于GPT-5


Agent能力突出,推理表现强劲

Kimi K2 Thinking在智能体应用场景中展现出强大实力,在Artificial Analysis智能体指数中排名第二,仅次于GPT-5

其优异表现主要得益于在²-Bench Telecom基准测试中取得了93%的成绩。这是一个智能体工具使用评测。这是该机构独立测量到的最高分


此外,在Humanity’s Last Exam(人类终极考试)评测中,Kimi K2 Thinking在无工具情况下的得分为22.3%,创下开源模型历史新高,仅次于GPT-5和Grok 4


成为新晋开源代码模型冠军

尽管Kimi K2 Thinking并未在任何一项代码评测中夺得总冠军,但相较于其他开源模型,它在各项评测中均排名第一或并列第一

具体排名为:Terminal-Bench Hard第6名,SciCode第7名,LiveCodeBench第2名

因此,它在Artificial Analysis代码指数中超越了先前的开源领导者DeepSeek V3.2

更多排名:


模型细节:1万亿参数,INT4原生精度

模型规格:总参数量1万亿,激活参数320亿(约594GB),仅支持文本输入,拥有256K上下文窗口

模型定位:该模型是Kimi K2 Instruct的推理变体,拥有相同的架构和参数数量

INT4精度:与此前Kimi K2 Instruct发布的FP8精度不同,该模型原生以INT4精度发布。月之暗面在后训练阶段使用了量化感知训练来实现这一点。这使得模型大小仅为约594GB,相比K2 Instruct的1TB以上大幅缩小,从而提升了推理和训练效率

代价:高冗余度、成本与延迟

Kimi K2 Thinking表现得非常“话痨”。在完成智能指数评测时,它总共使用了1.4亿个token,约为DeepSeek V3.2的2.5倍,GPT-5的2倍。


高冗余度直接影响了成本和延迟

基础版API

定价:输入 百 万 , 输 出 2.5/百万token。

评测总成本:$356,比顶尖前沿模型便宜(比GPT-5(高)便宜2.5倍),但比DeepSeek V3.2贵9倍

速度:非常慢,约8个输出token/秒

Turbo版API

定价:输入 百 万 , 输 出 8/百万token。
评测总成本:$1172,是第二昂贵的模型,仅次于Grok 4。
速度:相对较快,约50个输出token/秒

报告指出,此次发布再次凸显了一个持续的趋势:后训练,特别是强化学习(RL),正在推动推理模型和涉及工具调用的长程任务性能实现增长

参考:

https://artificialanalysis.ai/models/kimi-k2-thinking

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼城115项指控迎大结局?专家预测扣分在40到60分之间

曼城115项指控迎大结局?专家预测扣分在40到60分之间

乐道足球
2026-03-26 19:55:49
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
国内航线燃油费4月5日上涨

国内航线燃油费4月5日上涨

21世纪经济报道
2026-03-26 19:23:14
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
中国公布喜讯

中国公布喜讯

杨兴文
2026-03-26 21:08:26
中央部委密集表态,楼市跌势已到尽头,今明两年持有房产最稳妥

中央部委密集表态,楼市跌势已到尽头,今明两年持有房产最稳妥

复转这些年
2026-03-26 09:17:43
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

老子二千年前就说透了:上天会用各种方式,把你引到你该走的路上

千秋文化
2026-03-24 21:30:09
体长超2米、重达40多斤!广东一大蟒蛇河边晒太阳被捕,将择机放生

体长超2米、重达40多斤!广东一大蟒蛇河边晒太阳被捕,将择机放生

环球网资讯
2026-03-26 19:40:47
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的鱼儿
2026-03-25 12:10:03
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

贱议你读史
2026-03-24 00:30:08
伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

财联社
2026-03-26 18:29:05
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
2026-03-27 00:23:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
本地
数码
公开课
军事航空

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版