网易首页 > 网易号 > 正文 申请入驻

Kimi-K2-Thinking 开源大模型新王,权威测试结果公布

0
分享至


K2 Thinking 前情回顾

大家好,我是 Ai 学习的老章

Kimi K2 Thinking 我已经介绍过很多

K2 Thinking 是迄今最大的开放权重模型之一,也是 K2 模型家族的首个推理模型,总参数量 1T,激活 32B。


最近看了一些市面上比较权威的测评结果,可以更全面的看看 K2 Thinking 的水平,看是否真就到了开源新王水平。


联合创始人兼首席执行官 @HuggingFace Artificial Analysis——智能水平逼近闭源大模型

Artificial Analysis 用官方 API 做了一系列测试


结论:开源大模型在智能水平已逼近闭源模型


Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67,创下开放权重模型最高分。这使其明显领先于所有其他开源权重模型,包括近期发布的 MiniMax-M2 和 DeepSeek-V3.2-Exp,在专有模型中也仅次于 GPT-5。

人工智能分析指数 v3.0 包含 10 项评估:MMLU-Pro、GPQA Diamond、人类终极考试、LiveCodeBench、SciCode、2025 年美国数学邀请赛、IFBench、AA-LCR、Terminal-Bench Hard、²-Bench Telecom

具体得分如下:


➤ 开源权重代码模型第一,但仍落后闭源模型:K2 Thinking 在任何代码评测中均未夺冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若仅对比开源权重模型,它在三项评测中均排名第一或并列第一,因此在 Artificial Analysis Coding Index 中超越此前的开源权重榜首 DeepSeek V3.2

➤ 开放权重在 Humanity’s Last Exam 上的最大飞跃:K2 Thinking 的最强成绩之一是在 Humanity’s Last Exam 上取得 22.3% 的得分(无工具),创下开放权重模型历史新高,仅次于 GPT-5 与 Grok 4

➤ 强劲的代理性能:Kimi K2 Thinking 在代理场景中表现尤为突出,在 Artificial Analysis Agentic Index 中位列第 2,仅次于 GPT-5。这主要得益于 K2 Thinking 在 ²-Bench Telecom(一个让模型充当客服代理的代理工具使用基准)中取得 93% 的成绩,这是 Artificial Analysis 独立测得的最高分。在需要长期规划的代理场景下,Kimi K2 Instruct 的工具使用能力本就出色,而新的 Thinking 版本显然又实现了显著提升

但是 Kimi K2 Thinking 缺点也很明显——太耗 Token 了,它在 Artificial Analysis Intelligence Index 评估中使用了史无前例的 1.4 亿 token,约为 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。


好在定价比闭源模型便宜不少,但 Turbo 模式很贵

按 MoonShot 官方 API 定价,整体运行Intelligence Index 的成本低于主流前沿模型。Moonshot 还提供更快的 turbo API,此模式下运行Intelligence Index 的成本仅次于 Grok 4,成为第二昂贵的模型。


第二个缺点就是它的上下文窗口了,最大 256K,一众大佬面前还排不上号。。。


最后就是生成速度了,与平均水平相比,Kimi K2 Thinking 的速度较慢,每秒 80 Tokens 的样子。好在延迟还行,接收第一个 Token(TTFT)仅需 0.75 秒。


IUMB——领先所有开、闭源模型

IUMB(Introductory Undergraduate Mathematics Benchmark)是一个用于评估模型在解决本科数学问题上的表现的基准。它旨在较为全面地体现普通本科院校数学专业大一和大二水平的数学能力。

目前 K2 Thinking 在这个榜当上都可以碾压开、闭源所有模型了


https://pellaml.github.io/iumb/

即便如此,得分也仅 54,大模型搞本科数学通通不及格


PMPP-Eval ——最优开源模型

PMPP-Eval 是一个以编码为重点的评估基准,用于评估大型语言模型的性能。它专门在“编码子集”上对模型进行评估,并根据模型在编程任务(如与 CUDA 相关的任务)中的表现对其进行排名。

根据 cuda 任务的结果,K2-Thinking 现在是可用的最优开源模型。


个人用户的测评——褒贬不一BinduReddy 测评:Kimi-K2 在代理编码方面非常出色,但整体上仍落后于 DeepSeek Kimi-K2 是不断增长的优秀开源模型列表中的又一个优秀模型。 - 与 GLM 4.6 一样,在代理编码方面表现最佳 - DeepSeek 3.2 是世界上最好的开源模型

但是他使用的非官方 API,其实其他网友也对他的测试结果表示过质疑


Kimi 回应

Kimi 官方也注意到,不同提供商的基准结果存在差异——部分第三方端点出现显著准确率下降(例如超过 20 个百分点),这对 LiveBench 等重推理任务的得分产生负面影响。

然后 Kimi 官方给出了建议

  • 使用我们的官方 API 端点 kimi-k2-thinking-turbo

  • 启用 stream = True

  • 设置 temperature = 1.0

  • 建议的 max_token:推理 128k | 编码 256k | 其他 ≥64k

  • 在脚本中添加重试逻辑

Kimi 也给出完整的基准测试设置指南, https://platform.moonshot.ai/docs/guide/benchmark-best-practice

最后总结:Kimi K2 Thinking 综合实力很强,在多个权威测评中展现了逼近甚至超越闭源模型的潜力,暂居开源新王的宝座。但诸多基准测试、上下文窗口和生成速度与业界顶级大模型相比,还有差距。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

你坐火车时遇到哪些奇葩经历?网友:对,人间烟火气最令人着迷

带你感受人间冷暖
2025-11-06 00:05:14
吉林白城一河道铺设地砖引质疑,当地水利局回应:将调查核实

吉林白城一河道铺设地砖引质疑,当地水利局回应:将调查核实

大风新闻
2025-11-17 15:34:08
萝卜是结节的“催化剂”?医生劝告:不想结节癌变,少吃5种食物

萝卜是结节的“催化剂”?医生劝告:不想结节癌变,少吃5种食物

王晓爱体彩
2025-11-18 02:40:29
卓伟爆了一个新瓜!

卓伟爆了一个新瓜!

八卦疯叔
2025-11-15 10:16:28
加时绝杀!广东再双冠

加时绝杀!广东再双冠

刺猬篮球
2025-11-17 23:00:57
李建华,追求低级趣味,多次进行带有财物输赢性质的违规打牌活动,单独或伙同其亲属非法收受巨额财物

李建华,追求低级趣味,多次进行带有财物输赢性质的违规打牌活动,单独或伙同其亲属非法收受巨额财物

都市快报橙柿互动
2025-11-17 13:35:26
“除了鬼,什么都见过了!”陪读妈妈开始“污名化”,太毁三观!

“除了鬼,什么都见过了!”陪读妈妈开始“污名化”,太毁三观!

知晓科普
2025-11-04 09:48:54
央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

央视曝光4种“致癌日用品”,家里千万别囤!越囤全家身体越差!

39健康网
2025-11-16 20:35:40
霍尊宣布复出,前女友陈露紧跟发博: 又买热搜,那我也借个东风!

霍尊宣布复出,前女友陈露紧跟发博: 又买热搜,那我也借个东风!

玖宇维
2025-11-17 21:25:53
李泽洋夺全运会男子百米冠军:请苏炳添等前辈放心,中国短跑的大旗由我们来扛

李泽洋夺全运会男子百米冠军:请苏炳添等前辈放心,中国短跑的大旗由我们来扛

红星新闻
2025-11-17 22:58:14
网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

网红“橙子姐姐”被曝在柬埔寨与亲友失联超48h,其男友“龙哥”电话停机并同步失联

观威海
2025-11-16 10:06:03
黑龙江通报:赵广民被开除党籍

黑龙江通报:赵广民被开除党籍

鲁中晨报
2025-11-17 20:31:04
人大代表一句话问懵养犬人:你的毛孩子,凭什么让他人付出代价?

人大代表一句话问懵养犬人:你的毛孩子,凭什么让他人付出代价?

阿纂看事
2025-11-17 09:06:37
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
深夜大涨!巴菲特,罕见买入!

深夜大涨!巴菲特,罕见买入!

证券时报
2025-11-17 23:27:03
北电校花好漂亮, 身高169cm,体重50kg 美的让人移不开眼

北电校花好漂亮, 身高169cm,体重50kg 美的让人移不开眼

喜欢历史的阿繁
2025-10-27 09:18:12
商家失联!天津一品牌疑似跑路,已充值钱款无法找回!官方回应最新后续···

商家失联!天津一品牌疑似跑路,已充值钱款无法找回!官方回应最新后续···

天津人
2025-11-17 15:38:06
刚刚,阿里宣战ChatGPT!

刚刚,阿里宣战ChatGPT!

智东西
2025-11-17 12:41:22
29岁叶诗文捏脸13岁于子迪:想过破纪录吗?于:姐你长得好年轻

29岁叶诗文捏脸13岁于子迪:想过破纪录吗?于:姐你长得好年轻

三十年莱斯特城球迷
2025-11-17 22:47:31
川大统领的分手大戏

川大统领的分手大戏

西楼饮月
2025-11-17 19:13:41
2025-11-18 06:12:49
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3198文章数 11069关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

该聊聊琉球问题了 日本国内集体破大防

头条要闻

该聊聊琉球问题了 日本国内集体破大防

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

家居
游戏
亲子
本地
公开课

家居要闻

回廊通道 强化空间秩序

魔坛节奏丨魔兽操作之神,Happy 4-3力克浪漫夺得少帅杯冠军

亲子要闻

湖南“15岁”宝宝降生!冷冻胚胎技术让生命跨越15年

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版