网易首页 > 网易号 > 正文 申请入驻

Artificial Analysis:Kimi K2.5排名第五,比Claude opus 4.5便宜4倍以上

0
分享至

著名独立评测机构Artificial Analysis最新模型排名来了,Kimi K2.5总体排名第五,GPT5.2high=51,Claude opus 4.5=50,GPT5.2codexhigh=49,Gemini3 prohigh=48,Kimi k2.5=47

要点总结:

➤在智能体任务上表现出色:

Kimi K2.5 在GDPval-AA 评估中取得了 1309 的 Elo 评分,仅次于 OpenAI 和 Anthropic 的模型。Kimi K2.5 的表现远超 GLM-4.7、DeepSeek V3.2 和 Gemini 3 Pro。GDPval-AA 是衡量通用智能体性能的主要指标,用于评估模型在实际知识工作任务(例如准备演示文稿和进行分析)上的表现。模型通过我们名为 Stirrup 的参考智能体框架,在一个智能体循环中获得了 shell 访问权限和网页浏览功能。

➤原生多模态首次实现:Kimi K2.5 是 Moonshot 首款支持多模态(图像和视频)输入的旗舰模型。这是领先的开源权重模型首次支持图像输入,消除了开源权重模型相对于前沿实验室专有模型应用的关键障碍。与其他领先的开源权重模型(例如 DeepSeek V3.2、GLM-4.7、MiniMax M2.1 和 MiMo-V2-Flash)相比,Kimi K2.5 的这一特性使其脱颖而出。Kimi K2.5 在 MMMU Pro 视觉推理基准测试中得分 75%,略低于 Gemini 3 Pro,但与 GPT-5.2 和 Claude Opus 4.5 持平。

➤运行人工智能分析智能指数的中等成本:

Kimi K2.5 在运行人工智能分析智能指数中得分为 371 美元,比 Claude Opus 4.5 和 GPT-5.2 便宜 4 倍以上,但比 DeepSeek V3.2 和 gpt-oss-120b 贵 5 倍以上。

➤适中的令牌使用量:

Kimi K2.5 的token使用量与其他同智能级别的模型相当,在人工智能分析智能指数评估套件中使用了约 8200 万个推理token。这略低于 Kimi K2 Thinking(约 9500 万个推理令牌),远低于 GLM 4.7(约 1.6 亿个推理令牌)。

➤混合推理:

Kimi K2.5 将 Moonshot 的推理模型和非推理模型统一到一个模型中。已经对开启推理功能的 K2.5 进行了评估(并将很快分享关闭推理功能后的结果)。

➤低幻觉率:

Kimi K2.5 在 AA 全知指数(我们的知识评估指标,同时衡量准确性和幻觉率)中得分为 -11。这一分数主要源于其相对较低的幻觉率,仅为 64%(低于 Kimi K2 Thinking 的 74% %) ,表明当模型不确定时,Kimi K2.5 更倾向于回避而非捏造知识。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾国藩做客,发现8岁小孩只吃鱼眼,他断言:这孩子心机深沉

曾国藩做客,发现8岁小孩只吃鱼眼,他断言:这孩子心机深沉

千秋文化
2026-03-14 18:53:49
俞敏洪让董宇辉彻底服气

俞敏洪让董宇辉彻底服气

新浪财经
2026-03-18 23:05:39
瘦肚子最有效的运动:不是卷腹,每天20分钟,干掉肚腩、秀出马甲线

瘦肚子最有效的运动:不是卷腹,每天20分钟,干掉肚腩、秀出马甲线

增肌减脂
2026-03-17 16:25:06
【欧冠】西蒙斯双响制胜热刺,小蜘蛛传射护马竞晋级

【欧冠】西蒙斯双响制胜热刺,小蜘蛛传射护马竞晋级

体坛周报
2026-03-19 07:21:28
全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

全面反华?卡尼正式通知中国:加征25%关税,中企必须卷铺盖走人

壹知眠羊
2026-03-19 07:21:49
耗时8天!伊朗女足正式抵达伊朗境内:戴头巾露微笑 民众到场欢迎

耗时8天!伊朗女足正式抵达伊朗境内:戴头巾露微笑 民众到场欢迎

风过乡
2026-03-18 20:54:41
纽约尾盘,现货黄金跌3.67%

纽约尾盘,现货黄金跌3.67%

每日经济新闻
2026-03-19 05:23:07
新加坡媒体:中国外交发生变化,放弃了和平解决中美问题的想法

新加坡媒体:中国外交发生变化,放弃了和平解决中美问题的想法

李子橱
2026-03-18 14:10:37
彻底豁出去?口无遮拦曝张柏芝三娃生父的Coco,没给谢家留"体面"

彻底豁出去?口无遮拦曝张柏芝三娃生父的Coco,没给谢家留"体面"

小樾说历史
2026-03-11 10:25:19
湖北一男子“翻墙”上网被处罚,受警告后罚款200元

湖北一男子“翻墙”上网被处罚,受警告后罚款200元

涛哥锐评
2026-03-18 21:30:38
胡亚波已任湖北省领导

胡亚波已任湖北省领导

中国青年报
2026-03-18 20:42:37
山姆“断货王”冲上热搜!不少人吃错了!网友慌了:我会有事吗...

山姆“断货王”冲上热搜!不少人吃错了!网友慌了:我会有事吗...

广东最生活v
2026-03-17 11:36:48
过分!女子把脚趾塞侄子嘴里,被嫂子曝光后,连发十几条语音辱骂

过分!女子把脚趾塞侄子嘴里,被嫂子曝光后,连发十几条语音辱骂

离离言几许
2026-03-17 15:06:26
北京,正在被这波又快又猛的小阳春“逼入死角”!

北京,正在被这波又快又猛的小阳春“逼入死角”!

坠入二次元的海洋
2026-03-19 00:05:34
欧冠8强及对阵出炉!英超4队出局,诞生3组强强对决:皇马VS拜仁

欧冠8强及对阵出炉!英超4队出局,诞生3组强强对决:皇马VS拜仁

阿超他的体育圈
2026-03-19 06:21:29
港台女星无滤镜生图,个个变化都很大,张柏芝和王心凌把人看愣了

港台女星无滤镜生图,个个变化都很大,张柏芝和王心凌把人看愣了

相思赋予谁a
2026-03-16 22:18:14
913唯一幸存者临终首次开口:我曾举枪瞄准林彪,扣动扳机那一刻他回头看了我一眼

913唯一幸存者临终首次开口:我曾举枪瞄准林彪,扣动扳机那一刻他回头看了我一眼

寄史言志
2026-03-18 17:25:06
杜聿明晚年谈孙立人,直言:卖主求荣的小人,根本不是民族英雄

杜聿明晚年谈孙立人,直言:卖主求荣的小人,根本不是民族英雄

小豫讲故事
2026-03-17 06:00:03
摩友在湖南高速加油被拒,当场和领导硬刚,加上油后转头就要投诉

摩友在湖南高速加油被拒,当场和领导硬刚,加上油后转头就要投诉

潮鹿逐梦
2026-03-18 19:16:33
二百年不遇的二月清明,上坟别乱带人,这4类人尽量躲坟场

二百年不遇的二月清明,上坟别乱带人,这4类人尽量躲坟场

老特有话说
2026-03-17 15:14:59
2026-03-19 07:59:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

腾讯电话会:马化腾首谈“养虾”构想

头条要闻

专家:对伊朗而言不输就是胜利 德黑兰绝不能惧怕损失

头条要闻

专家:对伊朗而言不输就是胜利 德黑兰绝不能惧怕损失

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

本地
旅游
家居
游戏
公开课

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

旅游要闻

今年前两月,中国内地访日游客量下降超五成

家居要闻

复古格纹 轻法森系风

三国望神州:张郃抽取价值分析!铁桶阵自此要升级成不锈钢阵了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版