网易首页 > 网易号 > 正文 申请入驻

Grok-4登顶,Kimi K2非思考模型SOTA,豆包、DeepSeek新模型性能提升|xbench月报

0
分享至

自一个月前xbench公布第一期Leaderboard以来,AI大模型界又迎来了新一轮的“你追我赶”。

上周,xAI发布了“全球最强大的”Grok-4,两天后,Kimi推出并开源了“一万亿参数”的K2模型。xbench对这两个“新玩家”火速进行了测评,并发布新一期 双轨评估体系(Dual Track) AGI进程(AGI Tracking)系列的 科学问题解答测评集(xbench-ScienceQA)榜单。

xbench采用长青评估机制,每月持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。你可以在xbench.org上追踪我们的工作和查看实时更新的Leaderboard榜单排名;欢迎通过team@xbench.org与我们取得联系,反馈意见。

Science-QA Leaderboard更新

  • 汇率取1USD=7.1491CNY

  • 本次评估基本涵盖了截至排行榜发布之日主流大语言模型(LLMs)的公开可用应用程序编程接口(APIs),未公开发布的内测模型未列入榜单。

  • 如果一家公司有多个模型,优先测试最新版本和官方网站推荐的模型。所有模型均关闭搜索功能。

  • 一家公司有多个模型时,排名中保留每家公司的最新模型版本。当同一推理模型存在不同的推理成本时,仅保留得分最高的版本。

  • 榜单含Thinking和Non-Thinking模式,未区分成两个榜单,榜单前10中Kimi K2为Non-Thinking模型,其余均为Thinking模型。

截止于2025年7月14日,与5月26日发布的Leaderboard相比,有6家模型发布的版本更新进入前10:

Grok-4:Grok-4相比同为推理模型的前作Grok-3-mini,在ScienceQA评测集上实现了42.6分至65.0分的巨大提升,提升了约50%。Grok-4超越了OpenAI的o3模型,成为ScienceQA评测集上的SOTA模型。

o3-pro:OpenAI o3-pro(medium)版本在ScienceQA评测集上达到59.6分,比o3(medium)的54.4分有一定提升,与o3(high)的60.8分相近。但模型的响应时间变长、API价格增加。

Gemini 2.5 Pro 0605:相比于同一模型的前序0506版本,价格不变,性能小幅提升到59.4分。

Doubao Seed 1.6:相比于Seed的前一版本Seed-1.5-pro,分数从53.6提升至56.6,同时相比1.5版本API价格下降约50%。

DeepSeek R1-0528:相比R1的前一版本,ScienceQA分数由50.4提升至54.6。

Kimi K2:最新的Kimi K2模型在ScienceQA中得分49.6,在榜单中位于Non-Thinking模型第一,BoN(N=5)分数为73.0,位居头部梯队。

在此测评集中,对来自16家公司的43个不同版本的模型进行了测试。模型得分的分布情况如下:

整体变化:xAI的Grok-4登顶SOTA、Moonshot AI的Kimi K2进入前10,OpenAI、Google、ByteDance 、DeepSeek、Anthropic等厂商的主流模型在xbench-ScienceQA榜单上的偏序和此前保持一致。

模型性能对比

下图的横轴为API输出价格(USD/百万tokens),纵轴为xbench-ScienceQA平均分。

高质高价区:Grok-4、o3-pro、Gemini 2.5 Pro处于右上方,分数领先但成本也显著较高。Grok-4有更好的表现,且输出价格$15只有o3-pro($80)的1/4不到,在同档模型中最具竞争力。

性价比区:Doubao-Seed-1.6在保持56.6分高分的同时,输出价格只需$1.1。与DeepSeek-R1同属于最具性价比的模型。

响应速度对比

下图的横轴为平均响应时间,纵轴为xbench-ScienceQA平均分。

深度推理模型:推理模型整体表现出推理时间越长,分数越高的趋势。Grok-4分数最高,平均回复时间(227s)也是最长的一档。Gemini 2.5 Pro在保持高分(59.4)的同时,平均回复时间不到50s,接近非推理模型,在性能和延时上做到了最佳的平衡。

模型成本对比

下图的横轴为API价格(output是主要成本),纵轴为xbench-ScienceQA的BoN得分(N=5)。

BoN (N=5) 作为多步推理正确率指标,比平均分更直接反映模型在长链条任务中的潜在上限,可用来评估其作为Agent底座时能够达到的上限。

Grok-4与o3-high以BoN=78并列总体第一,其次是DeepSeek-R1-0528(77)与Gemini 2.5 Pro 0605(76),但是DeepSeek的成本要显著更低。

在国产模型阵营里,在DeepSeek(77)居首,Doubao-Seed-1.6与Kimi K2(均73)并列第二,成本在同一区间,为开发者选择国产模型搭建复杂Agent时提供了更多的参考。

月度新模型和产品总结

Grok-4

Grok-4与Grok-4 Heavy是xAI于7月10日发布的全新推理模型,RL阶段使用了其前代Grok-3十倍的算力投入,获得了显著的智能飞跃。从基础版Grok-4,到支持原生工具调用的版本(Grok-4 w/Python+Internet),再到思考阶段引入了多智能体协作模块的Grok-4 Heavy,均横扫了人类前沿科学领域的各个榜单(AIME/GPQA/LiveCodeBench/...),并在象征着人类专家级别最困难的智能基准测试Humanity's Last Exam中取得了前所未有的突破。

Grok-4在预训练过程中即融入了原生tool use能力,并在RL阶段注入了与预训练相当的算力,追求从“第一性原理”出发推导因果。在思考阶段,Grok-4引入了网页实时检索帮助事实判断,并设计了由多个不同智能体平行思考协作的分布式推理模块,并验证了这种test-time scaling在模型智能提取上的有效性。

Kimi K2

Kimi K2是Moonshot AI于7月11日发布的开源权重MoE模型,高达1T的总参数量,32B的激活参数量,384个专家的超稀疏结构,是迄今为止最大的开源模型。发布的版本中包含纯基座模型Kimi K2-Base与基于指令微调的Kimi K2-Instruct,两者均为未经过RL强化学习训练的非思考模型。但均已展现出出色的推理和agentic tool use能力。

Kimi K2万亿规模参数量的训练主要得益于其在预训练阶段的几大技术创新:首先,自创的MuonClip优化器实现15T token训练过程全程的高效稳定;自研的智能体模拟pipeline涵盖了数百场景数千工具,为模型在预训练阶段注入agentic tool use能力打下数据基础。

o3-pro

o3-pro是openAI于6月10日发布的推理模型,针对科学、编程、写作等领域做了专门优化,在可靠性上也有明显的提升。相比前代具有更强大的推理能力,更容易生成符合人类偏好的回答。

o3-pro引入了更长(数倍于o3)的思考时间,适应于超长上下文(200k token的窗口)任务,展现出了出色的上下文理解和推理能力,与之而来的是简单问题的过度思考现象。

评测集更新总结

xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch已于6月18日正式开源。

开源地址:

1.website:https://xbench.org/

2.github:https://github.com/xbench-ai/xbench-evals

3.huggingface:https://huggingface.co/datasets/xbench/ScienceQA

https://huggingface.co/datasets/xbench/DeepSearch

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
OPPO母亲节活动文案引争议,武汉大学:极不认同文案价值倾向

OPPO母亲节活动文案引争议,武汉大学:极不认同文案价值倾向

界面新闻
2026-05-10 17:42:10
两名中国公民被乌克兰关押一年,俄不收中方不接,处境太难了

两名中国公民被乌克兰关押一年,俄不收中方不接,处境太难了

Ck的蜜糖
2026-05-10 10:05:58
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
去年10快2斤,今年100元1斤,为啥荔枝今年这么贵?原因找到了

去年10快2斤,今年100元1斤,为啥荔枝今年这么贵?原因找到了

三农雷哥
2026-05-11 11:58:29
明天, 澳洲或迎40年巨震! 大批人抛售房产, 租金率先先失控!

明天, 澳洲或迎40年巨震! 大批人抛售房产, 租金率先先失控!

澳微Daily
2026-05-11 15:35:07
电讯报:本赛季裁判尺度双标严重,阿森纳禁区缠斗动作泛滥

电讯报:本赛季裁判尺度双标严重,阿森纳禁区缠斗动作泛滥

懂球帝
2026-05-11 17:39:04
罕见照片:91岁于凤至和72岁女儿在美国,6亿遗产全部给了张学良

罕见照片:91岁于凤至和72岁女儿在美国,6亿遗产全部给了张学良

玥来玥好讲故事
2026-04-03 20:39:54
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
多名家长反映成都又一幼儿园将闭园 教育局回应

多名家长反映成都又一幼儿园将闭园 教育局回应

天府观察
2026-05-11 15:59:43
先访日再访华?美国老套路被看穿,中方回应硬气到底

先访日再访华?美国老套路被看穿,中方回应硬气到底

安珈使者啊
2026-05-10 09:34:13
美伊开打!48小时内,全世界见证:美国的蠢,伊朗的精,中俄的绝

美伊开打!48小时内,全世界见证:美国的蠢,伊朗的精,中俄的绝

说历史的老牢
2026-05-10 18:50:43
华为Mate90 Pro Max突然爆料:10倍光学长焦回归,安卓又要变天了

华为Mate90 Pro Max突然爆料:10倍光学长焦回归,安卓又要变天了

原呵呵科技
2026-05-11 18:32:45
刚来中国坐完复兴号,转头就拉法国合作高铁,越南打的什么算盘?

刚来中国坐完复兴号,转头就拉法国合作高铁,越南打的什么算盘?

丁丁鲤史纪
2026-05-11 13:34:41
全链条服务,好苗出好虾(海洋经济高质量发展一线见闻)

全链条服务,好苗出好虾(海洋经济高质量发展一线见闻)

人民网
2026-05-11 06:33:19
篮板王!西班牙MVP,赛季结束了…

篮板王!西班牙MVP,赛季结束了…

左右为篮
2026-05-10 21:33:23
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
邦本敢说大实话 老徐要变魔鬼!李金羽练啥了?球迷:上限是中甲

邦本敢说大实话 老徐要变魔鬼!李金羽练啥了?球迷:上限是中甲

刀锋体育
2026-05-11 08:38:03
76年李先念为毛主席守灵,陈锡联特意提醒:那几个人可能要动手了

76年李先念为毛主席守灵,陈锡联特意提醒:那几个人可能要动手了

搜史君
2026-05-08 22:10:05
2017年,蒋万安在父亲陪同下来桂林祭奠奶奶章亚若,留下一张合影

2017年,蒋万安在父亲陪同下来桂林祭奠奶奶章亚若,留下一张合影

历史纵观
2026-05-11 15:40:37
孙颖莎王楚钦获MVP引争议,松岛拒握手张本不服输王励勤发声

孙颖莎王楚钦获MVP引争议,松岛拒握手张本不服输王励勤发声

老垯科普
2026-05-11 15:45:22
2026-05-11 20:28:49
红杉汇
红杉汇
创业者背后的创业者。
1965文章数 2514关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

多重催化剂共振,人民币汇率升破6.8

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
本地
房产
时尚
军事航空

数码要闻

佳能发布智能触屏照片一体机:只留一个键 手机直连打印

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

伊姐周日热推:电视剧《主角》;电视剧《良陈美锦》......

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版