网易首页 > 网易号 > 正文 申请入驻

刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】继Kaggle Game Arena的淘汰赛后,国际象棋积分赛成果出炉!OpenAI o3以人类等效Elo 1685分傲视群雄,而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

别再拿淘汰赛说事了!

这次是真刀真枪的「积分赛」,Elo榜单才是硬实力。

40轮血战,国际象棋AI仅文本输入结果出炉了。

仅使用文本输入、无工具、无验证器,各大AI模型进行对决。

每组配对进行超过40场比赛,构建了类似围棋等运动项目的Elo排名。


OpenAI o3独占鳌头,Grok、Gemini位列榜眼。

第一名:o3 ,估计人类Elo为1685分,而人类大师水平为2200分!

第二名:Grok 4,估计人类Elo为1395分,表现不错。

第三名: Gemini 2.5 Pro,估计人类Elo为1343分,稍逊一筹。


另外,值得一提的是DeepSeek-R1-0528和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。


Game Arena首次积分赛排行榜

之前,Kaggle举办了首届AI国际象棋表演赛,展示了o3、Grok 4、Gemini 2.5、DeepSeek R1等通用模型在国际象棋方面的表现。


这些模型进步明显,大家从中获得了不少乐趣,比如发现大语言模型特别喜欢西西里防御开局。

但四局三胜的淘汰赛偶然性太大,并不能严格衡量模型的真实水平。

因此,今天谷歌旗下的Kaggle正式发布了Game Arena平台上的国际象棋文本排行榜


排行榜链接:https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

国际象棋文本排行榜是一个严格的AI基准测试平台。前沿大语言模型在此竞技,全面考验它们的战略推理、规划、适应和协作能力

平台通过透明的测试设计、丰富的游戏数据和不断更新的多游戏排行榜,为评估 AI 的真实认知能力提供了动态且可复现的标准。

国际象棋文本排行榜

该排行榜基于所有参赛模型之间的循环赛结果,每对模型进行20场白棋和20场黑棋的对决,总共40场比赛。

这次还扩大了参赛模型范围,不仅包括上周表演赛的8个模型,还增加了更多模型,以提供更全面、更可靠的评估结果。


Game Arena的Elo分数采用标准的Bradley-Terry算法,基于模型之间的对战结果计算。

为了估算这些模型的人类等效Elo评分,它们与L0到L3不同等级的国际象棋Stockfish引擎对弈。

通过线性插值法,根据Stockfish各等级对应的人类Elo评分,计算出大模型的人类等效Elo分。具体来说:L0对应1320分,L1对应1468分,L2对应1608分,L3对应1742分。

需要注意的是,这些模型距离顶级人类棋手仍有较大差距

人类「大师」级棋手的评分为2200或更高,

「特级大师」为2500或更高,

而最强版本的Stockfish引擎估计的人类Elo评分高达3644。

Stockfish是一款免费且开源的国际象棋引擎。


自2020年以来,Stockfish赢得了顶级国际象棋引擎锦标赛(TCEC)和Chess.com计算机国际象棋锦标赛(CCC)的所有主要赛事,并且截至2025年8月,它是世界上最强的CPU国际象棋引擎,估计的Elo等级为3644,

置信区间则通过500次重采样比赛结果,并分别计算Game Arena Elo和人类Elo分得出。

除了Elo分数,这次还增加了「平均每回合Token数」和「平均每回合成本」等指标,以反映模型在性能和效率之间的权衡。


自然,这个排行榜也有一些限制和缺陷

(1)仅限于国际象棋:没有任何单一游戏可以捕捉智能的全部范围。Kaggle将努力通过随着时间的推移引入更多游戏来缓解这一问题。

(2)超时限制:施加严格的每步棋时间限制可能会惩罚那些需要更长时间才能得出结论、进行更深入思考的模型,从而偏向于那些速度更快但可能更肤浅的策略。

(3)抽样随机性:使用了模型提供商设置的默认抽样参数。这些参数可能具有非确定性。

全新测试基准

还能查看游戏回放

你可以在Kaggle的YouTube 播放列表中观看带解说的表演赛,但排行榜上提供了更多的对局回放。只需点击模型旁边的回放图标,选择想要观看的对局即可。


此外,这次还发布了一个包含可移植棋谱(PGN)和模型公开推理过程的数据集:国际象棋文本输入基准测试「Chess Text Gameplay」


数据集链接:https://www.kaggle.com/datasets/kaggle/chess-text-gameplay

国际象棋文本输入基准测试旨在评估和比较当今通用语言模型的战略推理能力。

这是Kaggle公开基准测试平台Game Arena的首个项目,该平台让AI模型在复杂的战略游戏中竞技,将严谨的科学方法与观赏性的竞赛体验相结合。

为什么这很重要?Kaggle介绍了三大理由:

  1. 超越数据污染问题: 静态测试无法区分模型的真实推理能力和记忆答案的能力。而在国际象棋文本输入测试中,每一步决策都源自模型的内部逻辑,确保评估的是真实的思考过程。

  2. 高压环境下的表现: 模型必须随机应变、从错误中恢复,并抓住不断变化的机会,如同人类国际象棋大师一样应对复杂局面。

  3. 通用人工智能(AGI)的洞察: 在此领域取得成功,意味着模型在多步骤战略问题解决方面达到了重要的里程碑,为通用人工智能的发展提供了有价值的参考。

超越数据污染,这才是AI的「高考」!

每一步棋,都考验着大模型真·战略推理、规划和应变能力。

他们也指出了该数据集的一些局限性,包括:

  • 推理:推理输出是模型思考过程的生成性摘要。它不是内部计算的字面追踪,因为模型通常会隐藏其内部思考过程。

  • 测试框架:模型的性能与用于此基准测试的特定测试框架(更多细节)内在相关。

  • 时间快照:该数据集代表了这些特定模型版本在收集时点的性能。

数据结构「PGNs_with_reasoning」(包含推理的PGN)数据集包含表示大型语言模型所下国际象棋游戏的便携式游戏记谱法(PGN)文件。每个PGN文件由国际象棋记谱和大型语言模型在每一

Kaggle计划定期将新模型加入国际象棋文本排行榜及其他Game Arena排行榜,以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。

未来,Game Arena将推出更多游戏的排行榜,为AI模型的能力评估提供更全面的基准。

今天的国际象棋文本排行榜只是第一步。

参考资料:

https://x.com/kaggle/status/1958546786081030206


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨紫啊!实在不行你就退圈吧!主要是大家都看不下去了,你都33了

杨紫啊!实在不行你就退圈吧!主要是大家都看不下去了,你都33了

乐悠悠娱乐
2025-10-28 15:05:14
25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

25岁男子在四川景区身亡!遇难全过程曝光,网友一边倒:死不足惜

一只番茄鱼
2025-10-30 21:25:33
浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

浙江1米75男生只有110斤,反复腹痛一年被误会“装病”,医生凭一个细节揪出罕见病!

FM93浙江交通之声
2025-11-02 06:05:42
这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

这下好了,不仅全国人民知道了,就连空间站的航天员也知道了!

夜深爱杂谈
2025-11-01 07:58:52
一夜之间,特朗普对华高挂“免战牌”!帮中国争取到了宝贵的时间

一夜之间,特朗普对华高挂“免战牌”!帮中国争取到了宝贵的时间

叮当当科技
2025-11-03 05:54:04
幽灵点球!C罗赛后遭群嘲! 费哈主帅怒斥:取悦C罗是安排好的!

幽灵点球!C罗赛后遭群嘲! 费哈主帅怒斥:取悦C罗是安排好的!

恒歪评球
2025-11-02 14:07:28
杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

杨瀚森发展联盟好刷数据?杨毅:人家拿球能给你么,姥姥!

阿纂看事
2025-11-02 15:32:11
官方已确认!75岁张艺谋,突传消息!

官方已确认!75岁张艺谋,突传消息!

好叫好伐
2025-11-01 18:19:38
外电:红军城之战为何如此重要?

外电:红军城之战为何如此重要?

参考消息
2025-11-02 17:42:11
300亿收购梦碎!闻泰科技手中的安世只剩“空壳”

300亿收购梦碎!闻泰科技手中的安世只剩“空壳”

风风顺
2025-10-14 10:09:49
德媒:“压路机”重返布鲁塞尔?冯德莱恩拒绝

德媒:“压路机”重返布鲁塞尔?冯德莱恩拒绝

环球网资讯
2025-11-03 06:47:47
正式开通!南山⇌香港1.5小时!

正式开通!南山⇌香港1.5小时!

深圳全接触
2025-11-02 22:17:01
经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

经省委常委会会议研究:州政协秘书长潘黔昆,拟任县委书记

新京报政事儿
2025-11-02 17:12:16
中超第29轮现5大争议判罚!蓉城最冤?申花受益?亚泰逃红?

中超第29轮现5大争议判罚!蓉城最冤?申花受益?亚泰逃红?

谢葥邮轮摄影
2025-11-03 06:22:03
海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

海牛1-0,赢球不可怕,可怕的是李霄鹏赛后一席话,尽显高情商

范櫳舍长
2025-11-02 20:20:16
“公粮补偿”方案有变,农民有福了?11月农村这5件事,大家要关注

“公粮补偿”方案有变,农民有福了?11月农村这5件事,大家要关注

特特农村生活
2025-11-02 14:01:25
痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

痛心!19岁女大学生和24岁女子不幸遇难,网友:太大胆,必须严厉追责

大风新闻
2025-11-02 10:45:10
四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

双色球的方向舵
2025-11-02 09:05:48
11月3日精选热点:可控核聚变再传利好,这些地位公司显著受益

11月3日精选热点:可控核聚变再传利好,这些地位公司显著受益

元芳说投资
2025-11-02 19:30:34
主动揽责任,勇士队库里在又一次令人难以置信地失利后自责不已

主动揽责任,勇士队库里在又一次令人难以置信地失利后自责不已

好火子
2025-11-03 05:20:17
2025-11-03 07:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13769文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

时尚
房产
教育
亲子
本地

最近很火的发型,原来这么简单!

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

教育要闻

背诵很多遍依旧写不出来,要让自己根据真题练习模拟写作

亲子要闻

我发现一个带娃永远不生气的理论

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

无障碍浏览 进入关怀版