网易首页 > 网易号 > 正文 申请入驻

Kaggle游戏竞技场开赛:语言模型棋艺业余,AlphaZero仍是天花板

0
分享至

第一届“AI 国际象棋棋王争霸赛”正式开打!

当地时间 8 月 5 号,这场由谷歌和 Kaggle 举办的线上大模型国际象棋比赛开启了为期三天的直播。

目前,第一天的成绩已经出炉。

上半区,来自中国的两款大模型,DeepSeek-R1 和 Kimi K2 Instruct 分别不敌 o4 mini 和 o3,以 0:4 的成绩双双落败。

下半区,谷歌Gemini 2.5 Pro 击败了 Claude Opus 4,但自家小兄弟 Gemini 2.5 Flash 不敌 Grok 4。

可以看出,所有比赛都是一边倒的情形,获胜模型都是 4 局全胜。

但不同对手间的比赛也有快有慢。最快的是 o3 VS Kimi K2,四小局比赛总共才用了不到半小时:主要原因是 Kimi K2 不停犯错,选择的落子位置连续违反国际象棋规则(稍后会解释具体游戏规则)。

而最久的比赛来自 o4-mini VS DeepSeek R1,用了近两个小时才结束整场比赛,说明双方还是很旗鼓相当的。

明天,这场“AI 棋王争霸赛”将继续,o4 mini 和 o3 将上演同门之争,而谷歌 Gemini 2.5 Pro 将对战 Grok 4。

值得注意的是,这些直播比赛的性质是表演赛,Kaggle 计划在后台运行更多对决,最终目标是生成一个具有统计意义的“AI 棋王”排行榜。

这场比赛是在 Kaggle 游戏竞技场(Game Arena)进行的。

它是 Kaggle 与谷歌 DeepMind 联合推出的全新 AI 基准测试平台,旨在让领先的人工智能模型在国际象棋等复杂策略游戏中展开正面较量。

与以往静态任务不同,该平台通过对抗竞技的方式进行评测:各参赛模型需要在明确的胜负条件下进行多轮对局,其胜负结果即为模型能力的直接量化指标。

谷歌表示,这一动态测试方式有效避免了传统基准测试可能出现的“背题”问题,使其能够“超越静态分数”,更深入地观察 AI 在真实竞争环境中的表现。

这一理念的起点是棋盘游戏的天然优势:国际象棋等游戏具有结构化和可量化的胜利标准,能够考验模型的策略推理、长远规划和动态应变能力,并随着对手强度的提高而自动提升难度。

事实上,谷歌 DeepMind 早在 2017 年就通过 AlphaZero 项目证明了自我对弈的威力:AlphaZero 仅用强化学习自学棋艺数小时,即以压倒性优势在 100 局比赛中战胜当时最强的国际象棋引擎 Stockfish。

不过,参加 Kaggle 对决的模型并非专用棋类引擎,而是以大型语言模型(LLM)为代表的通用 AI。

这些模型目前的棋力还远低于 AlphaZero,多数仅处于业余水平,并且经常出现非法落子或荒唐认输等错误——在直播中也屡见不鲜,而且有的大模型还很执着,即使给它重新思考的机会,它也经常固执己见。

尽管如此,它们能够输出对每一步棋的“思考过程”说明,这是传统引擎所不具备的特点。这种动态对抗不仅记录胜负,还让我们得以探知 AI 的“思维过程”,为AI 战略智能的发展提供了独特视角。

赛事以模拟对局方式进行并同步在线直播,著名国际象棋大师也参与其中,包括国际象棋特级大师中村光(Hikaru Nakamura)、国际象棋特级大师马格努斯·卡尔森(Magnus Carlsen)和国际象棋网红莱维·罗斯曼(Levy Rozman,即 GothamChess)。

赛事采用单败淘汰赛制,参赛模型通过赛前预热赛确定种子排名,然后进入对阵表。

谷歌表示,“排名靠前的模型将面对排名较低的对手,以确保平衡的排名,并防止两个最强种子在决赛前相遇。”

每场对决按照标准的棋盘规则执行,赛后 Kaggle 还将在其平台上维护一个类似 Elo 的实时排行榜,用于跟踪所有模型的表现。在未来计入排行榜的对决中,所有模型间将进行全对弈(all-play-all)的形式对局:即每一对模型至少对弈上百局,以获得统计稳定的排名结果。

评分系统采用类似高斯分布的动态估计,胜者评分上升、败者下降,平局则双方分数向均值靠拢。更新幅度取决于对局结果与比赛前预期胜率的偏差,以及各模型评分的不确定度(σ 值)。随着比赛进行,每个模型的 σ 逐渐降低,评分趋于稳定。

这种机制类似国际象棋的 Elo 体系,使得模型实力随着更多对局累积得到不断校准和量化。通过比赛产生的全局对局数据,Kaggle 会不断完善各模型的能力计算方式,公众可随时在排行榜页面查看最新排名和对局记录。

值得注意的是,为了公平性和可分析性,所有参赛模型都以文本输入输出的方式进行对局,并被禁止调用任何外部棋力计算工具。

每一步,比赛平台向模型提供当前棋盘状态(采用 Forsyth-Edwards 记谱法)及棋谱历史(采用 PGN 格式),模型必须以标准代数记谱(SAN)格式给出下一步合法落子。

模型不会被直接告知可行走法列表,必须自主判断后输出答案;如果模型输出了非法走法,则会被提示重试,最多允许四次尝试(一次初始提交加三次重试)。若模型仍无法给出合法走法,则该局判定为模型的失利,胜者赢得比赛。

同样,为了节奏控制,每一步棋设有 60 分钟的应答时限。比赛直播除了记录对局结果,还会尝试展示每个模型的思考过程——即模型在每走一步前的输出内容,为赛后分析模型行为提供素材。

至于为何将棋类游戏作为 AI 能力评估的标尺?

谷歌团队指出,棋局比赛提供了清晰且严格的成功信号,能够全面考察模型的综合推理能力。由于国际象棋的复杂性和变化性,无论是开局还是残局,模型都必须处理动态变化的对抗局面,并策划多步行动才能取胜。

这一点与企业和现实生活中的许多复杂决策过程有相似之处:需要战略规划、记忆历史信息、应变对手策略,甚至涉及一定的心智理论,即推测对方意图。

值得一提的是,目前绝大多数大型语言模型并非专门为下棋设计,因此在棋盘上表现并不突出。不同于传统深度强化学习算法,它们既没有访问专门的棋库,也无法像专业引擎那样自动搜索大量变招。

谷歌也在博客中表明:“Stockfish 等专业棋类引擎与 AlphaZero 已能多年保持超人水平,对任何边界模型都将轻松取胜;而今日的大语言模型并未针对特定游戏优化,因此表现远不及专业领域 AI。”

短期来看,Kaggle 比赛的挑战在于帮助这些通用模型缩小差距。长期而言,其初衷还是希望大模型能不断进化,甚至在新引入的游戏环境中达到或超越目前的水平。

参考资料:

https://www.chess.com/article/view/chatgpt-gemini-play-chess

https://www.chess.com/news/view/which-ai-model-is-the-best-at-chess-kaggle-game-arena

https://blog.google/technology/ai/kaggle-game-arena/

https://www.theregister.com/2025/07/14/atari_chess_vs_gemini/

https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰经典名言 100 条(完整版)

张雪峰经典名言 100 条(完整版)

新浪财经
2026-03-25 06:17:25
刘昊然郭麒麟严浩翔玩“拖鞋场”!

刘昊然郭麒麟严浩翔玩“拖鞋场”!

八卦疯叔
2026-03-29 10:49:14
突发!3次了!禁赛东契奇!

突发!3次了!禁赛东契奇!

左右为篮
2026-03-29 10:57:22
搜索量飙涨1850%!算力涨价潮来了

搜索量飙涨1850%!算力涨价潮来了

澎湃新闻
2026-03-28 22:00:23
网传湖北一女子身后夹纸条提醒抽烟者,因用词不当引网友热议

网传湖北一女子身后夹纸条提醒抽烟者,因用词不当引网友热议

丫头舫
2026-03-28 21:48:57
油价暴跌!罕见大反转?塌方油价180°大拐弯!92号汽油大涨1.72元/升后!马上大跌?下次调...

油价暴跌!罕见大反转?塌方油价180°大拐弯!92号汽油大涨1.72元/升后!马上大跌?下次调...

新浪财经
2026-03-29 11:08:58
如果中国向巴基斯坦交付歼35,就证明中国已经计划对台湾动手了

如果中国向巴基斯坦交付歼35,就证明中国已经计划对台湾动手了

阿七说史
2026-03-28 15:29:21
俄军士兵遇到乌克兰当地凶兽!还没脚掌大却凶猛无比,寸步不让

俄军士兵遇到乌克兰当地凶兽!还没脚掌大却凶猛无比,寸步不让

狸猫之一的动物圈
2026-03-29 10:05:12
西路军失败是“借刀杀人”?长文深入分析西路军失败的真正原因

西路军失败是“借刀杀人”?长文深入分析西路军失败的真正原因

阿胡
2025-02-13 12:47:19
女人最“花心”的年纪,不是20岁,也不是50岁,而是这个年龄段

女人最“花心”的年纪,不是20岁,也不是50岁,而是这个年龄段

匹夫来搞笑
2026-03-29 04:08:34
75年奶奶收留了一对落难姐弟,多年后一位年轻军官找上了门

75年奶奶收留了一对落难姐弟,多年后一位年轻军官找上了门

人间百态大全
2026-03-29 06:35:03
辽宁一小伙认50岁女教师做干妈,每周去其家中补课,最后酿成悲剧

辽宁一小伙认50岁女教师做干妈,每周去其家中补课,最后酿成悲剧

红豆讲堂
2024-09-24 10:14:37
程潇不愧是“奶潇”

程潇不愧是“奶潇”

情感大头说说
2026-03-16 00:19:50
都熟知西游记,那东游记、南游记、北游记,分别都是什么书?

都熟知西游记,那东游记、南游记、北游记,分别都是什么书?

长风文史
2026-03-27 16:31:57
别惦记石油了!美高官向特朗普急呼误判,中国千亿科技布局已超车

别惦记石油了!美高官向特朗普急呼误判,中国千亿科技布局已超车

说宇宙
2026-03-29 10:20:03
刘昊然、郭麒麟方回应“KTV传闻”

刘昊然、郭麒麟方回应“KTV传闻”

大风新闻
2026-03-28 16:44:09
北京户口也有今天?丫挺燥啊

北京户口也有今天?丫挺燥啊

阿亮评论
2026-03-29 10:52:52
中国车击败日本!首登澳大利亚销量冠军宝座 打破28年垄断

中国车击败日本!首登澳大利亚销量冠军宝座 打破28年垄断

快科技
2026-03-26 15:05:09
70岁吕良伟香港半马轻松拿下,引得周润发调侃:“吃了防腐剂”

70岁吕良伟香港半马轻松拿下,引得周润发调侃:“吃了防腐剂”

韩小娱
2026-03-27 17:34:28
张雪峰三大遗憾!50万没留住父亲、对不起妻子,还有误女儿前程

张雪峰三大遗憾!50万没留住父亲、对不起妻子,还有误女儿前程

八斗小先生
2026-03-27 16:18:15
2026-03-29 11:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16500文章数 514808关注度
往期回顾 全部

游戏要闻

《428~被封锁的涩谷~》主创新作众筹5400万日元 被平台扣下一半

头条要闻

牛弹琴:特朗普亲口对沙特说出傲慢的话 全世界不敢相信

头条要闻

牛弹琴:特朗普亲口对沙特说出傲慢的话 全世界不敢相信

体育要闻

全球第二大车企,也救不了这支德甲队?

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

亲子
时尚
旅游
房产
军事航空

亲子要闻

优奈才两个多月就长牙了?带她去打疫苗,月嫂阿姨也要离开了!

和田曦薇一样嫩嘟嘟,这3个变美技巧你一定不能错过!

旅游要闻

看北京|春日踏青哪里好?王佐镇杏花古风游园会等你来

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

军事要闻

美军中东基地损失最新披露

无障碍浏览 进入关怀版