网易首页 > 网易号 > 正文 申请入驻

谷歌发起的 AI 象棋赛首日战况:Grok 统治全场,Kimi 违规四连败,Claude 迷失残局!

0
分享至


大数据文摘出品

在Google旗下Kaggle平台主办的“棋局竞技场”中,一场AI国际象棋比赛正在展开。

参与者不是Stockfish或AlphaZero这样的专业引擎,而是八个大型语言模型(LLM):Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。


比赛规则简单直接——单败淘汰制。每局比赛,AI有四次机会做出合法走子,四次失败即告负。

不比谁“算力强”,而是要看谁更能理解、分析并解决问题。

这是一场对AI通用智能(AGI)未来潜力的探索试验。

01 横扫四场,Grok 4领跑全场

在8月5日首日四场对决中,四场全是4比0横扫,没有任何悬念。Grok 4击败Gemini 2.5 Flash,以全胜之姿晋级四强。


不仅赢得干净利落,更展现了全场最具逻辑性的走法。

在对局中,Grok 4不断识别对手的漏子,并迅速发起攻击,每一分都带着“计算后的猎杀”感。

相比其他模型依赖模板式开局和反应式走子,Grok 4则像是在做一场目标清晰的围猎。

Gemini 2.5 Flash的失误固然给了机会,但Grok 4真正让人惊讶的是它的策略意识和位置判断力

即使是在没有开局库、没有辅助引擎的纯思维对弈中,Grok 4也表现出令人意外的棋局掌控力。


与此同时,Gemini 2.5 Pro也以4比0战胜Claude 4 Opus晋级。

这组对局中出现了更多“合法走子”的回合,也出现了数次由棋局终结的真正“将死”,而非判负。

其中最令人印象深刻的是第四局,Gemini 2.5 Pro在局面占优的情况下,仍旧犯下了几个不该有的“送子”失误。

即使如此,它依然靠两后强势将死对手,保住了胜果。不过,从比赛内容来看,Claude 4 Opus的表现明显更为混乱。

在第一局,它在第十步选择“g5”,主动暴露王翼,直接加速败局。评论指出:“Claude 4 Opus看上去知道一些战术,但局势一变,它就像陷入迷雾。”

DeepSeek R1对阵o4-mini的比赛更像是一场“幻觉测试”。


开局阶段,双方都能给出几步强有力的操作。但进入中局,DeepSeek R1反复犯下“看错棋盘”的错误。

在一盘中,它甚至试图将马移到一个不存在的位置。尽管如此,o4-mini仍然完成了两次“实打实”的将死,成为唯一在一场比赛中完成两次将死的AI。

o4-mini因此拿下4分,晋级下一轮。

最混乱的对局来自o3与Kimi k2的交手。Kimi k2没有在任何一局中完成超过8步的对弈。

它连续四次在第四次尝试时下出非法棋,自动判负。从注释来看,Kimi k2的确懂得一些开局套路。

但一旦脱离开局库,它便彻底迷失方向,甚至连车、象的走法都记错。不是不会下棋,而是“忘了规则”。

这让人对它的训练数据和逻辑能力产生疑问。

03 AI的弱点,暴露在棋盘上

比赛成了一面“照妖镜”。从棋盘的表现看,大部分AI模型在以下三个方面表现不佳:

第一,无法完整“视觉化”整盘棋。许多AI看得见棋子,却无法判断整体布局关系。

第二,缺乏“因果理解”的连续性。一个子被吃了之后,AI往往不能明白其位置失守的后果,下一步仍会把王送进敌人攻击线。

第三,合法走子频频出错。不仅仅是“不会”,而是“记不得”。Kimi k2在每盘中失败的方式几乎完全一样:连续四次下出非法走子。

而这不是引擎限制,而是理解能力薄弱的体现。相比之下,Grok 4在这三方面都展现出极强的适应力。它能识别未被保护的棋子,能计算简单战术,也没有出现非法走子的情况。

这场比赛仍在继续。8月6日,将迎来半决赛。

四强对阵如下:Grok 4 vs Gemini 2.5 Pro,o4-mini vs o3。

谁会最终登顶尚不得而知,但从首日表现来看,Grok 4无疑是目前的最大热门。

比赛官网:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信Q1yezi,共同交流行业动态与技术趋势!

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗官员:若美国发动侵略 伊朗回应绝不仅限于美军基地

伊朗官员:若美国发动侵略 伊朗回应绝不仅限于美军基地

财联社
2026-01-26 20:34:10
重大信号发出,官方定调海南楼市2026!

重大信号发出,官方定调海南楼市2026!

网易海南房产
2026-01-26 16:51:17
特朗普彻底破防,直接开骂!多国被现场点名,气愤十分窒息

特朗普彻底破防,直接开骂!多国被现场点名,气愤十分窒息

毛豆论道
2026-01-25 18:13:28
美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

美军连夜通告全球,特朗普想通了:对中国不能来硬的,要上点手段

通文知史
2026-01-26 00:00:03
建国后,博古妻子哭求杨尚昆帮衬生活困难,杨尚昆是如何回复的?

建国后,博古妻子哭求杨尚昆帮衬生活困难,杨尚昆是如何回复的?

唠叨说历史
2025-12-30 10:35:28
32岁凯恩获拜仁天价续约,背后是6500万解约条款的恐慌

32岁凯恩获拜仁天价续约,背后是6500万解约条款的恐慌

浮萍足球
2026-01-27 00:53:05
回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

回顾探花大神:害人害己,多位女主被亲戚认出当场“社死”

就一点
2025-10-09 12:19:42
定了!她将于今年5月嫁给年下男友!

定了!她将于今年5月嫁给年下男友!

奋斗在韩国
2026-01-26 13:28:53
俞敏洪:未来AI时代老师的功能将改变,现在中小学老师一大半不合格

俞敏洪:未来AI时代老师的功能将改变,现在中小学老师一大半不合格

界面新闻
2026-01-26 15:29:04
支持率暴跌后,高市早苗这下慌了,日本商界发声:绝不能离开中国

支持率暴跌后,高市早苗这下慌了,日本商界发声:绝不能离开中国

科普100克克
2026-01-26 18:47:03
明朝一男子将私房钱藏于木雕中,藏了600年,几任收藏家都没发现

明朝一男子将私房钱藏于木雕中,藏了600年,几任收藏家都没发现

铭记历史呀
2025-12-30 18:14:57
远离造神陷阱!郭晶晶的翻车,给所有被“捧上神坛”的人提了个醒

远离造神陷阱!郭晶晶的翻车,给所有被“捧上神坛”的人提了个醒

照亮你的前行之路
2026-01-27 03:31:52
胡老师公开承认,终于被网友硬生生的给改变了,评论区真是出人才

胡老师公开承认,终于被网友硬生生的给改变了,评论区真是出人才

星星没有你亮
2025-12-30 03:33:58
王欣瑜止步16强被赞打出前十水准,阿尼西莫娃赛后言论狂圈粉

王欣瑜止步16强被赞打出前十水准,阿尼西莫娃赛后言论狂圈粉

网球之家
2026-01-26 22:15:45
腾讯宣布:春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

腾讯宣布:春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

观威海
2026-01-26 19:22:20
狂犬病死亡数创新高,宠物惹的祸?

狂犬病死亡数创新高,宠物惹的祸?

中国新闻周刊
2026-01-26 20:55:06
笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

火山诗话
2026-01-25 08:28:32
委内瑞拉已经倒下了,中国终于出手,另一个反美国家绝不能倒

委内瑞拉已经倒下了,中国终于出手,另一个反美国家绝不能倒

深蓝独奏
2026-01-27 03:32:45
新址被否,搬迁无望?嫣然医院又被大佬盯上,李亚鹏真正难题降临

新址被否,搬迁无望?嫣然医院又被大佬盯上,李亚鹏真正难题降临

离离言几许
2026-01-26 16:44:47
妻子照顾瘫痪公公13年,丈夫提离婚公公同意,可走出大门丈夫懵了

妻子照顾瘫痪公公13年,丈夫提离婚公公同意,可走出大门丈夫懵了

兰姐说故事
2026-01-15 20:30:04
2026-01-27 05:31:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6821文章数 94528关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

游戏
时尚
亲子
教育
手机

猎魂世界:先遣服1.5版本新内容汇总!这第7魂环真是够那个了!

甜了10年,超多暧昧细节,全网求他俩原地结婚

亲子要闻

娃上课坐不住、小动作不断?不是调皮捣蛋,是大脑这个功能发育慢

教育要闻

500-550分女生报警校?3大专业低分逆袭!

手机要闻

华为Pura X2、OPPO Find N6、荣耀Magic V6,选择纠结了!

无障碍浏览 进入关怀版