网易首页 > 网易号 > 正文 申请入驻

DeepSeek、Kimi 首轮淘汰,马斯克 Grok 4 杀进决赛,首届全球 AI 对抗赛连爆冷门

0
分享至

  马斯克和奥特曼的恩怨,可能要在 64 格的国际象棋棋盘上解决了。

  就在 Kaggle 游戏竞技场刚刚举行的 AI 国际象棋锦标赛半决赛中,o3 以 4:0 横扫 o4 mini,而 Grok 4 与 Gemini 2.5 Pro 激战五局,最终通过加时赛惊险取胜。

  

  此次比赛聚集了八款全球主流语言模型,其中就包括月之暗面的 Kimi K2 和 DeepSeek R1 等热门选手,但遗憾的是,两者均在首轮就被淘汰,未能进入四强。

  面对 Grok 4 的强势发挥,实时追更赛况的马斯克也是「装」起来了:「xAI 在国际象棋上几乎没花什么心思。」

  

  八大 AI 模型齐聚棋盘,上演棋王争霸赛

  本次比赛为期三天(当地时间 8 月 5 日-7 日),第一天决出 4 强,第二天诞生决赛名单,第三天上演金牌和铜牌争夺战。参赛的八位 AI 选手分别是:

  Anthropic 的 Claude Opus 4

  DeepSeek 的 DeepSeek-R1

  Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash

  月之暗面的 Kimi k2

  OpenAI 的 o3 和 o4-mini

  xAI 的 Grok 4

  

  有趣的是,在比赛阵容和规则公布后,作为参赛选手之一的 Kimi 在社交平台上公开「吐槽」匹配机制,称自己的推理版本尚未发布。

  

  这场 AI 棋王争霸赛由 Google 旗下的 Kaggle 举办。Kaggle 推出了一个名为 Game Arena(游戏竞技场) 的全新 AI 基准测试平台,用于评估语言模型在策略游戏中的实际表现。

  平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统,支持模型间实时对决与回放,并将比赛结果发布在 Kaggle Benchmarks 上进行排名。

  目前首个上线游戏为国际象棋,用户可在 kaggle.com/game-arena 浏览赛程、对阵图和模型排名,未来还将加入更多游戏和模型,排行榜实时动态更新。

  今天最新的比赛结果已经出炉:o3 和 Grok 4 挺进决赛,而 o4 mini 和 Gemini 2.5 Pro 则将为铜牌展开最后一战。

  

  回顾昨日的首轮厮杀,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 战绩,分别淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。

  与传统依赖暴力计算的 AI 象棋程序截然不同,本次比赛采用了「Chess-Text Harness」规则体系,试图全面检验语言模型的纯粹推理能力,包含以下关键限制:

  模型禁止调用任何工具,比如它们不能直接调用 Stockfish 国际象棋引擎来获得最佳走法

  系统不会提供可能的合法走法列表,模型必须自己判断

  如果模型建议了一个非法走法,会给予最多 3 次重试机会。如果在总共四次尝试后模型仍未提交合法走法,游戏将结束。如果发生这种情况,游戏将判定提出非法走法的模型为输,另一方为赢

  每步走法有 60 分钟的超时限制

  模型只能通过文本符号理解棋盘状态,无法依赖图像识别

  种种设置让比赛更像是测试 AI 的「象棋智商」。正如 Kaggle 团队所说:「游戏是进行稳健 AI 评估的绝佳基础,它们考验模型在战略规划、推理、记忆、适应,甚至『心智理论』等方面的能力。」

  决赛再遇「老对手」,o3 和 Grok 4 冠军争夺战打响

  让我们来回顾今天的比赛过程。

  全程解说这场半决赛的是 YouTube 国际象棋界大 V GothamChess(Levy Rozman),坐拥 657 万订阅,不仅业务水平在线,吐槽功力也同样不俗。

  OpenAI 的两个模型之间的对决毫无悬念。

  o3 展现出了压倒性的实力,以 4:0 横扫 o4 mini,而最精彩的一幕出现在他们的一局中盘对决中。o4 mini 曾试图设置一个极其罕见的将死陷阱——靠主教走 h4 制造一个不挡就死、挡也亏的局面。

  

  Levy Rozman 表示:「那可能是史上最罕见的将死方式!」

  然而 o3 不仅识破了陷阱,还冷静地只用一步棋就化解了威胁,随后通过精准的战术组合,用车渗透后排,最终以主教 b5 将死结束比赛。

  当然,真正的名场面出现在另一组对决——Grok 4 对阵 Gemini 2.5 Pro。

  第一局,又是熟悉的西西里防御开局,但 Grok 4 很快就开始犯下一系列匪夷所思的错误,没下几步,就把主教走到 f7,直接白给。

  (注释:西西里防御是国际象棋中黑方应对白方 1.e4 的经典开局,以 1…c5 非对称反击著称,攻防兼备、战术丰富,是最具侵略性的防御之一。)

  

  随后的局面更是一边倒,Grok 在短短几步内就丢掉了皇后,Gemini 轻松获胜。

  第二局 Grok 的开局表现依然糟糕。它再次在开局阶段就白送了一个骑士,但好在中后盘,扛住压力的 Grok 打出极佳战术组合,赢下了这盘棋。

  Rozman 打趣道:「Grok 昨晚肯定在以 4:0 赢了 Gemini Flash 之后出去狂欢了,由于喝得酩酊大醉,现在才宿醉醒来。」

  

  第三局开始,Grok 精准地走出了前 11 步电脑最佳走法,展现出了 Stockfish 般的水准。

  虽然中盘又出现了一次失误(牺牲骑士),但关键时刻,它找到了一个绝妙的战术组合:通过推进 e5 兵,同时威胁对方的皇后和骑士,迫使 Gemini 陷入绝境。

  「这太疯狂了!」Rozman 解说道,「无论黑方用皇后还是骑士吃掉白方在 e5 的兵,白方都能重新吃回并形成一系列走法,使黑方至少损失一个骑士。」

  最终 Grok 通过主教 b5 将军,吃掉了 Gemini 的皇后,再次扳回一城。而 Gemini 赢下第四盘棋,成功将比赛拖入决胜局。

  

  翘首以待,终于我们迎来了决赛局。

  决胜局有个需要注意的特殊规则:如果和棋,执黑的 Grok 获胜,在国际象棋比赛中被称为「Armageddon」(世界末日)赛制。

  因为执白方天生有先手优势,为了平衡这种优势,在决胜局中会给黑棋一些补偿,比如白棋必须赢棋才能获胜、黑棋只需要和棋就算获胜,有时还会给白棋更多思考时间(比如白棋 6 分钟,黑棋 5 分钟)。

  Gemini 开局气势如虹,皇后深入腹地制造多重威胁,一度占据明显优势。然而,在关键时刻,Gemini 的皇后走到了一个完全不设防的位置。

  

  不出意外,Grok 毫不客气地吃掉了对方的皇后,但戏剧性的一幕出现了,Grok 后续在占据优势(多一个皇后)的情况下,选择了重复移动棋子到相同的位置,导致了和棋。

  (注释:重复局面是国际象棋中的一个规则,当完全相同的棋盘位置(包括所有棋子的位置、轮到谁走棋、易位权利等)出现三次时,任何一方都可以申请和棋。这个规则的目的是防止比赛无限进行下去。)

  最后根据规则,和棋判定执黑的 Grok 依旧获胜。「Grok 在我们见过的最精彩的 AI 对决之一中淘汰了 Gemini Pro!」Rozman 总结道。

  随着半决赛尘埃落定,明天当地时间(8 月 7 日)的决赛名单确定:OpenAI 的 o3 将迎战 xAI 的 Grok 4,一场映射着奥特曼与马斯克恩怨情仇的巅峰对决,即将在棋盘上展开。

  而 o4 mini 与 Gemini 2.5 Pro 的铜牌争夺战同样值得期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

毛主席去世后,华国锋除了依靠叶帅外,还有几个大员是他信任的

谈古论今历史有道
2026-01-07 07:45:03
华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

华国锋退下来了,组织专门找到他的秘书,诚恳让其自己挑前途~

鹤羽说个事
2026-01-14 15:22:18
访华告吹,中方通知高市早苗,不会撤销制裁,日本计划强登钓鱼岛

访华告吹,中方通知高市早苗,不会撤销制裁,日本计划强登钓鱼岛

阿离家居
2026-01-16 11:08:54
巴萨死里逃生!西乙18岁前锋吃独食:空门不传+射门被扑 队友怒骂

巴萨死里逃生!西乙18岁前锋吃独食:空门不传+射门被扑 队友怒骂

风过乡
2026-01-16 08:01:49
强降雪来袭!河南发布提示→

强降雪来袭!河南发布提示→

大象新闻
2026-01-16 10:37:04
B费弃曼联?拜仁有意触发其5700万镑解约条款,追随凯恩冠军之路

B费弃曼联?拜仁有意触发其5700万镑解约条款,追随凯恩冠军之路

篮球看比赛
2026-01-16 11:53:21
高中大部分人面临的问题:中考考得不错,到高一成绩断崖式下跌

高中大部分人面临的问题:中考考得不错,到高一成绩断崖式下跌

好爸育儿
2026-01-14 15:48:29
刘涛 大长腿

刘涛 大长腿

小椰的奶奶
2026-01-16 11:55:36
不许为民除害的法,不要也罢

不许为民除害的法,不要也罢

夜半挑灯看吴钩
2026-01-06 11:38:08
男子存500万被银行问来历,一气之下要销卡,员工:注销要正当原因

男子存500万被银行问来历,一气之下要销卡,员工:注销要正当原因

浮生实录集
2025-09-11 17:15:31
拔萝卜出泥!学历还没查清,闫学晶再迎噩耗,多位大V锤她恐坐牢

拔萝卜出泥!学历还没查清,闫学晶再迎噩耗,多位大V锤她恐坐牢

流史岁月
2026-01-15 10:16:09
风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

GA环球建筑
2026-01-15 17:32:25
2003年廊坊械斗命案:臧天朔被捕后才知,原来当初自己那么愚蠢

2003年廊坊械斗命案:臧天朔被捕后才知,原来当初自己那么愚蠢

芳芳历史烩
2026-01-15 13:57:57
随着小特6-2大胜艾伦,赵心童5-6被绝杀,大师赛半决赛出炉附赛程

随着小特6-2大胜艾伦,赵心童5-6被绝杀,大师赛半决赛出炉附赛程

小火箭爱体育
2026-01-16 07:06:43
国共论坛将登场,侯友宜表态惊人;黄国昌喊话大陆,作出重要决定

国共论坛将登场,侯友宜表态惊人;黄国昌喊话大陆,作出重要决定

防务观察室
2026-01-15 13:41:25
齐达内:教练是为球员而存在的,在皇马我们随时为球员服务

齐达内:教练是为球员而存在的,在皇马我们随时为球员服务

懂球帝
2026-01-16 03:28:49
重庆市区划调整后,首届区委领导班子产生

重庆市区划调整后,首届区委领导班子产生

上观新闻
2026-01-15 20:04:11
受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

受够了AI脱衣?新《古墓丽影》劳拉演员宣布推特删号

游民星空
2026-01-14 12:13:11
把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

把1-1扑成2-0,霍安-加西亚94分钟神扑单刀助巴萨晋级

懂球帝
2026-01-16 07:53:07
嚣张!日本队宣布重要决定,中国男篮新大名单曝光,徐杰有望加入

嚣张!日本队宣布重要决定,中国男篮新大名单曝光,徐杰有望加入

宗介说体育
2026-01-15 14:18:13
2026-01-16 12:24:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6014文章数 26743关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

头条要闻

"装死"小羊身价飙至30万元 专家:可以人工繁殖更多只

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

艺术
健康
本地
公开课
军事航空

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

血常规3项异常,是身体警报!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版