网易首页 > 网易号 > 正文 申请入驻

Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

0
分享至

机器之心报道

机器之心编辑部

明天,Grok 对阵 OpenAI 的 o3。

谁也没想到,谷歌攒的 Kaggle AI Chess 比赛(即大模型国际象棋对抗赛),在半决赛中,Grok 4 击败 Gemini 2.5 Pro,进入总决赛!



在昨天的比赛中,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

今天的战况依旧让人猜不着走向,Gemini 2.5 Pro 败了。

马斯克昨天点评比赛结果的话术,今天依旧有用:「国际象棋太过简单,对 Grok 来说,只是副作用,我们没花多少力气放在象棋优化上。」

今天 Grok 4 闯入总决赛,不知马斯克是不是更看不上这场比赛了。



我们再回到这场半决赛。

战况是Grok 4 和 o3 分别战胜了 Gemini 2.5 Pro 和 o4-mini,成功晋级决赛。虽然 o3 的胜利在大家意料之中,但 Grok 与 Gemini 之间的激烈对决却让所有人大跌眼镜 —— 双方在常规赛打成 2:2 平,最终通过加赛才分出胜负。

明天是比赛的最后一天。届时,将迎来本次 AI 象棋巅峰对决的冠军之战,X 对战 OpenAI。



对战表

o4-mini 对阵 o3 :0-4

在初赛中,o4-mini 和 o3 均以 4-0 的全胜战绩淘汰了 DeepSeek-R1 以及 Kimi k2,同样出身 OpenAI 的两大模型在半决赛中正面对决。

比赛的结果基本在预料之中,o3 以 4 比 0 横扫对手 o4-mini,顺利晋级决赛。

在 OpenAI 的推理模型体系中,o3 作为一款强大的通用推理模型,在多个基准测试中均取得了优异成绩,展现出卓越的稳定性与复杂推理能力。相比之下,o4-mini 是一款轻量级模型,旨在在速度、成本与性能之间实现更好的平衡。

因此 o4-mini 输给 o3 的确符合预期,是因为象棋这种任务对模型的稳定推理能力和容错性要求很高,这恰恰是轻量化模型最容易妥协的地方。

谷歌举办这场比赛的主要目的是为了分析 AI 模型是如何思考的。因此,整场对局中的第二盘可能对谷歌来说意义不大,但对普通棋手而言却相当值得关注。

在这一盘中,o3 仅用 12 步就完成了致胜攻击,手法颇有 Puzzle Rush 风格。虽然不是一个真正意义上的闷杀(smothered mate),但已经非常接近了,依然令人惊叹。



o3 的致胜攻击

尽管 AI 在国际象棋上的表现一直不尽如人意,但 o3 在这盘棋中却拿下了完美的 100 分准确率评分。



整场比赛的剩余部分,大体上延续了本次锦标赛至今的老套路:某个弱 AI(这次是 o4-mini)在某个时间点开始失去局势控制,连续出现致命失误,最终输掉对局。

不过有一盘棋例外 —— 它可能是本届比赛中看起来最自然流畅的一局。这是本场对决的第三盘,相较其他对局,这一盘展现出了真正的高质量国际象棋。

其中,o3 下出的两个中间招法(in-between moves)—— 第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ —— 尤其令人印象深刻。



o3 令人印象深刻的走棋

Gemini 2.5 Pro 对阵 Grok 4:2.5-2.5

Grok 在国际象棋领域的统治力依然强势,但这次的胜利之路并不平坦,甚至可以说是比赛到目前为止最焦灼的一轮。

准确的说,马斯克轻描淡写「国际象棋是副作用」的 Grok 差一点就翻了车,最终以和棋收场勉强取胜。

虽然最终比赛结果是 Gemini 2.5 Pro 以 2-3 不敌 Grok 4,但在官方博客中,比分仍被标注为 2.5 - 2.5 平局。

比赛一直打到特殊的末日加赛(armageddon tiebreak,是指国际象棋比赛中,在常规赛或加赛打平后,用于决出胜负的特殊加赛方式)才决出胜负,最终 ,Grok 执黑在一盘 55 步的和棋中晋级 —— 尽管当时 Grok 明显处于胜势。

但我们从头说起。今天 Grok 的表现异常混乱 ,频频送子得分。事实上,本场首盘由 Gemini 先拔头筹,Grok 相继丢掉了一匹马、一辆车,最后被将死,痛失一局。

第二盘棋中,Gemini 和 Grok 在第 11 步之前都严格遵循了开局定式。正如我们在之前的比赛中观察到的那样,AI 一旦脱离开局理论、进入自主思考阶段,就很容易开始出错。

而 Grok 和 Gemini 至今为止都表现出了比其他模型更长时间遵循理论的能力,这也可能是本场对决如此胶着的原因之一。

不过,也如预期那样,一旦 Grok 脱离定式,失误就接踵而至。Grok 再次丢掉一匹马,而 Gemini 却出现幻觉,主动送后,随后又全盘崩塌,最终将第二盘拱手相让。



Grok 脱离定式后失误



Gemini 产生幻觉

接下来的两盘棋又是决定性的比赛,延续了本届锦标赛的熟悉剧本:AI 们先走几步开局定式,然后靠着机械式的创造力迅速开始出错。

Grok 赢下了第三盘,暂时在比分上领先,但随后 Gemini 反击成功,在第四盘将比分扳平。

比赛进入末日加赛,Grok 执黑出战,拥有和棋即胜的优势(尽管本场比赛并没有时间限制)。

这场加赛堪称精彩纷呈。Gemini 在大部分时间里局势占优,甚至一度错过了一个「一招将死」的机会 —— 这个将死模式与 o3 在第二盘战胜 o4-mini 时用的那个几乎一模一样。

正当观众紧张关注局势时,国际象棋特级大师 Peter Heine Nielsen(现任 Magnus Carlsen 的教练) 也借机向 Grok 提供了辅导建议:



最终,Gemini 在胜势的车兵残局中失误白送皇后,将胜利拱手让给 Grok。

然而,剧情并未就此告终:由于 Grok 在多一车对单兵的必胜局面下未能兑现优势,双方三次重复局面,对局戏剧性地以和棋收场。尽管结局出人意料,这场比赛仍被评选为今日最佳对局。



Gemini 2.5 Pro 对阵 Grok 4:和棋收场

接下来,X 的 Grok 和 OpenAI 的 o3 将在明天的决赛中相遇。谷歌的 Gemini 2.5 Pro 和 o4-mini 将争夺季军和第四名。

在昨天的投票中,大家普遍看好 Gemini 2.5 Pro 和 Grok 4 成为最终赢家。



那么现在,你还会把票投给 Grok 4 吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大学念成高中,“本升高”成功让大学生崩溃

大学念成高中,“本升高”成功让大学生崩溃

酷玩实验室
2025-11-12 14:53:13
震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

震惊!北大研究发现,男性每增加一个亲生子女,死亡风险降低4%

火山诗话
2025-11-13 11:37:14
一场2-0,给意大利续命了!9-0狂胜挪威=直通世界杯,小组3队出局

一场2-0,给意大利续命了!9-0狂胜挪威=直通世界杯,小组3队出局

侃球熊弟
2025-11-14 06:13:09
被日本威胁驱逐出境的总领事薛剑,又发了1条消息,日本人破防了

被日本威胁驱逐出境的总领事薛剑,又发了1条消息,日本人破防了

时时有聊
2025-11-14 10:00:30
中国台湾演员欧阳娣娣现身厦金大桥工地刷漆,称期待有一天,可以直接从这里开车去台湾

中国台湾演员欧阳娣娣现身厦金大桥工地刷漆,称期待有一天,可以直接从这里开车去台湾

鲁中晨报
2025-11-14 11:27:34
主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

环球网资讯
2025-11-14 06:45:32
广东省传记文学学会副秘书长林峰突发疾病逝世,年仅41岁

广东省传记文学学会副秘书长林峰突发疾病逝世,年仅41岁

澎湃新闻
2025-11-13 14:24:26
北京一批机关食堂正式向公众开放,食客:慕名而来,物美价廉

北京一批机关食堂正式向公众开放,食客:慕名而来,物美价廉

黄河新闻网吕梁频道
2025-11-14 09:00:45
全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

懂球帝
2025-11-14 12:16:38
暴打母亲男家境曝光!拆迁户不差钱,邻居曝动手底气,或难被判刑

暴打母亲男家境曝光!拆迁户不差钱,邻居曝动手底气,或难被判刑

奇思妙想草叶君
2025-11-13 21:02:06
江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

奇思妙想草叶君
2025-11-13 22:05:49
补贴即将暂停!福建多地最新公告

补贴即将暂停!福建多地最新公告

晋江电视台
2025-11-14 12:29:13
一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

一条狗引发的命案后续:案发当晚视频曝光,律师透露一审重大进展

吭哧有力
2025-11-13 15:13:22
“公安局要求取现超1万元扫码登记,超过2万元还要手工登记”,银行主管诉苦:客户取钱被骗,我们要被追责

“公安局要求取现超1万元扫码登记,超过2万元还要手工登记”,银行主管诉苦:客户取钱被骗,我们要被追责

每日经济新闻
2025-11-13 18:35:09
全运会金牌榜:山东日入7金成最大赢家,东道主暂列第2,辽宁第11

全运会金牌榜:山东日入7金成最大赢家,东道主暂列第2,辽宁第11

萌兰聊个球
2025-11-14 07:53:32
汪小菲卖北京豪宅!内部曝光品味超迷欣赏不来,满地大S私物被看光

汪小菲卖北京豪宅!内部曝光品味超迷欣赏不来,满地大S私物被看光

八星人
2025-11-14 10:46:30
官方:大谷翔平连续第3年当选美国职棒大联盟MVP,5年来第4次

官方:大谷翔平连续第3年当选美国职棒大联盟MVP,5年来第4次

懂球帝
2025-11-14 09:04:29
29岁CEO现身相亲角,“坦诚版”简历遭阿姨们嫌弃学历低还离异……其公司年营业额已过亿

29岁CEO现身相亲角,“坦诚版”简历遭阿姨们嫌弃学历低还离异……其公司年营业额已过亿

第一财经资讯
2025-11-13 19:42:07
亚朵大战全季,传统五星级酒店输麻了

亚朵大战全季,传统五星级酒店输麻了

IC实验室
2025-11-13 15:50:52
佘智江:出身湖南黑道,创建KK园区,他表哥成大佬司机娶小燕子

佘智江:出身湖南黑道,创建KK园区,他表哥成大佬司机娶小燕子

阿胡
2025-11-13 10:17:34
2025-11-14 13:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11713文章数 142505关注度
往期回顾 全部

数码要闻

Intel升级SDK:Meteor Lake终于能用XeSS帧生成了!

头条要闻

大陆发布"台独"打手悬赏通告后 岛内网民的反应来了

头条要闻

大陆发布"台独"打手悬赏通告后 岛内网民的反应来了

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

时尚
教育
家居
手机
房产

上头又上脸,奶皮子糖葫芦真有点东西

教育要闻

父母不要用爱的名义掌控孩子的一生

家居要闻

现代简逸 寻找生活的光

手机要闻

荣耀500 Pro手机规格曝光:骁龙8至尊版芯片、2亿主摄等

房产要闻

突发!三亚放出今年起价最高宅地!

无障碍浏览 进入关怀版