网易首页 > 网易号 > 正文 申请入驻

爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰

0
分享至


新智元报道

编辑:倾倾 KingHZ

【新智元导读】AI国际象棋对抗?这次玩真的!谷歌Kaggle推出首届全球AI象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间!

国际象棋全球AI争霸赛来了!

首战即放狠招:让全球八款最强语言模型,国际象棋正面对抗:

闭源的大模型:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;

开源的大模型:DeepSeek R1和Kimi K2 Instruct。

首战落幕

今日凌晨1点,这场大赛正式打响了8进4淘汰战:

Gemini 2.5 Pro、o4-mini、Grok 4、和o3,以4-0的碾压式战绩横扫对手,进入半决赛。

而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2没能撑过中盘,就已纷纷崩溃退场。


第二天的半决赛,OpenAI的o3-mini和o3将「自相残杀」,而Gemini 2.5 Pro和Grok 4则狭路相逢

整场赛事由谷歌旗下的Kaggle举办。为此,他们专为通用大模型打造了竞技平台——「Game Arena」。

谷歌表示游戏是评估模型与智能体的理想平台,是通用智能可靠的衡量标准。游戏作为基准测试的价值更体现在:

  • 无限扩展性:对手越强,难度阶梯式攀升;

  • 思维可视化:可完整追踪模型的「决策链」,窥见其战略思维过程。

AI来说,下好一盘棋,比你想象的更难。

比赛共有3场,首赛中DeepSeek R1对阵o4-mini,Kimi-K2对阵o3。


半决赛将在明天太平洋时间上午10:30举行。


下面,一起回顾一下首场战况吧。

Kimi K2犯规出局

o3不战而胜顺利晋级

四局比赛,Kimi K2每一局都因非法走子被系统判负,最短的对局甚至不到8个回合。

对局开始还能跟着开局理论下几步,但一旦脱离熟悉的套路,Kimi K2就像突然「失明」一般,误读棋盘布局,走出错误的棋子。


面对这样的对手,o3不费吹灰之力,轻松晋级半决赛。

DeepSeek R1中盘掉线

o4-mini轻松将死两局

这是一场「开局唬人,中间崩盘」的比赛。

如果你只看每盘棋的前几回合,你会发现,在开局两个模型都走得无懈可击,仿佛两个国际象棋大师在对弈。

但到了某一节点,棋局的质量就会急转直下。


一旦脱离「开局模板」,DeepSeek就开始频频出错:瞄准不存在的棋子、防守并无威胁的空格,甚至走出将自己逼入死角的「自爆式操作」。

相比之下,o4-mini虽然不够惊艳,但是稳扎稳打、不犯大错,还顺利完成了两次将杀收尾,赢得理所当然。

Claude 4 Opus血战到底

仍不敌Gemini 2.5 Pro

如果说Kimi K2的比赛是「自动退出」,那Claude 4 Opus的落败,则是拼尽全力后的溃败。

在第一局,双方在前九个回合都走得有板有眼,直到Claude 4 Opus贸然下出10...g5,主动敞开防线,为Gemini送上突破口。


在第四局还出现了一个让人哭笑不得的场面:Gemini 2.5 Pro手握两只皇后,总子力优势高达32分,本该将Claude「一波带走」,结果他却在进攻过程中挂掉几枚关键棋子。


尽管如此,胜利还是属于Gemini。

而这场对局,也是四场比赛中最接近真正象棋对抗的一场。

Gork 4杀疯了

精准打击,专挑软肋

前三场像是在训练模式,Gork 4一登场,比赛才终于像个「战场」

面对Gemini 2.5 Flash的频繁错漏和无人防守的棋子,Gork 4精准识破、果断出击。

它不是在「模仿下棋」,而是真的能看懂弱点、消灭威胁,最终以4-0终结比赛。

Gork的「四连超凡」不仅打出了目前最有「棋感」的对局,还被不少业内人士评为开赛以来全场最佳表现。

马斯克在X上转发了Gork的战绩,只留下一句简单的回应:

订单这只是副作用。xAI几乎没在国际象棋上花什么精力。


没有炫耀,没有过度评价,只是随手转发,仿佛这场胜利只是系统顺手完成的一次功能调用。

但在这场模型犯错频繁、认知失误频出的混战中,Gork 4是少数能「看清棋局并稳定走完」的存在。

从棋盘到智力测试

比赛只是表面,挑战才刚开始。

这场比赛的意义,从来不只是看谁赢了、谁走了更漂亮的一步棋。

它考验的不是棋艺,而是AI的整体理解能力。

游戏为强大的人工智能评估提供了绝佳的基础,帮助我们了解在复杂推理任务中哪些方法真正有效。

游戏能提供明确无误的成功信号:不是赢就是输,或者平局。

它们结构清晰且结果可衡量,是评估模型的理想试验场。游戏迫使模型展现出多种技能,包括策略推理、长期规划以及面对智能对手时的动态适应能力,从而为衡量其通用问题解决智能提供了一个可靠的依据。

就在上个月,世界冠军卡尔森在旅行中途虐了ChatGPT一局,一子未损。赛后他轻描淡写道「我有时旅途中会无聊」。


AI甚至没意识到对面是谁——这比输棋更值得警惕。

Kaggle官方也透露,真正的评分标准,其实藏在「幕后数百场未公开对局」的排行榜里。

眼下这场棋,不过是一块测试通用智能的开局小盘。

参考资料:

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

https://x.com/dotey/status/1952883220149657849

https://blog.google/technology/ai/kaggle-game-arena/

https://www.kaggle.com/blog/introducing-game-arena


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
全线大跌,超22万人爆仓!刚刚,黄金、白银,直线跳水

全线大跌,超22万人爆仓!刚刚,黄金、白银,直线跳水

中国基金报
2026-01-30 09:29:21
闻泰科技:预计2025年净亏损90亿元~135亿元

闻泰科技:预计2025年净亏损90亿元~135亿元

每日经济新闻
2026-01-30 19:47:07
斯塔默在三里屯下馆子,英使馆官员:见识到中国如今多先进了吧?

斯塔默在三里屯下馆子,英使馆官员:见识到中国如今多先进了吧?

荆楚寰宇文枢
2026-01-29 23:25:24
美伊谈崩了,大战一触即发!俄媒称美军在为亚太练兵?

美伊谈崩了,大战一触即发!俄媒称美军在为亚太练兵?

兵国大事
2026-01-30 00:05:05
2025 年全球手机销量排行榜来了!第三名有点意外啊

2025 年全球手机销量排行榜来了!第三名有点意外啊

XCiOS俱乐部
2026-01-30 19:14:42
速报!2名中国人在东京街头被抢4.2亿现金…全网轰动!

速报!2名中国人在东京街头被抢4.2亿现金…全网轰动!

今日日本
2026-01-30 10:11:44
总统秒变摇滚主唱!阿根廷米莱突袭前女友演唱会,合唱情歌掀狂欢

总统秒变摇滚主唱!阿根廷米莱突袭前女友演唱会,合唱情歌掀狂欢

老马拉车莫少装
2026-01-30 01:08:35
和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

和领导的410次开房记录,写着她从临时工到副处长的每一步努力!

闲侃闲侃
2026-01-29 08:36:50
李晨杭州狂炫67元拌川!小饭馆老板认不出

李晨杭州狂炫67元拌川!小饭馆老板认不出

情感大头说说
2026-01-30 11:32:59
预计明日凌晨3-6点,美伊大战会正式开启,理由如下

预计明日凌晨3-6点,美伊大战会正式开启,理由如下

今日马说
2026-01-30 23:26:19
押赴刑场!缅北女魔头明珍珍伏法了,当初迪拜炫富,现在刑场死囚

押赴刑场!缅北女魔头明珍珍伏法了,当初迪拜炫富,现在刑场死囚

今朝牛马
2026-01-30 20:12:32
必须把孩子生起来!金灿荣教授罕见发火了,痛批国内不生育的现状

必须把孩子生起来!金灿荣教授罕见发火了,痛批国内不生育的现状

火山诗话
2026-01-30 06:25:28
1-2被逆转!中国队2026年遭首败,输球原因曝光,还暴露最大短板

1-2被逆转!中国队2026年遭首败,输球原因曝光,还暴露最大短板

侃球熊弟
2026-01-30 23:30:32
伊朗最高领袖顾问:欧盟国家军队将被视为恐怖组织

伊朗最高领袖顾问:欧盟国家军队将被视为恐怖组织

界面新闻
2026-01-30 23:40:54
杜宪(左一)70岁还这么漂亮,不愧是陈道明一生挚爱

杜宪(左一)70岁还这么漂亮,不愧是陈道明一生挚爱

可乐谈情感
2026-01-31 02:39:47
利物浦官宣!克洛普三月将重回安菲尔德,重拾教鞭

利物浦官宣!克洛普三月将重回安菲尔德,重拾教鞭

球星的故事
2026-01-31 01:18:13
金晨被曝逃逸原因是撞伤鼻子,紧急回医院修复,前后对比照曝光

金晨被曝逃逸原因是撞伤鼻子,紧急回医院修复,前后对比照曝光

萌神木木
2026-01-30 12:58:50
“正常爹看女儿,就不可能是这种眼神”,女儿被爸爸压腿视频火了

“正常爹看女儿,就不可能是这种眼神”,女儿被爸爸压腿视频火了

妍妍教育日记
2026-01-30 21:56:10
乌克兰战机2026年首次飞入俄罗斯领土!摧毁库尔斯克指挥部

乌克兰战机2026年首次飞入俄罗斯领土!摧毁库尔斯克指挥部

项鹏飞
2026-01-30 16:10:31
2026-01-31 04:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14445文章数 66549关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

旅游
本地
艺术
游戏
军事航空

旅游要闻

单季接待数百万游客,冰雪大世界的文旅破圈之路!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

艺术要闻

惊艳!越南摄影师镜头下的妩媚女子!

向全体二游策划宣战,你们能不能直接把我推删了?

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版