网易首页 > 网易号 > 正文 申请入驻

闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了

0
分享至

机器之心报道

机器之心编辑部

从目前战况来看,Grok 4 是夺冠热门。

在玩游戏方面,到底哪个模型最厉害?为了回答这个问题,谷歌近日发起了首届大模型国际象棋对抗赛。

这场比赛为期三天,参赛选手包括:

  • o4-mini(OpenAI)
  • DeepSeek-R1(DeepSeek)
  • Kimi K2 Instruct(月之暗面)
  • o3(OpenAI)
  • Gemini 2.5 Pro(谷歌)
  • Claude Opus 4(Anthropic)
  • Grok 4(xAI)
  • Gemini 2.5 Flash(谷歌)

刚刚,我们拿到了第一轮比赛的结果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

以下是模型对阵图。

这个比赛是在一个名叫「Kaggle Game Arena」的平台上进行的。这是 Kaggle 公司的一个新项目,旨在跳出平时的基准测试框架,探索像 Gemini、DeepSeek 等 LLM 在动态和竞争环境中表现如何。

在昨天的报道中,我们详细描述了这场比赛的规则,比如不允许模型调用 Stockfish 等国际象棋引擎。(详情请参见《谷歌约战,DeepSeek、Kimi 都要上,首届大模型对抗赛明天开战》)

以下是对战的详细信息:

Kimi k2 对阵 o3:0-4

Kimi k2 与 o3 的对局较早结束,四局比赛都在八步棋内完成。由于 Kimi k2 连续四次未能找到合法着法而被判负,o3 获得了全胜。

不过需要说明的是,与 o3 对战的 Kimi K2 Instruct 为非推理模型,打不过 o3 也在预料之中。

虽然 Kimi k2 未能获胜,但这场比赛也为我们提供了有价值的观察。从 Kimi k2 的走棋注释来看,它在开局阶段能够遵循棋谱理论行棋。然而,一旦脱离了熟悉的开局理论,技术问题就开始显现 —— 而对 Kimi k2 来说,这个转折点来得较早。

Kimi k2 遇到困难的具体原因还需要进一步分析。在某些时候,它能清楚看到棋子的位置,却似乎忘记了棋子的走法。

在这一次对局中,Kimi k2 完整识别了棋盘局势,却依然无法给出合法着法,似乎对棋子的走法规则出现了记忆混乱。

在其他对局中,它在局面识别上也存在一些技术问题。

凭借这场胜利,o3 顺利晋级半决赛,与 o4 mini 对战。

DeepSeek R1 对阵 o4-mini:0-4

OpenAI 的 o4-mini 与 DeepSeek R1 之间的对局呈现出了独特的特点。如果单独观察每局比赛的前几步棋,你可能会以为这是两位高手在过招。然而对局进行到某个阶段后,棋局质量就会突然断崖式下跌。

这一现象在整场比赛中反复出现:几步不错的开局之后,会出现判断偏差和一系列失误。

尽管如此,o4-mini 在这场比赛中成功实现了两次将军 —— 这是一个值得注意的成就,考虑到对 AI 系统来说,准确把握整个棋盘状态本身就具有相当的挑战性。

Gemini 2.5 Pro 对阵 Claude 4 Opus:4-0

Gemini 2.5 Pro 与 Claude 4 Opus 的对局是本次比赛中唯一一个通过「将杀」获胜的场次多于因违规行棋告负的场次的比赛。不过,目前尚不清楚 Gemini 2.5 Pro 的真实棋力究竟如何,也不确定其胜利在多大程度上得益于 Claude 4 Opus 的失误表现。

这场比赛第四局出现了一个耐人寻味的局面:Gemini 2.5 Pro 当时拥有 32 分的子力优势,棋盘上甚至有两个后。然而尽管火力全开,它在完成将杀的过程中仍然出现了送子的情况。

但更值得分析的是本场比赛的第一局。前九个回合,双方 AI 都表现稳健,着法精妙。然而就在此时,执黑的 Claude 4 Opus 做出了一个草率的决定,走 10...g5。这步棋不仅白送一兵,还彻底破坏了己方王城的安全,直接加速了败局的到来。从双方 AI 的赛后评注中,我们可以看出一些端倪:

Grok 4 对阵 Gemini 2.5 Flash:4-0

今日表现最为亮眼的当属 Grok 4。除了以全胜战绩收获 4 分外,其棋艺水平也堪称目前最佳。虽然对手 Gemini 2.5 Flash 多次失误送子确实降低了比赛难度,但与其他 AI 不同的是,Grok 4 展现出了精准捕捉无保护棋子的能力,并能果断实施打击。

Grok 4 的出色表现甚至引起了科技界的关注,其创始人埃隆・马斯克在 X 平台简短互动时,再次提及他那个著名观点 ——「国际象棋太过简单」。

截至目前,大语言模型在象棋对弈中暴露出三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限,以及由此引发的合法着法执行问题。而 Grok 4 的出色表现证明,它似乎成功突破了这些限制。

这些 AI 模型的优势与缺陷能否在后续赛事中保持稳定?我们还要看明天的半决赛成绩。

文章中提及的棋局在线上国际象棋对弈网站 chess.com 中均有详细描述,感兴趣的读者可以参见以下链接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

国际象棋大师 Levy Rozman 也在最新录制的视频中对这场比赛进行了讲解。

视频链接:https://mp.weixin.qq.com/s/v3hCTuI6-0IdVSY0kcrHCw

我们曾在昨天的报道中发起了一个投票,目前已有近 4000 位读者参与。从目前的数据看,大家此前最看好的是 Gemini 2.5 Pro—— 赢得了超过 37% 的票数。

现在,第一天的比赛结果已经出炉,我们也稍微了解了各个模型的表现,不知道大家的想法有无变化呢?

参考链接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快讯!巴基斯坦决定月底前还归还阿联酋36亿债务,以维护国家尊严

快讯!巴基斯坦决定月底前还归还阿联酋36亿债务,以维护国家尊严

达文西看世界
2026-04-05 18:21:06
伊朗搜捕人员距飞行员藏身地不到3公里!美军营救代价惨烈,损失飞机价值超4亿美元

伊朗搜捕人员距飞行员藏身地不到3公里!美军营救代价惨烈,损失飞机价值超4亿美元

红星新闻
2026-04-05 18:49:42
伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

衣服固元膏
2026-04-04 15:53:17
直落四局轻松打卡!孙颖莎4-0横扫温特,连续3年跻身世界杯决赛

直落四局轻松打卡!孙颖莎4-0横扫温特,连续3年跻身世界杯决赛

全景体育V
2026-04-05 11:40:54
美媒披露营救飞行员细节:独自在伊朗与敌人周旋2天,有美军在营救中受伤

美媒披露营救飞行员细节:独自在伊朗与敌人周旋2天,有美军在营救中受伤

小萝卜丝
2026-04-05 17:25:54
日本富婆来中国旅游,回国7天后哭诉:日本跟中国相比还需努力

日本富婆来中国旅游,回国7天后哭诉:日本跟中国相比还需努力

千秋文化
2026-03-24 21:49:28
跌70%了还在跌,今年跌得最惨的8只股票,谁有它们跌得多?

跌70%了还在跌,今年跌得最惨的8只股票,谁有它们跌得多?

夜深爱杂谈
2026-04-05 17:04:47
跨越一万公里的清算:48小时逐客令,阿根廷一刀切断伊朗南美命脉

跨越一万公里的清算:48小时逐客令,阿根廷一刀切断伊朗南美命脉

环球格局观
2026-04-04 20:52:35
西甲大结局 巴萨绝杀+笑纳皇马输球大礼 剩8轮领先7分+主场踢德比

西甲大结局 巴萨绝杀+笑纳皇马输球大礼 剩8轮领先7分+主场踢德比

我爱英超
2026-04-05 06:35:49
张雪深夜发视频回应“一个子儿都没有”言论:当时说实话想装一下……政府只需要把舞台搭好就很棒了

张雪深夜发视频回应“一个子儿都没有”言论:当时说实话想装一下……政府只需要把舞台搭好就很棒了

都市快报橙柿互动
2026-04-05 09:20:56
中国夫妻“干婚”现象悄然蔓延:无性无爱,无法离婚

中国夫妻“干婚”现象悄然蔓延:无性无爱,无法离婚

李月亮
2026-04-04 20:55:03
美媒:获救美国飞行员已被送往科威特

美媒:获救美国飞行员已被送往科威特

新华社
2026-04-05 15:03:02
李亚鹏直播笑着回应助手否认收标哥豪车或捐款:这种鬼话你也信?

李亚鹏直播笑着回应助手否认收标哥豪车或捐款:这种鬼话你也信?

南方健哥
2026-04-05 10:43:49
赵心童生死战!冲136万冠军奖金,阻击小特2纪录,NO.1之争打响!

赵心童生死战!冲136万冠军奖金,阻击小特2纪录,NO.1之争打响!

刘姚尧的文字城堡
2026-04-05 07:42:58
清明念思!邢李㷧离世后林青霞消失半年再亮相,一番感悟看哭众人

清明念思!邢李㷧离世后林青霞消失半年再亮相,一番感悟看哭众人

李健政观察
2026-04-05 14:18:44
广州南站突发!64岁大叔狂喝水后心跳骤停,医生提醒

广州南站突发!64岁大叔狂喝水后心跳骤停,医生提醒

番禺台
2026-04-05 18:22:03
异性对你有这种行为,别再联系了,纯属消耗

异性对你有这种行为,别再联系了,纯属消耗

加油丁小文
2026-03-31 07:30:03
大量游客滞留云南玉龙雪山山顶数小时,现呕吐失温症状,景区:给予游客索道退票处理

大量游客滞留云南玉龙雪山山顶数小时,现呕吐失温症状,景区:给予游客索道退票处理

潇湘晨报
2026-04-05 14:59:15
陈光标称,卖劳斯莱斯捐了1000万元。“张雪先生迟迟未来见面提车,特此将车辆变现资金捐赠给嫣然医院”

陈光标称,卖劳斯莱斯捐了1000万元。“张雪先生迟迟未来见面提车,特此将车辆变现资金捐赠给嫣然医院”

都市快报橙柿互动
2026-04-05 16:58:33
伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

伊朗军方:美军营救飞行员“任务失败” 多架飞机被击落

界面新闻
2026-04-05 14:37:11
2026-04-05 20:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12681文章数 142613关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

AI替去世儿子撒了最后一次谎:等我赚到钱就回来孝顺你

头条要闻

AI替去世儿子撒了最后一次谎:等我赚到钱就回来孝顺你

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

艺术
家居
亲子
数码
手机

艺术要闻

王少伦 风景油画选刊

家居要闻

温馨多元 爱的具象化

亲子要闻

清明时节,混血姐弟俩今天不比武,背诵古诗!

数码要闻

小米免费送10万个SU7定制直饮杯:小米之家、小米商城可领

手机要闻

澎湃OS再次公布进展通报:背屏拍照bug已修,但还有9个问题没修!

无障碍浏览 进入关怀版