网易首页 > 网易号 > 正文 申请入驻

谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战

0
分享至

机器之心报道

编辑:陈萍

一场激动人心的 AI 国际象棋比赛即将开幕。

看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场?

太平洋时间 8 月 5 日至 7 日,一场为期 3 天的 AI 国际象棋比赛让人无比期待。

开局第一天,就有 8 款前沿 AI 模型展开对决:

参与比赛的模型包括:

  • o4-mini(OpenAI)
  • DeepSeek-R1(DeepSeek)
  • Kimi K2 Instruct(月之暗面)
  • o3(OpenAI)
  • Gemini 2.5 Pro(谷歌)
  • Claude Opus 4(Anthropic)
  • Grok 4(xAI)
  • Gemini 2.5 Flash(谷歌)

直播地址:https://www.youtube.com/watch?v=En_NJJsbuus

这次参赛方都是 AI 界模型顶流(包括两款中国的开源模型),对战双方的性能也旗鼓相当。

组织方还邀请了世界顶级国际象棋专家担任解说,可谓是诚意满满。

这场比赛主要基于Kaggle Game Arena,这是谷歌推出的一个全新的、公开的基准测试平台,在这里,AI 模型可以在策略游戏(如国际象棋和其他游戏中)中展开正面交锋,一决高下。

为了确保透明性,游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制(all-play-all)确定,每对模型进行大量对战来确保统计结果的可靠性。

诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示:「游戏一直是检验 AI 能力的重要试炼场(包括我们在 AlphaGo 和 AlphaZero 上的研究),而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战,我们预计 AI 的能力将会快速提升! 」

「Kaggle Game Arena ,这个全新的排行榜平台,在这里,AI 系统彼此对战,随着模型能力的提升,比赛难度也将不断升级。 」

至于为什么要组织这场比赛,谷歌博客是这么介绍的:当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用,但对于那些在互联网上训练出来的模型,我们很难判断它们是在真正解决问题,还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分,这些测试在区分模型性能上的作用也逐渐减弱。

因此,在持续发展现有基准测试的同时,研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。

比赛介绍

Game Arena 平台上的每款游戏均设有详情页,用户可查看:

  • 实时更新的比赛对阵表;
  • 动态排行榜数据;
  • 该游戏对应的开源环境代码及测试框架技术文档。

用户还可以实时查看对阵表:

对阵表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。

赛制说明

本次比赛采用单败淘汰制,每场对决包含四局比赛。先获得两分的模型晋级(胜一局得 1 分,平局各得 0.5 分)。若对局最终打成 2–2 平,将加赛一局决胜负,在这局中,执白方必须获胜才能晋级。

具体赛程安排

  • 8 月 5 日(首日):8 款模型进行 4 场对决(每场 4 局)
  • 8 月 6 日(次日):晋级的 4 款模型进行 2 场半决赛
  • 8 月 7 日(决赛日):终极冠军争夺战

比赛规则

由于当前大模型对文本表达更为擅长,因此该比赛从基于文本输入的方式开始进行比赛。

以下是对执行框架的简要说明:

  • 模型无法使用任何外部工具。例如,它们不能调用 Stockfish 等国际象棋引擎来获得最优走法。
  • 模型不会被告知当前局面下的合法走法列表。
  • 如果模型给出了一步不合法的走法,举办方将给予它最多 3 次重试机会。若在总共 4 次尝试中仍未提交出合法走法,则本局游戏终止,并记为该模型负,对手胜。
  • 每步棋有 60 分钟的超时限制。

在比赛过程中,观众将能够看到每个模型是如何推理自己的走法,以及它们在面对非法走法后的自我纠正过程。

大家都已经迫不及待地想要看比赛结果了。

更多比赛方式请参考:https://www.kaggle.com/game-arena

离首场比赛开始时间还有 14 小时,可以开始期待了。你觉得最终赢家会是哪个模型呢?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血型决定寿命长短?60万人研究发现:A型血或“天生”更易中风

血型决定寿命长短?60万人研究发现:A型血或“天生”更易中风

小舟谈历史
2025-10-11 09:13:30
黎智英案落槌,英国火速扩BNO港人连夜改签机票,英国签证排长队

黎智英案落槌,英国火速扩BNO港人连夜改签机票,英国签证排长队

椰青美食分享
2026-02-15 12:19:35
京媒:第1个负分清零队:国安!理由充分,或送泰山等3队负分深渊

京媒:第1个负分清零队:国安!理由充分,或送泰山等3队负分深渊

建哥说体育
2026-02-15 08:14:13
国家矿山安全监察局河南局:责令郑州煤炭工业(集团)昌泰煤炭有限责任公司停产整顿

国家矿山安全监察局河南局:责令郑州煤炭工业(集团)昌泰煤炭有限责任公司停产整顿

财联社
2026-02-15 12:48:10
体坛名将放弃中国国籍,转为美国国籍,14岁时在亚运会创造历史

体坛名将放弃中国国籍,转为美国国籍,14岁时在亚运会创造历史

米修体育
2026-01-24 12:47:31
待宰大鹅流泪引网友喊话求放过,市民只好把鹅送人,鹅真会被“吓哭”吗?专家解答来了

待宰大鹅流泪引网友喊话求放过,市民只好把鹅送人,鹅真会被“吓哭”吗?专家解答来了

大风新闻
2026-02-13 22:20:04
美国务卿:美国会提供支持,但若欧洲不改变,美国将“独自行动”

美国务卿:美国会提供支持,但若欧洲不改变,美国将“独自行动”

徐竦解说
2026-02-15 15:39:57
没钱的银行卡别乱销户!银行员工悄悄说的大实话

没钱的银行卡别乱销户!银行员工悄悄说的大实话

小蜜情感说
2026-02-15 13:30:28
前无古人后无来者!詹姆斯6大NBA历史纪录,再过100年也没人能破

前无古人后无来者!詹姆斯6大NBA历史纪录,再过100年也没人能破

毒舌NBA
2026-02-14 16:09:24
质能公式E=mc²,意味着一个粉笔头的能量足够人类喝100年开水?

质能公式E=mc²,意味着一个粉笔头的能量足够人类喝100年开水?

宇宙时空
2026-02-15 11:05:06
全新启程!张之臻斩获布里斯班挑战赛冠军

全新启程!张之臻斩获布里斯班挑战赛冠军

全网球APP
2026-02-15 13:20:26
可怜倒霉的柬埔寨西哈努克国王,一生被不同的强国当傀儡使用

可怜倒霉的柬埔寨西哈努克国王,一生被不同的强国当傀儡使用

舍长阿爷谈事
2026-02-15 14:38:57
三鹿前董事长田文华,或将2027年出狱,那些大头娃娃如今怎样了?

三鹿前董事长田文华,或将2027年出狱,那些大头娃娃如今怎样了?

谈史论天地
2026-02-11 12:50:12
王毅:支持通过对话政治解决一切地区热点

王毅:支持通过对话政治解决一切地区热点

界面新闻
2026-02-14 21:44:47
全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

李橑在北漂
2026-01-17 12:38:29
告别“小因扎吉时代”:国米已在齐沃带领下完成全面升级

告别“小因扎吉时代”:国米已在齐沃带领下完成全面升级

替补席懂王
2026-02-15 15:24:06
金松季歩 长浜みつり(长滨蜜璃)! 3月最强共演

金松季歩 长浜みつり(长滨蜜璃)! 3月最强共演

孤独的独角兽影视
2026-02-15 09:35:11
中戏再曝大瓜!网友称18级、19级考生,除名字外成绩一模一样

中戏再曝大瓜!网友称18级、19级考生,除名字外成绩一模一样

社会酱
2026-02-14 17:03:52
长春喜中1204万大奖彩民,现身领奖!

长春喜中1204万大奖彩民,现身领奖!

吉刻新闻
2026-02-14 16:34:17
你见识过那些父母的无效人脉吗?网友:简单问题硬是给复杂化

你见识过那些父母的无效人脉吗?网友:简单问题硬是给复杂化

另子维爱读史
2026-02-09 20:07:56
2026-02-15 16:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

牛弹琴:鲁比奥演讲获热烈掌声 欧洲人又被美国忽悠了

头条要闻

牛弹琴:鲁比奥演讲获热烈掌声 欧洲人又被美国忽悠了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

时尚
本地
数码
健康
公开课

推广中奖名单-更新至2026年2月3日推广

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

数码要闻

荣耀方飞介绍MagicPad 3 Pro「极客中心」

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版