网易首页 > 网易号 > 正文 申请入驻

谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战

0
分享至

机器之心报道

编辑:陈萍

一场激动人心的 AI 国际象棋比赛即将开幕。

看够了研究者们天天在论文上刷新基准,是时候拉模型出来遛一遛,性能是不是真如传说中的碾压全场?

太平洋时间 8 月 5 日至 7 日,一场为期 3 天的 AI 国际象棋比赛让人无比期待。

开局第一天,就有 8 款前沿 AI 模型展开对决:

参与比赛的模型包括:

  • o4-mini(OpenAI)
  • DeepSeek-R1(DeepSeek)
  • Kimi K2 Instruct(月之暗面)
  • o3(OpenAI)
  • Gemini 2.5 Pro(谷歌)
  • Claude Opus 4(Anthropic)
  • Grok 4(xAI)
  • Gemini 2.5 Flash(谷歌)

直播地址:https://www.youtube.com/watch?v=En_NJJsbuus

这次参赛方都是 AI 界模型顶流(包括两款中国的开源模型),对战双方的性能也旗鼓相当。

组织方还邀请了世界顶级国际象棋专家担任解说,可谓是诚意满满。

这场比赛主要基于Kaggle Game Arena,这是谷歌推出的一个全新的、公开的基准测试平台,在这里,AI 模型可以在策略游戏(如国际象棋和其他游戏中)中展开正面交锋,一决高下。

为了确保透明性,游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制(all-play-all)确定,每对模型进行大量对战来确保统计结果的可靠性。

诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示:「游戏一直是检验 AI 能力的重要试炼场(包括我们在 AlphaGo 和 AlphaZero 上的研究),而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战,我们预计 AI 的能力将会快速提升! 」

「Kaggle Game Arena ,这个全新的排行榜平台,在这里,AI 系统彼此对战,随着模型能力的提升,比赛难度也将不断升级。 」

至于为什么要组织这场比赛,谷歌博客是这么介绍的:当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用,但对于那些在互联网上训练出来的模型,我们很难判断它们是在真正解决问题,还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分,这些测试在区分模型性能上的作用也逐渐减弱。

因此,在持续发展现有基准测试的同时,研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。

比赛介绍

Game Arena 平台上的每款游戏均设有详情页,用户可查看:

  • 实时更新的比赛对阵表;
  • 动态排行榜数据;
  • 该游戏对应的开源环境代码及测试框架技术文档。

用户还可以实时查看对阵表:

对阵表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。

赛制说明

本次比赛采用单败淘汰制,每场对决包含四局比赛。先获得两分的模型晋级(胜一局得 1 分,平局各得 0.5 分)。若对局最终打成 2–2 平,将加赛一局决胜负,在这局中,执白方必须获胜才能晋级。

具体赛程安排

  • 8 月 5 日(首日):8 款模型进行 4 场对决(每场 4 局)
  • 8 月 6 日(次日):晋级的 4 款模型进行 2 场半决赛
  • 8 月 7 日(决赛日):终极冠军争夺战

比赛规则

由于当前大模型对文本表达更为擅长,因此该比赛从基于文本输入的方式开始进行比赛。

以下是对执行框架的简要说明:

  • 模型无法使用任何外部工具。例如,它们不能调用 Stockfish 等国际象棋引擎来获得最优走法。
  • 模型不会被告知当前局面下的合法走法列表。
  • 如果模型给出了一步不合法的走法,举办方将给予它最多 3 次重试机会。若在总共 4 次尝试中仍未提交出合法走法,则本局游戏终止,并记为该模型负,对手胜。
  • 每步棋有 60 分钟的超时限制。

在比赛过程中,观众将能够看到每个模型是如何推理自己的走法,以及它们在面对非法走法后的自我纠正过程。

大家都已经迫不及待地想要看比赛结果了。

更多比赛方式请参考:https://www.kaggle.com/game-arena

离首场比赛开始时间还有 14 小时,可以开始期待了。你觉得最终赢家会是哪个模型呢?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗民众组成人链保护发电厂和桥梁

伊朗民众组成人链保护发电厂和桥梁

界面新闻
2026-04-07 22:42:24
李小林被查!铁血军魂不许玷污一声惊雷,又一只“老虎”应声落马

李小林被查!铁血军魂不许玷污一声惊雷,又一只“老虎”应声落马

触摸史迹
2026-04-07 18:20:41
安徽失联女童已遇害,凶手是邻居,指认现场曝光,父亲悲痛发声

安徽失联女童已遇害,凶手是邻居,指认现场曝光,父亲悲痛发声

180视角
2026-04-07 17:29:19
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

共工之锚
2026-04-08 00:37:29
广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

广东一家制衣厂仅有一位男员工,百余名女同事围着轮流投喂呵护

捣蛋窝
2026-04-07 13:22:20
苏莱曼尼亲属在美被捕的新闻,揭开了“离岸爱国”的内幕

苏莱曼尼亲属在美被捕的新闻,揭开了“离岸爱国”的内幕

清书先生
2026-04-07 17:40:31
伊朗发布美军士兵遗体照:在一架坠毁运输机残骸中发现,这是特朗普“可耻失败的又一证据”

伊朗发布美军士兵遗体照:在一架坠毁运输机残骸中发现,这是特朗普“可耻失败的又一证据”

都市快报橙柿互动
2026-04-06 14:32:22
山东旋转门事件升级!官媒怒批,知情人曝猛料,不止道歉这么简单

山东旋转门事件升级!官媒怒批,知情人曝猛料,不止道歉这么简单

奇思妙想草叶君
2026-04-07 20:12:16
A股:周二夜晚突发2大消息!A股明天要迎更大暴风雨行情吗?

A股:周二夜晚突发2大消息!A股明天要迎更大暴风雨行情吗?

风风顺
2026-04-08 03:00:03
比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

细说职场
2026-04-07 11:32:47
标价近20万的红宝石戒指,上海老夫妻花了不到3万买下,却被店主尾随跟踪并告上法庭!法院判了→

标价近20万的红宝石戒指,上海老夫妻花了不到3万买下,却被店主尾随跟踪并告上法庭!法院判了→

纵相新闻
2026-04-07 08:40:07
美军“拯救飞行员”,差一点就失败了

美军“拯救飞行员”,差一点就失败了

中国新闻周刊
2026-04-07 16:42:40
张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

张雪公布自己设计的跨界踏板车设计图,最新回应:正在制作踏板摩托,这款踏板偏运动越野风格,售价可能比传统的贵一点

鲁中晨报
2026-04-07 17:13:05
形势开始大变!西方媒体集体改口:中国已无需再向世界证明什么

形势开始大变!西方媒体集体改口:中国已无需再向世界证明什么

兴史兴谈
2026-04-07 02:48:51
特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

观察者网
2026-04-07 14:42:00
美国驻巴林使馆建议在巴美国人就地避难

美国驻巴林使馆建议在巴美国人就地避难

界面新闻
2026-04-07 23:22:45
嗜血猪周期,前所未有

嗜血猪周期,前所未有

巨潮WAVE
2026-04-07 15:01:33
美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

美军新型PrSM导弹首次实战?2月28日击中伊朗体育馆致21名青少年遇难

网易新闻出品
2026-04-07 16:36:53
“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

极目新闻
2026-04-07 12:39:33
重磅!慢特病新规4月1日实施:13种病报销比例高达95%

重磅!慢特病新规4月1日实施:13种病报销比例高达95%

老特有话说
2026-04-07 20:47:38
2026-04-08 03:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12701文章数 142616关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普:伊朗人愿为自由承受轰炸

头条要闻

特朗普:伊朗人愿为自由承受轰炸

体育要闻

斯洛特:去年我们在巴黎配得上输个0-4,比上周六踢曼城更配

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

家居
教育
时尚
旅游
军事航空

家居要闻

雅致惬意 感知生活之美

教育要闻

这位学生自制的学具你见过吗?

120元和120分钟,哪个更奢侈?

旅游要闻

废弃“老北京景观”能否随意搬回家

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版