网易首页 > 网易号 > 正文 申请入驻

信AI排行榜,不如信它们的游戏排位分数。

0
分享至


文章开头问大家一个问题,如果想知道最近哪个 AI 牛,你会怎么查?

直接上 AI 竞技场,XX 排行榜?

没错,这些是有一定参考能力。

但看完最近大模型圈的电竞比赛后,我觉得现在多一种更靠谱的办法了,那就是看——

AI 的游戏排位天梯。

前几天,Google 旗下 Kaggle 举办了首届 AI 国际象棋比赛,一共有 8 名选手参加,个个都是狠角色。

什么 Gemini 2.5 Pro、Grok 4、DeepSeek R1。。


比赛规则很简单。每场对决为“ 四局两胜制 ”,谁先拿到2分(胜1分,平0.5分)谁晋级。如果打成 2-2 平,将加赛一场绝杀局。

比赛过程中,我们还能看到这些职业选手的思考过程,看看他们如何应对对方的进攻,看待自己的失误。

结果说起来你可能不信,在众多排行榜都保持第一的 Gemini,只拿下季军。

而 GPT-o3,则以一把没输的绝对统治力,夺得冠军。


看到这,可能有差友好奇,为啥要让这些大模型下棋啊,谁赢谁输和咱有关系么?

因为国际象棋,更能让你看出 AI 的实力。

相比那些传统排行榜,国际象棋考验的是一套无法靠刷题速成的综合能力,更能展示出一个大模型的思考、涌现能力。


过去,我们要想知道哪个模型牛,主要看两种榜。

第一种就是 AI 竞技场 LMArena,可以把它理解为大模型圈的《蒙面歌王》。


你随便问个问题,它给你两个匿名模型的回答,你觉得哪个好就投哪个。


听起来很公平是吧?但它也有不少缺点。

首先圈子太小了。

我不提,可能很多人都没听过这网站。天天泡在上面投票的,不是专业的技术人员,就是一些前沿科技发烧友。

这些人的问题和对答案的主观判断,跟咱们普通人可能并不一样。

这就导致 AI 竞技场排名,更像是一种技术爱好者的口味榜,并非适合你我。


其次,嘴甜的大模型在这种模式里,很容易占便宜。

很多时候,大伙儿不会去做事实核查。

如果有一个模型说错了所有答案,但它回答地头头是道,答案很清晰,逻辑也很自洽,那它很有可能骗走一堆不该有的票数。


除了 AI 竞技场这种主观排行榜,大模型还有 MMLU Pro和 AIME 这类客观基准测试。

MMLU 全称是大规模多任务语言理解,它包含了从初中水平数理化到研究生水平的历史、科学、法律等 57 个科目,MMLU Pro 则在此基础上进一步加大难度,总之它可以迅速衡量一个模型知识面的宽度。

AIME 也类似,这是美国高中生数学竞赛体系中的一环,可以测试出大模型们的逻辑推理深度。


这两类考试的优点,都是极度客观。

但缺点也很致命。

一个大模型的 MMLU 分数高,只能说明它读过很多书,或者提前训练了题库,并不能反馈出模型的理解能力。

它可能知道“火锅瞎掉一只眼是哪一年”,但不一定能分析出火锅瞎眼对狗圈颜值会带来多大损失

而且啊,从去年开始,几个头部大模型们正确率就已超过了 80%,正不断接近于人类专家水平(89.8%),我们也很难看出这些模型之间的实力差距。


同样,AIME 只能测试一种非常线性的、基于数学公理的逻辑。

但真实世界的问题,哪有像数学题这样逻辑清晰、条件充分的。

一个在 AIME 里爆杀的大模型,或许并不擅长帮你解读电影,帮你怎么理解领导的话中话。

到这,你应该能明白 Kaggle 搞这场象棋比赛的逻辑了——

别再让 AI 考试和选秀了,到底有没有实力,直接线下真实一波就知道了。

毕竟大众普遍需要的,是一个能在复杂、多变的环境中,实时解决未知问题的大模型。


而游戏,就是一个很不错的修罗场。

因为你想在游戏里赢,光会背书没用,每一次对局都是完全不一样的。

在游戏中,你也得有大局观,不能只盯着眼前这一步,最关键的是,还得有应变能力,对手一出招,局面又会发生变化,你要会调整战术,甚至思考要不要壮士扼腕。

这些能力,在静态的考卷上是绝对测不出来的。

虽然这次比赛直播采用锦标赛形式,但最终的排行榜是由全对全系统决定,这些大模型还要幕后进行上百场比赛,最终才会出现一个动态排行榜,给大家查看排名。

国际象棋的比赛结束后,Kaggle 还会继续举办其他游戏比赛,比如扑克牌,甚至是狼人杀。

该说不说,以后的 AI 排行榜,可能会越来越刺激了。

撰文:刺猬

编辑:江江

美编:萱萱

图片、资料来源

Kaggle Game Arena Chess Exhibition Tournament 2025

2025 Kaggle Game Arena Chess Exhibition Tournament: Official Discussion Thread

Chess NewsKaggle AI Chess Exhibition Tournament LIVE

Chess Text Input Leaderboard | Kaggle

Google Kaggle 举办 AI 国际象棋锦标赛,评估领先模型的推理能力


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
匈牙利总理:乌克兰是我们的敌人

匈牙利总理:乌克兰是我们的敌人

扬子晚报
2026-02-08 16:18:53
中方报复刚开始,巴总统就递话,长和继续接管港口,美国收割失败

中方报复刚开始,巴总统就递话,长和继续接管港口,美国收割失败

感谢过往的自己
2026-02-09 00:35:14
老百姓没等来“房价如葱”,12%的房产税、20%的“遗产税”已开始

老百姓没等来“房价如葱”,12%的房产税、20%的“遗产税”已开始

巢客HOME
2026-02-06 23:50:03
1975年,蒋介石逝世,台湾新闻局发布讣告时,用了一个很扯的词语

1975年,蒋介石逝世,台湾新闻局发布讣告时,用了一个很扯的词语

简史档案馆
2026-02-08 11:05:03
房子阴气重的五个表现,难怪运势很差,用这个字化解掉!

房子阴气重的五个表现,难怪运势很差,用这个字化解掉!

神奇故事
2026-02-08 23:24:04
泰国自豪泰党宣布胜选

泰国自豪泰党宣布胜选

新华社
2026-02-08 23:50:03
法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

法官问为何不交物业费,业主反问:不交税违法,不交费违法吗

蜉蝣说
2026-02-03 16:31:54
越媒爆料:越南U23门将输给中国后,留下了深刻的心理创伤!

越媒爆料:越南U23门将输给中国后,留下了深刻的心理创伤!

邱泽云
2026-02-08 14:47:12
春晚公布名单,成龙领衔,冯巩、何云伟说相声,德云社全没上!

春晚公布名单,成龙领衔,冯巩、何云伟说相声,德云社全没上!

东方不败然多多
2026-02-08 17:21:39
利物浦前20分钟仅完成45脚传球,为14年2月以来英超主场最少

利物浦前20分钟仅完成45脚传球,为14年2月以来英超主场最少

懂球帝
2026-02-09 01:07:05
真相大白!疑微博之夜换位置女子正面曝光,和杨幂助理多细节对上

真相大白!疑微博之夜换位置女子正面曝光,和杨幂助理多细节对上

古希腊掌管月桂的神
2026-02-08 19:53:57
帕金斯:凯尔特人是联盟中最危险的球队,他们现在打得毫无压力

帕金斯:凯尔特人是联盟中最危险的球队,他们现在打得毫无压力

好火子
2026-02-09 02:18:40
上海人凌晨蹲守零下1℃街头只为299元抢到2000多元福袋

上海人凌晨蹲守零下1℃街头只为299元抢到2000多元福袋

智慧生活笔记
2026-02-08 13:43:45
员工年会抽中苹果手机变瓷砖后续:老板补发真机,主谋下场尴尬

员工年会抽中苹果手机变瓷砖后续:老板补发真机,主谋下场尴尬

观世记
2026-02-07 16:24:51
《色戒》幕后:梁朝伟拒用替身,汤唯几近崩溃,一场戏拍了13次

《色戒》幕后:梁朝伟拒用替身,汤唯几近崩溃,一场戏拍了13次

小徐讲八卦
2026-02-08 11:30:12
邮报:沃克即将成7个孩子的爹,妻子怀上了他们的第五个孩子

邮报:沃克即将成7个孩子的爹,妻子怀上了他们的第五个孩子

懂球帝
2026-02-08 16:42:22
004航母全力加速,福建舰2号舰没了,中国海军二选一,只要10万吨

004航母全力加速,福建舰2号舰没了,中国海军二选一,只要10万吨

壹知眠羊
2026-02-08 22:02:13
北京大动作!首都都市圈真来了!这5个地方身价即将暴涨!

北京大动作!首都都市圈真来了!这5个地方身价即将暴涨!

迷雾中的大眼睛
2026-02-08 23:11:39
知名国酒爆雷?纯酒精兑水,标注年份你说了算,成本10元卖899

知名国酒爆雷?纯酒精兑水,标注年份你说了算,成本10元卖899

蜉蝣说
2026-02-08 17:24:16
金价一夜大反转!2月7日最新报价,全国金价差居然离谱到这地步?

金价一夜大反转!2月7日最新报价,全国金价差居然离谱到这地步?

小鬼头体育
2026-02-08 01:35:01
2026-02-09 02:56:49
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10250文章数 489439关注度
往期回顾 全部

科技要闻

为实现雄心勃勃的计划,特斯拉开始招人

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

头条要闻

高市早苗豪赌得手保住相位 实现“双重巩固”

体育要闻

“我就是王楚钦” 王楚钦霸气指向球衣背后

娱乐要闻

金晨被罚1500后首露面,表情沉重心事重重

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

教育
时尚
房产
家居
健康

教育要闻

西交大少年班初试结果出炉!玄外又是第一!

伊姐周六热推:电视剧《成何体统》;电视剧《唐宫奇案》......

房产要闻

实景超预期呈现!三亚豪宅,再迎封面之作!

家居要闻

现代轻奢 温馨治愈系

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版