网易首页 > 网易号 > 正文 申请入驻

AI跑分越来越没意义,谷歌说不如让AI一起玩游戏

0
分享至

时隔八年,在生成式人工智能问世之后,谷歌又搞了一次“AI棋王争霸赛”,OpenAI o4-mini、DeepSeek-R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美两国AI业界的顶流模型,将捉对厮杀。


据谷歌方面介绍,此次比赛旨在通过策略游戏中的正面交锋,评估并推动AI模型在复杂推理和决策能力上的进步,从而解决现有基准测试难以跟上模型发展速度的问题。同时他们此次赛事也是为了宣传自己的Kaggle Game Arena平台,而后者则是谷歌推出的一个全新的、公开的基准测试平台。


与目前常规的AI基准测试不同,Kaggle Game Arena的测试题目是“策略游戏”。谷歌之所以推出一个让AI玩游戏的平台,是因为当下传统的AI基准测试已经陷入瓶颈,难以反映旗舰模型的真实能力。简单来说,或为名、或为利的AI厂商,已经将各种AI基准测试给玩坏了,所以作为业界巨头,谷歌选择站出来正本清源。

其实在这一轮AI浪潮中,“钱不值钱了”是一个很特别的现象。以往独角兽通常指的是成立时间较短,估值超过10亿美元、且未上市的科技创新企业。可现在只要创始人有一定的技术背景,一家AI初创企业拿到10亿美元的估值几乎像吃饭喝水一样简单。

甚至出现了Builder.ai这种宣称人工智能编程,实际上全靠印度程序员手写代码的骗子公司。对于这一现象,金融业给出的答案是他们对AI革命可能会带来的机遇“错失恐惧”(FOMO),并促使其挥舞着钞票投向一切像模像样的AI公司,因此也造就了围绕AI的非理性繁荣。


如此一来,创业者利用弥漫在投资市场的AI FOMO情绪推高公司估值也在情理之中。那么,要如何让自己的AI初创公司变得更有价值呢?由于当下的AI技术实在过于高深,投资者们判断一家AI公司实力的方法很简单,跑分高的就是好标的。

“不服跑个分”顺势也就成为了一众AI企业宣传自己产品的核心手段,如果有经常关注AI相关消息,想必就会对LMArena基准测试、大模型竞技场Chatbot Arena等榜单不陌生。当跑分成绩与融资捆绑在一起,一个让数码爱好者、手游玩家熟悉的操作也开始浮出水面,那就是“刷榜”。


目前市面上评测大模型能力的基准测试可谓五花八门,主要包括知识推理、数学和编程。以知名AI开源社区HuggingFace出品的榜单为例,其主要是评测大模型遵循指令的能力,以及AI模型在长文本中进行多步骤推理能力等方面。

与PC上的3DMark、手机上的安兔兔一样,AI基准测试也是通过设定一系列客观且可复现的场景,来测试AI模型在不同领域的能力。然而为了可复现和一致性,AI基准测试自然就会缺乏灵活性,所以也就有了“刷榜”的空间。AI模型通过自身的记忆能力在一次次测试中记下基准测试数据集中的题目,然后再针对性的进行训练,最终就可以跑出高分。


例如在GSM8K、MATH等测试AI模型数学能力的测试集中,GPT-4o、Gemini 1.5 Pro等模型动辄就能获得80%以上的超高正确率,甚至还出现了基准测试一方主动配合AI厂商刷榜的情况。此前在今年春季,Meta的新一代开源模型Llama 4史诗级翻车,出现了跑分力压群雄,实际表现却一言难尽的情况。对此就有AI研究人员发现,Llama4在发布前针对大模型竞技场Chatbot Arena测试了27个不同版本,却只公开了最佳成绩。

由此不难发现,基准测试已经变得越来越难以衡量AI模型,特别是拥有目前最高水平的“State-of-the-Art”模型。因此谷歌就开发了Kaggle Game Arena,搞了场“AI国际象棋棋王争霸赛”来作为擂台,让各大厂商的旗舰模型有秀出上限的机会。


那么为何谷歌会选择游戏来作为测试大模型能力的场景呢?按照他们的说法,游戏这种在既定规则下的随机,非常适合衡量AI的智能,有明确的规则约束AI,就使得它不会放飞自我,足够强的随机性又能让其展现出能力上限。此外,游戏也具备结果可衡量、过程可视化、推理可验证,以及零和博弈的特点。

事实上,游戏与AI业界有着密不可分的关系。以OpenAI为例,对于普通人而言,这个名字走入视野是因为划时代的ChatGPT,而对于《DOTA2》的玩家来说,OpenAI在2019年就给他们留下了难以磨灭的印象。彼时,OpenAI的OpenAI Five程序轻而易举地击败了冠军战队OG,初步向外界证明了AI不仅征服了棋类对弈,在更复杂的电子竞技游戏中也能压倒人类。


根据前OpenAI首席科学家Ilya Sutskever与黄仁勋对话时的说法,通过为《DOTA2》开发OpenAI Five,OpenAI的训练模式从“强化学习”转变为了“基于人类反馈的强化学习(RLHF)”,而后者就正是ChatGPT表现出比以往AI产品更为智能的关键。

如果AI可以打好游戏,不仅可以证明智能水平,而且也有极高的商业化前景。要知道游戏厂商可是做梦都想要获得更智能的NPC,用来提升玩家体验的。

【本文图片来自网络】

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华裔富豪包养68名情妇,欲娶外甥女为妻,被自己姐夫剁成108块

华裔富豪包养68名情妇,欲娶外甥女为妻,被自己姐夫剁成108块

历史八卦社
2023-11-25 07:05:03
嘎子哥谢孟伟抖音账号被封禁

嘎子哥谢孟伟抖音账号被封禁

三言科技
2025-09-19 07:51:03
21天卖光俩月产能,特斯拉等来救命稻草

21天卖光俩月产能,特斯拉等来救命稻草

Tech星球
2025-09-18 12:32:13
23岁男中介带看房9分钟,女客户报警称被强奸,6个G视频揭露真相

23岁男中介带看房9分钟,女客户报警称被强奸,6个G视频揭露真相

悬案解密档案
2025-05-09 17:03:55
詹姆斯:我肯定不会再打23年,退役那天总会来只是现在还没到

詹姆斯:我肯定不会再打23年,退役那天总会来只是现在还没到

懂球帝
2025-09-19 08:07:08
台湾只有2340万人,上半年却创造3万亿GDP,与福建省相比什么水平

台湾只有2340万人,上半年却创造3万亿GDP,与福建省相比什么水平

科普100克克
2025-09-18 20:13:53
直击iPhone 17开售首日:消费者偏爱银色橙色,有黄牛加价500元收购Max 256G版本

直击iPhone 17开售首日:消费者偏爱银色橙色,有黄牛加价500元收购Max 256G版本

澎湃新闻
2025-09-19 09:46:27
他假冒军人15年,骗380万加俩老婆,给自己升官,被抓时已是少将

他假冒军人15年,骗380万加俩老婆,给自己升官,被抓时已是少将

浩舞默画
2025-09-18 08:47:27
江西反腐消息:徐勇庆被查、李云被“双开”、刘杨忠被查、吴雪平主动投案

江西反腐消息:徐勇庆被查、李云被“双开”、刘杨忠被查、吴雪平主动投案

鲁中晨报
2025-09-19 17:33:07
辛柏青没想到,《731》上映仅1天,李乃文因一特殊举动口碑暴涨

辛柏青没想到,《731》上映仅1天,李乃文因一特殊举动口碑暴涨

凡知
2025-09-19 12:25:16
哈兰德打进欧冠50球时25岁59天历史第二年轻,梅西居首姆巴佩第三

哈兰德打进欧冠50球时25岁59天历史第二年轻,梅西居首姆巴佩第三

直播吧
2025-09-19 04:40:16
2分!为何宫鲁鸣还坚持用李缘?谁注意他赛后一番话,球迷理解了

2分!为何宫鲁鸣还坚持用李缘?谁注意他赛后一番话,球迷理解了

体育就你秀
2025-09-19 16:13:54
好评如潮,热度破5000,我想说:9月压轴黑马剧出现了

好评如潮,热度破5000,我想说:9月压轴黑马剧出现了

星宿影视鸭
2025-09-19 17:59:13
利空!集体大跌

利空!集体大跌

中国基金报
2025-09-19 15:51:31
唏嘘!全红婵被体型反噬,博主:大概率半退役,陈芋汐未来天花板太高

唏嘘!全红婵被体型反噬,博主:大概率半退役,陈芋汐未来天花板太高

小椰的奶奶
2025-09-18 08:09:46
袁甲评哈维尔:真是在外边找不到工作的都来咱这骗钱了

袁甲评哈维尔:真是在外边找不到工作的都来咱这骗钱了

直播吧
2025-09-19 13:56:16
59岁王志文参加《731》路演,脸肿又垮轮廓模糊,散发一股老人味

59岁王志文参加《731》路演,脸肿又垮轮廓模糊,散发一股老人味

老吴教育课堂
2025-09-19 12:22:07
多地省级政府领导班子密集调整

多地省级政府领导班子密集调整

上观新闻
2025-09-19 14:51:23
武汉大学图书馆事件最新进展:杨景媛没去香港,她目前处境曝光

武汉大学图书馆事件最新进展:杨景媛没去香港,她目前处境曝光

平老师666
2025-09-18 12:48:37
多块查封土地竟能“人间蒸发”,司法权威在广东成为笑话

多块查封土地竟能“人间蒸发”,司法权威在广东成为笑话

几个老记者
2025-09-18 08:47:11
2025-09-19 20:04:49
三易生活 incentive-icons
三易生活
关注科技领域,我们是一家有趣、有干货的科技媒体
61737文章数 12749关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

越南最高领导层"扩员"了 干部的层级架构被大幅修改

头条要闻

越南最高领导层"扩员"了 干部的层级架构被大幅修改

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

"矿霸"填埋万吨危废 当地政府成立调查组

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

健康
游戏
房产
公开课
军事航空

内分泌科专家破解身高八大谣言

《时空之轮》30周年举办活动 SE送出鸟山明原稿!

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版