网易首页 > 网易号 > 正文 申请入驻

被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估

0
分享至

新智元报道

编辑:犀牛 好困

【新智元导读】还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。

你以为你在打游戏,其实是在给模型做评测!

就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。

现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。

在娱乐性之外,这款游戏还生成了游戏数据,在实时场景中评估AI的推理能力,从而测试模型性能不必只能依赖数学和编程基准。

GameArena团队将把所有游戏数据、评估脚本和代码公开,供进一步研究使用。

论文地址:https://arxiv.org/abs/2412.06394

项目地址:https://lmgame.org/

一经发布,很快就有网友尝鲜实测了游戏,「和朋友一起组队逃离空间站,还要齐心协力解决各种谜题和机关,真是刺激!」

该网友表示,他们在游戏中被AI机器人追得团团转,还好最后成功逃脱了,哈哈!最后他还强烈推荐大家也来试试!

还有网友表示称AI Space Escape游戏「 延迟超低,画面也清晰!」。

背景故事

在AI Space Escape游戏中,你将扮演一名在2075年,一次殖民半人马座比邻星任务中的一员。

在漫长的4.2光年旅程中,你大部分时间都在低温休眠舱中度过。直到有一天,你醒来发现飞船处于紧急封锁状态,自毁程序已经启动!

你的任务很明确:在各种场景中与AI合作或比它们更聪明,在时间耗尽之前到达逃生舱。通过与AI进行「推理游戏」中的互动解谜,你必须在压力下展现出逻辑思维和应变能力。

推理游戏

为了评估AI的推理能力并提供刺激的游戏体验,游戏设计了三个关键的「迷你推理游戏」。分别是AI Akinator、AI Taboo和AI Bluffing。

每个游戏都测试了LLM在多轮对话中连接上下文的能力。

AI Akinator(猜词游戏)这个游戏中,一些AI守卫由于系统故障无法访问门禁密码,并且他们由于系统故障只能理解「是」或者「否」的语音信息。因此你的任务是通过回答一系列「是」或者「否」的问题来帮助他们推断出密码。足够强大的LLM必须综合多轮信息,合理给出问题,有效地缩小密码可能性范围。

AI Taboo(禁忌词)游戏的规则是,在某些房间里,你可以入侵系统获取密码。但是,门禁需要进行语音验证。玩家的任务是通过巧妙地引导对话,让AI守卫说出密码而不被发现,从而智胜AI守卫。LLM必须从不完整的线索中推断出目标词,并连接多个提示中的信息,同时保持对话流畅。

AI Bluffing(虚张声势)游戏中,系统故障导致某些AI机器人无法识别你的身份。你需要通过展示你的成就和技能记录来说服它们相信你的身份。LLM在做出决定之前最多可以问五个问题。

在游戏中评估LLM

除了娱乐性之外,每次游戏会话都会为LLM提供宝贵的人类反馈,以形成游戏中的推理轨迹。

这些游戏数据被证明对评估LLM非常有效。但在深入探讨如何进行评估之前,你可能会问:为什么LLM评估如此重要?

下图2展示了截至2025年2月5日的LMSYS聊天机器人竞技场排名。

LLM正在迅速发展,变得越来越强大,并且在某些任务中经常达到甚至超越人类的表现,这就需要我们对其性能差距进行持续量化。

此外,除了在聊天应用中使用外,LLM在提高数学、编程问题的解决能力,甚至促进科学发现方面也具有巨大潜力,从而扩大了其在各个领域的影响。

这种日益增长的潜力迫切地需求一个强大的推理基准,能够有效地对下一代模型进行排名和评估。

现有基准的局限性

静态评估,如MMLU、Spider和HumanEval,提供了对特定能力的评估,但依赖于不太直观的指标,如F1、BLEU和ROUGE。此外,它们的静态性质使得这些基准更容易被LLM利用,如MT-Bench中看到的那样。

相比之下,动态评估如Chatbot Arena提供了更加直观的指标,如胜率或Elo分数,且更难被操控。然而,它们存在反馈率低(Chatbot Arena约为 4%),而且Elo评分中耦合了多种能力,这限制了它们评估特定技能的颗粒度。

Game Arena为何与众不同?

为了应对上述挑战,GameArena采用了下面几种方法。

首先,他们引入了一种激励性的、动态的基准,通过实时电脑游戏来评估许多现实生活中所需的互动和战略推理任务。

其次,整个过程涉及三个推理游戏,每个游戏针对了不同的推理能力。

最后,Game Arena采用了创新的评估方法,基于游戏结果和推理过程来评估大语言模型(LLM)的能力。

下表1展示了Akinator、 Taboo和Bluffing游戏中涉及的主要推理能力。

结果排名

GameArena的评估结果显示,良好对齐的模型具有强大的推理能力和多轮指令跟随能力,例如claude-3.5-sonnet和gemini-1.5-pro在GameArena中排名靠前。

推理模型如gemini-2.0-flash-thinking-exp-01-21、deepseek-r1和o1-mini在游戏上表现良好,但会带来轻微甚至显著更高的延迟。

模型在较短对话中表现出色但在长时间游戏会话中推理能力较差,如Mistral-Large-2,通常在GameArena中的排名靠后。

下表2显示截至2025年2月12日,游戏竞技场的模型排名情况(按三场比赛的平均分排序)。

除此之外,团队还进行了一项用户研究,比较了来自GameArena的2000多场游戏会话和Chatbot Arena中相同数量会话的用户体验和参与意愿。

结果显示,超过70%的用户更喜欢GameArena中的游戏,相比之下,只有 45%的用户表示喜欢在Chatbot Arena中做测试。超过80%的参与者对GameArena的游戏体验表示满意,而对Chatbot Arena表示满意的用户则还不到40%。

团队发现来自GameArena的游戏会话中有约87%是完整且有用的,而Chatbot Arena中仅有4%的对话提供了有意义的对话(因为其依赖于自愿参与)。

下图3展示了100名具有不同背景的用户测试结果。

「想象一下,众神正在玩一场像国际象棋一样的大游戏,而你不知道规则。你偶尔可以观察棋盘,试图推测棋子移动的规则……后来你可能会发现主教的规则是它沿对角线移动,这也能解释你之前对于规则的理解:它保持自己的颜色不变。」

这段比喻由著名物理学家理查德·费曼在1983年《有趣的想象》电视系列节目中提出,将理解物理学比作仅凭观察学习国际象棋的规则。

它说明了伟大的科学家们是如何发现自然法则的:通过观察模式并推断出背后的原理。

四十年后的今天,随着现代人工智能的到来,从AlphaFold-3到Deep Research,最先进的AI系统现在展现出颠覆科学探索的逻辑推断潜力。

归纳推理的力量正从卓越的人类大脑传递到人工智能中。

鉴于游戏和科学推理之间的相似性,一个有趣的问题开始浮现:游戏能否作为评估人工智能能力和潜力的媒介?

带着这些疑问和灵感,我们不懈地寻求对人工智能的更深入理解,以及在未来由超越人类能力的人工智能塑造的世界中,人类角色的演变。

参考资料:

https://lmgame.org/#/blog/ai_space_escape

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
数据骗了所有人:德国世界杯巴西的华丽进攻 全是靠日本队刷出来的

数据骗了所有人:德国世界杯巴西的华丽进攻 全是靠日本队刷出来的

林子说事
2026-05-28 13:47:20
网传景甜急卖460平江景大宅,两个月降价2000万,猜测凑钱赔富豪

网传景甜急卖460平江景大宅,两个月降价2000万,猜测凑钱赔富豪

科学发掘
2026-05-28 13:19:58
上海建工集团原副总裁张惠忠被查

上海建工集团原副总裁张惠忠被查

上观新闻
2026-05-28 20:34:18
队报:欧冠决赛当晚,法国将部署22000名警察维持治安

队报:欧冠决赛当晚,法国将部署22000名警察维持治安

懂球帝
2026-05-28 10:41:08
退役泳将为50万美元奖金复出,赛后承诺一分不赌全留给孩子

退役泳将为50万美元奖金复出,赛后承诺一分不赌全留给孩子

赛场名场面
2026-05-26 01:00:07
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
颠覆认知!19年研究:每周吃鸡超300克,癌症死亡风险升高127% ,尤其是男性!

颠覆认知!19年研究:每周吃鸡超300克,癌症死亡风险升高127% ,尤其是男性!

梅斯医学
2026-05-28 07:54:38
输上海3分!揪出3大“废柴”,坑惨了广厦队

输上海3分!揪出3大“废柴”,坑惨了广厦队

体育哲人
2026-05-28 23:58:40
从月销1.5万到2982辆!全新一代问界M9把BBA的饭碗端了!

从月销1.5万到2982辆!全新一代问界M9把BBA的饭碗端了!

凡兮说
2026-05-26 14:07:44
68岁胡慧中探访周璇故居,穿新中式上衣优雅体面,27岁女儿像妈妈

68岁胡慧中探访周璇故居,穿新中式上衣优雅体面,27岁女儿像妈妈

小疯子耶
2026-05-28 08:51:26
李小岳医生事件广州医科大学附属脑科医院告知书

李小岳医生事件广州医科大学附属脑科医院告知书

赢野烬
2026-05-27 16:28:05
4队大交易构想:字母哥联手库里,杜兰特辅佐爱德华兹

4队大交易构想:字母哥联手库里,杜兰特辅佐爱德华兹

林间小温柔
2026-05-29 00:29:42
殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

殷世航爆料童锦程收入,两个项目月入500万,现在存款至少1亿

新游戏大妹子
2026-05-28 11:09:05
割四赔五后续:05后夫妻含泪返乡,本地人怒曝无人接单内幕

割四赔五后续:05后夫妻含泪返乡,本地人怒曝无人接单内幕

地球记
2026-05-28 16:00:10
宏远速递!朱芳雨宣布新决定,广州放弃买断徐昕,崔永熙生日快乐

宏远速递!朱芳雨宣布新决定,广州放弃买断徐昕,崔永熙生日快乐

兰亭墨未干
2026-05-28 15:28:16
深大迎来90后副教授,今年29岁,本人不仅长得漂亮,履历更不一般

深大迎来90后副教授,今年29岁,本人不仅长得漂亮,履历更不一般

凯旋学长
2026-05-28 17:14:19
脸都打肿了!曼城 8000 万目标直接拒绝!亲口表态首选曼联

脸都打肿了!曼城 8000 万目标直接拒绝!亲口表态首选曼联

奶盖熊本熊
2026-05-28 05:24:01
小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小麦“割四赔五”续:博主直播翻车,事情传到外网,牵连整个襄阳

小鋭有话说
2026-05-27 14:17:45
暴涨700%!全球爆单!浙江有老板忙疯,一天卖了500多份

暴涨700%!全球爆单!浙江有老板忙疯,一天卖了500多份

台州交通广播
2026-05-28 08:55:33
姚明恢复代言!担任篮协主席7年推掉无数合同:拒绝违规 无私奉献

姚明恢复代言!担任篮协主席7年推掉无数合同:拒绝违规 无私奉献

念洲
2026-05-28 08:26:21
2026-05-29 01:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15329文章数 66892关注度
往期回顾 全部

游戏要闻

魔兽世界:时光服暗牧大调整,引入多种新机制,未来会爆发吗?

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

头条要闻

媒体:特朗普犯下两个致命失误 美方谈判底线持续退让

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

时尚
本地
亲子
健康
公开课

光脚、背“外卖盒”、羽毛头饰...早春秀谁赢了?

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

南大科研团队用游戏助儿童解锁“心理密码”

专家教你辨认“正规外泌体”!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版