网易首页 > 网易号 > 正文 申请入驻

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。

o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限。

具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。

如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。

还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。

经典小游戏成为新Benchmark

o3-pro挑战的这两个游戏,出自一套名为Lmgame的benchmark,顾名思义就是让大模型玩游戏。

o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。

不过这次o3-pro直接把所有关卡都通了,颇有种“得一百分是因为卷面只有一百分”的感觉。

但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。

而在o3-pro挑战之前,表现最好的是o3,o4-mini紧随其后,再然后是DeepSeek-R1的最新版本(0528)。

俄罗斯方块的得分计算方式则是将放置的方块数量与清除行数的10倍相加,直到游戏结束。

在o3-pro之前,表现最好的模型同样是o3,但后面R1和o4-mini的排名和推箱子相比交换了位置。

不过在时间上,o3-pro的操作相当耗时,每走一步都要花上好几分钟。

另外还有网友认为,如果让大模型编写程序而不是直接挑战,结果可能会更好。

除了o3-pro玩的推箱子和俄罗斯方块,Lmgame中还包括四款游戏——2048、糖果传奇、马里奥兄弟和逆转裁判。

测试过程中通过一种迭代交互循环模式进行,游戏环境会持续地向大模型提供游戏状态,模型根据状态生成动作,这些动作随后在游戏环境中被执行,并根据执行结果计算奖励,接着游戏状态会更新以进行下一轮决策。

同时还引入了智能体框架作为辅助工具,其中包含了感知、记忆、推理等模块;为了确保评估结果的稳定性和可比性,该模式还实施了提示标准化,以减少提示提示词带来的性能波动。

根据游戏的特性和规则,具体到每个游戏的评价方式也有所区别:

  • 超级马里奥兄弟:衡量标准是马里奥在所有关卡中累积的水平移动距离(以游戏单位计算),直到失去所有三条生命或完成最终关卡为止。
  • 2048:评估指标是所有合并方块值的总和,记录直到棋盘停滞(连续十回合没有合并或棋盘变化)为止,取以2为底的对数后乘10即为最终分数。
  • 糖果传奇:评价标准是在固定的 50 回合内消除的糖果总数。
  • 逆转裁判:通过所有案件关卡中正确动作(例如提交证据、选择对话)的总计数来衡量,直到犯下五次错误决策(即生命值用尽)为止。

不过这些游戏表现的衡量标准当中,都没有将时间作为考量因素。

另外这套benchmark是开源的,有兴趣的话也可以自己下载下来对模型进行测试。

还有网友留言说想看宝可梦的结果,团队表示马上安排。

说到宝可梦,Gemini一直在全网直播当中进行挑战,并且在今年5月初成功通关了宝可梦·蓝。

当时谷歌CEO劈柴哥第一时间兴奋官宣,还放出了通关时刻的珍贵影像:

大模型竞技场顾问课题组出品

这个项目来自UCSD的Hao AI Lab,附属于USCD的机器学习系统实验室和NLP实验室,负责人是Halıcıoğlu数据科学研究所的助理教授张昊。

张昊本硕博分别就读于华南理工、上海交大和卡内基梅隆大学,之后到UC伯克利从事博士后研究,结束后加入UCSD。

此外张昊也参与过创立LMSYS,并担任大模型竞技场顾问。

LMSYS是一个非营利组织,大模型竞技场和知名模型框架SGLang、vLLM都是由LMSYS研发的。

说回Hao AI Lab,该实验室创立了多个开源项目,其中GitHub星标数最多的是视频生成加速框架FastVideo,已获得1.5k星。

Hao AI Lab还接受谷歌和英伟达的资助,今年4月英伟达给该实验室捐赠了一台DGX B200。


https://x.com/haoailab/status/1933614723507106226
项目仓库:
https://github.com/lmgame-org/GamingAgent
榜单:
https://huggingface.co/spaces/lmgame/lmgame_bench
论文:
https://arxiv.org/abs/2505.15146

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一“虎”周末任上被查!副部级“内鬼”王会民被公诉,国务院免去两“虎”职务

一“虎”周末任上被查!副部级“内鬼”王会民被公诉,国务院免去两“虎”职务

上观新闻
2026-04-27 12:09:13
第一集就全裸出镜,女神新剧破格出演了

第一集就全裸出镜,女神新剧破格出演了

来看美剧
2026-04-27 16:21:10
5月1日新规落地!3项收费正式全面取消,老百姓再也不用乱花钱

5月1日新规落地!3项收费正式全面取消,老百姓再也不用乱花钱

复转这些年
2026-04-26 17:11:23
山东税务局三年录用3872人!我发现了一个残酷的真相:选对大学比考高分更重要

山东税务局三年录用3872人!我发现了一个残酷的真相:选对大学比考高分更重要

老满说高考
2026-04-26 20:05:33
真家伙!外媒:055在南海试射鹰击-20,海军反舰三巨头正式登场?

真家伙!外媒:055在南海试射鹰击-20,海军反舰三巨头正式登场?

阿凫爱吐槽
2026-04-27 21:48:18
恭喜:中国男足21岁新秀登陆欧洲,联手中超名宿,正式开启留洋

恭喜:中国男足21岁新秀登陆欧洲,联手中超名宿,正式开启留洋

国足风云
2026-04-27 19:46:16
伊朗动荡:军阀割据的前兆出现

伊朗动荡:军阀割据的前兆出现

高博新视野
2026-04-26 07:30:11
五次“末日现金”押注!巴菲特60年只出手5次,每次都在崩盘前夜

五次“末日现金”押注!巴菲特60年只出手5次,每次都在崩盘前夜

徐sir财经
2026-04-27 08:39:49
阿特金森:哈登的训练强度新秀很难跟得上,这就是顶级球星

阿特金森:哈登的训练强度新秀很难跟得上,这就是顶级球星

懂球帝
2026-04-27 16:51:06
不吐不快:车展看了9款大6座SUV,设计撞脸成常态,造车像下饺子

不吐不快:车展看了9款大6座SUV,设计撞脸成常态,造车像下饺子

周哥一影视
2026-04-26 11:27:08
大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

谈史论天地
2026-04-25 11:00:08
美光科技、闪迪、西部数据、希捷科技等美股存储股,盘前均涨约2%

美光科技、闪迪、西部数据、希捷科技等美股存储股,盘前均涨约2%

每日经济新闻
2026-04-27 18:35:09
NBA最超值合同!拿着700万年薪,季后赛场均17分,三分球联盟第1

NBA最超值合同!拿着700万年薪,季后赛场均17分,三分球联盟第1

球毛鬼胎
2026-04-27 21:56:50
俄罗斯做出巨大让步!中国30年心结了却!美媒:欧盟帮了中国大忙

俄罗斯做出巨大让步!中国30年心结了却!美媒:欧盟帮了中国大忙

健身狂人
2026-04-27 18:25:20
中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

中方必须无条件割让领土?美发话后,马来西亚叫嚣:中国放弃南海

诗酒趁的年华
2026-04-22 05:07:02
管理全靠纸上谈兵?董宇辉自曝公司近千人,太迷茫了

管理全靠纸上谈兵?董宇辉自曝公司近千人,太迷茫了

雷科技
2026-04-27 15:28:12
DeepSeek“吓崩”智谱和MiniMax,但摩根大通认为:V4打破算力束缚,是行业利好

DeepSeek“吓崩”智谱和MiniMax,但摩根大通认为:V4打破算力束缚,是行业利好

华尔街见闻官方
2026-04-27 09:59:20
多国反对,中国专机抵美,G20 峰会出现变故,80岁总统硬刚特朗普

多国反对,中国专机抵美,G20 峰会出现变故,80岁总统硬刚特朗普

知鉴明史
2026-04-26 17:15:14
郑丽文坦言:如国民党无法扭转乾坤,台湾等不到2028“和平选举”

郑丽文坦言:如国民党无法扭转乾坤,台湾等不到2028“和平选举”

阿凫爱吐槽
2026-04-27 09:52:14
内分泌科主任:糖尿病最危险信号,不是口渴,是频繁出现4异常

内分泌科主任:糖尿病最危险信号,不是口渴,是频繁出现4异常

垚垚分享健康
2026-04-27 15:02:26
2026-04-27 22:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12544文章数 176458关注度
往期回顾 全部

游戏要闻

太有感觉了 假如《GTA6》主菜单会随时间天气变化

头条要闻

水库放水21人被困下游河滩 有人让家人踩肩头爬树避险

头条要闻

水库放水21人被困下游河滩 有人让家人踩肩头爬树避险

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

科技要闻

DeepSeek V4上线三天,第一批实测出来了

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

时尚
本地
旅游
房产
军事航空

盛放之日·春启颐和:满园春色“想开了”

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

旅游要闻

【开局之年看中国·遇见不一样的江苏】美食、NPC、古风演艺一站式打卡,在这里解锁南京文商旅融合新姿势

房产要闻

信号!海南商业版图,迎来大变局!

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版