网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

辛芷蕾五一节和闺蜜自驾游,骑着10万元的自行车,还撞树手臂流血

黔乡小姊妹
2026-05-03 08:22:39
“富人才不会把女儿养这么胖”,家长晒女儿喝60元矿泉水,被群嘲

“富人才不会把女儿养这么胖”,家长晒女儿喝60元矿泉水,被群嘲

番外行
2026-04-22 14:51:19
张雪再夺冠后发声:谁不服?

张雪再夺冠后发声:谁不服?

扬子晚报
2026-05-02 22:01:58
7岁女孩独自走6公里上学,只有小狗相伴引发关注。

7岁女孩独自走6公里上学,只有小狗相伴引发关注。

一丝不苟的法律人
2026-04-27 14:58:35
“黉门学子”不要再读“huáng mén xué zǐ”,丢不起那个人!

“黉门学子”不要再读“huáng mén xué zǐ”,丢不起那个人!

未央看点
2026-05-03 07:06:31
荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

荒唐的斯威士兰:集中10万少女贡献国王选妃,国民平均寿命35岁

春秋砚
2026-04-25 17:15:06
突发!西安上空现不明物,持续1小时后消失,专家猜想来了

突发!西安上空现不明物,持续1小时后消失,专家猜想来了

西昆仑Bruce
2026-05-02 16:41:16
副总理田纪云回忆政治生涯:我提拔过很多人,没听说谁因贪腐落马

副总理田纪云回忆政治生涯:我提拔过很多人,没听说谁因贪腐落马

大运河时空
2026-03-25 09:25:03
委内瑞拉代总统干了什么,换下马杜罗后整个国家蒸蒸日上?

委内瑞拉代总统干了什么,换下马杜罗后整个国家蒸蒸日上?

错过美好
2026-05-02 14:40:24
首轮爆冷出局!Shams:约基奇不考虑离队 他将会与掘金续约

首轮爆冷出局!Shams:约基奇不考虑离队 他将会与掘金续约

北青网-北京青年报
2026-05-02 21:13:26
国家出手!37岁女明星被行拘,官媒发文怒批,一点都不值得同情

国家出手!37岁女明星被行拘,官媒发文怒批,一点都不值得同情

橙星文娱
2026-04-21 12:46:18
巴塞罗那2-1奥萨苏纳 领先皇马14分

巴塞罗那2-1奥萨苏纳 领先皇马14分

上游新闻
2026-05-03 09:56:07
文班亚马:戈贝尔在我的成长道路上扮演了重要角色 他是我的榜样

文班亚马:戈贝尔在我的成长道路上扮演了重要角色 他是我的榜样

北青网-北京青年报
2026-05-02 21:14:11
后续!沈女士道歉已晚!3万评论一边倒,打工人破防:别赶尽杀绝

后续!沈女士道歉已晚!3万评论一边倒,打工人破防:别赶尽杀绝

水泥土的搞笑
2026-05-02 19:10:27
过了六十岁,如果你还有八九十岁的父母健在,千万别热心包办他们的这两件事,不然最后吃力不讨好的准是你

过了六十岁,如果你还有八九十岁的父母健在,千万别热心包办他们的这两件事,不然最后吃力不讨好的准是你

心理观察局
2026-05-03 08:29:04
释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

释永信被一女子爆料:她们姐妹住少林寺3天,争着往释永信房间跑

江山挥笔
2026-03-23 15:40:31
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
为什么老人宁肯把钱存银行吃微薄的利息,也不原因给子孙花钱?

为什么老人宁肯把钱存银行吃微薄的利息,也不原因给子孙花钱?

暖风吹过竹林
2026-05-03 09:56:21
73岁老头 马琳恩师,代表斐济出战世乒赛,全场只拿8分,0-3脆败喀麦隆。大家觉得王琦老师的水平有1600吗?

73岁老头 马琳恩师,代表斐济出战世乒赛,全场只拿8分,0-3脆败喀麦隆。大家觉得王琦老师的水平有1600吗?

最爱乒乓球
2026-05-03 09:05:43
演员陈学冬:11部作品被下架,两年4次手术,今35岁生活无法自理

演员陈学冬:11部作品被下架,两年4次手术,今35岁生活无法自理

以茶带书
2026-04-03 19:40:21
2026-05-03 10:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12568文章数 176460关注度
往期回顾 全部

游戏要闻

魔兽世界:TBC周年服P2阶段必入的命中装备,你觉得哪款最强?

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
本地
旅游
时尚
房产

家居要闻

灵动实用 生活艺术场

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

勇立潮头大湾区丨澳琴联游:双城通关的“极限”体验

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

无障碍浏览 进入关怀版