网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
队史首次3-1被翻盘!3名首发合计得0分,马祖拉不会用人害死绿军

队史首次3-1被翻盘!3名首发合计得0分,马祖拉不会用人害死绿军

听我说球
2026-05-03 10:48:33
汤尤杯战报:世界第一出战,国羽扳回一城!汤杯赛程出炉梁王压轴

汤尤杯战报:世界第一出战,国羽扳回一城!汤杯赛程出炉梁王压轴

求球不落谛
2026-05-03 18:10:44
国乒男团输惨了!26年不败纪录告破,王皓该下课了

国乒男团输惨了!26年不败纪录告破,王皓该下课了

田心生活
2026-05-03 20:05:04
寿命与起夜次数有关?研究发现:寿命长的人,每晚起夜在这个次数

寿命与起夜次数有关?研究发现:寿命长的人,每晚起夜在这个次数

岐黄传人孙大夫
2026-05-03 14:05:03
傅园慧凌晨1点骑电动车回家,30岁未婚不恨嫁,在浙大当游泳老师

傅园慧凌晨1点骑电动车回家,30岁未婚不恨嫁,在浙大当游泳老师

椰黄娱乐
2026-05-03 14:21:06
频繁旅行的老人,不管当时玩得多开心多自在,晚年都会被“反噬”

频繁旅行的老人,不管当时玩得多开心多自在,晚年都会被“反噬”

小马达情感故事
2026-05-03 20:45:03
让人眼红!河南一新晋副教授自曝薪资,月薪10529元、到手8000多

让人眼红!河南一新晋副教授自曝薪资,月薪10529元、到手8000多

火山詩话
2026-05-03 06:44:13
2026年一季度江苏各市GDP 苏州破6400亿 宿迁增速狂飙

2026年一季度江苏各市GDP 苏州破6400亿 宿迁增速狂飙

天命生商
2026-05-03 17:35:02
波尔图庆祝夺冠时从高台上往下扔了一个西瓜,差点把保安砸到

波尔图庆祝夺冠时从高台上往下扔了一个西瓜,差点把保安砸到

懂球帝
2026-05-03 11:09:33
蔚来遭索赔2.5亿美元!

蔚来遭索赔2.5亿美元!

新浪财经
2026-05-01 15:12:36
大佬出手,“蓝皮绿骨”急表态!郑丽文这才看清,究竟谁是真朋友

大佬出手,“蓝皮绿骨”急表态!郑丽文这才看清,究竟谁是真朋友

王姐懒人家常菜
2026-05-03 11:36:19
伦敦世乒赛:触底反弹!张本智和3:1,松岛辉空拒绝连败3:0取胜

伦敦世乒赛:触底反弹!张本智和3:1,松岛辉空拒绝连败3:0取胜

国乒二三事
2026-05-03 16:12:45
卢靖姗带女儿杭州游玩,4岁女儿正面曝光,五官立体精致很像韩庚

卢靖姗带女儿杭州游玩,4岁女儿正面曝光,五官立体精致很像韩庚

贾妈的幸福生活
2026-05-03 16:27:09
53岁叶檀首谈遗嘱:抗癌四年化疗十五次,父亲离世无子女

53岁叶檀首谈遗嘱:抗癌四年化疗十五次,父亲离世无子女

梦想总会变成真
2026-05-03 15:20:36
著名演员金玉婷辟谣:我没有疯没有死,老公是妈妈帮我找的

著名演员金玉婷辟谣:我没有疯没有死,老公是妈妈帮我找的

细品名人
2026-05-03 06:09:32
今日金价,大家要有心理准备了,金价或将迎来大风暴

今日金价,大家要有心理准备了,金价或将迎来大风暴

花小猫的美食日常
2026-05-03 01:38:36
黄金跌价,2026年05月3日,国内各大金店品牌黄金、足金最新价格

黄金跌价,2026年05月3日,国内各大金店品牌黄金、足金最新价格

生活新鲜市
2026-05-03 19:54:37
赵又廷一家三口五一出游,46岁高圆圆体态真好,散步都像在走台步

赵又廷一家三口五一出游,46岁高圆圆体态真好,散步都像在走台步

八怪娱
2026-05-02 14:14:03
5月3日俄乌:泽连斯基已经放弃对美国的期待

5月3日俄乌:泽连斯基已经放弃对美国的期待

山河路口
2026-05-03 18:09:31
上海有钱人家女佣条件曝光:月薪2万,藏着太多羞于说出口的秘密

上海有钱人家女佣条件曝光:月薪2万,藏着太多羞于说出口的秘密

奇思妙想生活家
2026-04-30 12:51:28
2026-05-03 21:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12572文章数 176460关注度
往期回顾 全部

游戏要闻

《深海迷航2》将于5月9日晚11点举行特别直播

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

头条要闻

美国空军C-17运输机降落北京 中美开启一连串密集互动

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
游戏
旅游
手机
公开课

数码要闻

华为5A最新支持设备清单公布,含Pura X Max、畅享90系列等

艾欧尼亚杯决赛日:鏖战五局!QS勇夺冠军

旅游要闻

文旅升温乐享假期!乌当偏坡布依族乡多彩活动点亮“五一”假期

手机要闻

4月安卓性能榜出炉:iQOO 15/15 Ultra包揽前二!前十仅1款天玑

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版