网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东惨败上海后对上北控,胡明轩反弹,焦泊乔拉胯,杜锋批评徐杰

广东惨败上海后对上北控,胡明轩反弹,焦泊乔拉胯,杜锋批评徐杰

邹维体育
2026-01-17 20:28:05
李湘多个平台账号被禁止关注

李湘多个平台账号被禁止关注

界面新闻
2026-01-16 10:56:48
罗永浩需要为西贝预制菜风波担责?律师解读

罗永浩需要为西贝预制菜风波担责?律师解读

中新经纬
2026-01-17 00:25:19
立首功!台湾姑娘10人到呆呆家,一句“我们团圆了”,全网泪目

立首功!台湾姑娘10人到呆呆家,一句“我们团圆了”,全网泪目

李健政观察
2026-01-17 09:33:18
米娜酒后直播耍酒疯,先脱衣服后劈叉,粉丝刷礼物后大方展示身材

米娜酒后直播耍酒疯,先脱衣服后劈叉,粉丝刷礼物后大方展示身材

新游戏大妹子
2026-01-17 13:16:15
李亚鹏必须道歉,否则房租涨价也不会租给他了,房东最新回应

李亚鹏必须道歉,否则房租涨价也不会租给他了,房东最新回应

汉史趣闻
2026-01-17 17:40:36
U23国足半场零封对手!李昊两扑必进球,媒体人集体盛赞

U23国足半场零封对手!李昊两扑必进球,媒体人集体盛赞

奥拜尔
2026-01-17 20:20:47
套上政治紧身衣,贾国龙却输得没了内裤

套上政治紧身衣,贾国龙却输得没了内裤

老萧杂说
2026-01-17 02:44:11
王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

娱说瑜悦
2026-01-14 20:38:46
下周一1月19日,持有这些个股的要小心了(附个股点评)

下周一1月19日,持有这些个股的要小心了(附个股点评)

股市皆大事
2026-01-17 15:49:32
关窗!关窗!马上抵达广州!广州市民挺住…

关窗!关窗!马上抵达广州!广州市民挺住…

羊城攻略
2026-01-16 22:32:23
风暴眼丨实探西贝:贾国龙赌上一切,员工称“我们只能服从”

风暴眼丨实探西贝:贾国龙赌上一切,员工称“我们只能服从”

凤凰网财经
2026-01-16 21:11:28
聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

聂卫平生前收入不菲,收入主要来源4部分,恐给子女留丰厚遗产!

古希腊掌管松饼的神
2026-01-16 17:04:41
成都警方通报一起金店被盗案:已抓获5名嫌疑人,赃物全部追回

成都警方通报一起金店被盗案:已抓获5名嫌疑人,赃物全部追回

澎湃新闻
2026-01-16 22:15:03
阿房宫最新考古成果佐证“秦亡于奢”

阿房宫最新考古成果佐证“秦亡于奢”

新华社
2026-01-16 21:25:17
36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

36年前陈宝国主演的盗墓恐怖片!尺度大到少儿不宜

释凡电影
2025-08-14 09:33:19
免税结束,车市“凉凉”?

免税结束,车市“凉凉”?

汽车公社
2026-01-15 08:43:51
胡萝卜立大功!医生发现:常吃胡萝卜的老人,或能收获这4个益处

胡萝卜立大功!医生发现:常吃胡萝卜的老人,或能收获这4个益处

全球军事记
2025-12-07 09:53:26
周末有大消息,10万亿度!电力设备,或进入超级大周期(附名单)

周末有大消息,10万亿度!电力设备,或进入超级大周期(附名单)

花小猫的美食日常
2026-01-17 13:47:32
格陵兰岛本就不是丹麦的!从历史根儿上算,真正归属早有定论

格陵兰岛本就不是丹麦的!从历史根儿上算,真正归属早有定论

福建平子
2026-01-12 10:33:34
2026-01-17 21:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12023文章数 176360关注度
往期回顾 全部

游戏要闻

LPL赛事热度暴跌引热议:再拿个国际赛冠军能救吗?

头条要闻

公司今年涨20元月薪给员工发致歉信 已连续37年涨薪

头条要闻

公司今年涨20元月薪给员工发致歉信 已连续37年涨薪

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

艺术
本地
房产
公开课
军事航空

艺术要闻

雪白的世界 | 乌克兰著名画家斯捷潘·科列斯尼科夫

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京谈及当前国际局势:世界太危险了

无障碍浏览 进入关怀版