网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
当初逼学校签“动物保护条约”的大学生,如今成了受害者

当初逼学校签“动物保护条约”的大学生,如今成了受害者

虔青
2026-04-22 09:06:11
为什么2026教育突然松绑了?网友:过度内卷只会影响孩子心理健康

为什么2026教育突然松绑了?网友:过度内卷只会影响孩子心理健康

另子维爱读史
2026-04-21 20:14:40
余承东:内存价格一直涨,要是扛不住了手机以后可能涨价

余承东:内存价格一直涨,要是扛不住了手机以后可能涨价

澎湃新闻
2026-04-20 16:38:26
邓小平去世后,汪东兴:“两个凡是”不是我的发明,发明人已去世

邓小平去世后,汪东兴:“两个凡是”不是我的发明,发明人已去世

覃仕勇说史
2026-04-22 12:32:45
我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

千秋文化
2026-04-20 19:55:30
不露面不知道,一露面吓一跳,这些明星怎么都老成这个样子了

不露面不知道,一露面吓一跳,这些明星怎么都老成这个样子了

孤城落日
2026-04-20 19:26:14
世锦赛:1-4到9-1,3冠王出局,16强决出11席了世界第1静候斯佳辉

世锦赛:1-4到9-1,3冠王出局,16强决出11席了世界第1静候斯佳辉

求球不落谛
2026-04-22 05:26:49
沙特大幅削减斯诺克资金投入,世界台联强势回应:在中国增加赛事

沙特大幅削减斯诺克资金投入,世界台联强势回应:在中国增加赛事

杨华评论
2026-04-21 22:29:20
许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

许家印认罪!2.4万亿窟窿,家族只拿走500亿,其余真金白银去哪了

小嵩
2026-04-20 13:52:49
炸翻全球军界!沙特怒砸120亿买断中国神装,美军彻底被踢出局

炸翻全球军界!沙特怒砸120亿买断中国神装,美军彻底被踢出局

林子说事
2026-04-22 11:33:39
重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

脆皮先生
2026-04-19 19:37:38
没有副作用,又不会上瘾的安眠药,你知道有哪些吗?

没有副作用,又不会上瘾的安眠药,你知道有哪些吗?

岐黄传人孙大夫
2026-04-21 11:30:03
选择真的大于努力!0冠凯恩去拜仁夺3冠 17冠小蜘蛛去马竞0冠

选择真的大于努力!0冠凯恩去拜仁夺3冠 17冠小蜘蛛去马竞0冠

智道足球
2026-04-21 18:12:38
果然!特朗普,彻底失控

果然!特朗普,彻底失控

新浪财经
2026-04-22 15:15:54
中国汽车市场份额:法系0.2%,韩系1%,美系6.9%,日系13%

中国汽车市场份额:法系0.2%,韩系1%,美系6.9%,日系13%

狐狸先森讲升学规划
2026-04-21 09:30:03
中方不再伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

中方不再伺候了!对荷光刻机优待全部取消,450亿芯片不做了!

错过美好
2026-04-21 19:01:41
张本智和再次全家大迁徙,这次是德国,网友:回中国也不必多虑!

张本智和再次全家大迁徙,这次是德国,网友:回中国也不必多虑!

玖宇维
2026-04-21 21:23:08
凯伦.威尔逊:“今年的斯诺克世锦赛冠军将在这4位球员中出现、也包括我自己”

凯伦.威尔逊:“今年的斯诺克世锦赛冠军将在这4位球员中出现、也包括我自己”

寒律
2026-04-22 15:18:30
祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

离离言几许
2026-04-21 23:24:09
文班亚马脑震荡会缺席多久?马刺跟队记者爆料:他甚至没有去医院

文班亚马脑震荡会缺席多久?马刺跟队记者爆料:他甚至没有去医院

体坛野秀才
2026-04-22 12:52:03
2026-04-22 16:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12515文章数 176457关注度
往期回顾 全部

游戏要闻

Xbox新主机不再微软独享?传或有华硕、微星等版本

头条要闻

媒体:爱奇艺AI艺人库惹众怒 CEO龚宇的解释站不住脚

头条要闻

媒体:爱奇艺AI艺人库惹众怒 CEO龚宇的解释站不住脚

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

科技要闻

对话梅涛:没有视频底座,具身智能走不远

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

教育
艺术
亲子
健康
公开课

教育要闻

第8课-Sightseeing + taking photos 观光旅游和拍照

艺术要闻

无花不风景

亲子要闻

很难想象弟弟最后的表情是在想什么

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版