网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
DeepSeek,突传大消息!梁文锋持股大增33%

DeepSeek,突传大消息!梁文锋持股大增33%

证券时报
2026-04-28 13:04:07
广东队主场惨败,胡明轩和4外援集体迷失,徐昕13+11打脸杜锋

广东队主场惨败,胡明轩和4外援集体迷失,徐昕13+11打脸杜锋

孤影来客
2026-04-28 23:52:21
刺杀特朗普的枪手终于开口,他的告白比枪声更刺耳

刺杀特朗普的枪手终于开口,他的告白比枪声更刺耳

阿凯销售场
2026-04-27 17:28:21
中方要向世界发布,中方解放台海时,参战国等于侵略中方领土

中方要向世界发布,中方解放台海时,参战国等于侵略中方领土

阿七说史
2026-04-27 15:26:31
太疯狂!首日上市!暴涨 619 亿至 787 亿!

太疯狂!首日上市!暴涨 619 亿至 787 亿!

云头条
2026-04-28 14:01:03
不焯水等于“服毒”!武汉5人吃一盘菜全被放倒,路边拦警车求助

不焯水等于“服毒”!武汉5人吃一盘菜全被放倒,路边拦警车求助

万象硬核本尊
2026-04-28 19:20:02
特朗普访华倒计时,美方已经提出首个条件,希望中方不要见死不救

特朗普访华倒计时,美方已经提出首个条件,希望中方不要见死不救

星娱叨叨社
2026-04-28 14:58:52
阿联酋油企通知客户下月在霍尔木兹海峡外提货

阿联酋油企通知客户下月在霍尔木兹海峡外提货

每日经济新闻
2026-04-28 21:20:34
一天4大瓜炸穿内娱!陈晓狠撕陈妍希,出轨插足塌房全齐活

一天4大瓜炸穿内娱!陈晓狠撕陈妍希,出轨插足塌房全齐活

阿废冷眼观察所
2026-04-26 02:39:23
最新消息!中国女篮传来3大名将,韩旭、李月汝、李梦最新消息

最新消息!中国女篮传来3大名将,韩旭、李月汝、李梦最新消息

二爷台球解说
2026-04-29 00:02:50
穆杰塔巴伤情曝光,比外界想象的更严重,他用了一招终结斩首战术

穆杰塔巴伤情曝光,比外界想象的更严重,他用了一招终结斩首战术

温读史
2026-04-25 01:18:21
阿联酋发表声明:自5月1日起退出欧佩克及欧佩克+,将逐步提高石油产量

阿联酋发表声明:自5月1日起退出欧佩克及欧佩克+,将逐步提高石油产量

鲁中晨报
2026-04-28 20:40:06
枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

老谢谈史
2026-04-28 08:36:47
一季度进口牛肉超86万吨!逼近最大来源地巴西配额红线,下半年价格要失控?

一季度进口牛肉超86万吨!逼近最大来源地巴西配额红线,下半年价格要失控?

风向观察
2026-04-28 08:32:56
初代网红店谢幕,仙踪林北京最后一家门店闭店

初代网红店谢幕,仙踪林北京最后一家门店闭店

界面新闻
2026-04-28 15:29:20
10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

听风喃
2026-04-06 11:16:04
看不懂!3大国脚悍将同时遭斯卢茨基冷落沦为鸡肋,一人最意难平

看不懂!3大国脚悍将同时遭斯卢茨基冷落沦为鸡肋,一人最意难平

零度眼看球
2026-04-28 07:31:21
美军深夜突袭致14死37伤,击毙3人后特朗普立场变

美军深夜突袭致14死37伤,击毙3人后特朗普立场变

你是我的小甜甜
2026-04-28 23:16:52
微软Outlook周一早高峰崩溃:1200+用户报告登录失败

微软Outlook周一早高峰崩溃:1200+用户报告登录失败

硬核玩家2哈
2026-04-27 22:51:29
央视怒批!德不配位、洋相百出,难怪两会上冯远征建议演员多学习

央视怒批!德不配位、洋相百出,难怪两会上冯远征建议演员多学习

谈史论天地
2026-03-07 10:28:50
2026-04-29 01:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12551文章数 176458关注度
往期回顾 全部

游戏要闻

魔兽世界:时光服频繁动刀,优化涨幅时间,回溯价值是为何?

头条要闻

媒体:台海军退役少校登乌鲁木齐舰 给出的结论很直接

头条要闻

媒体:台海军退役少校登乌鲁木齐舰 给出的结论很直接

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

游戏
时尚
旅游
家居
军事航空

这不爽翻了?曝PS6或能稳稳运行60帧+光追的游戏画面

普通女性春天穿什么好看?这些穿搭值得借鉴,自然舒适

旅游要闻

喝村咖、品美食、享野趣、慢休闲!“小院经济”激活乡村新引力

家居要闻

江景风格 流动的秩序

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版