网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
合租女同事对我不避嫌,那晚进了她房间,我彻底醒悟

合租女同事对我不避嫌,那晚进了她房间,我彻底醒悟

雾岛夜话
2026-05-11 12:00:02
杨受成“霸占”容祖儿半生:不娶不放,到底图什么?

杨受成“霸占”容祖儿半生:不娶不放,到底图什么?

陈意小可爱
2026-05-09 15:56:56
东观军情|俄“萨尔马特”巨人导弹战力达标 三万公里射程有深意

东观军情|俄“萨尔马特”巨人导弹战力达标 三万公里射程有深意

国际在线
2026-05-13 22:28:15
FIFA秘书长、温格一行到访中国足协,考察国家足球青训中心

FIFA秘书长、温格一行到访中国足协,考察国家足球青训中心

懂球帝
2026-05-13 15:11:36
网贷十年血色史,一场以金融科技为名的狂欢与崩塌

网贷十年血色史,一场以金融科技为名的狂欢与崩塌

资本董事局
2026-03-31 19:34:32
阿里巴巴美股盘前跌幅扩大至3%

阿里巴巴美股盘前跌幅扩大至3%

每日经济新闻
2026-05-13 18:07:11
偷情见面的目的为何就是上床呢?

偷情见面的目的为何就是上床呢?

思絮
2026-05-12 22:12:23
微软紧急修复Windows 11记事本高危漏洞,用户速更新

微软紧急修复Windows 11记事本高危漏洞,用户速更新

奇思妙想生活家
2026-05-14 01:31:37
太猛了!上海大学苏院长Nature子刊论文,涉嫌数据造假,又被举报

太猛了!上海大学苏院长Nature子刊论文,涉嫌数据造假,又被举报

东东趣谈
2026-05-12 17:27:39
36岁骑手秦岭被撞身亡,肇事者无证租车无商险,赔偿从哪里来

36岁骑手秦岭被撞身亡,肇事者无证租车无商险,赔偿从哪里来

趣味萌宠的日常
2026-05-13 11:34:41
湖北一高校发布公告:5名研究生,拟作退学处理

湖北一高校发布公告:5名研究生,拟作退学处理

半岛晨报
2026-05-13 18:43:39
英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

英国成伊斯兰国家了?斯塔默宣布:穆斯林是现代英国的标志性面孔

番外行
2026-05-11 08:50:52
广东出局揪出最失望球员!全场0分+带女友到客场,球迷:卖掉算了

广东出局揪出最失望球员!全场0分+带女友到客场,球迷:卖掉算了

南海浪花
2026-05-13 07:48:38
肿胀的脸庞和极度衰老的形态,胜利日后普京健康异常的传闻再起

肿胀的脸庞和极度衰老的形态,胜利日后普京健康异常的传闻再起

戗词夺理
2026-05-12 18:23:29
记者:芬威没计划今夏评估斯洛特帅位,预计他将继续执教

记者:芬威没计划今夏评估斯洛特帅位,预计他将继续执教

懂球帝
2026-05-14 02:53:39
顶着一路骂声,巴黎市区第三高楼惊艳封顶,官方:以后不准再建!

顶着一路骂声,巴黎市区第三高楼惊艳封顶,官方:以后不准再建!

GA环球建筑
2026-05-11 22:55:32
台民意机构近日审议部分条文修正草案拟严厉惩罚“鼓吹武统”等言行,国台办回应

台民意机构近日审议部分条文修正草案拟严厉惩罚“鼓吹武统”等言行,国台办回应

京彩台湾
2026-05-13 11:53:48
男子16岁时便出轨嫂子,婚后瞒着妻子继续出轨,还与嫂子生下一子

男子16岁时便出轨嫂子,婚后瞒着妻子继续出轨,还与嫂子生下一子

老猫观点
2026-05-07 07:12:10
南海变天?越南急购7亿印导弹!中方双航母出击,2900亿美元压阵

南海变天?越南急购7亿印导弹!中方双航母出击,2900亿美元压阵

浪子阿邴聊体育
2026-05-12 11:57:37
美股存储概念、光通信、半导体股盘前走高

美股存储概念、光通信、半导体股盘前走高

财联社
2026-05-13 16:08:23
2026-05-14 03:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12621文章数 176462关注度
往期回顾 全部

游戏要闻

魔兽世界:玩家力挺雷火,游戏变了还是我们变了?这些问题很重要

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

游戏
教育
手机
本地
军事航空

LOL迎来史诗级改动,GEN被削废T1获利!GEN老板:为谁改的版本?

教育要闻

中考这件事,许多家长都搞错了方向

手机要闻

iPhone18Pro配色敲定+iOS 27功能曝光!今年9月的苹果,料有点多

本地新闻

用苏绣的方式,打开江西婺源

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版