网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“神仙员工”每天最早到最晚走,不断上报“稳赚十几万”大项目,老板多次爽快拨款!一看账户资金,傻眼了……

“神仙员工”每天最早到最晚走,不断上报“稳赚十几万”大项目,老板多次爽快拨款!一看账户资金,傻眼了……

洪观新闻
2026-04-27 16:49:40
陆毅50岁体重飙至176斤,血压偏高嘴唇发紫入院

陆毅50岁体重飙至176斤,血压偏高嘴唇发紫入院

日不西沉
2026-04-26 23:00:12
不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

叮当当科技
2026-04-27 18:12:33
毫无预期地,我遇见了言笑晏晏的江青

毫无预期地,我遇见了言笑晏晏的江青

霹雳炮
2026-04-26 22:56:06
以色列防长放话,斩首伊朗新领袖,伊朗点名普京,中俄联手划红线

以色列防长放话,斩首伊朗新领袖,伊朗点名普京,中俄联手划红线

甜到你心坎
2026-04-27 18:25:51
养老院老太太被水饺噎死,工作人员收拾遗物惊呼:她竟如此尊贵

养老院老太太被水饺噎死,工作人员收拾遗物惊呼:她竟如此尊贵

深度报
2026-04-26 23:11:40
皮尔斯:火箭可以用小史密斯换吉迪,阿门打球很像追梦格林

皮尔斯:火箭可以用小史密斯换吉迪,阿门打球很像追梦格林

懂球帝
2026-04-27 16:19:10
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了

喜欢历史的阿繁
2026-04-26 11:01:11
58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

墨印斋
2026-04-24 16:43:38
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

王二哥老搞笑
2026-04-22 14:26:21
媒体揭泰山惨败真因,韩鹏三后卫不是原罪,俱乐部三乱才是根本

媒体揭泰山惨败真因,韩鹏三后卫不是原罪,俱乐部三乱才是根本

刘哥谈体育
2026-04-27 18:10:33
从国米非卖品到热刺弃将,只用了3年时间,齐达内接班人毁于性格

从国米非卖品到热刺弃将,只用了3年时间,齐达内接班人毁于性格

足篮大世界
2026-04-27 17:27:12
堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

七阿姨爱八卦
2026-03-29 10:12:33
我跟车间女主管吵架,骂她嫁不出去,当晚她气得拎嫁妆找上门

我跟车间女主管吵架,骂她嫁不出去,当晚她气得拎嫁妆找上门

千秋文化
2026-04-25 20:34:11
追觅CEO俞浩发文批评小红书:价值观和盈利模式都有毒

追觅CEO俞浩发文批评小红书:价值观和盈利模式都有毒

鲁中晨报
2026-04-27 07:12:05
广东将有两次降水过程,暴雨再度来袭!省三防办要求应转尽转

广东将有两次降水过程,暴雨再度来袭!省三防办要求应转尽转

南方都市报
2026-04-27 18:08:27
日本大地震!“三餐变一顿”,开始呼叫中国?

日本大地震!“三餐变一顿”,开始呼叫中国?

小正说娱乐
2026-04-27 07:53:23
享界S9麋鹿测试引争议,余承东:存在黑幕,轮胎被放气、拧松

享界S9麋鹿测试引争议,余承东:存在黑幕,轮胎被放气、拧松

三言科技
2026-04-27 09:52:21
森林狼击败掘金后,约基奇引发大规模冲突,NBA宣布处罚决定:约基奇罚50000美元,兰德尔罚35000美元

森林狼击败掘金后,约基奇引发大规模冲突,NBA宣布处罚决定:约基奇罚50000美元,兰德尔罚35000美元

鲁中晨报
2026-04-27 11:20:04
2026-04-27 19:31:00
量子位 incentive-icons
量子位
追踪人工智能动态
12543文章数 176458关注度
往期回顾 全部

游戏要闻

集结梦之队,征战世界杯,《最佳球会ONLINE》上线Steam

头条要闻

东方甄选多位主播离职 罗永浩连发6个问句怒怼网友

头条要闻

东方甄选多位主播离职 罗永浩连发6个问句怒怼网友

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

科技要闻

DeepSeek V4上线三天,第一批实测出来了

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

手机
家居
教育
健康
公开课

手机要闻

最强Mate来了!华为Mate 90最快9月亮相:首发麒麟最强芯

家居要闻

江景风格 流动的秩序

教育要闻

中考数学压轴题,等腰三角形形的存在问题,中考数学重难点

干细胞如何让烧烫伤皮肤"再生"?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版