网易首页 > 网易号 > 正文 申请入驻

GPT-4o玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案

0
分享至

小明 发自 凹非寺
量子位 | 公众号 QbitAI

AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。

有方向感,视角也没有问题。

躲闪劈棍很丝滑。

甚至在打鸦香客和牯护院时,AI的胜率已经超过人类。

而且是完全使用大模型玩,没有使用强化学习

阿里巴巴的研究人员们提出了一个新型VARP(视觉动作角色扮演)智能体框架。

它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成Python代码形式的动作,以此来操作游戏。

以玩《黑神话·悟空》为例,该智能体在90%简单和中等水平战斗场景中取胜。

GPT-4o、Claude 3.5都来迎战

研究人员以《黑神话·悟空》为研究平台,一共定义了12个任务,75%与战斗有关。

他们构建了一个人类操作数据集,包含键鼠操作和游戏截图,一共1000条有效数据。

每个操作都是由原子命令的各种组合组成的序列。原子命令包括轻攻、闪避、重攻击、回血等。

然后,他们提出了VARP智能体框架。

主要包含动作规划系统和人类引导轨迹系统。

其中动作规划系统由情境库、动作库和人类引导库组成,利用 VLMs 进行动作推理和生成,引入分解特定任务的辅助模块和自我优化的动作生成模块。

人类引导轨迹系统利用人类操作数据改进智能体性能,对于困难任务,通过查询人类引导库获取相似截图和操作,生成新的人类引导动作。

同时VARP还包含3个库:情景库、动作库和人工引导库。

这些库中存储了agent自我学习和人类指导的内容,可以进行检索和更新。

动作库中,“def new_func_a()”表示动作计划系统生成的新动作,“def new_func_h()”表示人导轨迹系统生成的动作。”def pre_func()”代表预定义的动作。

动作案例研究和相应的游戏截图。第一行和第二行中的操作是预定义的函数。第三行动作由人工制导轨迹系统生成。

SOAG会在玩家角色与敌人的每次战斗互动后总结第四行和第五行中的新动作,并将其存储在动作库中。

框架分别使用了GPT-4o(2024-0513版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro。

对比人类和AI的表现结果,可以看到小怪部分AI们的表现达到人类玩家水平。

到了牯护院时,Claude 3.5 Sonnet败下阵来,GPT-4o胜率最高。

但是对于新手玩家普遍头疼的幽魂,AI们也都束手无策了。

另外研究还提到,由于VLMs推理速度受到限制,是无法实时输入每一帧画面的。它只能间隔输入关键帧,这也会导致AI在一些情况下错过boss攻击的关键信息。

以及由于游戏中没有明确的道路引导且存在很多空气墙,在没有人类引导下,智能体也不能自己找到正确的路线。

如上研究来自阿里团队,一共有5位作者。

后续相关代码和数据集有发布计划,感兴趣的童鞋可以蹲下。

One More Thing

AI打游戏并不是一个新鲜事了,比如AI基于强化学习方法打《星际争霸II》已经可以击败人类职业高手。

利用强化学习方案,往往需要输入大量对局。商汤此前训练的DI-star(监督学习+强化学习),就用了“16万场录像”和“1亿局对战”。

但是纯大模型也能打游戏,还是很出乎意料的。在本项研究中,数据集中的有效数据为1000条。

论文地址:
https://arxiv.org/abs/2409.12889

项目地址:
https://varp-agent.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4年2.78亿美元!曝约基奇预计今夏提前续约掘金 总薪水将破6亿

4年2.78亿美元!曝约基奇预计今夏提前续约掘金 总薪水将破6亿

罗说NBA
2026-05-02 22:01:06
上亿级油田现世,全球能源格局巨变,中国发现新亿吨油田

上亿级油田现世,全球能源格局巨变,中国发现新亿吨油田

福建睿平
2026-05-02 08:40:03
李亚鹏约会被拍!女子像大学生,在香港酒店大堂手牵手,举止亲密

李亚鹏约会被拍!女子像大学生,在香港酒店大堂手牵手,举止亲密

眼底星碎
2026-05-02 13:33:45
中国史上最牛超级工程,14亿人受益,美国人羡慕到极致

中国史上最牛超级工程,14亿人受益,美国人羡慕到极致

毛豆论道
2026-05-02 17:08:00
福州大学一学生称自己5年前的研究生毕业动画作品被合肥工业大学三名学生盗用,且获国奖;合肥工业大学:已了解相关情况,正在核实

福州大学一学生称自己5年前的研究生毕业动画作品被合肥工业大学三名学生盗用,且获国奖;合肥工业大学:已了解相关情况,正在核实

三湘都市报
2026-04-30 16:03:54
56岁知名演员突然断气,死前正筹备新餐厅,给所有中年人上了一课

56岁知名演员突然断气,死前正筹备新餐厅,给所有中年人上了一课

翰飞观事
2026-04-30 19:33:28
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
国际足联漫天要价陷两难!央视果断拒绝,球迷也不再买账!

国际足联漫天要价陷两难!央视果断拒绝,球迷也不再买账!

田先生篮球
2026-05-01 21:42:18
央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

番外行
2026-03-10 08:01:42
惊险2-1!第79分钟绝杀,王钰栋绝境爆发,浙江队终结5场不胜

惊险2-1!第79分钟绝杀,王钰栋绝境爆发,浙江队终结5场不胜

足球狗说
2026-05-02 21:35:06
突破大陆封锁,赖清德窜访得逞?赖清德突发宣布:已抵达史瓦帝尼

突破大陆封锁,赖清德窜访得逞?赖清德突发宣布:已抵达史瓦帝尼

爱史纪
2026-05-02 20:51:56
泪目了!河南三门峡24岁女子上午领结婚证,下午丈夫就出车祸瘫痪

泪目了!河南三门峡24岁女子上午领结婚证,下午丈夫就出车祸瘫痪

社会日日鲜
2026-05-02 10:24:30
巴阿互相发动跨境袭击

巴阿互相发动跨境袭击

参考消息
2026-04-30 13:44:45
印尼将拥有航母,三大意味!

印尼将拥有航母,三大意味!

新民周刊
2026-05-02 09:34:25
光芯片+光通信+光模块+光学引擎+光纤光缆+车载光学等等!

光芯片+光通信+光模块+光学引擎+光纤光缆+车载光学等等!

Thurman在昆明
2026-05-02 13:39:14
5月开始将迎来4大降价潮:除房价以外,这几类也开始降价了

5月开始将迎来4大降价潮:除房价以外,这几类也开始降价了

林子说事
2026-05-02 18:20:30
七场球荒!一次VAR!一脚凌空!19岁的王钰栋终于不再跟自己打架

七场球荒!一次VAR!一脚凌空!19岁的王钰栋终于不再跟自己打架

落夜足球
2026-05-03 00:26:52
张雪这张嘴,正在给品牌埋雷

张雪这张嘴,正在给品牌埋雷

全栈遛狗员
2026-04-30 17:12:13
斯诺克世锦赛半决赛:希金斯13-11领先墨菲,吴宜泽遭强敌连追4局

斯诺克世锦赛半决赛:希金斯13-11领先墨菲,吴宜泽遭强敌连追4局

侧身凌空斩
2026-05-02 05:31:44
只喝烧开的自来水,不碰桶装水,不买矿泉水,最后结果如何?

只喝烧开的自来水,不碰桶装水,不买矿泉水,最后结果如何?

芹姐说生活
2026-04-26 15:17:10
2026-05-03 05:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12568文章数 176460关注度
往期回顾 全部

游戏要闻

网游圈换了一茬又一茬,唯有这个“异类”,却是越老越能打!

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
教育
亲子
游戏
房产

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

高考地理中的具身智能

亲子要闻

养孩子其实就是重新养一遍小时候的自己~

合作恐怖《Devil of the Plague》登陆Steam EA

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

无障碍浏览 进入关怀版