网易首页 > 网易科技 > 网易科技 > 正文

“捉迷藏”也能学习?OpenAI用其教会AI团队合作!

0
分享至



1:OpenAI的AI自己学会了如何玩捉迷藏游戏

【网易智能讯1010日消息】捉迷藏的游戏自古已有之,它给无数孩子带来了无穷的童年乐趣。然而,现在这种古老游戏又在人工智能(AI)领域被赋予了新生,它不仅可以揭示很多关于AI如何权衡其所面临的决策问题,甚至展现了AI与其影响范围内的其他AI(或称近邻)互动的方式。

总部位于美国旧金山的AI研究公司OpenAI的研究人员日前发表论文,对捉迷藏游戏在AI中发挥的重要作用进行了阐述。OpenAI由特斯拉首席执行官埃隆·马斯克(Elon Musk)等硅谷大亨联合建立的,并得到了职业社交网站LinkedIn联合创始人里德·霍夫曼(Reid Hoffman)等名人的支持。

在最新发表的论文中,研究人员描述了大量由AI控制的代理如何在虚拟环境中捉迷藏的场景,并在此过程中学习利用越来越复杂的方法来躲避和寻找对方。测试结果表明,竞争中的双人AI代理团队的自我提高速度比任何单个代理都快。论文的共同作者说,这表明正在发挥作用的力量可以被利用,并适应其他AI领域,以提高效率。

今天开源的捉迷藏AI培训环境,加入了无数其他OpenAI、DeepMind和谷歌等公司为应对AI难题而提供的众源解决方案。去年12月,OpenAI发布了CoinRun,旨在测试强化学习代理的适应性。最近,该机构推出了Neural MMO,即大型强化学习模拟器,可以在类似角色扮演游戏(RPG)的世界中训练AI代理。在6月份,谷歌旗下Google Brain部门开源了Research Football Environment,这是用于训练AI掌握足球的3D强化学习模拟器。DeepMind上个月揭开了OpenSpiel的面纱,这是个视频游戏AI培训平台。

两位共同作者在这篇最新的论文中写道:“创造能够解决各种复杂的、与人类相关任务的智能人工代理,一直是AI社区中的一个长期挑战。与人类特别相关的AI代理将是能够感知物理世界中的物体、并与之互动的代理。”

训练和玩耍 

捉迷藏代理依赖于强化学习,这是一种利用奖励来推动软件政策朝着目标方向发展的技术,可以在反复试验中自我学习。近年来,与海量计算匹配的强化学习取得了巨大的成功,但也有其局限性。指定奖励函数或收集演示来监督任务可能既耗时又昂贵。最先进的方法要求对专家演示数据进行监督性学习,并使用奖励进一步提高绩效。此外,单个代理在强化任务中学习的技能受到任务描述的限制;一旦代理学会了解决任务,就没有太多改进空间了。

相反,研究人员追求的是一种他们称之为“无方向探索”的政策。在这种政策下,代理在他们对游戏世界的理解中自由进化,以设计出创造性的制胜策略。这类似于DeepMind科学家去年倡导的多智能体学习方法,在一项研究中,多个AI系统被训练为在游戏《雷神之锤III竞技场》(Quake III Arena)上玩“夺旗游戏”(Capture The Flag)。与这项研究一样,AI代理事先没有被教授游戏规则,但他们随着时间的推移学会了基本策略,并最终在技能上超过了大多数人类玩家。

微软的Suphx AI、OpenAI的OpenAI Five、DeepMind的AlphaStar以及Facebook的Pluribus,分别采用了类似的策略来掌握麻将、《刀塔2》(Dota 2)、《星际争霸》(StarCraft II)以及德州扑克。


2:OpenAI的AI在游戏中横穿地图

在捉迷藏游戏中,几个代理(隐藏者)必须在短时间内避开竞争对手的视线。在此期间,这些竞争对手被固定住,而搜索者被指示密切关注隐藏者的动向。(在这里,“视线”是指各个代理面前的135度圆锥形范围。)如果代理冒险离开游戏区太远,并被迫在随机生成的房间和墙壁中游荡,并会因此受到惩罚。它们可以拾取分散在环境中的目标(主要是箱子),这些箱子会无限期地锁定在适当的位置。

代理们在训练过程中发现了多达六种独特的策略,每一种都能帮助它们进入下一个游戏阶段。起初,隐藏者和搜索者只是逃跑并相互追逐,但经过大约2500万场捉迷藏游戏之后,隐藏者学会了通过将箱子一起移动并靠墙来构建隐藏庇护所的策略。在进行另外7500万场比赛后,搜索者学会了移动并利用坡道跳过箱子进入避难所的方法。

再进行1000万场比赛后,隐藏者开始将箱子构建的坡道带到游乐区的边缘并将其锁定,以防止搜索者使用它们。最后,在总共3.8亿场比赛后,搜索者自学将箱子带到游戏区的边缘,并有效地利用它们冲进隐藏者的避难所中,这利用了游戏空间允许他们在不接触地面的情况下可与箱子一起移动的优势。

受过训练的代理学会了协作,例如分别将他们自己的箱子带到一个未建造好的避难所地点。此外,他们作为一个团队相互保护,试图通过在准备阶段锁定箱子来防御搜索者的“箱子冲浪”。


3:OpenAI的AI代理随着时间的推移而自我完善

研究人员表示,规模在这方面起到了关键作用。默认模型需要在34小时的培训中出现1.23亿次才能达到将技能提升到懂得“斜坡防御”的阶段,并且批量越大,培训时间越快。例如,将参数(从历史训练数据中学习的模型部分)的数量从50万增加到580万,样本效率就提高了2.2倍。

基准稳健性

为了评估代理的稳健性,研究人员设计了一套五项基准智力测试,分为两个领域:认知和记忆。所有测试都使用与捉迷藏环境相同的动作空间、观察空间和对象类型:

1)对象计数任务(Object Counting)衡量的是代理是否具有对象持久性的感觉,即理解事物即使在无法察觉情况下仍然存在的能力。

2)锁定和返回任务(Lock and Return),衡量代理在执行新任务时是否可以记住其原始位置。

3)在顺序锁定任务(Sequential Lock)中,四个箱子位于三个没有门但每个房间都有坡道的随机房间中,代理必须按照它们以前没有观察到的特定顺序锁定所有箱子的位置。

4)在蓝图构建任务(Construction From Blueprint)中,代理必须将箱子(开放房间中的八个)放置在多达四个目标位置的顶部。

5)在避难所构建任务(Shelter Construction)中,代理必须在圆柱体周围建造由箱子组成的避难所。

在五个任务的其中3个里,在捉迷藏环境中接受预培训的代理学习速度更快,并获得了比两个基线更高的最终回报。他们在锁定和返回任务、顺序锁定任务以及蓝图构建任务任务方面做得稍好些,但在对象计数和避难所构建方面表现较差。


4:这个代理在使用坡道入侵堡垒

研究人员将好坏参半的结果归咎于既“纠缠”又难以微调的技能表征。他们写道:“我们推测,捉迷藏预培训优于基线的任务是由于重复使用学习到的特征所致,而在其余任务上优于基线的转移将需要重用学习的技能,而这要困难得多。这种评估指标强调了开发技术的必要性,以便将在一个环境中培训的策略有效低应用到另一个环境中。”

未来工作 

那么,我们能从这样的研究中得到什么?简单的游戏规则、多代理竞争和大规模的标准强化学习算法可以刺激代理在没有监督的情况下学习复杂的策略和技能。

研究人员写道:“这些设置的成功激发了人们的信心,认为这些环境最终可以使代理获得无限数量的技能。这会促使它们形成以人类相关技能为中心的行为,而不是通过其他自我监督的强化学习方法生成的技能。”

这些进步不仅仅会推动游戏设计前进。研究人员断言,他们的工作是朝着可能产生“物理基础”和“人类相关”行为的技术迈出的重要一步,并且可能支持诊断疾病、预测复杂蛋白质结构和分段CT扫描的系统。

Alphabet旗下AI公司DeepMind联合创始人德米斯·哈萨比斯(Demis Hassabis) 曾表示:“我们的游戏AI是我们通向通用人工智能的垫脚石。我们进行自我测试和所有这些游戏测试的原因是,它们是我们所开发算法的便利试验场。最终,我们正在开发可以转化到现实世界中的算法,以便处理真正具有挑战性的问题,并帮助这些领域的专家。”(选自:VentureBeat 作者:Kyle Wiggers 编译:网易智能 参与:小小)

相关推荐
热点推荐
最能骗的上市公司,被姐弟俩5年掏空了

最能骗的上市公司,被姐弟俩5年掏空了

大猫财经Pro
2025-12-16 18:29:58
1984年他一声令下,把老山几千吨炮弹当水泼,2019年葬礼现场,昔日部下已是军委副主席,含泪送别这位铁血师长!

1984年他一声令下,把老山几千吨炮弹当水泼,2019年葬礼现场,昔日部下已是军委副主席,含泪送别这位铁血师长!

史海孤雁
2025-12-17 16:50:24
这才是40岁左右的女性该有的穿搭

这才是40岁左右的女性该有的穿搭

牛弹琴123456
2025-12-10 20:51:18
打起来了!赖清德抓捕13个国民党人,郑丽文和蒋万安宣战赖清德!

打起来了!赖清德抓捕13个国民党人,郑丽文和蒋万安宣战赖清德!

特特农村生活
2025-12-18 11:31:26
54岁陈松伶回香港又瘦了一圈,自曝已减14公斤,丈夫每天监督陪练

54岁陈松伶回香港又瘦了一圈,自曝已减14公斤,丈夫每天监督陪练

丹妮观
2025-12-18 15:46:58
64岁演员刘斌与好友聚会,63岁丛珊罕见露面,状态年轻优雅

64岁演员刘斌与好友聚会,63岁丛珊罕见露面,状态年轻优雅

心静物娱
2025-12-18 09:40:35
美国妹子的短剧气炸无数社畜:她年会抢了老板想要的礼物!老板之后的骚操作让她惊呆...

美国妹子的短剧气炸无数社畜:她年会抢了老板想要的礼物!老板之后的骚操作让她惊呆...

英国那些事儿
2025-12-17 23:27:12
特斯拉Model Y L上月在国内市场交付量过万 消息称有13000辆

特斯拉Model Y L上月在国内市场交付量过万 消息称有13000辆

TechWeb
2025-12-18 17:01:07
撕下“贪污犯”标签!高虹安谈复职:力拼新竹棒球场明年安全启用

撕下“贪污犯”标签!高虹安谈复职:力拼新竹棒球场明年安全启用

海峡导报社
2025-12-17 16:44:31
大瓜!曝李湘前夫李厚霖被抓,兄妹受牵连,开直播还数10亿债务

大瓜!曝李湘前夫李厚霖被抓,兄妹受牵连,开直播还数10亿债务

丁丁鲤史纪
2025-12-18 15:27:31
一人毁一部剧?《老舅》44岁重要女配成败笔,观众:脸咋整成这了

一人毁一部剧?《老舅》44岁重要女配成败笔,观众:脸咋整成这了

妙知
2025-12-18 15:49:49
黄金价格:大家要有心理准备。接下来,金价或将重演19年的历史。

黄金价格:大家要有心理准备。接下来,金价或将重演19年的历史。

倪卫涛频道
2025-12-18 12:04:33
超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

丰谭笔录
2025-12-11 11:41:19
米切尔:才12月就自怨自艾是不行的 我们会保持斗志保持团结

米切尔:才12月就自怨自艾是不行的 我们会保持斗志保持团结

北青网-北京青年报
2025-12-18 17:12:08
“报应”来得这么快,张本智和没想到,日媒刊这么做

“报应”来得这么快,张本智和没想到,日媒刊这么做

观察鉴娱
2025-12-18 09:29:30
泰国宣布禁止向柬埔寨 运输石油及战略物资

泰国宣布禁止向柬埔寨 运输石油及战略物资

每日经济新闻
2025-12-17 13:17:22
聪明反被聪明误!本想为女儿铺路的李湘,竟意外栽在了何超琼手里

聪明反被聪明误!本想为女儿铺路的李湘,竟意外栽在了何超琼手里

翰飞观事
2025-12-18 16:15:36
利润20倍,成本70卖上千!央视再曝光新骗局,已经大量老百姓上当

利润20倍,成本70卖上千!央视再曝光新骗局,已经大量老百姓上当

博览历史
2025-12-17 10:55:07
炸裂!瓜迪奥拉为何拒绝免签C罗?曼城王朝背后藏着最硬核的执念

炸裂!瓜迪奥拉为何拒绝免签C罗?曼城王朝背后藏着最硬核的执念

澜归序
2025-12-18 16:16:28
借款13万却要还近1300万!警方揭露“套路贷”陷阱

借款13万却要还近1300万!警方揭露“套路贷”陷阱

极目新闻
2025-12-17 15:24:42
2025-12-18 17:56:49

科技要闻

2025新一代人工智能创业大赛

头条要闻

南京博物院称受赠5幅画被鉴定为"假" 捐赠者后人回应

头条要闻

南京博物院称受赠5幅画被鉴定为"假" 捐赠者后人回应

体育要闻

巴黎首夺世界级冠军 加冕6冠王比肩巴萨拜仁

娱乐要闻

丝芭放大招了!实名举报鞠婧祎经济犯罪

财经要闻

尹艳林:呼吁加快2.5亿新市民落户进程

汽车要闻

在零下30℃的考场里 凡尔赛C5 X和508L拿到了"稳"的证明

态度原创

时尚
房产
手机
数码
军事航空

“棕色大衣”今年冬天又火了,怎么搭都高级时髦

房产要闻

太强了!封关时刻,两天砸下50亿!央企绿发,重仓三亚!

手机要闻

新年换机大战打响,天玑9500靠“体验质变”撬动高端市场

数码要闻

PConline 2025智臻科技奖|年度智臻产品:罗技GPW4小狗电竞鼠标

军事要闻

福建舰入列后首过台海 台方谈为何"甲板上没有舰载机"

无障碍浏览 进入关怀版
×