网易首页 > 网易号 > 正文 申请入驻

官方揭秘OpenAI Five如何打败人类:迁移学习+海量训练,10个月训练4.5万年

0
分享至

  新智元报道

  来源:openai

  编辑:元子

  【新智元导读】在上周末彻底攻陷了Dota人类顶级职业战队OG后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

  OpenAIFive是第一个在电子竞技游戏中击败世界冠军的人工智能,在上周末与2-0大败世界冠军Dota2团队OG,这是AI第一次在直播中击败了电子竞技专家。

  OG和OpenAI开发组

  本次比赛还得出了两个惊人的发现:

  尽管训练的时候专注于击败其他疯狂电脑,但OpenAIFive在比赛中却展现出和人类玩家的优秀的团队协作意识。这意味着未来的AI系统可以从竞争型AI转变为合作型AI

  总决赛让OpenAI的科学家可以回答一个重要的研究问题:OpenAIFive在多大程度、以何种方式能够被确定的打败?并且可能是有史以来最大规模的、人们可以有意识地与之交互的高强度深层强化学习智能体的部署

  彻底攻陷了人类顶级职业玩家后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

  为什么选择Dota?

  OpenAIFive的初衷是为了解决现有深度强化学习算法无法实现的问题。为此需要大幅增加工具的的能力、复杂的算法思想(例如分层强化学习)。

  OpenAIFive将世界视为一堆必须破译的数字。它使用相同的通用学习代码,无论这些数字代表Dota游戏(约20,000个数字)或机器人手(约200个)的状态

  为了构建OpenAIFive,研究人员创建了一个名为Rapid的系统,以前所未有的规模运行PPO。结果超出了研究人员最大的期望,产生出了世界级的Dota机器人,没有触及任何基本的性能限制。

  当今的监督学习算法之所以能有如此强大功能,是以大量经验为代价的,这在游戏或模拟环境之外是不切实际的。研究人员认为减少经验量是深度学习的下一个挑战。

  研究人员表示,从今天开始OpenAIFive将不会继续打比赛,但取得的进步和技术的发展将继续推动未来的工作。研究人员认为Dota对于监督学习开发来说比现在使用的标准环境更具有内在的趣味性和难度。

  算力

  OpenAIFive这次的胜利是由于一次重大变化:训练计算量增加了8倍。前期阶段研究人员通过提高培训规模来推动进一步的发展,之后将绝大部分算力用于培训单一的OpenAIFive模型,相当于延长了训练时间。

  总的来说,当前版本的OpenAIFive已经消耗了800petaflop/s-days,并且在10个实时月内获得了45000年的游戏经验,平均每天获得250年的模拟经验。OpenAIFive的总决赛版本与TI版本相比,胜率为99.9%。

  迁移学习

  尽管模型大小和游戏规则发生了变化,但目前版本的OpenAIFive自2018年6月以来一直在不断训练。在每种情况下,研究人员都能够将模型转移并继续培训,这对于其他领域的监督学习来说是一个开放的挑战。

  据悉,这可能是监督学习智能体第一次使用如此长期的训练课程进行训练。

  更多Dota英雄

  研究人员看到从训练5个英雄到训练18英雄速度并没有减弱的很明显,于是假设对更多英雄来说也是如此,随后开始大量尝试整合新英雄。

  研究人员花了几个星期的时间训练英雄池,最多达到了25个英雄。将这些英雄带到大约5kMMR(大约95%的Dota玩家)。尽管在进步,但学习速度还不够快,无法在总决赛之前达到职业水平。

  研究人员没有太多时间调查原因,但他们认为可能需要更好的匹配扩展的英雄池,需要更多的训练时间让新英雄达到老英雄的同等水平。想象一下当你习惯了某个英雄后,学习新英雄的难度是多么大!

  协同模式

  它实际上感觉很好;我的毒蛇在某些时候为我献出了生命。他试图帮助我,想着“我确定她知道她在做什么”然后显然我没有。但是,你知道,他相信我。对于[人类]队友,我并没有那么多.-无论如何

  在总决赛期间,研究人员展示了OpenAI Five与人类一起在团队中的表现,两队的成员都是2个真人带3个智能体

  OpenAIFive与人类的协同作战能力为人类与人工智能互动的未来提供了一个引人注目的愿景:人工智能系统能够和人类协作并增强人类体验。

  玩家认为从机器人队友哪里感受到了战友之情,并从这些先进的系统中学到了很多东西,整体来说是一种有趣的体验。

  值得注意的是,OpenAIFive展示了zero-shot迁移学习,与人类并肩作战或者对抗人类。研究人员非常惊讶这一点和它一样有效。事实上,研究人员考虑在国际上进行协同作案韩比赛,但认为需要专门的训练。

  OpenAI Five Arena

  目前研究人员还不知道OpenAIFive在多大程度上能够通过更机智的策略被击败,所以研究人员推出了OpenAIFiveArena。这是一项公开的实验,任何人都可以跟OpenAIFive组队或者对战。

  竞技场于4月18日星期四太平洋标准时间下午6点开放,并于4月21日星期日太平洋标准时间晚上11:59关闭。玩家需要注册,所有游戏的结果将自动报告给竞技场公共排行榜。

  下一步干什么

  一旦研究人员审查了OpenAIFiveArena的结果,研究人员将发布对OpenAIFive的更多技术分析,之后将继续使用OpenAI中的Dota2环境。

  研究人员已经看到过去两年在监督学习能力方面取得了快速进展,并认为Dota2将在推进无论是通过较少的数据还是真正的人工智能合作实现有能力的表现方面,持续提供帮助。

  参考链接

  https://openai.com/blog/how-to-train-your-openai-five/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马刺森林狼比赛间隙,NBA赛场播放文班亚马少林寺修行短片

马刺森林狼比赛间隙,NBA赛场播放文班亚马少林寺修行短片

懂球帝
2026-05-16 14:45:22
大喜之日,伴娘在婚床上被强奸,且看当年这桩丑陋的大案始末

大喜之日,伴娘在婚床上被强奸,且看当年这桩丑陋的大案始末

长安一孤客
2026-05-15 19:26:59
黄仁勋全家福曝光!儿女金发碧眼,网友:华人基因去哪儿了?

黄仁勋全家福曝光!儿女金发碧眼,网友:华人基因去哪儿了?

小蜜情感说
2026-05-16 08:04:43
为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

老特有话说
2026-05-16 17:52:16
好奇怪,他年轻帅得一塌糊涂,老了丑得一言难尽了

好奇怪,他年轻帅得一塌糊涂,老了丑得一言难尽了

情感大头说说
2026-05-16 20:18:50
时隔9年重返西决!文班19+6+3封盖打爆双塔,太子32分客场擒狼

时隔9年重返西决!文班19+6+3封盖打爆双塔,太子32分客场擒狼

钉钉陌上花开
2026-05-16 12:16:54
马斯克访华像回自家!母亲长住上海,儿子身家千亿,76岁还带货

马斯克访华像回自家!母亲长住上海,儿子身家千亿,76岁还带货

童叔不飙车
2026-05-15 22:51:51
FBI悬赏20万美元通缉美国前女特工:13年前入境伊朗后叛国,传递五角大楼机密

FBI悬赏20万美元通缉美国前女特工:13年前入境伊朗后叛国,传递五角大楼机密

红星新闻
2026-05-16 16:28:20
看病大变天,6月份开始,挂号报销都有改变,早知早准备!

看病大变天,6月份开始,挂号报销都有改变,早知早准备!

小谈食刻美食
2026-05-15 07:25:43
唯爱巴萨!拉什福德愿降薪40%签5年:相当于“免费”踢2年

唯爱巴萨!拉什福德愿降薪40%签5年:相当于“免费”踢2年

叶青足球世界
2026-05-16 16:13:04
一场2:1让国足迎来大发现,邵佳一如获至宝,中场喜添新全能猛将

一场2:1让国足迎来大发现,邵佳一如获至宝,中场喜添新全能猛将

零度眼看球
2026-05-16 07:00:34
高市早苗遭遇耻辱一幕!日本部长嚷着:要在中国介绍“女首相”

高市早苗遭遇耻辱一幕!日本部长嚷着:要在中国介绍“女首相”

菠萝欣赏家本尊
2026-05-16 12:07:27
半导体、存储芯片的牛市大周期还在后面!稀缺龙头曝光,这只12天大涨33%!

半导体、存储芯片的牛市大周期还在后面!稀缺龙头曝光,这只12天大涨33%!

证券市场周刊
2026-05-16 12:41:47
特朗普访华之后,美国留学将迎来五年来最强政策利好

特朗普访华之后,美国留学将迎来五年来最强政策利好

留学生日报
2026-05-15 20:03:57
中国买波音,美国买中国货,中美这盘大生意,很多人只看懂了一半

中国买波音,美国买中国货,中美这盘大生意,很多人只看懂了一半

潋滟晴方DAY
2026-05-16 13:12:14
难怪黄仁勋那么积极跟着特朗普访华,一到北京就拿下了大额订单。

难怪黄仁勋那么积极跟着特朗普访华,一到北京就拿下了大额订单。

魔都姐姐杂谈
2026-05-14 22:09:10
中央定调!2026养老金或再调整,为何1955年以前出生的更受益?

中央定调!2026养老金或再调整,为何1955年以前出生的更受益?

云鹏叙事
2026-05-15 23:59:18
10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

阿龙美食记
2026-05-15 14:23:55
国民党台北市中正万华议员初选结果出炉,66岁的张延廷将军出线

国民党台北市中正万华议员初选结果出炉,66岁的张延廷将军出线

海峡导报社
2026-05-16 21:28:10
特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

特朗普刚离北京,高市急晒热线电话,日本最怕的事还是发生了

近史博览
2026-05-16 09:59:06
2026-05-16 21:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15227文章数 66869关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

头条要闻

"特朗普移动"手机开始发货 59万人交了5900万美元定金

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

家居
亲子
旅游
手机
公开课

家居要闻

110㎡淡而有致的生活表达

亲子要闻

新的车轮棒棒的 #大型挖掘机挖土玩具 #工程车玩具

旅游要闻

“5·19中国旅游日”倒计时活动在常州举办

手机要闻

京东苹果全系大降价,Pro版省2000还抽百万京豆

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版