网易首页 > 网易号 > 正文 申请入驻

新出生的机器狗,打滚1小时后自己掌握走路,吴恩达大弟子新成果

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

现在,让机械狗自己打滚一个小时,它就能学会走路了!

步态看着相当有模有样:

还能扛住大棍子的一通狂怼:

就算是摔了个四仰八叉,翻个身自己又站起来了:

如此看来,训机械狗和普通训狗真是要没什么两样了啊。

这就是UC伯克利大学带来的最新成果,让机器人直接在实际环境中训练学习,不再依赖于模拟器

应用这一方法,研究人员在短时间内训练出了4个机器人。

比如开头看到的1小时学会走路的机械狗;

还有2个机械臂,在8-10小时实战抓取后,表现接近于人类水平

以及一个拥有计算机视觉的小机器人,在自己摸索2小时后,能丝滑地滚动到指定位置。

该研究由Pieter Abbeel等人提出,Pieter Abbeel是吴恩达的第一位博士生,前不久他刚刚获得2021 ACM 计算奖(ACM Prize in Computing)。

目前,该方法的所有软件基础架构已经开源。

一个叫做“空想家”的算法

本文方法的pipeline大致可分为4步:

第一步,是先把机器人放在真实环境里,收集数据

第二步,把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。

第三步,World Model会对已有经验进行学习,然后“脑补”出策略。

第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。

然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。

具体来看,这里的核心环节是World Model

World Models是2018年由DAVID HA等人提出的一种快速无监督学习方式,获得了NIPS 2018的Oral Presentation。

它的核心理念是认为人类是基于已有经验,形成了一个心理世界模型,我们所做的决定和行动都是基于这个内部模型。

比如人类在打棒球时,做出反应的速度远比视觉信息传达到大脑中的快,那么在这种情况下还能正确回球的原因,就是因为大脑已经做出了本能的预测。

此前,基于World Model这种“脑补”的学习方法,谷歌提出了Dreamer这种可扩展的强化学习方法。

这一次提出的方法是在此基础上,叫做DayDreamer。

(貌似可以叫做空想家?)

具体来看,World Model就是一个智能体模型。

它包括一个视觉感知组件,能将看到的图像压缩成一个低维的表征向量作为模型输入。

同时还有一个记忆组件,可以基于历史信息,对未来的表征向量做出预测。

最后,还包括一个决策组件,它能基于视觉感知组件、决策组件的表征向量,决定采取怎样的动作。

现在,我们回到本次UC伯克利学者提出的方法。

不难发现,其中World Model Learning部分的逻辑就是一个经验积累的过程,Behavior Learning部分则是一个动作输出的过程。

本篇论文方法的提出,主要解决了机器人训练中两方面的问题:

效率和准确率

一般来说,训练机器人的常规方法是强化学习,通过反复实验来调整机器人的运作。

不过这种方法往往需要非常大量的测试,才能达到很好的效果。

不仅效率低下,而且训练需要付出的成本也不低。

后来,不少人提出在模拟器中对机器人进行训练,可以很好增效降本。

但是本文作者认为,模拟器训练方法在准确性方面的表现还是不够好,只有真实的环境才能让机器人达到最好的效果。

从结果来看,在训练机器狗的过程中,只花10分钟时间,机器狗就能适应自己的行为了。

和SAC方法对比来看,效果有明显提升。

在机械臂训练过程中,这一新方法还克服了视觉定位和稀疏奖励的挑战,几小时内的训练成果明显优于其他方法。

研究团队

值得一提的是,本次带来新成果的研究团队成员,也非常令人瞩目。

其中,Pieter Abbeel是吴恩达的开山大弟子。

他现在是UC伯克利电气工程和计算机科学教授,伯克利机器人学习实验室主任,伯克利AI研究院共同主任,曾加入过OpenAI。

前不久,他还获得了2021 ACM 计算奖(ACM Prize in Computing),以表彰其在机器人学习方面的贡献。

与此同时,他还是AI机器人公司Covariant的联合创始人。

另一位Ken Goldberg,也是AI领域的顶级专家。

他现在是UC伯克利工程教授,研究方向为强化学习、人机交互等。

2005年,他被评选为IEEE院士。

与此同时,Goldberg还是一位艺术家,是UC伯克利艺术、科技文化研讨会的奠基人。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner三人为共同一作。

其中Philipp Wu还只是UC伯克利一位大四的学生。

One More Thing

在观看机械狗训练的视频时,我们发现研究人员使用的是Unitree机械狗。

这个品牌来自中国企业宇树科技,之前登上过春晚的机器小牛,也来自它家。

而且,最近宇树机器狗集体进行Go1测试的视频曝光,还在国外火了一波。

论文地址:
https://danijar.com/project/daydreamer/

参考链接:
https://worldmodels.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这应该是一位女乘客留下来的。写在高铁提供的垃圾袋上,字迹不错

这应该是一位女乘客留下来的。写在高铁提供的垃圾袋上,字迹不错

作家李楠枫
2024-04-23 22:41:54
U型锁们,请你们放下以色列的饮料!

U型锁们,请你们放下以色列的饮料!

缤纷色彩娱乐
2024-04-25 17:47:09
深圳10区缩减2024年一般公共预算支出,强化“过紧日子”

深圳10区缩减2024年一般公共预算支出,强化“过紧日子”

界面新闻
2024-04-26 09:50:41
晚上7点半!CCTV5直播辽粤大战,周琦郭艾伦缺阵,赵继伟压力不小

晚上7点半!CCTV5直播辽粤大战,周琦郭艾伦缺阵,赵继伟压力不小

林子说事
2024-04-26 10:57:15
当年在罗马尼亚有个著名的笑话,你要是走的话,我们就不用走了!

当年在罗马尼亚有个著名的笑话,你要是走的话,我们就不用走了!

翻开历史和现实
2024-04-26 13:48:06
中央定调:2024年70岁及以上老人可享“3项优待”,包括农民在内

中央定调:2024年70岁及以上老人可享“3项优待”,包括农民在内

天下纵览
2024-04-13 12:39:22
错误的民族政策,使得俄罗斯永久性失去波罗的海沿岸诸多优良港口

错误的民族政策,使得俄罗斯永久性失去波罗的海沿岸诸多优良港口

东哥讲故事
2024-04-25 13:53:21
三只羊王婉葶离职!网红“小黄”自曝整牙花5万,近况曝光惹人羡

三只羊王婉葶离职!网红“小黄”自曝整牙花5万,近况曝光惹人羡

柠檬有娱乐
2024-04-26 09:42:12
“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

“一箭双星”宣告失败,点火8分钟后偏离轨道,24.5亿打水漂!

星辰故事屋
2024-03-08 21:12:51
韩国选举全剧终,72岁朴槿惠出山,中方收到特殊邀请,尹锡悦自救

韩国选举全剧终,72岁朴槿惠出山,中方收到特殊邀请,尹锡悦自救

朝子亥
2024-04-25 07:15:02
善恶终有报!“港独分子”陈方安生,现在已活成了一个“笑话”?

善恶终有报!“港独分子”陈方安生,现在已活成了一个“笑话”?

韶华倾覆i
2024-04-24 11:51:55
大陆对台作出三大“让步”后,赖清德向大陆提要求,国台办回击?

大陆对台作出三大“让步”后,赖清德向大陆提要求,国台办回击?

DS北风
2024-04-25 16:24:15
决战时刻,亚洲货币沦陷,韩日发出警告,人民币成亚洲唯一希望?

决战时刻,亚洲货币沦陷,韩日发出警告,人民币成亚洲唯一希望?

关权教授聊经济
2024-04-25 19:15:11
中法两军建立战区间合作对话机制

中法两军建立战区间合作对话机制

界面新闻
2024-04-26 09:58:47
俄国防部副部长被抓,他是绍伊古的“老搭档”

俄国防部副部长被抓,他是绍伊古的“老搭档”

中国新闻周刊
2024-04-25 18:19:22
刺激消费不成,就开始明抢?92号汽油逼近九元大关,何等的疯狂?

刺激消费不成,就开始明抢?92号汽油逼近九元大关,何等的疯狂?

鹏飞深文
2024-04-25 12:54:30
詹姆斯:我拿到过四次总冠军,我知道赢得比赛需要什么

詹姆斯:我拿到过四次总冠军,我知道赢得比赛需要什么

懂球帝
2024-04-26 16:04:14
《浪姐5》出事了!29岁女星「高空惨摔骨裂」 首发声逼哭粉丝

《浪姐5》出事了!29岁女星「高空惨摔骨裂」 首发声逼哭粉丝

娱乐圈酸柠檬
2024-04-26 11:23:21
刚刚!苹果发布会官宣,5月7日见!

刚刚!苹果发布会官宣,5月7日见!

哎咆
2024-04-25 14:39:04
不给钱就开打?美连下3道挑战书,中国运回黄金,就赌美联储崩盘

不给钱就开打?美连下3道挑战书,中国运回黄金,就赌美联储崩盘

戎评说
2024-04-26 12:01:20
2024-04-26 16:18:44
量子位
量子位
追踪人工智能动态
9321文章数 175242关注度
往期回顾 全部

科技要闻

中国车企“五常”激战北京车展

头条要闻

为抗议美国对加沙政策 美国务院发言人辞职

头条要闻

为抗议美国对加沙政策 美国务院发言人辞职

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

手机
艺术
房产
数码
公开课

手机要闻

曝三星即将发布首款折叠屏“Ultra”设备 搭载骁龙8 Gen3

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

数码要闻

攀升春季限时钜惠开启,下单立减再加白条免息分期

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版