网易首页 > 网易号 > 正文 申请入驻

让宇树机器狗在北大未名湖畔捡垃圾,银河通用干的

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

机器狗不语,只是一味地在北大未名湖畔捡垃圾。

好了明说吧,垃圾是摆拍的道具,但这长脖子的狗子,是真的有点功夫在身上的!

背后算法QuadWBG,搭载了模块化框架,包含运动、感知、操作和规划四个模块;首次在移动抓取任务中引入通用定向可达性映射(Generalized Oriented Reachability Map),提升机器人在六自由度基座下的全身操作泛化能力。

并且结合强化学习运动规划,使抓取成功率从以往的30%左右,拉升到89%。

项目背后团队来自北大、银河通用、多伦多大学和智源研究院,相关论文已被ICLR 2025接收。

该工作的一作Jilong Wang对量子位表示,这项关于Loco-manipulation的创新成果,其中的操作能力可以从狗子身上泛化到人形机器人身上。

现在很多机器人厂商的机器人,更加擅长的是运动控制(而不是操作能力)。
我们希望能把模型操作能力赋能更多机器人本体,不管是人形还是别的。
Local-Manipulation创新成果

俗话说得好(不是),狗好,垃圾坏。

于是在北大校园里的各个角落,就出现了宇树机器狗B1如下的繁忙身影。

在QuadWBG的加持下,这只狗子不仅可以在现实世界中,从不同位置对地面上的物体进行抓取。

还可以很精确地在杂乱环境中抓住透明or镜面物体,然后放进身上的小背篓里。

先来个前情提要——

该团队的任务是给定一个目标物体的位置,机器狗需要高效地接近目标物体并最终抓取目标物体。

机器人本体由四足机器狗、6自由度机械臂和平行抓夹组成。

机械臂末端安装了一个RGBD摄像头,成为了长颈狗子的眼睛,用来获取场景的RGB和红外信息。

如果要把任务归类,这是一个非常典型的Local-Manipulation(运动——操作一体化)任务,它通常指智能体通过物理身体与环境进行局部交互,以实现特定任务的能力。

「上肢(机械臂)+足式机器人」的Local-Manipulation最早于2023年被提出,后来不断快速发展。

值得注意的是,针对足式机器人的Local-Manipulation,不能直接将抓取检测结果应用于机械臂运动规划,因为它忽略了本体和机械臂运动之间所需的协调。

而且由于动作维度不断拓宽,现实世界的物理交互又非常复杂,加上地形、视觉等,准确度和通用性仍然被限制了。

不过现在,端到端的RL已经提高了运动技能,推动了全身运动与操作端到端策略的发展,使机器狗子们能够执行需要运动并且与物体交互无缝协调的任务。

Just like在未名湖畔捡垃圾的小狗子。

解密时刻!

北大校园里勤勤恳恳的小狗子,之所以能精确识别并抓取地上的各种垃圾,是因为QuadWBG借鉴了多种抓取检测技术的成功经验,通过将抓取姿态检测与运动规划相结合。

值得一提的是,这也是首次在移动抓取任务中引入通用定向可达性映射,提升机器人在六自由度基座下的全身操作泛化能力。

可以精准抓取透明物体,哪怕它们挤在一起:

还可以坚持不懈地疯狂捡拾,把各种材质的各种物体装进背篼里:

最后,结合RL与运动规划,在仿真环境中,无论物体的大小或几何复杂性如何,狗子在所有测试物体上均取得了显著更高的成功率,性能非常稳定。

在实际操作中,狗子在14个不同物体实例、配置和环境中的全身抓取成功率达到了89%。

而在此之前的SOTA,仅在30%左右。

针对任务中较难的透明物体抓取,10次连续抓取也取得了80%的单次抓取成功率。

这是怎么做到的?

Jilong Wang解释道,其核心创新,在于模块化结构通用定向可达性映射

两大核心创新

通用定向可达性映射,即GROM,是QuadWBG的两大创新之一。

它是4个模块中“规划模块”的产物

因此,在对话过程中,Jilong Wang按照模块执行任务的逻辑和顺序来向量子位介绍了该工作的2大创新点。

至于为什么要做模块化,Jilong Wang给出的解释是:“因为现在端到端还不足以产生足够精确的结果,而模组能够让它产生很精确的全身数据,然后我们又把现实世界的数据提供给端到端的模型进行训练。”

也就是说,团队还是希望用模型自身的能力对现实世界进行感知,然后规划运动,而不是人工手动设计。

最后的目标是实现端到端操作,这样也就“没有仿真环境和现实环境的gap了”,还很省钱。

话不多说,先来看看模块化结构这个创新点——

QuadWBG是一个模块化通用四足全身抓取框架,该框架包含运动、感知、操作和规划四个模块。

第一个,运动模块,见上图A。

它负责将本体感知信息(包含当前运动指令,关节位置与速度等)编码成隐式状态信息,并通过多层感知器(MLP)生成动作来满足当前运动指令的要求,从而实现鲁棒的移动能力。

第二个,感知模块,见上图B。

为了实现实时跟踪和精确的抓取姿态预测,感知模块利用ASGrasp接收红外图像和RGB图像作为输入,能够预测精确的深度信息。

随后,预测的深度点云被输入到GSNet中,从而生成更精确的六自由度抓取姿态。

第三个,操作模块,见上图C。

操作模块采用了一种运动规划方法,以解决全身RL策略在末端执行器控制中的不精确性问题。

该系统在2个不同的阶段运行:跟踪阶段和抓取阶段。

首先是跟踪阶段,团队将安装的摄像头运动限制在一个预定义的跟踪球体内,并使用可达性映射(RM,Reachability Map)来定义跟踪球体。

在该空间内,任意方向上都存在有效的反向运动学(IK,Inverse Kinematics)解。

切换机制基于RM和阈值可达性标准构建。

在每个规划步骤中,团队使用RM计算所选抓取姿态的可达性;一旦达到阈值,系统将切换到抓取阶段。

其运动规划器在线生成轨迹,使系统能够在向目标移动时适应小的意外运动。

第四个,规划模块,见上图D。

规划模块基于目标抓取位姿,利用通用定向可达性映射来生成移动指令。

现存的ORM(Oriented Reachability Map)能够高效地表示相对于TCP(Tool Center Point)坐标系的潜在基座位姿。

然而,ORM有其限制性——机器人基座必须在平坦表面上

对此,QuadWBG项目中的银河通用团队提出了GORM,它支持六自由度的机器人基座放置,对于世界坐标系中的任意目标位姿,均可通过RM的逆运算计算潜在的基座到世界的分布。

一旦定义了目标位姿,GORM将提供高质量潜在基座位姿的分布。

团队训练高层策略以最小化当前基座位姿与最近可行位姿之间的距离,以鼓励机器人移动到基座位姿候选位置。

Jilong Wang进一步解释了这一创新性贡献:

它本身的意义就是在6D空间中给任意位姿,GORM能通过解析的方式告诉你,基座出现在哪个范围、哪个分布是最利于去抓取物体的。

△蓝色箭头是最佳位姿的向量表示

由于GORM在目标位姿坐标系中定义,因此只需计算一次,使其非常高效且非常适合并行训练。

One More Thing

然鹅,由于每次抓取前都要计算出最佳位姿,这就导致了目前的一个局限性

即便紧挨在一起的两三个垃圾,机器狗也不能通过一次识别、一次移动就连续抓取n个

它必须得经历“识别——移动到最佳位姿——抓取——再识别——移动到新的最佳位姿——抓取”这样的过程。

具体表现就像下面这张图中这样:

捡完一个垃圾后,机器狗必须得退两步,重新识别,然后再根据新规划的最佳位姿,靠近垃圾,然后抓取。

不过!

Jilong Wang表示,团队正在想办法解决这个问题,希望实现狗子不需要退回去,看一次就能把运动范围内的垃圾都捡起来。

减少狗子的工作量,提高效率。

毕竟保护动物,人人有责——哪怕是机器动物(doge)。

[1]https://quadwbg.github.io/

[2]https://arxiv.org/abs/2411.06782

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闪婚闪离 千万房产该怎么分?法院判了

闪婚闪离 千万房产该怎么分?法院判了

大象新闻
2026-05-13 15:02:06
FIFA秘书长已抵京+温格陪同!已与足协主席见面 全力劝说央视签字

FIFA秘书长已抵京+温格陪同!已与足协主席见面 全力劝说央视签字

风过乡
2026-05-13 13:00:53
57岁男子帮母亲与邻居吵架时猝死 一审法院:对方承担10%责任 赔偿近12万

57岁男子帮母亲与邻居吵架时猝死 一审法院:对方承担10%责任 赔偿近12万

极目新闻
2026-05-13 14:41:20
特朗普访华名单,大有玄机!

特朗普访华名单,大有玄机!

燕梳楼频道
2026-05-13 14:27:55
扬眉吐气史无前例!第一次把在任美国国务卿永久拦在中国国门外

扬眉吐气史无前例!第一次把在任美国国务卿永久拦在中国国门外

雪中风车
2026-05-12 13:10:31
英伟达宣布黄仁勋随特朗普访华,最后一刻如何加入?

英伟达宣布黄仁勋随特朗普访华,最后一刻如何加入?

红星新闻
2026-05-13 11:47:14
美国总统5月13日几点到达北京?美国到北京的飞机要几个小时?

美国总统5月13日几点到达北京?美国到北京的飞机要几个小时?

烈史
2026-05-13 13:19:23
5月13日,人社部、财政部关于2026年调整养老金通知下发了吗?

5月13日,人社部、财政部关于2026年调整养老金通知下发了吗?

小彬说事
2026-05-13 11:39:24
5月13日至5月19日,本市部分路段交通临时管制

5月13日至5月19日,本市部分路段交通临时管制

上海交通
2026-05-13 13:41:37
一季度失业保险基金支出536.6亿元,同比增长15.4%

一季度失业保险基金支出536.6亿元,同比增长15.4%

爆角追踪
2026-05-13 10:25:49
外交部发言人点名的“灰犀牛”,啥情况?

外交部发言人点名的“灰犀牛”,啥情况?

新民周刊
2026-05-13 09:08:35
暴跌65%,中年人最爱的豪车也崩了!

暴跌65%,中年人最爱的豪车也崩了!

蒋东文
2026-05-12 21:16:35
最新消息:社保缴费基数与工资必须一致,税务开始落实了——

最新消息:社保缴费基数与工资必须一致,税务开始落实了——

叶初七
2026-05-13 11:52:21
李想建议所有公司不裁人,称理想不会主动裁员,无人驾驶时代,买车的人会更多:AI时代的人才和以前的标准不一样,裁人很容易把最好的裁掉

李想建议所有公司不裁人,称理想不会主动裁员,无人驾驶时代,买车的人会更多:AI时代的人才和以前的标准不一样,裁人很容易把最好的裁掉

大风新闻
2026-05-13 15:12:14
因偷税被查的网红白冰复播,“坑我几千万还要把我送进去,要我家破人亡”

因偷税被查的网红白冰复播,“坑我几千万还要把我送进去,要我家破人亡”

都市快报橙柿互动
2026-05-13 15:10:32
俄军前线失控,指挥瘫痪、军头林立,1917年式危机阴影重现。

俄军前线失控,指挥瘫痪、军头林立,1917年式危机阴影重现。

高博新视野
2026-05-13 07:30:17
打破常规 国内航线燃油附加费5月16日起再上调

打破常规 国内航线燃油附加费5月16日起再上调

财联社
2026-05-12 16:55:15
动身访华前,特朗普对华称呼变了,中方对美定位,美已完全接受

动身访华前,特朗普对华称呼变了,中方对美定位,美已完全接受

共工之锚
2026-05-13 12:07:36
克宫:莫斯科和北京将同时宣布普京访问中国的日期

克宫:莫斯科和北京将同时宣布普京访问中国的日期

俄罗斯卫星通讯社
2026-05-13 14:59:45
中国外交部发声:坚决反对、强烈谴责巴方有关行径!

中国外交部发声:坚决反对、强烈谴责巴方有关行径!

一个有灵魂的作者
2026-05-12 21:21:19
2026-05-13 16:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12618文章数 176461关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

盘中最高4041.99点!创业板创历史新高

汽车要闻

4月BBA无一款车型销量破万 新能源渗透率首破60%

态度原创

艺术
家居
健康
教育
军事航空

艺术要闻

乾隆 “翻车” 名画刷屏!

家居要闻

内在自叙,无域有方

干细胞能让人“返老还童”吗

教育要闻

杭州市教育局局长陈键:教育的根本任务是立德树人,教育始终为了人的全面发展

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版