网易首页 > 网易号 > 正文 申请入驻

1米3宇树G1完美上篮!港科大解锁全球首个真实篮球机器人Demo

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

1米3的机器人小土豆,三步上篮也可以如此丝滑。



别误会,这台宇树G1暂时还不准备参加NBA选秀,但它刚解锁的 “现实世界打篮球” 技能,离上“村BA”首发应该不远了。

据悉,这是全球首个能在真实场景中完成篮球动作的机器人demo,来自香港科技大学的研究团队。



虽然团队还没公开完整的技术细节,但结合他们此前让机器人“打篮球”的工作,这次很可能是在之前研究的基础上,进一步改良而来。

接下来,让我们一窥究竟。

SkillMimic-v2

首先是被收录于SIGGRAPH 2025SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations



SkillMimic-V2旨在解决交互演示强化学习(RLID)中演示轨迹稀疏、含噪且覆盖不足的难题。

其通过引入拼接轨迹图(STG)状态转移场(STF)自适应轨迹采样(ATS)等技术,成功地在低质量数据条件下,训练出了兼具鲁棒恢复能力与技能迁移能力的复杂交互策略 。



当前,通过动作捕捉等方式收集的数据往往存在以下缺陷:

  • 稀疏性 (Sparse):演示数据仅覆盖了有限的技能变体,缺乏技能之间的过渡轨迹。
  • 不连贯性 (Disconnected):不同的技能片段是独立的,缺乏自然的连接。
  • 噪声 (Noisy):数据中包含物理上不可行的状态或误差(例如手与物体的穿模、接触位置偏差),这在精细操作任务中会导致严重的训练失败。

这些有缺陷的数据无法捕捉到技能变体和转换的完整频谱。

不过,相比直接去收集更好的数据,研究认为尽管演示数据是稀疏和嘈杂的,但存在无限的物理可行轨迹

这些潜在的轨迹天然地能够桥接不同的技能,或者从演示状态的邻域中涌现出来。

这就形成了一个连续的、可能的技能变体和转换空间,从而可以利用这些不完美的演示数据,训练出平滑、鲁棒的策略。



基于以上认识,研究提出三个关键步骤发现并学习这些潜在轨迹:

  • 拼接轨迹图 (Stitched Trajectory Graph, STG):为了解决技能间的连接问题(如从运球切换到投篮),算法在不同演示轨迹之间寻找相似状态。如果在两个不同技能的轨迹中发现相似状态,就建立一条连接,并用掩码标记中间的过渡帧。这构建了一个宏观的图结构,允许策略学习未在原始数据中出现的技能转换。
  • 状态转移场 (State Transition Field, STF):训练时不只从参考轨迹的特定点开始,而是从其邻域内随机采样状态初始化。对于邻域内的任意采样状态,计算其与参考轨迹中所有状态的相似度,找到最佳匹配目标。如果起点与目标点距离较远,算法会插入N个掩码状态(Masked States)。这些状态不计算奖励,仅作为时间缓冲,迫使RL策略学习如何从偏离状态“归位”到参考轨迹,从而形成一个具有恢复能力的“场” 。
  • 自适应轨迹采样 (Adaptive Trajectory Sampling, ATS):根据当前策略在某段轨迹上的表现(奖励值)动态调整采样概率。奖励越低(越难学)的片段,被采样的概率越高。这解决了长序列中因局部失败导致整个链条断裂的问题。

由此,技能转换和泛化能力能够远超最初不包含任何技能转换或错误恢复的稀疏演示,实现更高效地技能学习与泛化性。

比如,在仿真环境(Isaac Gym)中,机器人可以在受到干扰时,仍可以完成上篮动作。



还能实现运球-投篮间的技能转换。

实验表明,相比此前的SOTA (SkillMimic)方法,SkillMimic-V2在困难技能(如 Layup)上的成功率从0提升到了91.5%。技能转换成功率 (TSR) 更是从2.1%飙升至94.9%



SkillMimic

接下来是SkillMimic-V2的前作——SkillMimic: Learning Basketball Interaction Skills from Demonstrations,这篇论文入选了CVPR 2025 Highlight。



SkillMimic旨在解决物理模拟人-物交互(HOI)中传统方法依赖繁琐手工奖励设计且难以在统一框架下掌握多样化技能的难题。

其通过引入统一HOI模仿奖励接触图(Contact Graph)分层技能复用等技术,成功地在单一奖励配置下,训练出了兼具精准接触控制与长程任务组合能力的通用交互策略。



研究pipeline包含三个部分:

  • 首先,采集真实篮球运动技能,构建一个庞大的人机交互(HOI)运动数据集。
  • 其次,训练一个技能策略,通过模仿相应的HOI数据来学习交互技能,设计了一个统一的HOI模仿奖励机制,用于模仿各种不同的HOI状态转换。
  • 最后,是训练一个高级控制器(HLC),用于复用已学习的技能来处理复杂任务,同时使用极其简单的任务奖励。

其中,SkillMimic方法的关键在于:

  • 统一的HOI模仿奖励(Unified HOI Imitation Reward):放弃针对每种技能单独设计奖励,而是设计一套通用的奖励配置,通过模仿HOI数据集来学习所有技能 。
  • 分层学习架构(Hierarchical Solution):低层:交互技能策略(IS Policy):通过SkillMimic框架学习各种基础交互技能(如运球、上篮)。高层:高级控制器(HLC):训练一个高级策略来复用和组合已习得的IS策略,以完成长程复杂任务(如连续得分)。
  • 数据驱动:构建了两个数据集BallPlay-V(基于视频估算)和BallPlay-M(基于光学动捕,精度更高),包含约35分钟的多样化篮球交互数据 。

实验表明,SkillMimic能够使用同一套配置学会多种风格的篮球技能(运球、上篮、投篮等),成功率显著高于DeepMimic和AMP。



在演示中,我们可以看到,仿真环境的机器人能够实现绕圈运球等高级技能。

PhysHOI

如果追溯SkillMimic作者的工作,就会发现早在2023年,论文PhysHOI: Physics-Based Imitation of Dynamic Human-Object Interaction就试图让仿真中的机器人能够根据演示学习篮球技能。



为实现这一点,

PhysHOI在当时提出了一种基于物理仿真的动态人-物交互(HOI)模仿学习框架。



简单来说,给定参考的HOI数据,将当前的模拟HOI状态与参考HOI状态一起输入策略模型。

策略输出动作,并通过物理模拟器生成下一步的模拟HOI状态,然后将运动学奖励与接触-抓取(CG)奖励加权结合,并优化策略以最大化期望回报。

重复上述过程直至收敛,即可复现参考数据中的HOI技能。



除此之外,为防止运动学模仿奖励陷入最优解,研究还引入了接触图(Contact Graph)

给定一个HOI帧,接触图节点包含所有身体部位和物体。每条边都是一个二元接触标签,表示接触与否。为了简化计算,还可以将多个身体部位聚合到一个节点中,形成聚合接触图。

同时,为了弥补HOI场景的不足,研究还引入了全身篮球技巧的BallPlay数据集。



在实验中,PhysHOI在不同大小的篮球操作上表现出了鲁棒性。

One more thing

值得一提的是,在PhysHOI、SkillMimic 、SkillMimic-v2三篇工作中,王荫槐都担任了核心角色,网友调侃他是“篮球科研第一人”。



王荫槐是香港科技大学的博士二年级学生,导师为谭平教授。

在此之前,他硕士就读于北京大学,本科毕业于西安电子科技大学,并于IDEA Research、宇树科技以及上海人工智能实验室等机构进行实习。

从2023年在仿真环境的小试牛刀,到这次直接让机器人在真实环境中打球,得益于机器人本体的发展,这速度真是很快了!



[1]https://x.com/NliGjvJbycSeD6t/status/1991536374097559785

[2]https://wyhuai.github.io/info/

[3]https://ingrid789.github.io/SkillMimicV2/

[4]https://wyhuai.github.io/physhoi-page/[5]https://ingrid789.github.io/SkillMimic/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女司机踏宝马引擎盖后续!真相曝光车主身份被扒,难怪女方暴怒

女司机踏宝马引擎盖后续!真相曝光车主身份被扒,难怪女方暴怒

阿纂看事
2026-03-26 16:20:25
出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

共工之锚
2026-03-26 00:57:32
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
5月1日起,全国电动车彻底“变天”,家家户户都要注意

5月1日起,全国电动车彻底“变天”,家家户户都要注意

番外行
2026-03-26 08:19:47
裁员潮下的工程人普遍都不想找工作了!

裁员潮下的工程人普遍都不想找工作了!

黯泉
2026-03-26 18:41:24
上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

老叶评球
2026-03-26 17:04:22
“感谢中产家庭,让我偶尔能洗头,”12岁女孩低认知炫耀,被群嘲

“感谢中产家庭,让我偶尔能洗头,”12岁女孩低认知炫耀,被群嘲

妍妍教育日记
2026-03-23 20:06:00
瞒不住了!开战27天,乌鸦席卷特拉维夫天空,以色列高层夜不能寐

瞒不住了!开战27天,乌鸦席卷特拉维夫天空,以色列高层夜不能寐

Ck的蜜糖
2026-03-26 17:17:14
安切洛蒂的巴西队改造:桑巴魔法消亡,中场“钢铁革命”能赢第六星吗?

安切洛蒂的巴西队改造:桑巴魔法消亡,中场“钢铁革命”能赢第六星吗?

漫川舟船
2026-03-26 13:02:34
偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

离离言几许
2026-03-16 16:31:23
特朗普旧招重演!美国突然大规模增兵,第二个马杜罗即将到来?

特朗普旧招重演!美国突然大规模增兵,第二个马杜罗即将到来?

音乐时光的娱乐
2026-03-26 18:03:26
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

爱看剧的阿峰
2026-03-26 17:47:28
一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

白面书誏
2026-03-24 14:40:27
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

老马拉车莫少装
2026-03-25 19:39:00
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
福建省委决定,颜桂炀履新(附简历)

福建省委决定,颜桂炀履新(附简历)

人民资讯
2026-03-26 16:28:52
击落202架了!2枚前卫导弹升空,美军F-18凌空爆炸,仓皇往航母跑

击落202架了!2枚前卫导弹升空,美军F-18凌空爆炸,仓皇往航母跑

军机Talk
2026-03-26 18:29:49
2026-03-26 19:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
艺术
健康
本地
房产

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版