![]()
当机器人学会「为什么而抓」,智能才真正开始面对真实世界。
作者丨郑佳美
编辑丨岑峰
![]()
在机器人研究中,抓取这一看似基础的问题正在成为决定上层智能能走多远的关键变量。今天的大模型已经能够理解语言、分析图像、规划任务,但在与世界发生真正物理接触的那一刻,智能系统仍然显得笨拙。
现有抓取研究大多停留在稳定性层面,只要能夹住、不掉落,即视为成功。然而在人类的日常活动中,抓取从来不是目的本身,而是功能行为的起点。端起杯子是为了倒水,握住锤柄是为了敲击,按住喷壶的扳机是为了喷洒。也正是在这一层意义上,功能性抓取比稳定抓取更接近真实世界的智能。
难点在于,功能性抓取并不是简单的几何问题,而涉及对物体结构、用途、操控部位以及抓取方式的综合理解。尤其在灵巧手系统中,上百维的控制空间与复杂的接触动力学叠加,使得传统强化学习方法难以取得有效进展。如何让机器人自主学习到功能相关的抓取位置与合适的抓取姿态,一直缺乏系统而可验证的解决方案。
在这一背景下,北京大学卢宗青团队在论文《Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning》中提出了一种名为 DemoFunGrasp 方法,对功能性抓取进行了重新建模。
研究团队将关注点从单纯是否抓住物体,提升到如何围绕物体的具体功能进行抓取。他们把功能相关的位置以及抓取时所采用的姿态风格纳入到统一的学习框架之中,使功能目标直接参与到策略优化过程中,并在大规模仿真环境和真实机器人平台上对这一框架进行了系统验证,并取得了在仿真与真实场景中均表现稳定、成功率超过70%的功能性抓取效果。
![]()
论文地址:https://arxiv.org/pdf/2512.13380v1
01
从「抓得住」走向「抓得对」
这项研究的实验首先证明了一个核心结论:研究团队所提出的 DemoFunGrasp 方法可以在大量不同形状、不同功能、不同抓取风格的物体上,实现可控的、语义明确的功能性抓取,而且不仅在仿真环境中有效,还能够直接迁移到真实机器人平台上。
论文的第一个重要实验结果,是在大规模仿真环境中取得了较高的抓取成功率。研究者在 IsaacGym 中构建了包含三千多个不同物体的环境,这些物体来源于 DexGraspNet 和 YCB 数据集,形状差异非常显著,包括细长物体、球形物体、带把手的容器、工具类物体等。
在这些场景中,机器人被要求在指定功能条件下完成抓取,例如抓住杯子的把手、抓住喷壶的扳机位置或抓住工具柄部。实验表明,在这种功能约束条件下,提出的方法仍然能够保持较高的抓取成功率,说明所学到的策略不仅关注稳定性,而且兼顾功能需求。
![]()
第二个重要实验结果是功能区域对准精度明显提高。传统抓取方法通常只要抓住即可,而不关心具体位置。为评价功能性,研究团队还定义了“成功抓取情况下,目标功能点与实际接触点的距离”这一指标。
实验显示,DemoFunGrasp 能够显著减小这两者之间的距离,偏差在平均水平上大约降低到 3 厘米左右,而对比方法往往会偏离较远,甚至抓在完全不符合功能要求的位置上。
在具体物体上可以清楚看到这种差别,例如在锤子场景中,基线方法的抓取多集中在锤头等稳定区域,而 DemoFunGrasp 的接触点主要分布在锤柄位置,在喷壶场景中,前者常抓在瓶身表面,后者则更多落在扳机或握持柄部附近,整体抓取位置明显更加贴近功能区域。
![]()
第三个重要实验结果是抓取风格的多样性与可控性。研究首先依据人类手部抓取分类体系,定义了一系列具有语义含义的抓取风格,例如捏持、侧持、小直径抓等,并将其输入到策略模型中,作为控制条件。
在抓取风格的多样性与可控性方面,实验首先在同一物体上施加不同的抓取风格条件,例如捏持、侧持、小直径抓等,观察由此产生的抓取结果。
实验发现,同一物体在不同风格条件下,策略会主动生成截然不同的抓取姿态,而不是简单改变少量关节角或进行微弱扰动,表现出明显的风格差异。进一步地,将大量抓取姿态映射到低维嵌入空间进行可视化分析时可以看到,不同抓取风格在嵌入空间中形成清晰分离的聚类,说明风格信号被稳定地编码并作用于控制过程,模型真正学到的是结构化、可控的抓取风格,而非无意义的数值波动。
![]()
第四个实验结果体现在真实机器人平台上。实验中研究团队使用真实 7 自由度机械臂加灵巧手系统,对日常物体进行功能抓取测试,包括水壶、碗、喷壶、香蕉、玩具以及各种工具。
在此场景中,机器人只依赖摄像头图像,而不再获得仿真中的完美状态信息。研究者没有进行额外的真实世界微调,而是将策略直接部署在现实环境中,仍取得了超过 70% 的抓取成功率。更重要的是,机器人不仅完成抓取行为,还能够执行功能相关的后续动作,例如提起壶柄倒水、抓住喷壶扳机进行喷射等。这说明,策略不只是“抓住就好”,而是抓在真正能够使用的位置。
![]()
此外,研究还通过消融实验证明设计中的关键模块都是必要的。例如,去掉可供性相关奖励项后,成功率反而略有提升,却明显偏离功能区域,说明如果只追求稳定,会牺牲功能正确性;去掉风格扰动机制后,成功率大幅下降,表明风格调节对策略探索具有重要意义;去掉尺寸归一化后,大物体的学习变得极不稳定,证明考虑尺度一致性至关重要。这些实验共同证明,论文中提出的具体设计不仅是附加装饰,而是支撑整体性能的关键因素。
![]()
02
把「怎么抓」提升到「为什么而抓」
为了得到上述实验结果,研究团队设计了一条较为清晰的方法路线,这条路线的核心思想,就是把“功能抓取”从直觉概念变成了建模良好的问题,然后再利用强化学习和模仿学习进行求解。
首先,研究团队在任务建模上做了非常关键的一步:它没有直接把抓取看作一个简单的“手与物体相互接触”的几何问题,而是明确提出,功能抓取应该由两个互补部分共同定义,即抓取的功能性位置以及抓取的姿态风格。功能位置用三维空间中的可供性点来描述,例如茶壶的把手位置、喷壶的扳机位置或剪刀的握柄位置。
抓取风格则使用类别标签来表示,例如捏持、环握或侧持等。这种分解使得功能抓取问题可以被表达为:在给定物体形状、功能点和风格标签的条件下,计算一个完整的抓握动作。
![]()
接下来,研究引入了演示编辑强化学习方法。传统强化学习在 dexterous hand 场景下非常困难,因为灵巧手具有二十多个甚至更多的自由度,动作空间极高,而且抓取涉及复杂的接触动力学,探索过程容易失败。为此,研究团队不是让策略从零生成整条抓取轨迹,而是先准备一条基础示范轨迹,然后让策略学习如何在这条轨迹附近进行修改。示范轨迹可以理解为一种“基本抓取动作骨架”,而策略只做残差式调整。
具体来说,策略输出包括手腕位姿的整体变换,以及手指关节角的小幅变化,这些变化直接作用于演示轨迹,得到新的执行动作。这种方式将原本需要在长时间序列中持续决策的问题,转化为一次性的单步决策,从而大大降低了搜索空间和学习难度。
![]()
在此基础上,研究人员精心设计了奖励函数,使策略不仅追求抓取成功,还要遵循功能约束与姿态风格。奖励包含四个核心部分:抓取是否最终成功、抓取接触点与功能性可供性点的距离、抓取过程中是否靠近功能区域以及最终手部姿态与目标风格的差异。
特别重要的是,他们还考虑到不同物体尺寸差异明显,如果直接使用欧氏距离作为衡量标准,尺寸大的物体会被不公平地惩罚。因此,研究中引入了按物体尺寸进行归一化的距离测量方式,从而保证奖励尺度一致,这使强化学习更加稳定。
![]()
之后,研究进程并未停留在状态级强化学习上,而是进一步把策略迁移到视觉输入空间。具体过程是,先利用上述状态策略在仿真环境中大量收集成功的抓取轨迹,包括 RGB 图像、手臂与手部的状态、目标功能点、抓取风格标签以及控制动作。
然后,将这些数据作为监督信号,训练一个视觉策略网络,使其直接从原始图像预测控制信号。这一步实际上相当于进行了一次模仿学习或策略蒸馏,它将“理想信息下学得的策略”转化为“真实感知条件下可执行策略”。训练过程中,作者对光照、材质、相机位置等因素进行了大规模随机化,使视觉策略不依赖特定环境特点,从而能够在真实世界中运行。
![]()
研究团队还将视觉语言模型引入系统中,使机器人能够从语言中理解功能性抓取要求。当用户说“抓住喷壶的扳机”或“拿茶壶的把手”时,视觉语言模型会在图像中定位对应的功能区域,并将其转换为可供性点作为抓取策略输入。这样,系统构建起完整的链条:从语言理解,到视觉感知,到功能位置推理,再到灵巧手抓取控制。
03
当控制难题被真正降维
这项研究的意义可以从三个层面理解:抓取目标的转变、学习方法的突破以及具身智能系统整体能力的提升。
首先,它改变了传统机器人抓取的目标。以往大多数机器人抓取研究,只要物体被抬起、不掉落,就认为任务完成。然而在人类日常生活中,大多数抓取并不只是“抓住”,而是“为了使用”。例如抓杯子是为了倒水,抓剪刀是为了剪东西,抓喷壶是为了喷洒。
这项研究将功能性要求明确引入抓取环节,使机器人抓取从“几何稳定性问题”转变为“与物体功能紧密相关的语义问题”。这标志着机器人操作从单纯的物理行为向语义行为过渡,是迈向真正智能操作的关键一步。
其次,这项工作为dexterous hand的强化学习提供了新的解决路径。灵巧手具有极高自由度和复杂接触模式,直接在其动作空间上进行强化学习往往极其困难,容易陷入探索失败或收敛缓慢的问题。
论文提出的演示编辑式强化学习,通过构造演示轨迹作为参考,将多步连续控制转化为单步残差决策,大幅降低了学习难度。这种思想不仅适用于抓取,还可能推广到多种复杂操作任务,例如旋转、插接、开合等,对整个 dexterous manipulation 领域具有启发意义。
再次,论文提出的功能点 + 抓取风格表达方式,本身就是一种重要概念建模创新。它把功能抓取从模糊概念转化为可计算、可组合、可条件控制的形式,使得抓取策略能够接受来自人类语言、任务规划器或感知系统的条件输入。这为未来多模态机器人系统与人类自然交互提供了基础。
最后,这项研究实现了从语言、视觉到低层控制的完整闭环,机器人不再只是执行刚性预设程序,而是能够在理解任务语义后自主决定如何抓取和使用物体。这种能力是通用家庭机器人、服务机器人以及具身人工智能系统的关键能力之一,因此具有非常重要的理论与应用价值。
04
让抓取拥有「目的」的研究者
本论文通讯作者卢宗青为北京大学计算机学院长聘副教授、国家级青年人才、智源学者。长期担任 NeurIPS、ICML、ICLR 等国际顶级会议的领域主席,提出 Video Tokenizer 技术以及 Retriever–Actor–Critic 框架,推动多模态模型与强化学习在机器人领域的深度结合,其研究成果已在多家头部机器人企业开展场景验证与应用合作。
卢宗青先后在东南大学获得学士和硕士学位,2014 年于新加坡南洋理工大学获得计算机博士学位,随后于 2014 至 2017 年在美国宾州州立大学从事博士后研究。
2022 年,他担任智源研究院多模态交互研究中心负责人,主持国家自然科学基金委原创探索计划“通用智能体”项目。2023 年带领团队研发通用智能体 Cradle,相关论文于 2025 年被 ICML 录用。
2025 年 1 月,他创立北京智在无界科技有限公司(BeingBeyond),提出通过标注 1500 万条互联网视频中的人类关节动作数据构建多模态姿态模型。同年 6 月,公司完成由联想之星领投、智谱 Z 基金、燕缘创投和彬复资本跟投的数千万元天使轮融资,资金主要用于模型迭代与产业化验证。
![]()
参考链接:https://z0ngqing.github.io/
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.