通研院团队斩获CoRL 2025杰出论文奖：系中国籍团队首次获此殊荣|算法|机器人|传感器|执行器|编码器|大模型

通研院团队斩获CoRL 2025杰出论文奖：系中国籍团队首次获此殊荣

分享至

国际机器人学习大会（Conference on Robot Learning, CoRL）是全球人工智能与机器人领域的顶级学术会议之一，其研究成果直接引领机器人学习方向的技术前沿。近年来，伴随具身智能热潮的兴起，机器人学习领域的关注度持续攀升，CoRL会议也成为全球顶尖团队展示核心突破的关键平台。

在2025年CoRL会议上，大会共计收到近千篇投稿，经过严格评审，最终收录264篇论文。其中，北京通用人工智能研究院团队的论文“UniFP: Learning a Unified Policy for Force and Position Control in Legged Loco-Manipulation” 从全球顶尖研究中脱颖而出，成功斩获大会最高奖项 ——杰出论文奖。这一成果具有里程碑意义，是CoRL会议创办以来，首次由全中国籍学者团队摘得该奖项，标志着中国在机器人学习与具身智能领域的研究已跻身全球领先行列。

▍UniFP：足式机器人首个力-位统一控制算法

本研究的核心成果是提出了UniFP（Unified Force and Position Control Policy），这是足式机器人领域内，首个能够在单一框架下统一处理力控制与位置控制的算法，彻底改变了传统机器人需分别设计力、位控制策略的局限。

该方法借鉴了生物力学中的阻抗控制原理。简单来说，当机器人的末端执行器（如机械手）与环境接触时，系统会像弹簧-质量-阻尼器系统一样响应：接触力越大，产生的位移也越大。通过调节系统的刚性、阻尼和惯性参数，机器人可以展现出从刚性到柔顺的不同交互特性。

基于这一原理，研究人员推导出了一个统一的控制公式，使得单个策略能够根据不同的命令配置，在位置跟踪、力控制和阻抗控制等多种模式间灵活切换。这就像人类手臂可以根据任务需求，自如地在“精确移动”和“用力推拉”之间转换。更关键的是，UniFP通过一个力估计器实现了“无传感器力感知”：它利用机器人的历史状态信息（如姿态、角速度、关节角度）和动作数据，反向估算出机器人受到的合外力。

这意味着机器人不再是“机械地走完预设路径”，而是能像人类通过肌肉感知负重一样，主动 “感知” 环境作用力，并实时调整动作以回应环境变化。

具体而言，UniFP的统一策略由神经网络构建，其架构包含三个相辅相成的核心模块，共同形成 “感知-决策-执行” 的完整控制闭环。

观测编码器：它接收并处理机器人连续一段时间（如32个时间步长）的历史状态信息，包括机器人状态（姿态、角速度、关节角度、历史动作）与命令（位置、力、速度）等。

状态估计器：这是策略实现力感知的核心。它从编码器的信息中，估算出无法直接测量的关键状态，包括当前外力、末端位置、基座速度等关键变量。这是整个研究的精髓——机器人不再需要力传感器，而是通过观察自身关节的微小变化和运动状态，像人类通过肌肉酸痛感知负重一样，“推断”出自己正在受力。

执行器：它综合编码器的历史信息和状态估计器提供的“体感”，最终计算出当前应该发送给各个关节电机的控制命令（动作）。

▍从仿真到实机，全场景验证多功能性

为了验证这一方法，研究团队在仿真环境Isaac Gym中创造了各种各样的接触场景，包括不同的位置指令、力指令和外部干扰力的组合。通过让机器人在这些多样化场景中学习，并通过跟踪奖励函数进行优化，策略逐渐掌握了如何从可观察的状态变量中提取出力的信息。

在仿真训练完成后，研究团队在Unitree B2-Z1四足机械臂平台上开展实机测试，UniFP展现出令人瞩目的多功能操作能力：

精准的力控制：在实验中，研究人员让机器人抓握一个2.5公斤的哑铃。当没有力指令时，机械臂在重力作用下自然下垂。但当给予一个向上的力指令（25牛顿，约等于抵消哑铃重力）时，机器人能稳稳地托住哑铃，手臂不再下垂。这证明了其力控制的精确性。

自适应的力追踪：在力追踪模式下，机器人会像具有“顺从性”一样，跟随外力的方向移动。一旦外力消除，它会保持在位移后的位置，而不是返回原始目标。这种行为类似于当我们推动一个人的手时，对方放松手臂任我们移动的场景。

柔顺的阻抗控制：在阻抗控制模式下，机器人会对外力做出“推回来”的响应——偏离目标位置越远，机器人施加的抵抗力就越大。研究团队在“人机拔河”实验中生动展示了这一能力：当人类拉扯机器人的末端执行器时，机器人会根据被拉离目标位置的距离，施加相应的回拉力。

▍力感知模仿学习：从“看”到“感”的飞跃

如果说UniFP的力-位统一控制是“基础能力突破”，那么其与模仿学习的结合，则显著提升了机器人在接触密集型任务中的学习效率，是这项研究最具影响力的延伸创新。

模仿学习是让机器人通过观察专家演示来掌握新技能的方法，类似于人类通过观察学习。然而，大多数现有的模仿学习方法仅关注位置轨迹，而忽略了接触力信息。这导致学习的策略在接触密集型任务中表现不佳。

研究团队利用统一力-位置策略作为基础遥操作系统，收集了包含丰富接触力信息的操作数据。这些数据随后用于训练基于扩散的力感知模仿学习策略。结果表明，这种力感知方法在四项具有挑战性的接触密集型任务中（擦拭黑板、打开橱柜、关闭橱柜和打开被遮挡的抽屉）比仅依赖位置信息的传统方法成功率高出约39.5%。

为了验证方法的通用性，研究团队在Unitree B2-Z1四足机械臂平台和Unitree G1人形机器人上进行了广泛实验。结果显示，统一策略能够适应不同的机器人形态和任务需求。

该研究在Unitree B2-Z1四足操控平台和Unitree G1人形机器人上开展了七项实验任务。在擦黑板任务中，位置控制的策略要么擦不干净，要么用力过大，而UniFP能保持稳定的接触压力，把黑板彻底擦干净。在开关柜门任务中，视觉方法根本无法识别微小的推拉式弹簧，而UniFP通过力估计器准确地触发开关。在抽屉被遮挡的场景下，基线方法成功率急剧下降到0.3，而UniFP借助力感知将成功率提升到0.76。

更值得关注的是，UniFP并不局限于某一种机器人形态，展现出极强的泛化能力。研究团队除了在Unitree B2-Z1四足机械臂平台上验证，还将其部署到Unitree G1人形机器人上，同样实现了稳定控制。这意味着UniFP成为首个 “同时跨任务、跨形态、跨平台” 的统一力-位控制策略，打破了传统机器人控制算法需定制开发的行业瓶颈。

论文链接：https://arxiv.org/html/2505.20829v2

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.