研究人员提出并行时序编码器架构，提升人形机器人训练的稳定性|算法

研究人员提出并行时序编码器架构，提升人形机器人训练的稳定性

2025-08-20 18:04:04　来源: DeepTech深科技

北京举报

分享至

当前，人形机器人正处于由基础可行性验证向早期应用与智能化演进的过渡阶段。其已具备相对成熟的能力，包括双足稳定行走、跳跃、转向、多关节协调控制，以及多模态感知集成等。这些能力的实现，在很大程度上依赖于先验工程干预。在硬件层面，设计者通过增大足底支撑面积、降低重心、引入冗余结构等手段提升本体的物理稳定性；在软件控制层面，则普遍采用以人类经验为核心的控制方法，如 PID 控制、轨迹规划、模型预测控制等，强化学习仅作为优化模块辅助使用。这些方法虽能实现高性能控制，但对特定任务和平台高度依赖、泛化能力弱、难以适应变化环境，且对专家知识依赖程度高、获取成本大。

在人形机器人向智能化演进的过程中，一个核心问题是如何逐步摆脱上述工程依赖，转向更灵活、通用的“学习驱动的智能控制”范式。其中，端到端智能控制成为关键研究方向之一，其目标是使机器人能够从原始感知输入（如传感器数据）直接输出控制命令（如关节力矩或速度），无需显式建模或人工设定的控制逻辑。这种方式具有自动学习复杂行为的潜力，可更自然地适应任务变化，显著减少先验知识对系统设计的限制。

在机器人领域，Gymnasium 是一个广泛使用的强化学习环境工具库，它为开发者和研究者提供了标准化的虚拟环境。Gymnasium 中的 MuJoCo Humanoid 环境为研究端到端控制提供了理想测试平台。该环境模拟一个双足人形机器人在平坦地面上行走的任务，是复杂连续控制问题中的经典强化学习基准。与现实机器人不同，仿真模型在结构上有意简化，缺乏脚掌、助力机制和动态平衡辅助装置，重心较高，稳定性较差，从而最大程度减少了硬件层面的工程干预。这种设计使该环境成为评估“纯策略控制”能力的典型平台，有助于更直接反映策略本身的智能水平与适应能力。

在此环境中训练出的策略，可通过奖励驱动自动学习出如髋关节协调摆动以维持平衡、利用上肢辅助缓冲摔倒冲击、上下肢协同提速行走等行为。这些能力并非由设计者预设，而是策略在训练过程中自然涌现，有效降低了对人工规则和模型的依赖，减少了算法层面的工程干预。

然而，现有端到端策略大多建立在完全可观测环境的假设之上，即可获取环境的完整状态。在实际系统中，机器人通常处于部分可观测状态，常面临传感器受限、观测噪声、信息缺失（如质量分布、外力等）等问题。在此背景下，如何在信息不完全的条件下仍实现高效的控制策略，成为当前研究的核心挑战。

为应对观测不全的问题，一些方法引入了递归神经网络（如 RNN、LSTM）以捕捉历史信息，以及弥补瞬时观测的不足。然而，在高维、连续控制任务中，这类方法普遍面临训练不稳定、泛化能力差等难题。例如，在 MuJoCo Humanoid 环境中，目前尚缺乏在部分观测条件下有效的强化学习方法。

因此，澳大利亚纽卡斯尔大学教授陈智勇和团队在近期一项研究中聚焦于以下问题：在不依赖完整状态观测的前提下，能否设计出一种稳定、结构简洁、具扩展性的策略架构，以提升人形机器人在部分可观测环境中的控制能力？研究人员希望通过构建新的机制，使强化学习策略能够从有限的观测中提取关键动态信息，从而完成复杂的运动控制任务。该方向的探索将有助于推动人形机器人从依赖结构和规则的工程化控制体系，迈向更具泛化性和自主性的智能控制系统。

在部分可观测环境中，智能体无法直接获取完整的环境状态，通常需要依赖有限长度的历史观测来重构当前状态。在可观性条件满足时，这种方式可将原本的部分可观测马尔可夫决策过程（POMDP，Partially Observable Markov Decision Process）转化为完全可观测的马尔可夫决策过程（FOMDP，Fully Observable Markov Decision Process）。然而，由于历史观测之间存在大量冗余信息，直接拼接历史输入将显著膨胀状态空间维度，增加策略学习的复杂度与不稳定性。因此，如何从冗余的历史观测中有效提取关键特征，成为实现高效策略学习的核心挑战。

针对该问题，本研究提出了一种并行时序编码器架构，结合多头注意力机制（Multi-Head Attention），对历史观测序列进行高效建模与信息聚合。该方法在不依赖递归结构（如 RNN、LSTM）的前提下，能够从有限历史中恢复缺失的状态信息，显著提升策略训练的稳定性与最终性能。多头注意力机制作为现代深度学习的核心结构，已经广泛应用于自然语言处理、计算机视觉、语音识别与强化学习等领域。其基本思想是从多个子空间维度并行关注输入序列的不同部分，从而提取丰富的上下文信息与特征关联。在本研究中，多头注意力被用于从历史观测中自动筛选与当前决策最相关的信息、学习时间依赖性与关键感知特征。

研究人员在 MuJoCo Humanoid 环境中对该方法进行了系统实证。该环境的状态空间维度为 348，包含身体各部位的位置、速度、质量、惯性参数、执行器力以及外部作用力等信息。实验结果表明，即使仅使用原始观测的三分之一至三分之二维度，所提出的方法仍可达到甚至超过完整状态输入下的强化学习基线性能（如 TD3）。尤其值得强调的是，在移除质量、惯性与力信息，仅保留约三分之一状态维度的设定下，策略仍能凭借位置与速度等部分观测有效建构控制模型、快速收敛，并最终超越完整观测策略的性能。这也是首次在该环境的部分可观测设定下，通过强化学习实现稳定有效控制的成功案例。

此外，研究人员进一步评估了该策略在物理参数变化下的泛化能力。在测试中，研究人员对双手、小腿、大腿、上臂、骨盆和躯干等部位的质量进行 ±50% 的独立扰动。结果显示，训练策略在多种质量配置下依然保持稳定性能，展现出良好的鲁棒性与适应性，验证了其对物理参数变化的容忍度与广泛适用性。

本研究在部分可观测条件下提出了一种纯学习驱动的人形机器人控制方法，推动机器人从“规则执行”迈向“行为智能”，摆脱对工程干预与人类经验的依赖，为类脑智能与具身智能方法体系的演进提供了有益探索。在实践层面，该方法有助于降低对专家知识的依赖，提升系统的通用性与自主性。未来，该方法可与大语言模型和多模态感知系统融合，构建具备认知、感知与行动能力的类人自主体。本研究的最终目标不仅在于实现稳定的人形行走控制，更在于建立一种通用、稳定、可扩展的控制学习范式，以应对具备复杂时序结构的任务需求。

陈智勇告诉 DeepTech：“这些工作是我带领博士生王吴皓完成的。他于 2023 年获得瑞典林雪平大学的硕士学位，目前是纽卡斯尔大学二年级的博士生，展现出极强的学习能力和科研潜力。这些成果来源于我们在自动控制、强化学习和机器人技术这三个领域不断交叉探索的过程，体现了输出反馈、状态估计和自适应控制等经典控制理念在强化学习框架下的融合与演化，并成功应用于人形机器人平台。”

本研究主要聚焦于算法层面，提出了一种在部分可观测条件下实现稳定人形机器人控制的纯学习方法。下一步，研究人员将继续拓展该算法框架，进一步提升其性能与泛化能力，并在更具多样性的人形机器人模型中进行系统评估，逐步推广至其他类型的高维连续控制环境。同时，研究人员也计划推动该方法向现实系统迁移，探索其在真实人形机器人平台上的部署与验证可行性。目前，现实人形机器人在关键控制环节仍高度依赖工程化干预、人类经验和手动调参。研究人员希望本研究能够为端到端学习控制在实际机器人系统中的落地应用提供算法基础与技术支持，进而推动人形机器人向更高自主性、更低人工依赖的方向演进。

参考资料：

https://arxiv.org/pdf/2507.18883

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.