网易首页 > 网易号 > 正文 申请入驻

研究人员提出并行时序编码器架构,提升人形机器人训练的稳定性

0
分享至

当前,人形机器人正处于由基础可行性验证向早期应用与智能化演进的过渡阶段。其已具备相对成熟的能力,包括双足稳定行走、跳跃、转向、多关节协调控制,以及多模态感知集成等。这些能力的实现,在很大程度上依赖于先验工程干预。在硬件层面,设计者通过增大足底支撑面积、降低重心、引入冗余结构等手段提升本体的物理稳定性;在软件控制层面,则普遍采用以人类经验为核心的控制方法,如 PID 控制、轨迹规划、模型预测控制等,强化学习仅作为优化模块辅助使用。这些方法虽能实现高性能控制,但对特定任务和平台高度依赖、泛化能力弱、难以适应变化环境,且对专家知识依赖程度高、获取成本大。

在人形机器人向智能化演进的过程中,一个核心问题是如何逐步摆脱上述工程依赖,转向更灵活、通用的“学习驱动的智能控制”范式。其中,端到端智能控制成为关键研究方向之一,其目标是使机器人能够从原始感知输入(如传感器数据)直接输出控制命令(如关节力矩或速度),无需显式建模或人工设定的控制逻辑。这种方式具有自动学习复杂行为的潜力,可更自然地适应任务变化,显著减少先验知识对系统设计的限制。

在机器人领域,Gymnasium 是一个广泛使用的强化学习环境工具库,它为开发者和研究者提供了标准化的虚拟环境。Gymnasium 中的 MuJoCo Humanoid 环境为研究端到端控制提供了理想测试平台。该环境模拟一个双足人形机器人在平坦地面上行走的任务,是复杂连续控制问题中的经典强化学习基准。与现实机器人不同,仿真模型在结构上有意简化,缺乏脚掌、助力机制和动态平衡辅助装置,重心较高,稳定性较差,从而最大程度减少了硬件层面的工程干预。这种设计使该环境成为评估“纯策略控制”能力的典型平台,有助于更直接反映策略本身的智能水平与适应能力。

在此环境中训练出的策略,可通过奖励驱动自动学习出如髋关节协调摆动以维持平衡、利用上肢辅助缓冲摔倒冲击、上下肢协同提速行走等行为。这些能力并非由设计者预设,而是策略在训练过程中自然涌现,有效降低了对人工规则和模型的依赖,减少了算法层面的工程干预。

然而,现有端到端策略大多建立在完全可观测环境的假设之上,即可获取环境的完整状态。在实际系统中,机器人通常处于部分可观测状态,常面临传感器受限、观测噪声、信息缺失(如质量分布、外力等)等问题。在此背景下,如何在信息不完全的条件下仍实现高效的控制策略,成为当前研究的核心挑战。

为应对观测不全的问题,一些方法引入了递归神经网络(如 RNN、LSTM)以捕捉历史信息,以及弥补瞬时观测的不足。然而,在高维、连续控制任务中,这类方法普遍面临训练不稳定、泛化能力差等难题。例如,在 MuJoCo Humanoid 环境中,目前尚缺乏在部分观测条件下有效的强化学习方法。

因此,澳大利亚纽卡斯尔大学教授陈智勇和团队在近期一项研究中聚焦于以下问题:在不依赖完整状态观测的前提下,能否设计出一种稳定、结构简洁、具扩展性的策略架构,以提升人形机器人在部分可观测环境中的控制能力?研究人员希望通过构建新的机制,使强化学习策略能够从有限的观测中提取关键动态信息,从而完成复杂的运动控制任务。该方向的探索将有助于推动人形机器人从依赖结构和规则的工程化控制体系,迈向更具泛化性和自主性的智能控制系统。

在部分可观测环境中,智能体无法直接获取完整的环境状态,通常需要依赖有限长度的历史观测来重构当前状态。在可观性条件满足时,这种方式可将原本的部分可观测马尔可夫决策过程(POMDP,Partially Observable Markov Decision Process)转化为完全可观测的马尔可夫决策过程(FOMDP,Fully Observable Markov Decision Process)。然而,由于历史观测之间存在大量冗余信息,直接拼接历史输入将显著膨胀状态空间维度,增加策略学习的复杂度与不稳定性。因此,如何从冗余的历史观测中有效提取关键特征,成为实现高效策略学习的核心挑战。

针对该问题,本研究提出了一种并行时序编码器架构,结合多头注意力机制(Multi-Head Attention),对历史观测序列进行高效建模与信息聚合。该方法在不依赖递归结构(如 RNN、LSTM)的前提下,能够从有限历史中恢复缺失的状态信息,显著提升策略训练的稳定性与最终性能。多头注意力机制作为现代深度学习的核心结构,已经广泛应用于自然语言处理、计算机视觉、语音识别与强化学习等领域。其基本思想是从多个子空间维度并行关注输入序列的不同部分,从而提取丰富的上下文信息与特征关联。在本研究中,多头注意力被用于从历史观测中自动筛选与当前决策最相关的信息、学习时间依赖性与关键感知特征。

研究人员在 MuJoCo Humanoid 环境中对该方法进行了系统实证。该环境的状态空间维度为 348,包含身体各部位的位置、速度、质量、惯性参数、执行器力以及外部作用力等信息。实验结果表明,即使仅使用原始观测的三分之一至三分之二维度,所提出的方法仍可达到甚至超过完整状态输入下的强化学习基线性能(如 TD3)。尤其值得强调的是,在移除质量、惯性与力信息,仅保留约三分之一状态维度的设定下,策略仍能凭借位置与速度等部分观测有效建构控制模型、快速收敛,并最终超越完整观测策略的性能。这也是首次在该环境的部分可观测设定下,通过强化学习实现稳定有效控制的成功案例。

此外,研究人员进一步评估了该策略在物理参数变化下的泛化能力。在测试中,研究人员对双手、小腿、大腿、上臂、骨盆和躯干等部位的质量进行 ±50% 的独立扰动。结果显示,训练策略在多种质量配置下依然保持稳定性能,展现出良好的鲁棒性与适应性,验证了其对物理参数变化的容忍度与广泛适用性。

本研究在部分可观测条件下提出了一种纯学习驱动的人形机器人控制方法,推动机器人从“规则执行”迈向“行为智能”,摆脱对工程干预与人类经验的依赖,为类脑智能与具身智能方法体系的演进提供了有益探索。在实践层面,该方法有助于降低对专家知识的依赖,提升系统的通用性与自主性。未来,该方法可与大语言模型和多模态感知系统融合,构建具备认知、感知与行动能力的类人自主体。本研究的最终目标不仅在于实现稳定的人形行走控制,更在于建立一种通用、稳定、可扩展的控制学习范式,以应对具备复杂时序结构的任务需求。

陈智勇告诉 DeepTech:“这些工作是我带领博士生王吴皓完成的。他于 2023 年获得瑞典林雪平大学的硕士学位,目前是纽卡斯尔大学二年级的博士生,展现出极强的学习能力和科研潜力。这些成果来源于我们在自动控制、强化学习和机器人技术这三个领域不断交叉探索的过程,体现了输出反馈、状态估计和自适应控制等经典控制理念在强化学习框架下的融合与演化,并成功应用于人形机器人平台。”

本研究主要聚焦于算法层面,提出了一种在部分可观测条件下实现稳定人形机器人控制的纯学习方法。下一步,研究人员将继续拓展该算法框架,进一步提升其性能与泛化能力,并在更具多样性的人形机器人模型中进行系统评估,逐步推广至其他类型的高维连续控制环境。同时,研究人员也计划推动该方法向现实系统迁移,探索其在真实人形机器人平台上的部署与验证可行性。目前,现实人形机器人在关键控制环节仍高度依赖工程化干预、人类经验和手动调参。研究人员希望本研究能够为端到端学习控制在实际机器人系统中的落地应用提供算法基础与技术支持,进而推动人形机器人向更高自主性、更低人工依赖的方向演进。

参考资料:

https://arxiv.org/pdf/2507.18883

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我刚从台湾回来:说实话很难听,但这就是真实的台湾省现状了

我刚从台湾回来:说实话很难听,但这就是真实的台湾省现状了

番外行
2026-02-24 19:45:01
WTT再爆大冷!3大世界冠军被淘汰,日本大溃败,国乒新星2-3出局

WTT再爆大冷!3大世界冠军被淘汰,日本大溃败,国乒新星2-3出局

篮球看比赛
2026-02-24 15:15:56
中国家庭的“六大闲置”,我家就占了3个,再有钱也别跟风买回家

中国家庭的“六大闲置”,我家就占了3个,再有钱也别跟风买回家

家居设计师苏哥
2025-12-31 14:04:57
贝加尔湖坠车事件:活下来的江苏爸爸,往后的每一天都是煎熬

贝加尔湖坠车事件:活下来的江苏爸爸,往后的每一天都是煎熬

社会日日鲜
2026-02-23 14:05:41
天生一张娃娃脸都已经46了,你敢想?

天生一张娃娃脸都已经46了,你敢想?

娱乐圈见解说
2026-02-24 20:08:38
重庆烤全羊宰客社死!人民日报怒批,坑惨当地文旅,下场大快人心

重庆烤全羊宰客社死!人民日报怒批,坑惨当地文旅,下场大快人心

青梅侃史啊
2026-02-24 16:59:25
特朗普:是否对伊朗动武,最终决定权在我手中

特朗普:是否对伊朗动武,最终决定权在我手中

上观新闻
2026-02-24 14:59:05
跌成白菜价,也没人买?14亿人输给3亿美国人,电视到底怎么了?

跌成白菜价,也没人买?14亿人输给3亿美国人,电视到底怎么了?

百科密码
2026-02-23 16:49:28
全国统一执行!3月1日起,公职人员戴上紧箍咒,老百姓迎来大便利

全国统一执行!3月1日起,公职人员戴上紧箍咒,老百姓迎来大便利

墨印斋
2026-02-24 19:49:07
湖南33岁男子放烟花被炸身亡:疑似画面流出,家属披露大量隐情

湖南33岁男子放烟花被炸身亡:疑似画面流出,家属披露大量隐情

博士观察
2026-02-24 18:14:01
法国怒了:对特朗普亲家下“封杀令”

法国怒了:对特朗普亲家下“封杀令”

环球时报国际
2026-02-24 15:35:35
夫妻春节不回家送外卖1个月赚4万,骑手站长:青岛春节补贴最高8200元,月入2万日均需跑约70单

夫妻春节不回家送外卖1个月赚4万,骑手站长:青岛春节补贴最高8200元,月入2万日均需跑约70单

大风新闻
2026-02-24 15:44:14
吵架将孩子扔河里后续:原因曝光,夫妻身份被扒,娃状态让人担忧

吵架将孩子扔河里后续:原因曝光,夫妻身份被扒,娃状态让人担忧

社会日日鲜
2026-02-24 09:37:52
汪小菲妻子马筱梅产子,大方晒出宝宝正面照,张兰盛赞儿媳:把大S两个孩子视为己出,如今又为汪家添了骨血

汪小菲妻子马筱梅产子,大方晒出宝宝正面照,张兰盛赞儿媳:把大S两个孩子视为己出,如今又为汪家添了骨血

都市快报橙柿互动
2026-02-24 20:13:09
断香火大潮来了!大批家庭,将倒在80、90后手里。

断香火大潮来了!大批家庭,将倒在80、90后手里。

黑哥讲现代史
2026-02-24 16:29:47
73人死亡!美国、加拿大、英国、法国、俄罗斯,发布“安全警告”

73人死亡!美国、加拿大、英国、法国、俄罗斯,发布“安全警告”

每日经济新闻
2026-02-24 15:35:05
外交部回应“特朗普3月31日访华”:中美双方就特朗普总统访华事宜保持沟通;其上次访华是在2017年

外交部回应“特朗普3月31日访华”:中美双方就特朗普总统访华事宜保持沟通;其上次访华是在2017年

大风新闻
2026-02-24 16:47:11
高速免费最后60秒收费站上演飞驰人生,有人卡点失败缴费400多元!有人“压哨”通过,两台车省下1000多元

高速免费最后60秒收费站上演飞驰人生,有人卡点失败缴费400多元!有人“压哨”通过,两台车省下1000多元

极目新闻
2026-02-24 00:56:49
42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

42岁曲婉婷现状,面相越来越西方化,住小公寓穿起球毛衣账号被封

削桐作琴
2026-02-23 22:00:18
剑斩楼兰:乌军南线收复400平方公里,第聂伯罗全州解放

剑斩楼兰:乌军南线收复400平方公里,第聂伯罗全州解放

史政先锋
2026-02-24 15:00:08
2026-02-24 22:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16315文章数 514648关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

特朗普:是否对伊朗动武 最终决定权在我手中

头条要闻

特朗普:是否对伊朗动武 最终决定权在我手中

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

亲子
时尚
数码
本地
游戏

亲子要闻

我嫁中国生了3个孩子,每天带娃堪比春晚!

50+的女性,大衣、直筒裤、皮草这么穿,冬天保暖显瘦两不误

数码要闻

荣耀Magicbook Pro 14 2026将发布,能打破续航焦虑?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

《电锯糖心:重制版》Switch 2版无限期跳票

无障碍浏览 进入关怀版