![]()
近年来,人形机器人的研发重心正逐渐从单纯的行走转向复杂的操控。尽管人形机器人已经在实验室环境中实现了奔跑和跳跃,但在处理诸如叠衣服、使用工具或搬运易碎品等精细家务时,表现依然稍显逊色,难以应对复杂多变的物理接触场景。这一难题的核心在于,如何在机器人上半身进行频繁且复杂的物理接触时,依然维持全身的动态平衡。
近日,卡内基梅隆大学(CMU)联合博世人工智能中心的团队提出了一种名为 HTD(Humanoid Transformer with Touch Dreaming) 的 AI 模型,其让机器人预判触觉,能够显著提升人形机器人在复杂现实环境中的全身协作与灵巧操作能力,在整理书籍、铲猫砂、端茶送水等 5 项真实任务上,任务成功率相对提升了 90.9%。
![]()
图 | 人形机器人进行不同任务测试(来源:上述论文)
长期以来,人形机器人在处理精密任务时面临巨大挑战。机器人全身各部分相互耦合,手部用力或接触物体时,身体容易晃动甚至失衡;很多操作需要精细感知接触力、滑移和形变,仅靠视觉远远不够。现有系统往往只能处理简单动作,或局限于固定基座操作,难以实现稳定的走路和双手灵巧操作。
为了突破这一瓶颈,研究团队构建了一套完整的软硬件系统。
首先,他们训练了一个基于强化学习的下身控制器(LBC),为机器人提供稳定的身体支撑。研究团队采用师生式训练框架:先在仿真环境中训练教师模型,使其掌握重心分布、足部接触状态等深层信息,学习稳定的下肢动作逻辑;再通过知识蒸馏,将教师模型的能力迁移至学生模型,使其仅依靠关节角度、身体姿态等可观测信息,即可在现实环境中稳定运行。
最终,机器人可精准控制身高、躯干俯仰、倾斜与旋转,弯腰、下蹲、侧身等动作均可稳定完成,上半身操作不受平衡限制。
![]()
(来源:上述论文)
在此基础上,团队搭建了 VR 远程操控数据采集平台,实现高效、高质量的动作学习。操作人员佩戴 VR 设备,将头部、手腕、手指及身体姿态实时映射至机器人,机器人同步复刻人类动作,并全程记录多视角视觉、全身关节运动、手部受力及分布式触觉数据。
这种方式无需复杂编程,即可快速积累大量贴近真实场景的操作数据,让机器人直接学习人类的动作逻辑与操作习惯,大幅提升动作自然度与任务适配性。
同时,机器人双手配备了分布式触觉传感器,每只手有 1,062 维触觉信号,覆盖手指各段和手掌,能精准捕捉接触位置和压力。
最重要也是最创新的点是,研究团队所设计的 HTD 模型,这是一个多模态 Transformer 模型,它同时处理多视角视觉、本体感觉、手部力反馈和触觉信号。其核心创新在于“触觉梦境”(Touch Dreaming)机制:就像人做动作时,脑子里会预判下一秒手会碰到什么、用多大劲。这项机制让机器人也学会在脑子里想象未来几秒的触觉和受力,从而真正学会接触式操作。
为了验证这套系统的实用性,研究人员让机器人在实验室中挑战了五项任务,包括高精度插零件、整理书籍、折叠毛巾、铲猫砂和端茶送水等任务。
在高精度插零件任务中,机器人需抓起 T 型块,插入间隙仅 3.5 毫米的 T 型底座,微小误差就会失败。HTD 凭借触觉预判,能实时微调位置和力度,成功率远超传统模型;在整理书本任务中,平放的书难以直接抓取,机器人需先将书推出台边,再抓起放到书架。HTD 精准控制推力和抓握力,避免书本掉落或损坏。
在折叠毛巾任务中,毛巾柔软易变形,需多步骤、持续接触调整。HTD 预判毛巾变形和接触变化,能稳定完成折叠,适配多种初始摆放状态;铲猫砂任务中,机器人需蹲下拿起铲子,铲起猫砂倒入垃圾桶,涉及弯腰、工具使用、全身协调。HTD 完美平衡动作幅度和身体稳定,高效完成任务。端茶送水任务中,机器人需端着两杯茶行走,全程保持平衡不洒漏。HTD 能预判移动中杯子的晃动和受力变化,协调双手和全身动作,稳定完成端送。
实验结果显示,HTD 模型在这些任务中的表现远超目前的同类主流模型。在平均成功率上,HTD 比目前较强的基准模型提升了约 90.9%。研究团队通过消融实验进一步证实,在潜空间中进行触觉预测比直接预测原始触觉信号更有效,其成功率相对增益达到了 30%。
在机器人与人工智能研究领域,消融实验是一种通过系统性移除、替换或修改模型中的特定组件、功能或输入数据,来评估该部件对整体系统性能贡献程度的实验方法。类似于在控制变量法中逐步去掉某一因素,从而探究其是否是系统达到当前性能的关键。
![]()
(来源:GitHub)
据悉,系统的部分底层代码是开源的,其他研究人员可以通过 GitHub 访问这些代码。
作为后续研究的一部分,研究人员还计划进一步扩展其学习框架规模,并在涉及人机协作的实验中进行测试。为此,他们希望让系统能够吸收更多的视觉数据和人类示教数据。长远来看,研究团队致力于开发能够轻松应用于具有不同身体结构和传感器配置的 AI 框架。此外,他们还希望创建能够灵活适配各种复杂操控任务的系统。
1.https://arxiv.org/pdf/2604.13015
2.https://humanoid-touch-dream.github.io/
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.