IJRR最新成果！中山大学提出基于3D高斯泼溅的机器人自建模技术|运动学|ijrr

IJRR最新成果！中山大学提出基于3D高斯泼溅的机器人自建模技术

分享至

机器人自建模，是实现机器人自主智能的核心支撑技术之一。依托自建模，机器人可以像人类一样，通过视觉学习自身结构与外观，实现自我认知。在实际应用中，无论是工业机械臂的精准防撞、数字孪生的高保真仿真，还是服务机器人在动态环境中的自适应调整，都离不开对机器人自身结构、运动状态及外观特征的精确建模。然而，传统方法往往受限于设备成本高、建模精度低或特征覆盖不全面等问题，难以在实际场景中广泛应用。

早期技术多针对特定任务设计，仅能建模末端执行器位置、关节速度等局部信息，缺乏通用性；依赖深度相机、激光雷达或大量惯性测量单元（IMU）的方案，设备成本高昂且数据采集复杂；基于神经辐射场（NeRF）的方法虽能实现三维重建，但训练与渲染耗时久，模型可解释性差，且大多忽略表面颜色建模。而依托于NeRF的仅使用 RGB 图像的方法，又存在形态重建模糊、无法捕捉连杆结构等问题。如何在低成本前提下，实现高精度、多特征融合的连杆级自建模，成为行业亟待解决的技术难题。

针对上述挑战，来自中山大学计算机学院的研究团队（论文第一作者为硕士生胡可钧，通讯作者为谭宁教授）提出了基于3D 高斯泼溅（3DGS）的自建模技术。仅通过普通RGB 相机采集的二维图像，即可完成机器人连杆级形态、运动学及表面颜色的高质量建模，为机器人自主化应用开辟了新路径。近日，该成果以“Learning high-fidelity robot self-model with articulated 3D Gaussian splatting”为题发表在国际机器人权威期刊《IJRR》上。

▍3D 高斯泼溅：机器人自建模的核心技术支撑

3D 高斯泼溅（3DGS）是近年来兴起的三维场景重建技术，其核心优势在于通过灵活可优化的三维高斯函数，实现高效、高质量的三维表征，为解决机器人自建模痛点提供了关键工具。

3D 高斯函数的三维表征原理

每个3D 高斯函数可视为一个微小的椭球体，由位置、协方差矩阵、颜色、不透明度等参数定义。协方差矩阵通过旋转矩阵与缩放矩阵计算得出，能够灵活调整椭球体的形状与朝向；颜色信息通过球谐系数表征，可实现与视角相关的真实渲染。这些高斯函数如同 “数字像素”，通过数百万个单元的有序排列，能够精准还原机器人的三维形态与表面颜色。

方法概述

与传统网格建模或NeRF 相比，3DGS 的优势尤为突出。一是渲染速度快，采用 GPU 优化的光栅化方法，在本任务中，单幅图像渲染时间仅需 0.08 秒，远优于 NeRF 的接近1秒的单幅渲染耗时；二是表征能力强，可同时捕捉几何细节与颜色信息，且参数可直接优化，无需复杂的隐式函数求解；三是适配动态场景，通过调整高斯函数的参数，能够灵活模拟机器人关节运动带来的形态变化。

神经骨骼与运动学网络：赋予模型运动能力

如果说3D 高斯函数构成了机器人的 “数字躯体”，那么神经骨骼与运动学网络则为其提供了 “运动控制系统”。该系统的核心是构建与机器人连杆对应的神经椭球骨骼，并通过神经网络实现关节角度与骨骼运动的映射。

神经骨骼的构建采用聚类算法：首先对静止姿态下的3D 高斯函数进行 K-means 聚类，聚类数量与机器人连杆数量匹配，聚类中心即为骨骼的初始位置；每个骨骼通过中心点、半径缩放矩阵和旋转四元数定义，其参数在训练过程中持续优化。运动学网络则负责将关节角度转换为骨骼的运动指令：输入关节角度向量后，通过 MLP 编码器与多头注意力转换器生成骨骼专属编码，再由解码器输出骨骼的旋转矩阵与平移向量，最终实现骨骼的精准运动控制。

3D 高斯形变：联动躯体与骨骼的动态机制

为了让3D 高斯函数构成的 “数字躯体” 跟随神经骨骼运动，技术团队采用线性混合蒙皮（LBS）技术，通过蒙皮权重将高斯函数与神经骨骼关联。蒙皮权重由两部分组成：一部分基于高斯函数与骨骼的马氏距离计算，确保几何关联性；另一部分由权重 MLP 预测，适配不同连杆的真实形态与复杂运动场景。通过加权求和与归一化处理，每个高斯函数的运动都成为相关骨骼运动的协同结果，从而实现机器人整体形态的自然形变。

三维高斯形变示意图

这种联动机制既保证了运动的精准性，又兼顾了几何的连续性。当关节角度变化时，运动学网络驱动神经骨骼运动，再通过蒙皮权重传递至每个3D 高斯函数，最终实现机器人形态、运动学与表面颜色的同步更新。

▍自建模的实现流程与技术优化

基于3DGS 的机器人自建模流程可分为数据采集、静态重建、动态训练与模型优化四个阶段，每个阶段都针对技术痛点进行了专项设计。

数据采集：低成本、广覆盖的输入方案

数据采集仅需普通RGB 相机与机器人自身的关节角度传感器，无需额外昂贵设备。采集过程分为两步：一是静态数据采集，将机器人所有关节设为零位姿，从不同视角拍摄 100 张图像，用于构建基础形态；二是动态数据采集，逐步扩大关节运动范围（从 [-π/6, π/6] 到 [-π/2, π/2]），随机生成关节构型并拍摄图像，同时记录关节角度与相机参数。整个过程共采集万级图像数据，既保证了训练的充分性，又控制了采集成本。

分阶段训练：解决收敛难题与运动复杂性

为避免多参数同时训练导致的收敛困难，技术采用分阶段训练策略：首先训练静态3DGS 模型，冻结高斯函数参数；随后专注于训练运动学网络与神经骨骼，通过小范围关节运动数据降低训练难度；最后恢复所有参数的联合训练，逐步扩大关节运动范围。这种 “从简到繁” 的训练模式，使模型能够稳定学习机器人的运动规律，最终通过 60 万步训练实现高精度建模。

多维度损失函数：保障建模质量

模型优化采用多维度损失函数组合，全面约束形态、运动、颜色等关键特征：图像重建损失（L1 损失 + D-SSIM）确保渲染图像与真实图像一致；等距约束与局部刚体损失保证形变过程中几何结构的稳定性；蒙皮权重平滑损失与骨骼中心距离损失，分别优化运动连续性与骨骼分布合理性。通过加权求和的方式，各损失函数协同作用，最终实现形态精度、运动流畅度与颜色真实性的统一。

▍实验验证：从仿真到现实的跨越

研究团队通过严格的实验验证了该方法的可靠性。在仿真环境中，他们使用7自由度的Franka机器人进行了系统测试。机器人在不同关节构型下采集了上万张图像用于训练，结果显示训练好的自模型能够精准复现各种复杂姿态下的机器人状态。测试显示，模型渲染图像的峰值信噪比（PSNR）达 31.22，结构相似性（SSIM）达 0.988，倒角距离低至 2.761×10⁻⁴，各项指标均优于基于 NeRF 和 SDF 的传统方法。

仿真环境下的自建模结果与真实值

在物理实验中，研究团队使用4自由度的OpenManipulator机器人和普通摄像设备搭建实验平台。尽管面临相机标定误差、背景干扰和训练数据有限等现实困难，该方法依然成功重建了机器人的可信模型。虽然精度相较仿真环境略有下降，但模型准确捕捉了机器人的基本运动特性和外观特征，充分证明了该技术在实际应用中的可行性。特别是在光线条件良好、数据采集充分的情况下，重建效果几乎媲美仿真结果。

在无关节限制的情况下，对OpenManipulator 机器人进行的物理实验

下游任务应用

研究团队还设计了下游应用任务，以验证自模型的实际效能。结果显示，该模型无需额外适配，即可用于机器人运动规划中。例如在“目标到达” 任务中，通过优化神经骨骼与目标的距离，机器人可自主调整关节角度实现精准定位；在 “避障运动” 任务中，借助其完整的三维空间感知能力，机器人可以在运动过程中持续评估与障碍物的距离，自主规划出安全可行的行进路线。这种能力不仅确保了作业过程的安全可靠，更体现了系统对工作环境的深度理解。

应用结果

此外，该技术为逆运动学问题提供了新的解决思路。给定一张机器人姿态的图片，自模型可以通过优化关节角度使其渲染图像与输入图片匹配，从而准确估算出机器人的当前状态。这项能力在状态监测、故障诊断等领域具有重要应用价值。

▍结语与展望

总的来说，该自建模方法在四个方面实现了重要突破：一是首次将3DGS技术应用于机器人自建模，仅通过RGB图像即完成三维重建，大幅降低数据采集成本；二是实现连杆级建模，通过神经骨骼自动识别连杆的空间位置与运动学连接，解决了传统方法难以精准捕捉连杆结构的问题；三是多特征融合建模，同步还原形态、运动学与表面颜色，满足数字孪生等场景的可视化需求；四是模型直接可控，无需额外训练即可用于下游任务，实现了建模与控制的一体化。

尽管取得显著进展，这项技术仍面临诸多挑战。目前的方法基于刚性连杆假设，限制了其在软体机器人和连续体机器人上的应用。如何将这一技术扩展到更广泛的机器人类型，是未来值得深入探索的方向。

论文链接：https://journals.sagepub.com/doi/10.1177/02783649251396980

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.