计算所等提出HumanLift，实现高保真数字人重建|高斯|新模型

计算所等提出HumanLift，实现高保真数字人重建

2025-10-22 13:30:50　来源: 机器之心Pro

北京举报

分享至

创建具有高度真实感的三维数字人，在三维影视制作、游戏开发以及虚拟/增强现实（VR/AR）等多个领域均有着广泛且重要的应用。

尽管现有技术在从多视角图片重建高质量、可动画化的三维人体模型任务中展现出诸多优势，但从单张参考图像重建真实感三维数字人，依旧面临技术复杂、资源消耗大的挑战。

如何兼顾三维一致性与参考图像一致性，重建出高质量、高真实感的人物外观与姿势，以及如何生成高真实度且细节一致的服饰、人脸等，都是亟待解决的难题。

近期，中国科学院计算技术研究所、香港科技大学和英国卡迪夫大学的研究人员合作提出了一项基于单张参考图像重建高斯网（GaussianMesh [1]）数字人全身的技术HumanLift[2]，相关技术论文已被 SIGGRAPH ASIA 2025 接收。

项目主页：
http://geometrylearning.com/HumanLift/

该项工作提出了一种融合三维视频扩散模型和人脸增强的单图高斯网数字人重建方法。通过此方法，用户仅需输入单张人体图片，就能重建出高质量、高逼真度的三维数字人，不仅能在不可见视角下准确估计人物外观和服饰几何细节，还能保持多视角一致性，同时确保生成的三维模型符合参考图像中的先验信息。

下图为基于单张参考图像重建数字人方法的结果展示：

图1 基于单张参考图像重建三维高斯网（GaussianMesh）数字人结果

Part1 背景

早期单图数字人重建方法主要分为显式与隐式两类。显式方法通常依赖参数化模型，能够对人体基础形状进行估计，但由于模板结构固定，难以处理复杂衣着情况；隐式方法则通过隐式函数描述复杂几何，重建质量有所提升，但往往计算成本较高，且因缺乏有效先验，生成纹理的真实感仍面临挑战。

近年来，随着生成模型（如 Stable Diffusion [3]）和神经隐式渲染方法（如神经辐射场 NeRF [4]、三维高斯泼溅 3D-GS [5]）的快速发展，快速构建了二维图像与三维空间之间的联系，使得二维生成能力有效助力三维生成。

已有研究在一般物体的单视图三维重建方面取得显著进展，但受限于三维人体数据稀缺以及人物姿势、服饰的复杂性，将这些方法拓展到高真实感三维人体建模领域，仍面临诸多困难。

一些方法尝试从参考图片提取文本信息，并借助扩散模型与可微渲染技术进行建模，但受文本条件模糊性限制，难以准确还原精细服装细节，且优化效率较低。随着多视图扩散生成技术的发展，研究者开始探索从单图直接生成多视图人体图像，避免复杂优化流程。

例如，将多视图生成 [6] 与 3D 高斯泼溅（3D-GS）结合为统一优化模块，然而这类方法因缺乏三维先验，导致视角不一致问题。另一些方法则引入显式三维人体先验，结合生成模型以提升多视图一致性，虽在服装与姿态的真实性上有所提升，但由于面部在全身图中占比过小，仍存在面部细节缺失、一致性与真实感不足的问题。

Part2 算法原理

HumanLift 的目标是：给定一张人物单张图像 I，创建一个能够捕捉逼真外观和细微细节（如服装纹理）的 3D 数字形象，同时包含清晰的人脸细节，实现自由视角浏览。该方法通过两个阶段完成这一任务，其方法框架如下图所示：

图2 HumanLift 的方法框架图

第一阶段：多视角图像生成

此阶段旨在从一张日常拍摄的个人照片中生成逼真的多视角图像。HumanLift 设计了一种具备 3D 感知能力的多视角人体生成方法。

为了确保对一般图像的泛化能力，生成器的骨干网络是基于目前的视频生成模型 Wan2.1 [7] 构建——该模型在大量 2D 通用视频上完成训练，具备强大的高保真视频推断能力。

HumanLift 基于该模型并引入额外的三维人体先验，处理 2D 人体动画任务，并继承其预训练权重。

具体而言，该阶段设计了两种专门针对人体优化的模型——HumanWan-DiT（RGB）和 HumanWan-DiT（Normal），以增强不同视角的一致性和几何细节。

同时，引入 SMPL-X 的多视角语义图像作为 3D 先验条件，并将其嵌入到 Wan2.1 中，提供 3D 引导。为了减少训练内存开销的同时保持模型生成能力，方法采用低秩适应（LoRA）技术进行内存高效的参数微调。

此外，通过一个由堆叠 3D 卷积层组成的轻量条件编码器，对人体的三维先验信息进行编码，其网络结构如下图所示：

图3 HumanWan-DiT 网络架构

其中：

HumanWan-DiT（RGB）：以 SMPL-X 的语义图像为条件输入，以人全身的 RGB 图片为参考输入，最终输出人体多视角的 RGB 图像；
HumanWan-DiT（Normal）：以 HumanWan-DiT（RGB）生成的多视角图像为条件输入，以人预测的法向图片为参考输入，最终输出多视角的法向图像。

第二阶段：3D-GS 模型重建

该阶段利用第一阶段生成的多视角图像，包括多视角的 Normal 图片和 RGB 图片，重建人体的 3D-GS 表示。

首先，该方法借助现有生成模型 [8] 对超分辨率的面部图像进行多视角图片生成，生成具有标准空间下相机姿态的高质量多视角面部图像。

在重建过程中，以生成的多视角人脸图像和第一阶段生成的多视角人体图像作为监督信号，基于高斯网表示（GaussianMesh [1]）对三维高斯球的参数进行优化。

需要特别注意的是，为确保面部渲染的准确性，需将面部图像的相机姿态（标准空间）转换到 SMPL-X 头部（世界空间），以监督面部部分的高斯球属性，获得高质量的人脸细节。

由于初始的 SMPL-X 与人体的 3D-GS 的位置上存在误差，HumanLift 会根据每次迭代优化后的 SMPL-X 的姿态参数，从而动态调整面部相机姿态，确保面部相机姿态与头部的 3D 高斯球始终保持一致。

Part3 效果展示

In-the-wild 人体图片重建数字人

为了展示 HumanLift 在真实拍摄人物图片中的效果，对于每张参考图像，我们的方法可以预测多视角的 RGB 图片和 Normal 图片。

结果表明，HumanLift 生成的多视角 RGB 图像具有照片级真实感，多视角法向图能精准反映人物及服饰的几何细节，且整体保持了良好的空间一致性。

为进一步展示 HumanLift 的泛化能力，图4 呈现了更多人物的重建结果，包括不同服饰风格、不同拍摄场景下的人物案例。无论参考图像的人物特征、服饰类型，HumanLift 均能稳定生成高质量、高一致性的三维数字人。更多的结果请访问项目主页。

图4 不同服饰和衣物下的颜色和法向结果

消融实验结果

为验证各模块的作用，图5 展示了 HumanLift 的消融实验结果，即对三种消融方法（禁用面部增强、禁用 SMPL-X 姿态优化和禁用人体多视角法线图监督）的定性对比分析结果：

禁用面部增强：面部细节明显缺失，真实感大幅下降；
禁用 SMPL-X 姿态优化：人体姿态与头部相机位姿匹配度降低，头部渲染效果偏离真实场景；
禁用人体多视角法线图监督：服饰细节丢失严重，几何结构呈现不准确。

图5 的实验结果证明，面部增强模块通过生成先验显著提升面部细节质量；SMPL-X 优化模块不仅能有效调整人体姿态参数，还能同步更新头部相机位姿，引导 3D-GS 模型生成更符合真实感的头部渲染效果；基于微调 HumanWan-DiT（Normal）模型提供的法线监督，能让 3D-GS 表征在多视角一致法线图像的指导下，更好地保留衣物细节。

图5 不同策略下的消融结果

Part4 结语

随着大模型和生成式人工智能的发展，单图全身数字人重建问题迎来了新的解决范式。传统重建方法存在渲染结果真实感不足、复杂衣物和姿势难以精准重建等问题；而现有生成式方法，也难以在人物姿势、服饰细节和人脸真实感与一致性重建之间实现平衡。

HumanLift 提出了一种有效的解决方案，通过微调基于三维扩散先验的视频生成模型和专门设计的人脸增强模块。借助该方法，用户无需进行繁琐的数据处理，仅需输入单张参考图片，就能重建出高质量、高逼真度的三维数字人——不仅能在新视角下准确估计人物外观和服饰几何，还能保持多视角一致性，同时确保生成的三维模型符合输入图像中的人物信息。

参考文献：

[1] Lin Gao*, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu, Yu-Kun Lai. GaussianMesh: Real-time Large-scale Deformation of Gaussian Splatting. ACM Transactions on Graphics (SIGGRAPH Asia 2024), 2024, 43 (6), 200:1-17.

[2] Jie Yang, Bo-Tao Zhang, Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. HumanLift: Single-Image 3D Human Reconstruction with 3D-Aware Diffusion Priors and Facial Enhancement. ACM SIGGRAPH ASIA 2025, 1-12.

[3] Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022, 10684-10695.

[4] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 2021, 65(1): 99-106.

[5] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM Transactions on Graphics, 2023, 42(4): 139:1-139:14.

[6] Yichun Shi, Yichun Shi, Peng Wang, Peng Wang, Jianglong Ye, Long Mai, Kejie Li, Xiao Yang. MVDream: Multi-view Diffusion for 3D Generation. ICLR 2024, 1-18.

[7] Wan Team, Alibaba Group. Wan: Open and advanced large-scale video generative models. CoRR abs/2503.20314 (2025).

[8] Heyuan Li, Ce Chen, Tianhao Shi, Yuda Qiu, Sizhe An, Guanying Chen, Xiaoguang Han. Spherehead: stable 3d full-head synthesis with spherical tri-plane representation. ECCV 2024 324-341.

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.