网易首页 > 网易号 > 正文 申请入驻

计算所等提出HumanLift,实现高保真数字人重建

0
分享至

创建具有高度真实感的三维数字人,在三维影视制作、游戏开发以及虚拟/增强现实(VR/AR)等多个领域均有着广泛且重要的应用。

尽管现有技术在从多视角图片重建高质量、可动画化的三维人体模型任务中展现出诸多优势,但从单张参考图像重建真实感三维数字人,依旧面临技术复杂、资源消耗大的挑战。

如何兼顾三维一致性与参考图像一致性,重建出高质量、高真实感的人物外观与姿势,以及如何生成高真实度且细节一致的服饰、人脸等,都是亟待解决的难题。

近期,中国科学院计算技术研究所、香港科技大学和英国卡迪夫大学的研究人员合作提出了一项基于单张参考图像重建高斯网(GaussianMesh [1])数字人全身的技术HumanLift[2],相关技术论文已被 SIGGRAPH ASIA 2025 接收。

  • 项目主页:
  • http://geometrylearning.com/HumanLift/

该项工作提出了一种融合三维视频扩散模型和人脸增强的单图高斯网数字人重建方法。通过此方法,用户仅需输入单张人体图片,就能重建出高质量、高逼真度的三维数字人,不仅能在不可见视角下准确估计人物外观和服饰几何细节,还能保持多视角一致性,同时确保生成的三维模型符合参考图像中的先验信息。

下图为基于单张参考图像重建数字人方法的结果展示:

图1 基于单张参考图像重建三维高斯网(GaussianMesh)数字人结果

Part1 背景

早期单图数字人重建方法主要分为显式与隐式两类。显式方法通常依赖参数化模型,能够对人体基础形状进行估计,但由于模板结构固定,难以处理复杂衣着情况;隐式方法则通过隐式函数描述复杂几何,重建质量有所提升,但往往计算成本较高,且因缺乏有效先验,生成纹理的真实感仍面临挑战。

近年来,随着生成模型(如 Stable Diffusion [3])和神经隐式渲染方法(如神经辐射场 NeRF [4]、三维高斯泼溅 3D-GS [5])的快速发展,快速构建了二维图像与三维空间之间的联系,使得二维生成能力有效助力三维生成。

已有研究在一般物体的单视图三维重建方面取得显著进展,但受限于三维人体数据稀缺以及人物姿势、服饰的复杂性,将这些方法拓展到高真实感三维人体建模领域,仍面临诸多困难。

一些方法尝试从参考图片提取文本信息,并借助扩散模型与可微渲染技术进行建模,但受文本条件模糊性限制,难以准确还原精细服装细节,且优化效率较低。随着多视图扩散生成技术的发展,研究者开始探索从单图直接生成多视图人体图像,避免复杂优化流程。

例如,将多视图生成 [6] 与 3D 高斯泼溅(3D-GS)结合为统一优化模块,然而这类方法因缺乏三维先验,导致视角不一致问题。另一些方法则引入显式三维人体先验,结合生成模型以提升多视图一致性,虽在服装与姿态的真实性上有所提升,但由于面部在全身图中占比过小,仍存在面部细节缺失、一致性与真实感不足的问题。

Part2 算法原理

HumanLift 的目标是:给定一张人物单张图像 I,创建一个能够捕捉逼真外观和细微细节(如服装纹理)的 3D 数字形象,同时包含清晰的人脸细节,实现自由视角浏览。该方法通过两个阶段完成这一任务,其方法框架如下图所示:

图2 HumanLift 的方法框架图

第一阶段:多视角图像生成

此阶段旨在从一张日常拍摄的个人照片中生成逼真的多视角图像。HumanLift 设计了一种具备 3D 感知能力的多视角人体生成方法。

为了确保对一般图像的泛化能力,生成器的骨干网络是基于目前的视频生成模型 Wan2.1 [7] 构建——该模型在大量 2D 通用视频上完成训练,具备强大的高保真视频推断能力。

HumanLift 基于该模型并引入额外的三维人体先验,处理 2D 人体动画任务,并继承其预训练权重。

具体而言,该阶段设计了两种专门针对人体优化的模型——HumanWan-DiT(RGB)和 HumanWan-DiT(Normal),以增强不同视角的一致性和几何细节。

同时,引入 SMPL-X 的多视角语义图像作为 3D 先验条件,并将其嵌入到 Wan2.1 中,提供 3D 引导。为了减少训练内存开销的同时保持模型生成能力,方法采用低秩适应(LoRA)技术进行内存高效的参数微调。

此外,通过一个由堆叠 3D 卷积层组成的轻量条件编码器,对人体的三维先验信息进行编码,其网络结构如下图所示:

图3 HumanWan-DiT 网络架构

其中:

  • HumanWan-DiT(RGB):以 SMPL-X 的语义图像为条件输入,以人全身的 RGB 图片为参考输入,最终输出人体多视角的 RGB 图像;
  • HumanWan-DiT(Normal):以 HumanWan-DiT(RGB)生成的多视角图像为条件输入,以人预测的法向图片为参考输入,最终输出多视角的法向图像。

第二阶段:3D-GS 模型重建

该阶段利用第一阶段生成的多视角图像,包括多视角的 Normal 图片和 RGB 图片,重建人体的 3D-GS 表示。

首先,该方法借助现有生成模型 [8] 对超分辨率的面部图像进行多视角图片生成,生成具有标准空间下相机姿态的高质量多视角面部图像。

在重建过程中,以生成的多视角人脸图像和第一阶段生成的多视角人体图像作为监督信号,基于高斯网表示(GaussianMesh [1])对三维高斯球的参数进行优化。

需要特别注意的是,为确保面部渲染的准确性,需将面部图像的相机姿态(标准空间)转换到 SMPL-X 头部(世界空间),以监督面部部分的高斯球属性,获得高质量的人脸细节。

由于初始的 SMPL-X 与人体的 3D-GS 的位置上存在误差,HumanLift 会根据每次迭代优化后的 SMPL-X 的姿态参数,从而动态调整面部相机姿态,确保面部相机姿态与头部的 3D 高斯球始终保持一致。

Part3 效果展示

In-the-wild 人体图片重建数字人

为了展示 HumanLift 在真实拍摄人物图片中的效果,对于每张参考图像,我们的方法可以预测多视角的 RGB 图片和 Normal 图片。

结果表明,HumanLift 生成的多视角 RGB 图像具有照片级真实感,多视角法向图能精准反映人物及服饰的几何细节,且整体保持了良好的空间一致性。

为进一步展示 HumanLift 的泛化能力,图4 呈现了更多人物的重建结果,包括不同服饰风格、不同拍摄场景下的人物案例。无论参考图像的人物特征、服饰类型,HumanLift 均能稳定生成高质量、高一致性的三维数字人。更多的结果请访问项目主页。

图4 不同服饰和衣物下的颜色和法向结果

消融实验结果

为验证各模块的作用,图5 展示了 HumanLift 的消融实验结果,即对三种消融方法(禁用面部增强、禁用 SMPL-X 姿态优化和禁用人体多视角法线图监督)的定性对比分析结果:

  • 禁用面部增强:面部细节明显缺失,真实感大幅下降;
  • 禁用 SMPL-X 姿态优化:人体姿态与头部相机位姿匹配度降低,头部渲染效果偏离真实场景;
  • 禁用人体多视角法线图监督:服饰细节丢失严重,几何结构呈现不准确。

图5 的实验结果证明,面部增强模块通过生成先验显著提升面部细节质量;SMPL-X 优化模块不仅能有效调整人体姿态参数,还能同步更新头部相机位姿,引导 3D-GS 模型生成更符合真实感的头部渲染效果;基于微调 HumanWan-DiT(Normal)模型提供的法线监督,能让 3D-GS 表征在多视角一致法线图像的指导下,更好地保留衣物细节。

图5 不同策略下的消融结果

Part4 结语

随着大模型和生成式人工智能的发展,单图全身数字人重建问题迎来了新的解决范式。传统重建方法存在渲染结果真实感不足、复杂衣物和姿势难以精准重建等问题;而现有生成式方法,也难以在人物姿势、服饰细节和人脸真实感与一致性重建之间实现平衡。

HumanLift 提出了一种有效的解决方案,通过微调基于三维扩散先验的视频生成模型和专门设计的人脸增强模块。借助该方法,用户无需进行繁琐的数据处理,仅需输入单张参考图片,就能重建出高质量、高逼真度的三维数字人——不仅能在新视角下准确估计人物外观和服饰几何,还能保持多视角一致性,同时确保生成的三维模型符合输入图像中的人物信息。

参考文献:

[1] Lin Gao*, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu, Yu-Kun Lai. GaussianMesh: Real-time Large-scale Deformation of Gaussian Splatting. ACM Transactions on Graphics (SIGGRAPH Asia 2024), 2024, 43 (6), 200:1-17.

[2] Jie Yang, Bo-Tao Zhang, Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. HumanLift: Single-Image 3D Human Reconstruction with 3D-Aware Diffusion Priors and Facial Enhancement. ACM SIGGRAPH ASIA 2025, 1-12.

[3] Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022, 10684-10695.

[4] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 2021, 65(1): 99-106.

[5] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM Transactions on Graphics, 2023, 42(4): 139:1-139:14.

[6] Yichun Shi, Yichun Shi, Peng Wang, Peng Wang, Jianglong Ye, Long Mai, Kejie Li, Xiao Yang. MVDream: Multi-view Diffusion for 3D Generation. ICLR 2024, 1-18.

[7] Wan Team, Alibaba Group. Wan: Open and advanced large-scale video generative models. CoRR abs/2503.20314 (2025).

[8] Heyuan Li, Ce Chen, Tianhao Shi, Yuda Qiu, Sizhe An, Guanying Chen, Xiaoguang Han. Spherehead: stable 3d full-head synthesis with spherical tri-plane representation. ECCV 2024 324-341.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张兰带孙女现身三里屯!小玥儿逛奢侈品店,剪头发了气质大变样

张兰带孙女现身三里屯!小玥儿逛奢侈品店,剪头发了气质大变样

娱乐圈圈圆
2026-07-04 15:33:05
7月贵人指点,8月横财入宅,咸鱼翻身的3个生肖,钱袋子鼓鼓不停

7月贵人指点,8月横财入宅,咸鱼翻身的3个生肖,钱袋子鼓鼓不停

毅谈生肖
2026-07-04 12:05:22
男篮大早启程韩国!全队情绪低沉,杨瀚森王俊杰严肃,压力山大了

男篮大早启程韩国!全队情绪低沉,杨瀚森王俊杰严肃,压力山大了

篮球资讯达人
2026-07-04 09:59:34
德天空:克洛普将被赋予相当大的权力,以着手解决根本性问题

德天空:克洛普将被赋予相当大的权力,以着手解决根本性问题

懂球帝
2026-07-04 19:42:08
4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

锐评利物浦
2026-07-04 09:47:18
中国船员在被韩海警扣押期间死亡,家属质疑延误黄金救援时间

中国船员在被韩海警扣押期间死亡,家属质疑延误黄金救援时间

红星新闻
2026-07-03 17:16:47
《四渡》的失败,是一种典型的“德不配位”

《四渡》的失败,是一种典型的“德不配位”

浪子的烟火人间
2026-07-05 00:15:32
“你这面相很难找到工作!”本科女孩印堂发黑,验证了老话没说错

“你这面相很难找到工作!”本科女孩印堂发黑,验证了老话没说错

世界圈
2026-06-30 08:10:35
李彦宏最大IPO来了

李彦宏最大IPO来了

华尔街见闻官方
2026-07-04 20:15:45
60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

60年代,冯巩在幼儿园的照片,人家这长相,小时候都不怕丢

喜文多见01
2026-05-10 07:00:29
连续5个涨停板!股民:卖飞的苦谁懂!

连续5个涨停板!股民:卖飞的苦谁懂!

数据挖掘分析
2026-07-04 15:41:29
受地震影响 大理往返昆明、丽江、香格里拉方向部分列车将出现晚点

受地震影响 大理往返昆明、丽江、香格里拉方向部分列车将出现晚点

中国日报网
2026-07-04 20:13:04
美国大满贯赛7月5日:国乒5场比赛,蒯曼打削球手,王皓不再黑脸

美国大满贯赛7月5日:国乒5场比赛,蒯曼打削球手,王皓不再黑脸

体育大学僧
2026-07-04 18:01:46
郑丽文这下彻底栽惨了!

郑丽文这下彻底栽惨了!

小马姨
2026-07-04 11:30:31
荷兰政府花200亿挽留无效,光刻机巨头ASML为啥执意从老家搬走?

荷兰政府花200亿挽留无效,光刻机巨头ASML为啥执意从老家搬走?

花小猫的美食日常
2026-07-04 01:02:22
沃齐尼亚还在布置人墙,梅西已经快发任意球引争议,其实这在规则之内

沃齐尼亚还在布置人墙,梅西已经快发任意球引争议,其实这在规则之内

红星新闻
2026-07-04 11:28:17
从银行辞职,嫁百亿富豪,丈夫破产后,她在上海开艾灸馆维持体面

从银行辞职,嫁百亿富豪,丈夫破产后,她在上海开艾灸馆维持体面

枯蝶
2026-07-03 06:11:18
打死也不能进冰箱的6种菜,回家立刻拿出来,别拿家人健康开玩笑

打死也不能进冰箱的6种菜,回家立刻拿出来,别拿家人健康开玩笑

时尚的弄潮
2026-07-02 12:57:48
破案了!洪明甫这些年不是看不上孙兴慜,是压根没正眼瞧过他

破案了!洪明甫这些年不是看不上孙兴慜,是压根没正眼瞧过他

莫地方
2026-07-04 00:05:15
如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

如何判断一个人是不是性工作者?网友说看倒精方法是否老练!

灯锦年
2026-07-01 17:38:16
2026-07-05 01:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
数码
教育
时尚
公开课

亲子要闻

爷爷给一个月宝宝的科普小课堂:怎么预防近视?

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

教育要闻

参考!2026年高考分数对应2025年同位分!

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版