网易首页 > 网易号 > 正文 申请入驻

计算所等提出HumanLift,实现高保真数字人重建

0
分享至



创建具有高度真实感的三维数字人,在三维影视制作、游戏开发以及虚拟/增强现实(VR/AR)等多个领域均有着广泛且重要的应用。

尽管现有技术在从多视角图片重建高质量、可动画化的三维人体模型任务中展现出诸多优势,但从单张参考图像重建真实感三维数字人,依旧面临技术复杂、资源消耗大的挑战。

如何兼顾三维一致性与参考图像一致性,重建出高质量、高真实感的人物外观与姿势,以及如何生成高真实度且细节一致的服饰、人脸等,都是亟待解决的难题。

近期,中国科学院计算技术研究所、香港科技大学和英国卡迪夫大学的研究人员合作提出了一项基于单张参考图像重建高斯网(GaussianMesh [1])数字人全身的技术HumanLift[2],相关技术论文已被 SIGGRAPH ASIA 2025 接收。



  • 项目主页:
  • http://geometrylearning.com/HumanLift/

该项工作提出了一种融合三维视频扩散模型和人脸增强的单图高斯网数字人重建方法。通过此方法,用户仅需输入单张人体图片,就能重建出高质量、高逼真度的三维数字人,不仅能在不可见视角下准确估计人物外观和服饰几何细节,还能保持多视角一致性,同时确保生成的三维模型符合参考图像中的先验信息。

下图为基于单张参考图像重建数字人方法的结果展示:



图1 基于单张参考图像重建三维高斯网(GaussianMesh)数字人结果

Part1 背景

早期单图数字人重建方法主要分为显式与隐式两类。显式方法通常依赖参数化模型,能够对人体基础形状进行估计,但由于模板结构固定,难以处理复杂衣着情况;隐式方法则通过隐式函数描述复杂几何,重建质量有所提升,但往往计算成本较高,且因缺乏有效先验,生成纹理的真实感仍面临挑战。

近年来,随着生成模型(如 Stable Diffusion [3])和神经隐式渲染方法(如神经辐射场 NeRF [4]、三维高斯泼溅 3D-GS [5])的快速发展,快速构建了二维图像与三维空间之间的联系,使得二维生成能力有效助力三维生成。

已有研究在一般物体的单视图三维重建方面取得显著进展,但受限于三维人体数据稀缺以及人物姿势、服饰的复杂性,将这些方法拓展到高真实感三维人体建模领域,仍面临诸多困难。

一些方法尝试从参考图片提取文本信息,并借助扩散模型与可微渲染技术进行建模,但受文本条件模糊性限制,难以准确还原精细服装细节,且优化效率较低。随着多视图扩散生成技术的发展,研究者开始探索从单图直接生成多视图人体图像,避免复杂优化流程。

例如,将多视图生成 [6] 与 3D 高斯泼溅(3D-GS)结合为统一优化模块,然而这类方法因缺乏三维先验,导致视角不一致问题。另一些方法则引入显式三维人体先验,结合生成模型以提升多视图一致性,虽在服装与姿态的真实性上有所提升,但由于面部在全身图中占比过小,仍存在面部细节缺失、一致性与真实感不足的问题。

Part2 算法原理

HumanLift 的目标是:给定一张人物单张图像 I,创建一个能够捕捉逼真外观和细微细节(如服装纹理)的 3D 数字形象,同时包含清晰的人脸细节,实现自由视角浏览。该方法通过两个阶段完成这一任务,其方法框架如下图所示:



图2 HumanLift 的方法框架图

第一阶段:多视角图像生成

此阶段旨在从一张日常拍摄的个人照片中生成逼真的多视角图像。HumanLift 设计了一种具备 3D 感知能力的多视角人体生成方法。

为了确保对一般图像的泛化能力,生成器的骨干网络是基于目前的视频生成模型 Wan2.1 [7] 构建——该模型在大量 2D 通用视频上完成训练,具备强大的高保真视频推断能力。

HumanLift 基于该模型并引入额外的三维人体先验,处理 2D 人体动画任务,并继承其预训练权重。

具体而言,该阶段设计了两种专门针对人体优化的模型——HumanWan-DiT(RGB)和 HumanWan-DiT(Normal),以增强不同视角的一致性和几何细节。

同时,引入 SMPL-X 的多视角语义图像作为 3D 先验条件,并将其嵌入到 Wan2.1 中,提供 3D 引导。为了减少训练内存开销的同时保持模型生成能力,方法采用低秩适应(LoRA)技术进行内存高效的参数微调。

此外,通过一个由堆叠 3D 卷积层组成的轻量条件编码器,对人体的三维先验信息进行编码,其网络结构如下图所示:



图3 HumanWan-DiT 网络架构

其中:

  • HumanWan-DiT(RGB):以 SMPL-X 的语义图像为条件输入,以人全身的 RGB 图片为参考输入,最终输出人体多视角的 RGB 图像;
  • HumanWan-DiT(Normal):以 HumanWan-DiT(RGB)生成的多视角图像为条件输入,以人预测的法向图片为参考输入,最终输出多视角的法向图像。

第二阶段:3D-GS 模型重建

该阶段利用第一阶段生成的多视角图像,包括多视角的 Normal 图片和 RGB 图片,重建人体的 3D-GS 表示。

首先,该方法借助现有生成模型 [8] 对超分辨率的面部图像进行多视角图片生成,生成具有标准空间下相机姿态的高质量多视角面部图像。

在重建过程中,以生成的多视角人脸图像和第一阶段生成的多视角人体图像作为监督信号,基于高斯网表示(GaussianMesh [1])对三维高斯球的参数进行优化。

需要特别注意的是,为确保面部渲染的准确性,需将面部图像的相机姿态(标准空间)转换到 SMPL-X 头部(世界空间),以监督面部部分的高斯球属性,获得高质量的人脸细节。

由于初始的 SMPL-X 与人体的 3D-GS 的位置上存在误差,HumanLift 会根据每次迭代优化后的 SMPL-X 的姿态参数,从而动态调整面部相机姿态,确保面部相机姿态与头部的 3D 高斯球始终保持一致。

Part3 效果展示

In-the-wild 人体图片重建数字人

为了展示 HumanLift 在真实拍摄人物图片中的效果,对于每张参考图像,我们的方法可以预测多视角的 RGB 图片和 Normal 图片。

结果表明,HumanLift 生成的多视角 RGB 图像具有照片级真实感,多视角法向图能精准反映人物及服饰的几何细节,且整体保持了良好的空间一致性。

为进一步展示 HumanLift 的泛化能力,图4 呈现了更多人物的重建结果,包括不同服饰风格、不同拍摄场景下的人物案例。无论参考图像的人物特征、服饰类型,HumanLift 均能稳定生成高质量、高一致性的三维数字人。更多的结果请访问项目主页。

图4 不同服饰和衣物下的颜色和法向结果

消融实验结果

为验证各模块的作用,图5 展示了 HumanLift 的消融实验结果,即对三种消融方法(禁用面部增强、禁用 SMPL-X 姿态优化和禁用人体多视角法线图监督)的定性对比分析结果:

  • 禁用面部增强:面部细节明显缺失,真实感大幅下降;
  • 禁用 SMPL-X 姿态优化:人体姿态与头部相机位姿匹配度降低,头部渲染效果偏离真实场景;
  • 禁用人体多视角法线图监督:服饰细节丢失严重,几何结构呈现不准确。

图5 的实验结果证明,面部增强模块通过生成先验显著提升面部细节质量;SMPL-X 优化模块不仅能有效调整人体姿态参数,还能同步更新头部相机位姿,引导 3D-GS 模型生成更符合真实感的头部渲染效果;基于微调 HumanWan-DiT(Normal)模型提供的法线监督,能让 3D-GS 表征在多视角一致法线图像的指导下,更好地保留衣物细节。



图5 不同策略下的消融结果

Part4 结语

随着大模型和生成式人工智能的发展,单图全身数字人重建问题迎来了新的解决范式。传统重建方法存在渲染结果真实感不足、复杂衣物和姿势难以精准重建等问题;而现有生成式方法,也难以在人物姿势、服饰细节和人脸真实感与一致性重建之间实现平衡。

HumanLift 提出了一种有效的解决方案,通过微调基于三维扩散先验的视频生成模型和专门设计的人脸增强模块。借助该方法,用户无需进行繁琐的数据处理,仅需输入单张参考图片,就能重建出高质量、高逼真度的三维数字人——不仅能在新视角下准确估计人物外观和服饰几何,还能保持多视角一致性,同时确保生成的三维模型符合输入图像中的人物信息。

参考文献:

[1] Lin Gao*, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu, Yu-Kun Lai. GaussianMesh: Real-time Large-scale Deformation of Gaussian Splatting. ACM Transactions on Graphics (SIGGRAPH Asia 2024), 2024, 43 (6), 200:1-17.

[2] Jie Yang, Bo-Tao Zhang, Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. HumanLift: Single-Image 3D Human Reconstruction with 3D-Aware Diffusion Priors and Facial Enhancement. ACM SIGGRAPH ASIA 2025, 1-12.

[3] Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022, 10684-10695.

[4] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 2021, 65(1): 99-106.

[5] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM Transactions on Graphics, 2023, 42(4): 139:1-139:14.

[6] Yichun Shi, Yichun Shi, Peng Wang, Peng Wang, Jianglong Ye, Long Mai, Kejie Li, Xiao Yang. MVDream: Multi-view Diffusion for 3D Generation. ICLR 2024, 1-18.

[7] Wan Team, Alibaba Group. Wan: Open and advanced large-scale video generative models. CoRR abs/2503.20314 (2025).

[8] Heyuan Li, Ce Chen, Tianhao Shi, Yuda Qiu, Sizhe An, Guanying Chen, Xiaoguang Han. Spherehead: stable 3d full-head synthesis with spherical tri-plane representation. ECCV 2024 324-341.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台湾上空的历史阴霾终将散去

台湾上空的历史阴霾终将散去

环球网资讯
2025-11-09 16:21:06
破案了!医生的视频是男主自己用手机拍的,同步云盘后被曝光了

破案了!医生的视频是男主自己用手机拍的,同步云盘后被曝光了

魔都姐姐杂谈
2025-11-09 14:54:24
日本连开三枪,中方取消行程安排,高市撕毁约定,给“台独”授勋

日本连开三枪,中方取消行程安排,高市撕毁约定,给“台独”授勋

普览
2025-11-09 01:51:50
西安一女子上山采摘山茱萸,突然被黑熊从身后扑倒撕咬了三四分钟,见她不再动弹后黑熊才离开!家属:头部、手腕及耳朵被咬伤

西安一女子上山采摘山茱萸,突然被黑熊从身后扑倒撕咬了三四分钟,见她不再动弹后黑熊才离开!家属:头部、手腕及耳朵被咬伤

环球网资讯
2025-11-08 14:19:52
广东号召30万青年上山下乡,是时代的进步,还是历史的倒退?

广东号召30万青年上山下乡,是时代的进步,还是历史的倒退?

娱乐看阿敞
2025-11-08 18:12:39
北京传来悲痛消息!14亿国人的“守护者”去世了,一路走好!

北京传来悲痛消息!14亿国人的“守护者”去世了,一路走好!

小娱乐悠悠
2025-11-09 11:56:12
《繁花》后续影响来了!唐嫣被曝新剧延迟开机,杂志封面取消拍摄

《繁花》后续影响来了!唐嫣被曝新剧延迟开机,杂志封面取消拍摄

萌神木木
2025-11-09 15:35:42
陕西咸阳一男子打晕妻子误以为已死,将人扔下土崖致其死亡被公诉

陕西咸阳一男子打晕妻子误以为已死,将人扔下土崖致其死亡被公诉

上游新闻
2025-11-09 15:23:04
比特币巨震!加密货币近14万人爆仓,发生了什么?

比特币巨震!加密货币近14万人爆仓,发生了什么?

每日经济新闻
2025-11-09 09:12:05
解放军进台海,不到24小时,马英九开始追责,郑丽文摊牌两岸关系

解放军进台海,不到24小时,马英九开始追责,郑丽文摊牌两岸关系

时时有聊
2025-11-08 17:32:09
拦车要50条烟后续:嚣张嘴脸曝光,新娘痛哭离场,更惨的还在后面

拦车要50条烟后续:嚣张嘴脸曝光,新娘痛哭离场,更惨的还在后面

华史谈
2025-11-08 16:01:56
浙江女首富“栽”了,崇拜许家印投资房地产,800亿资产一夜归零

浙江女首富“栽”了,崇拜许家印投资房地产,800亿资产一夜归零

历史伟人录
2025-11-08 16:11:05
第二个“恒大”出现!年营收7000亿,曾经是广东第一大民企

第二个“恒大”出现!年营收7000亿,曾经是广东第一大民企

墨印斋
2025-11-08 15:28:54
学生偷东西被抓后续:小偷没事,被偷的反退学,更多恶心细节曝光

学生偷东西被抓后续:小偷没事,被偷的反退学,更多恶心细节曝光

奇思妙想草叶君
2025-11-08 21:13:10
博主称甘肃临夏有货车私自向大夏河中排放粉紫色不明液体,经检测为含高锰酸钾的运鱼水,环保部门回应

博主称甘肃临夏有货车私自向大夏河中排放粉紫色不明液体,经检测为含高锰酸钾的运鱼水,环保部门回应

极目新闻
2025-11-09 14:57:41
家门口发现人参,浙江男子直接生吃半根!结果悲剧了…

家门口发现人参,浙江男子直接生吃半根!结果悲剧了…

FM93浙江交通之声
2025-11-09 06:06:23
太惨了!烟台渣土车压扁宝马车,死亡司机身份曝光,是年轻女教师

太惨了!烟台渣土车压扁宝马车,死亡司机身份曝光,是年轻女教师

火山诗话
2025-11-09 16:09:29
毛新宇少将担任副部长!妻子刘滨担任扇子协会会长

毛新宇少将担任副部长!妻子刘滨担任扇子协会会长

李昕言温度空间
2025-11-09 14:50:17
曝副院长曾主任半年一起出差27次!患者爆料:收费1000块问诊不回

曝副院长曾主任半年一起出差27次!患者爆料:收费1000块问诊不回

鋭娱之乐
2025-11-09 16:48:16
吓人!天津选手跳水严重失误,险些摔出泳池,山东队教练伸手保护

吓人!天津选手跳水严重失误,险些摔出泳池,山东队教练伸手保护

风过乡
2025-11-09 09:36:40
2025-11-09 20:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11672文章数 142501关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

英伟达被华尔街大佬做空 4天市值蒸发4551亿美元

头条要闻

英伟达被华尔街大佬做空 4天市值蒸发4551亿美元

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

游戏
亲子
家居
公开课
军事航空

这就是假小子的魅力吗?超英新游预估销量已接近百万

亲子要闻

硬核体能课走红!一所乡间幼儿园甚至还吸引了上千名外省家长咨询 (来源:央视网)

家居要闻

现代自由 功能美学居所

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版