CVPR 2025 | 超大体量的自然场景3D数字人重建数据集WildAvatar

2025-03-28 08:26:42　来源: 将门创投

北京举报

分享至

本文聚焦于华中科技大学、南洋理工大学、大湾区大学和上海人工智能实验室联合团队的最新成果 —— WildAvatar 数据集。该数据集是迄今为止规模最大的自然场景中 3D 数字人重建数据集。其收录了超过 10,000 个涵盖多样化人物与场景的视频片段，有效解决了以往 3D 数字人重建数据标注成本高昂、数据量有限以及场景过于单一等问题。在当下大数据驱动的大模型时代，该超大规模数据集有望为 3D 数字人重建及生成等相关领域注入强大动力，助力其蓬勃发展，为相关研究提供坚实的数据基础。

论文题目： WildAvatar: Learning In-the-wild 3D Avatars from the Web 论文链接： https://arxiv.org/abs/2407.02165 代码链接： https://github.com/wildavatar/WildAvatar_Toolbox

一、动机

3D 数字人重建技术在 VR/AR、电影制作、元宇宙等领域展现出巨大的应用潜力。然而，当前的技术和数据采集方式在现实场景中的应用面临诸多限制。尽管神经辐射场（NeRF）等技术的出现使得从简单实验室数据中的 2D 图像或视频恢复出逼真的 3D 数字人成为可能，但现有数据的简单性以及复杂且昂贵的采集系统，严重制约了 3D 数字人重建技术在现实场景中的应用价值。

目前的 3D 数字人数据集大多依赖于复杂且昂贵的实验室系统采集，这些系统需要各种先进设备进行准确标注，例如需要精确校准的多目相机、深度传感器、惯性传感器（IMU）或昂贵的扫描仪，以及专业的演员和专用舞台等。然而，在现实场景（例如单目网络视频）或消费级应用中，这些理想的数据条件是不现实的。此外，由于现有 3D 数字人重建数据的采集成本极高，难以实现大规模数据的积累，这极大地限制了可泛化的 3D 数字人重建方法的通用性和泛化能力。

为了解决这些问题，本研究将目光转向网络视频，收集并标注了一个超大规模的自然场景中的人体重建数据集。该数据集的构建旨在弥补以往人体重建数据标注成本高、数据体量小、仅局限于简单场景等不足，为推动 3D 数字人重建技术在更广泛场景中的应用奠定基础。

二、方法 2.1 标注框架

本研究致力于高效构建一个大规模且贴近现实应用的 3D 数字人重建数据集。为此，研究团队从互联网上爬取了 10 万个包含人体运动的视频，并通过以下四个阶段对这些视频进行处理，以获取高质量的标注数据。

首先利用现有的 Yolo 检测方法提取主体人物的裁剪框，随后剔除过短的视频片段以及人体检测与跟踪结果置信度低的片段。

阶段 II：人体分割掩码提取

采用最新的 Segment Anything（SAM）方法，仅需输入人体检测、跟踪和 2D 人体姿态估计中获得的裁剪框和样例点，即可自动生成分割掩码。

阶段 III：粗略的 SMPL 参数和相机参数估计

研究团队首先利用基于单张图像的人体 SMPL 估计方法，逐帧估计 SMPL 参数和相机参数。

阶段 IV：优化 SMPL 参数和相机参数

在阶段 III 中估计的 SMPL 参数尚未考虑人体运动的时序一致性。为了进一步优化这些参数，研究团队采用梯度下降法对整个视频片段序列进行处理，以逐步平滑标注结果。在此过程中，将估计的 2D 关键点和 SAM 掩码纳入优化目标，从而为 SMPL 参数的优化提供更全面的约束条件。

2.2 筛选策略

为确保收集到的视频片段满足高质量 3D 数字人重建的要求，研究团队提出了以下四个筛选策略：

从视频中筛选出人体清晰且无遮挡的片段，并且要求人体有显著的运动或视角变化。通过检测人体和 2D 姿态估计的置信度，排除那些人体被严重遮挡、持续时间过短以及视角变化不明显的片段，以确保视频片段中包含足够丰富的人体运动信息。频中包含足够的人体运动信息。

策略 II：多模型专家的一致性

为确保不同标注模型对同一视频片段的标注结果保持一致，进而提升标注质量，本研究采用了多种前沿的标注模型，包括检测模型、2D 姿态估计模型以及 SMPL 估计模型。通过计算这些模型预测结果的平均值作为最终标注结果，并以标准差作为衡量标注一致性的参考指标，从而筛选并剔除标注结果不一致的视频片段。

策略 III：2D 关键点的一致性

检验单目 SMPL 估计与 2D 姿态估计结果的匹配度，以提升 SMPL 估计的可信度。通过计算投影的 SMPL 关键点与 2D 姿态估计关键点之间的 PCK 值来实现。只有当平均 PCK 值超过设定阈值时，才认为估计结果可靠。

策略 IV：SMPL 掩码与 SAM 掩码的一致性

确保SMPL 投影掩码与 Segment Anything（SAM）掩码的匹配度，从而保障标注的高质量。对比 SMPL 投影掩码和 SAM 掩码的重叠部分。通过剔除 SAM 掩码与 SMPL 掩码重叠较少的视频片段，以确保标注的准确性。

三、实验

本研究广泛地在 THuman、HuMMan、RenderPeople 和 WildAvatar 数据集上展开实验，并运用 PSNR、SSIM 和 LPIPS 等常用指标对重建效果进行评估。结果显示，四阶段标注框架在提升重建准确性方面具有显著优势。此外，为了验证 WildAvatar 数据集的超大规模体量对可泛化 3D 人体重建方法的提升作用，研究团队进行了额外实验。实验结果表明，WildAvatar 数据集在现实场景中能够将现有方法的泛化能力提升近7% 。这些结果突出了 WildAvatar 数据集在提升 3D 人体重建性能方面的潜力，尤其是在复杂现实场景中的应用价值。

本研究提出了 WildAvatar 数据集，这是一个从互联网收集并标注的超大规模 3D 数字人重建数据集，包含超过 10,000 个不同的人物主体和场景。与传统 3D 数字人重建数据集相比，WildAvatar 在人物和场景的多样性上实现了至少十倍的提升。通过对现有 3D 数字人重建方法在 WildAvatar 数据集上的测试，研究揭示了大规模数据驱动下模型泛化的潜力，同时也暴露了在实际应用中仍需解决的挑战。该数据集有望为 3D 数字人重建及相关领域的进一步研究提供宝贵的数据支持，相关数据与代码已开源。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.