本文聚焦于华中科技大学、南洋理工大学、大湾区大学和上海人工智能实验室联合团队的最新成果 —— WildAvatar 数据集。该数据集是迄今为止规模最大的自然场景中 3D 数字人重建数据集。其收录了超过 10,000 个涵盖多样化人物与场景的视频片段,有效解决了以往 3D 数字人重建数据标注成本高昂、数据量有限以及场景过于单一等问题。在当下大数据驱动的大模型时代,该超大规模数据集有望为 3D 数字人重建及生成等相关领域注入强大动力,助力其蓬勃发展,为相关研究提供坚实的数据基础。
论文题目: WildAvatar: Learning In-the-wild 3D Avatars from the Web 论文链接: https://arxiv.org/abs/2407.02165 代码链接: https://github.com/wildavatar/WildAvatar_Toolbox
一、动机
3D 数字人重建技术在 VR/AR、电影制作、元宇宙等领域展现出巨大的应用潜力。然而,当前的技术和数据采集方式在现实场景中的应用面临诸多限制。尽管神经辐射场(NeRF)等技术的出现使得从简单实验室数据中的 2D 图像或视频恢复出逼真的 3D 数字人成为可能,但现有数据的简单性以及复杂且昂贵的采集系统,严重制约了 3D 数字人重建技术在现实场景中的应用价值。
目前的 3D 数字人数据集大多依赖于复杂且昂贵的实验室系统采集,这些系统需要各种先进设备进行准确标注,例如需要精确校准的多目相机、深度传感器、惯性传感器(IMU)或昂贵的扫描仪,以及专业的演员和专用舞台等。然而,在现实场景(例如单目网络视频)或消费级应用中,这些理想的数据条件是不现实的。此外,由于现有 3D 数字人重建数据的采集成本极高,难以实现大规模数据的积累,这极大地限制了可泛化的 3D 数字人重建方法的通用性和泛化能力。
为了解决这些问题,本研究将目光转向网络视频,收集并标注了一个超大规模的自然场景中的人体重建数据集。该数据集的构建旨在弥补以往人体重建数据标注成本高、数据体量小、仅局限于简单场景等不足,为推动 3D 数字人重建技术在更广泛场景中的应用奠定基础。
二、方法 2.1 标注框架
本研究致力于高效构建一个大规模且贴近现实应用的 3D 数字人重建数据集。为此,研究团队从互联网上爬取了 10 万个包含人体运动的视频,并通过以下四个阶段对这些视频进行处理,以获取高质量的标注数据。
首先利用现有的 Yolo 检测方法提取主体人物的裁剪框,随后剔除过短的视频片段以及人体检测与跟踪结果置信度低的片段。
阶段 II:人体分割掩码提取
采用最新的 Segment Anything(SAM)方法,仅需输入人体检测、跟踪和 2D 人体姿态估计中获得的裁剪框和样例点,即可自动生成分割掩码。
阶段 III:粗略的 SMPL 参数和相机参数估计
研究团队首先利用基于单张图像的人体 SMPL 估计方法,逐帧估计 SMPL 参数和相机参数。
阶段 IV:优化 SMPL 参数和相机参数
在阶段 III 中估计的 SMPL 参数尚未考虑人体运动的时序一致性。为了进一步优化这些参数,研究团队采用梯度下降法对整个视频片段序列进行处理,以逐步平滑标注结果。在此过程中,将估计的 2D 关键点和 SAM 掩码纳入优化目标,从而为 SMPL 参数的优化提供更全面的约束条件。
2.2 筛选策略
为确保收集到的视频片段满足高质量 3D 数字人重建的要求,研究团队提出了以下四个筛选策略:
从视频中筛选出人体清晰且无遮挡的片段,并且要求人体有显著的运动或视角变化。通过检测人体和 2D 姿态估计的置信度,排除那些人体被严重遮挡、持续时间过短以及视角变化不明显的片段,以确保视频片段中包含足够丰富的人体运动信息。频中包含足够的人体运动信息。
策略 II:多模型专家的一致性
为确保不同标注模型对同一视频片段的标注结果保持一致,进而提升标注质量,本研究采用了多种前沿的标注模型,包括检测模型、2D 姿态估计模型以及 SMPL 估计模型。通过计算这些模型预测结果的平均值作为最终标注结果,并以标准差作为衡量标注一致性的参考指标,从而筛选并剔除标注结果不一致的视频片段。
策略 III:2D 关键点的一致性
检验单目 SMPL 估计与 2D 姿态估计结果的匹配度,以提升 SMPL 估计的可信度。通过计算投影的 SMPL 关键点与 2D 姿态估计关键点之间的 PCK 值来实现。只有当平均 PCK 值超过设定阈值时,才认为估计结果可靠。
策略 IV:SMPL 掩码与 SAM 掩码的一致性
确保SMPL 投影掩码与 Segment Anything(SAM)掩码的匹配度,从而保障标注的高质量。对比 SMPL 投影掩码和 SAM 掩码的重叠部分。通过剔除 SAM 掩码与 SMPL 掩码重叠较少的视频片段,以确保标注的准确性。
三、实验
本研究广泛地在 THuman、HuMMan、RenderPeople 和 WildAvatar 数据集上展开实验,并运用 PSNR、SSIM 和 LPIPS 等常用指标对重建效果进行评估。结果显示,四阶段标注框架在提升重建准确性方面具有显著优势。此外,为了验证 WildAvatar 数据集的超大规模体量对可泛化 3D 人体重建方法的提升作用,研究团队进行了额外实验。实验结果表明,WildAvatar 数据集在现实场景中能够将现有方法的泛化能力提升近7% 。这些结果突出了 WildAvatar 数据集在提升 3D 人体重建性能方面的潜力,尤其是在复杂现实场景中的应用价值。
本研究提出了 WildAvatar 数据集,这是一个从互联网收集并标注的超大规模 3D 数字人重建数据集,包含超过 10,000 个不同的人物主体和场景。与传统 3D 数字人重建数据集相比,WildAvatar 在人物和场景的多样性上实现了至少十倍的提升。通过对现有 3D 数字人重建方法在 WildAvatar 数据集上的测试,研究揭示了大规模数据驱动下模型泛化的潜力,同时也暴露了在实际应用中仍需解决的挑战。该数据集有望为 3D 数字人重建及相关领域的进一步研究提供宝贵的数据支持,相关数据与代码已开源。
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
▼
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.