网易首页 > 网易号 > 正文 申请入驻

CVPR 2025 | 超大体量的自然场景3D数字人重建数据集WildAvatar

0
分享至

本文聚焦于华中科技大学、南洋理工大学、大湾区大学和上海人工智能实验室联合团队的最新成果 —— WildAvatar 数据集。该数据集是迄今为止规模最大的自然场景中 3D 数字人重建数据集。其收录了超过 10,000 个涵盖多样化人物与场景的视频片段,有效解决了以往 3D 数字人重建数据标注成本高昂、数据量有限以及场景过于单一等问题。在当下大数据驱动的大模型时代,该超大规模数据集有望为 3D 数字人重建及生成等相关领域注入强大动力,助力其蓬勃发展,为相关研究提供坚实的数据基础。

论文题目: WildAvatar: Learning In-the-wild 3D Avatars from the Web 论文链接: https://arxiv.org/abs/2407.02165 代码链接: https://github.com/wildavatar/WildAvatar_Toolbox

一、动机

3D 数字人重建技术在 VR/AR、电影制作、元宇宙等领域展现出巨大的应用潜力。然而,当前的技术和数据采集方式在现实场景中的应用面临诸多限制。尽管神经辐射场(NeRF)等技术的出现使得从简单实验室数据中的 2D 图像或视频恢复出逼真的 3D 数字人成为可能,但现有数据的简单性以及复杂且昂贵的采集系统,严重制约了 3D 数字人重建技术在现实场景中的应用价值。

目前的 3D 数字人数据集大多依赖于复杂且昂贵的实验室系统采集,这些系统需要各种先进设备进行准确标注,例如需要精确校准的多目相机、深度传感器、惯性传感器(IMU)或昂贵的扫描仪,以及专业的演员和专用舞台等。然而,在现实场景(例如单目网络视频)或消费级应用中,这些理想的数据条件是不现实的。此外,由于现有 3D 数字人重建数据的采集成本极高,难以实现大规模数据的积累,这极大地限制了可泛化的 3D 数字人重建方法的通用性和泛化能力。

为了解决这些问题,本研究将目光转向网络视频,收集并标注了一个超大规模的自然场景中的人体重建数据集。该数据集的构建旨在弥补以往人体重建数据标注成本高、数据体量小、仅局限于简单场景等不足,为推动 3D 数字人重建技术在更广泛场景中的应用奠定基础。

二、方法 2.1 标注框架

本研究致力于高效构建一个大规模且贴近现实应用的 3D 数字人重建数据集。为此,研究团队从互联网上爬取了 10 万个包含人体运动的视频,并通过以下四个阶段对这些视频进行处理,以获取高质量的标注数据。

首先利用现有的 Yolo 检测方法提取主体人物的裁剪框,随后剔除过短的视频片段以及人体检测与跟踪结果置信度低的片段。

阶段 II:人体分割掩码提取

采用最新的 Segment Anything(SAM)方法,仅需输入人体检测、跟踪和 2D 人体姿态估计中获得的裁剪框和样例点,即可自动生成分割掩码。

阶段 III:粗略的 SMPL 参数和相机参数估计

研究团队首先利用基于单张图像的人体 SMPL 估计方法,逐帧估计 SMPL 参数和相机参数。

阶段 IV:优化 SMPL 参数和相机参数

在阶段 III 中估计的 SMPL 参数尚未考虑人体运动的时序一致性。为了进一步优化这些参数,研究团队采用梯度下降法对整个视频片段序列进行处理,以逐步平滑标注结果。在此过程中,将估计的 2D 关键点和 SAM 掩码纳入优化目标,从而为 SMPL 参数的优化提供更全面的约束条件。

2.2 筛选策略

为确保收集到的视频片段满足高质量 3D 数字人重建的要求,研究团队提出了以下四个筛选策略:

从视频中筛选出人体清晰且无遮挡的片段,并且要求人体有显著的运动或视角变化。通过检测人体和 2D 姿态估计的置信度,排除那些人体被严重遮挡、持续时间过短以及视角变化不明显的片段,以确保视频片段中包含足够丰富的人体运动信息。频中包含足够的人体运动信息。

策略 II:多模型专家的一致性

为确保不同标注模型对同一视频片段的标注结果保持一致,进而提升标注质量,本研究采用了多种前沿的标注模型,包括检测模型、2D 姿态估计模型以及 SMPL 估计模型。通过计算这些模型预测结果的平均值作为最终标注结果,并以标准差作为衡量标注一致性的参考指标,从而筛选并剔除标注结果不一致的视频片段。

策略 III:2D 关键点的一致性

检验单目 SMPL 估计与 2D 姿态估计结果的匹配度,以提升 SMPL 估计的可信度。通过计算投影的 SMPL 关键点与 2D 姿态估计关键点之间的 PCK 值来实现。只有当平均 PCK 值超过设定阈值时,才认为估计结果可靠。

策略 IV:SMPL 掩码与 SAM 掩码的一致性

确保SMPL 投影掩码与 Segment Anything(SAM)掩码的匹配度,从而保障标注的高质量。对比 SMPL 投影掩码和 SAM 掩码的重叠部分。通过剔除 SAM 掩码与 SMPL 掩码重叠较少的视频片段,以确保标注的准确性。

三、实验

本研究广泛地在 THuman、HuMMan、RenderPeople 和 WildAvatar 数据集上展开实验,并运用 PSNR、SSIM 和 LPIPS 等常用指标对重建效果进行评估。结果显示,四阶段标注框架在提升重建准确性方面具有显著优势。此外,为了验证 WildAvatar 数据集的超大规模体量对可泛化 3D 人体重建方法的提升作用,研究团队进行了额外实验。实验结果表明,WildAvatar 数据集在现实场景中能够将现有方法的泛化能力提升近7% 。这些结果突出了 WildAvatar 数据集在提升 3D 人体重建性能方面的潜力,尤其是在复杂现实场景中的应用价值。

本研究提出了 WildAvatar 数据集,这是一个从互联网收集并标注的超大规模 3D 数字人重建数据集,包含超过 10,000 个不同的人物主体和场景。与传统 3D 数字人重建数据集相比,WildAvatar 在人物和场景的多样性上实现了至少十倍的提升。通过对现有 3D 数字人重建方法在 WildAvatar 数据集上的测试,研究揭示了大规模数据驱动下模型泛化的潜力,同时也暴露了在实际应用中仍需解决的挑战。该数据集有望为 3D 数字人重建及相关领域的进一步研究提供宝贵的数据支持,相关数据与代码已开源

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

点击“阅读原文”按钮,查看社区原文

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正式通知!60岁以上农民工、保安、环卫工,7月起全部“转正”

正式通知!60岁以上农民工、保安、环卫工,7月起全部“转正”

朗威谈星座
2026-06-02 05:08:52
黄仁勋到底有没有误读“韬定律”?

黄仁勋到底有没有误读“韬定律”?

观察者网
2026-06-02 08:42:08
建议中老年人,别心疼钱,常吃3种“健腿菜”,腿脚不乏,精神足

建议中老年人,别心疼钱,常吃3种“健腿菜”,腿脚不乏,精神足

秀厨娘
2026-04-13 15:38:11
一夫一妻制将消亡?新型婚恋模式曝光,无数家庭沉默了

一夫一妻制将消亡?新型婚恋模式曝光,无数家庭沉默了

生活魔术专家
2026-06-01 12:08:13
新加坡街头,一场静悄悄的人口换血正在发生

新加坡街头,一场静悄悄的人口换血正在发生

浪子的烟火人间
2026-06-01 00:05:03
给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

快科技
2026-05-31 14:09:06
你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

夜深爱杂谈
2026-05-30 08:34:39
终于承认:上海,才是全中国最不“装”的大城市

终于承认:上海,才是全中国最不“装”的大城市

奇葩游戏酱
2026-06-01 21:30:51
毛远新透露,毛主席最后的遗嘱应该只有9个字

毛远新透露,毛主席最后的遗嘱应该只有9个字

历史伟人录
2024-09-27 13:44:11
广州白云机场一航班落地滑行58分钟?航旅纵横显示情况属实,机场客服称将调查

广州白云机场一航班落地滑行58分钟?航旅纵横显示情况属实,机场客服称将调查

上游新闻
2026-06-01 18:27:16
6死7伤!乡政府大楼被炸震惊中央,四川凉山州6.26特大爆炸案始末

6死7伤!乡政府大楼被炸震惊中央,四川凉山州6.26特大爆炸案始末

易玄
2024-09-11 10:52:41
王菲看演唱会,却把俞飞鸿送上了热搜?两个“老阿姨”的状态

王菲看演唱会,却把俞飞鸿送上了热搜?两个“老阿姨”的状态

童叔不飙车
2026-05-31 23:06:29
刘亦菲回北电和同学聚会,宛如青春女大,好想有刘亦菲这样的学姐

刘亦菲回北电和同学聚会,宛如青春女大,好想有刘亦菲这样的学姐

露珠聊影视
2026-06-01 23:55:23
iPhone17销量再破纪录!国产手机疯狂内卷,为何用户仍选苹果?

iPhone17销量再破纪录!国产手机疯狂内卷,为何用户仍选苹果?

小柱解说游戏
2026-06-02 00:24:51
CCTV5直播!上午8点30分!NBA总决赛G1来袭,文班和大头再续恩怨

CCTV5直播!上午8点30分!NBA总决赛G1来袭,文班和大头再续恩怨

球盲百小易
2026-06-02 00:52:56
40岁魔笛第5次征战世界杯!克罗地亚像个老头军团:保留上届14人

40岁魔笛第5次征战世界杯!克罗地亚像个老头军团:保留上届14人

风过乡
2026-06-02 05:52:22
拥兵数十万的张献忠,是如何一步步地,把自己带入注定的灭亡

拥兵数十万的张献忠,是如何一步步地,把自己带入注定的灭亡

阿器谈史
2026-05-27 11:55:03
明日开播,江苏卫视三大平台3部王炸大剧来袭,再掀追剧狂潮

明日开播,江苏卫视三大平台3部王炸大剧来袭,再掀追剧狂潮

东方不败然多多
2026-06-02 01:44:54
寿命长不长,看头发就知道?白发越少的人活得越久?真相来了

寿命长不长,看头发就知道?白发越少的人活得越久?真相来了

荆医生科普
2026-06-02 06:00:49
CBA第一小外援要走?广东有望抢下“得分机器”,保底能进总决赛

CBA第一小外援要走?广东有望抢下“得分机器”,保底能进总决赛

绯雨儿
2026-06-02 10:07:47
2026-06-02 14:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2399文章数 596关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

数码
手机
教育
公开课
军事航空

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

手机要闻

618 10款机型大幅跳水:苹果、华为、小米都破底价,有你看中的吗?

教育要闻

填相同的符号,使等式等于35,太难了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版