网易首页 > 网易号 > 正文 申请入驻

ECCV 2024 | 利用更易广泛获取的人体掩膜,实现SOTA无监督3D姿态估计

0
分享至

精确的人体 3D 姿态估计是众多领域的基础,如机器人、运动表现分析等,而获取大量的自然条件下的 3D 姿态标注极其困难。具体而言,3D 姿态真值获取通常需要搭建动作捕捉环境。该方式仍然需要耗费大量人力物力,且数据受限于动作类型和人体外貌多样性,因而使得以 3D 真值为基础的全监督姿态估计算法难以泛化到更多室外场景。

上海人工智能实验室的研究团队着眼于无监督的姿态估计,旨在发挥该类算法能够利用大量室外未标注的数据的特性,增强模型性能。考虑到无监督的分割算法 [1] 在室外场景的优秀表现,研究团队探索了利用更易广泛获取的人体掩膜作为监督信号,完成端到端的无监督 3D 姿态估计的算法,近期为 ECCV 2024 接收。

论文标题: Mask as Supervision: Leveraging Unified Mask Information for Unsupervised 3D Pose Estimation 论文链接: https://arxiv.org/pdf/2312.07051.pdf 代码链接(即将公开): https://github.com/Charrrrrlie/Mask-as-Supervision

算法以下两大问题上实现突破:

  1. 提出显式利用人体结构先验,消除了以往无监督方法中还存在的有监督后处理(SPP)步骤

  2. 强调了无监督方法中难以区分人体左右的问题,并提出利用一致性约束进行有效解决

实现 SOTA 无监督 3D 姿态估计结果,推动了 3D 姿态估计在更广泛复杂场景的应用。

一、Pipeline

二、动机

无监督姿态估计的难点在于设计无需人工标注的损失函数,为检测器优化提供目标。

人体掩膜容易以无监督的方式获得,包括以视频为输入的传统静态背景建模方法,以及利用新兴的 SAM [1] 在丰富图片上的泛化能力。同时,掩膜能够看作是关键点的退化形式。如果人体关键点能从人体掩膜中被发掘,便能够实现监督信号的获取。

于是我们将关键点到人体掩膜的过程看作由粗至细粒度的补全过程,设计了包含结构信息的人体骨架掩膜和包含形状信息的人体体型掩膜,深度挖掘掩膜信息,由关键点逐步逼近真实掩膜。

三、消除有监督后处理步骤

姿态检测中的人体关键点包含有指定顺序和实际物理含义,一类无监督姿态估计算法并未考虑这一点,导致虽然检测的关键点和某些真值关键点相合,但无法确定具体对应关系。

较差的可解释性使得该类方法需要检测较多数量的关键点(大于 30 个),并通过训练集上的真值,学习关键点到真值姿态的映射关系,采用有监督后处理(supervised post-processing, SPP)得到最终结果。该类方法仍然需要训练集上的人工标注,与真正无监督的理念相悖。

本文算法将人体视作由刚体骨架构成的整体,构造骨架特征图。利用 [2] 扩展的高斯核,以一定宽度的线段显式建模由一对关节点连接的骨骼 B_b。当骨架的连接方式确定时,每一个关键点的物理含义将被确定。同时,其在掩膜中的最优结构,将确定关键点的目标位置。

四、人体左右对称的影响

由于人体的对称性,基于人体形状建模的无监督方法在左右关键点互换后,仍将得到相同的损失,从而并不能区分人体左右状态。使用有监督后处理的诸多方法中,该对称性由有监督的映射解决,并被忽略讨论。

本文强调了这一问题,并使用多视角图像进行解决。在多视角图像可用时,用以构建人体掩膜的关键点将利用相机参数投影至二维,从而通过多视角几何约束确保各视角下关键点没有出现对称性错误。

五、优化监督信号

考虑到将显式建模的人体骨架置于人体掩膜中,会出现多种次优的结构,这将对算法的优化产生困难。本文使用了层次化的优化方式,首先将变化范围较小的躯干部分构建人体骨架进行优化,而后将四肢纳入优化过程。此外,我们还设计了基于测地距离的权重掩膜,使得远离掩膜中心的正确关键点能减少更大损失,并容忍接近掩膜区域但位于掩膜外的错误关键点,从而平滑优化的求解空间。

六、实验结果

我们在常用的 Human3.6M 和 MPI-INF-3DHP 数据集上进行实验,取得了无监督算法中的 SOTA 结果。

6.1 Human3.6M数据集

我们标注了不同方法共性的设定,包括 SPP(有监督后处理)、UP(未配对的真值姿态或基于此的先验)、T(人工设计的模板)、SF(有监督翻转,对应左右不分问题)。

可以看出,本文算法无需上述限制条件,即可实现无监督 3D 姿态估计,并取得最优性能。同时,在 SPP 的设定下,算法突出的性能也进一步说明利用掩膜信息挖掘特征的有效性。

6.2 MPI-INF-3DHP数据集

在该数据集上多数方法采用了上述 SPP 或 UP 的设定,我们在同样设定下取得了 SOTA 性能,并展示了 MPI-INF-3DHP 数据集推荐的 PCK 和 AUC 指标,方便后续工作进行比较。

6.3 利用室外场景数据

为验证本文提出的无监督算法具有利用并学习广泛来源数据的能力,我们设计了多个数据集混合训练的实验,包括引入完全无任何姿态数据标注的 TikTok 视频数据集。在数据量逐步提升时,模型在未参与训练的野外数据集 MPII 中性能表现逐步提升,从模型泛化能力的角度证明本文无监督方法的可适用性。

TikTok 数据集单目图像中得到 3D 姿态标注结果:

多个数据集混合训练的性能提升结果:

参考文献

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollar, and Ross Girshick. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023

[2] Xingzhe He, Bastian Wandt, and Helge Rhodin. Autolink: Self-supervised learning of human skeletons and object outlines by linking keypoints. Advances in Neural Information Processing Systems, 35:36123–36141, 2022


作者:杨雨辰 来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
涉嫌严重违纪违法,付东被查

涉嫌严重违纪违法,付东被查

沧海一粟1155
2026-06-21 11:53:30
汤家凤呼吁抵制印度人穷游中国!我们得有是非,别让善良被人利用

汤家凤呼吁抵制印度人穷游中国!我们得有是非,别让善良被人利用

小徐讲八卦
2026-06-20 07:09:56
你听过的野史有多野?看网友讲述,感觉我的历史白学了。

你听过的野史有多野?看网友讲述,感觉我的历史白学了。

侃神评故事
2026-06-18 14:42:44
莫言:你细心观察一下你的身边人,凡是动不动就生气的人,没有一个是智者,生活多半过得一团糟糕

莫言:你细心观察一下你的身边人,凡是动不动就生气的人,没有一个是智者,生活多半过得一团糟糕

每日一首古诗词
2026-06-18 06:32:18
雷军摆拍过早,为什么让人不适?

雷军摆拍过早,为什么让人不适?

黔有虎
2026-06-19 17:41:13
乡村爱情王小蒙变化好大,丰乳肥臀的,不再是当年清纯的小姑娘了

乡村爱情王小蒙变化好大,丰乳肥臀的,不再是当年清纯的小姑娘了

南万说娱26
2026-06-02 12:25:07
5-1 狂胜也洗不动!荷兰两大水货现原形,全场梦游卧底坑全队

5-1 狂胜也洗不动!荷兰两大水货现原形,全场梦游卧底坑全队

澜归序
2026-06-21 04:44:41
香港知名演员回应5亿身家,财产不会留给子女,用不完会全部捐赠

香港知名演员回应5亿身家,财产不会留给子女,用不完会全部捐赠

流云随风去远方
2026-06-21 09:49:51
6月20日俄乌:波乌争端升级,泽连斯基警告白俄罗斯

6月20日俄乌:波乌争端升级,泽连斯基警告白俄罗斯

山河路口
2026-06-20 17:57:45
李小冉鎏金婚纱封神五公,841票结果引全网意难平

李小冉鎏金婚纱封神五公,841票结果引全网意难平

笑饮孤鸿非
2026-06-20 21:30:21
76岁希拉里传跨界绯闻?对象是49岁莱昂纳多,游艇同框是算计?

76岁希拉里传跨界绯闻?对象是49岁莱昂纳多,游艇同框是算计?

绿茵八卦君
2026-06-20 19:45:04
脸都打肿!利物浦骂了一年的水货 世界杯直接踢成球王

脸都打肿!利物浦骂了一年的水货 世界杯直接踢成球王

奶盖熊本熊
2026-06-21 04:22:17
英格兰名宿罗伊·基恩批评世界杯英格兰太太团穿球衣太过招摇,嘲讽“她们中大多数一年后就会分手”,有...

英格兰名宿罗伊·基恩批评世界杯英格兰太太团穿球衣太过招摇,嘲讽“她们中大多数一年后就会分手”,有...

星Xin辰大海
2026-06-20 14:20:05
一个家庭最好的传承:有钱不如有德,富贵不如家风正

一个家庭最好的传承:有钱不如有德,富贵不如家风正

书窗小记
2026-06-12 10:45:06
震惊!曹德旺要福耀大学自负盈亏,网友:这是真正意义上的好大学

震惊!曹德旺要福耀大学自负盈亏,网友:这是真正意义上的好大学

火山詩话
2026-06-19 07:57:26
脑出血去世的人越来越多?医生强调:宁可打打牌,建议别做这6事

脑出血去世的人越来越多?医生强调:宁可打打牌,建议别做这6事

芹姐说生活
2026-06-20 23:58:22
十年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

十年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

小兰聊历史
2026-04-26 08:44:22
史学家为何很少提及刘秀?他的一生完美到不真实,让人无从下笔

史学家为何很少提及刘秀?他的一生完美到不真实,让人无从下笔

云居历史
2026-06-18 16:32:38
别瞎减!男性164-183.5cm标准体重对照表(2026新版)你根本不胖

别瞎减!男性164-183.5cm标准体重对照表(2026新版)你根本不胖

坠入二次元的海洋
2026-06-19 09:43:41
《抓特务》第一波真实口碑出炉!现场观众打分和评价“一针见血”

《抓特务》第一波真实口碑出炉!现场观众打分和评价“一针见血”

八卦南风
2026-06-18 19:21:54
2026-06-21 14:15:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2410文章数 596关注度
往期回顾 全部

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

头条要闻

外国知名学者:当今世界只有四个大国

头条要闻

外国知名学者:当今世界只有四个大国

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

李乃文带妻子法国购物,2人5个孩子!

财经要闻

蔚来的“暗战”时刻

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

健康
房产
艺术
旅游
教育

吃粽子的3条保胃法则,消化科医生推荐

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

艺术要闻

大卫・霍克尼 经典彩色版画

旅游要闻

趣玩栖霞街 欢乐“粽”动员!威海栖霞街解锁文旅消费新场景

教育要闻

爆笑作业:这些学生作业真的很难绷住!

无障碍浏览 进入关怀版