网易首页 > 网易号 > 正文 申请入驻

CVPR 2023 Award Candidate | 真实高精三维物体数据集OmniObject3D

0
分享至

为了促进真实世界中感知、重建和生成领域的发展,我们提出了 OmniObject3D,一个高质量的大类别真实三维物体数据集。本数据集有三个主要优势:

1)类别丰富:覆盖 200 余个类别的约 6K 个三维物体数据;

2)标注丰富:包括了高精表面网格、点云、多视角渲染图像,和实景采集的视频;

3)真实扫描:专业的扫描设备保证了物体数据的精细形状和真实纹理。

OmniObject3D 是目前学界最大的真实世界三维扫描模型数据集,为未来的三维视觉研究提供了广阔的空间。利用该数据集,我们探讨了点云识别、神经渲染、表面重建、三维生成等多种学术任务的鲁棒性和泛化性,提出了很多有价值的发现,并验证了其从感知、重建、到生成领域的开放应用前景。我们希望 OmniObject3D 以及其对应的 benchmarks 能够为学术研究和工业应用带来新的挑战和机会。作为 CVPR 2023 的投稿,我们收到了 4 位审稿人的一致满分评价,并获推CVPR Award Candidate(top 12 / 9155)

项目主页: https://omniobject3d.github.io/ 论文链接: https://arxiv.org/abs/2301.07525 代码链接: https://github.com/omniobject3d/OmniObject3D/tree/main 数据集下载: https://opendatalab.com/OpenXD-OmniObject3D-New/download
一、背景介绍

面向真实 3D 物体的感知、理解、重建与生成是计算机视觉领域一直倍受关注的问题,也在近年来取得了飞速的进展。然而,由于社区中长期缺乏大规模的实采 3D 物体数据库,大部分技术方法仍依赖于 ShapeNet[1] 等仿真数据集。再者,仿真数据与真实数据之间的外观和分布差距巨大,这大大限制了它们在现实生活中的应用。

为了解决这一困难,近年来也有一些优秀的工作如 CO3D[2] 等从视频/多视角图片中寻求突破点,并利用 SfM 的方式重建 3D 点云,然而这种方式得到的点云往往难以提供完整、干净、精准的 3D 表面和纹理。因此,社区迫切需要一个大规模且高质量的真实世界 3D 物体扫描数据集,这将有助于推进许多3D视觉任务和下游应用。

OmniObject3D 为每一个物体提供了四种模态信息,包括:带纹理的高精模型、点云、多视角渲染图像、实景拍摄的环绕视频。对于每个拍摄的视频,我们平均抽取了 200 帧,并提供前景掩码和 SfM 重建的相机位姿和稀疏点云。

数据集的整体类别内物体数量呈长尾分布,与 ImageNet[3]、COCO[4]、LVIS[5] 和 ShapeNet[1] 等热门 2D 及 3D 数据集中的常见类别有高度共享。

OmniObject3D 为学界带来了广泛的探索空间,在本文中,我们选取了四个下游任务进行评估与分析。

3.1 任务一:点云分类鲁棒性(Point Cloud Classification Robustness)

物体点云分类是 3D 感知中最基本的任务之一。在本节中,我们展示了 OmniObject3D 如何通过解耦 out-of-distribution styles & out-of-distribution corruptions 来实现更全面的点云分类的鲁棒性分析。

具体来说,1)CAD 模型与真实扫描模型之间的差异引入了 OOD styles;2)常见点云破坏因子产生了 OOD corruptions。

在之前的研究工作中,含噪的真实物体数据集如 ScanObjectNN[6] 将两种情况藕合起来,无法实现解耦分析;主动加入破坏因子的仿真数据集如 ModelNet-C[7] 则仅仅反映了第二种情况。OmniObject3D 则具备将两种情况解耦分析的要素。

我们对十种最常见的点云分类模型进行了测试,并揭示了其与 ModelNet-C 数据集中结论的异同。在应对这两个挑战时,如何实现一个真正鲁棒的点云感知模型仍需更加深度的探索。

自 NeRF[8] 提出以来,新视角合成一直是领域内的一个热门方向。

我们在 OmniObject3D 上研究了两种赛道下的新视角合成方法:

1)利用密集视角图片输入,对单一场景进行优化训练;

2)挖掘数据集中不同场景之间的先验,探索类 NeRF 模型的泛化能力。

首先,对于单场景优化的模型,我们观察到基于体素的方法会更加擅长建模高频纹理信息,而基于隐式模型的方法则相对更能抵抗表面凹陷或弱纹理等容易产生几何歧义的情况。

数据集中物体多变而复杂的形状和外观为这项任务提供了一个全新的评估基准。

多个常见方法的单场景优化效果示例

相对于拟合的单个场景的模型,跨场景可泛化框架在本数据集上的表现则更令人期待。网络从很多同类别、甚至跨类别的数据中学习到可以泛化的信息,即可对于一个全新场景的稀疏视角输入做出新视角预测。

实验表明,作为一个几何和纹理信息丰富的数据集,OmniObject3D 有助于促使模型学到对新物体或甚至新类别的泛化能力。

除了新视角合成外,如果能恢复物体的显式表面,将更加有助于下游应用的开发。同时,我们的数据具备精准且完整的三维表面,能够充分支持表面重建精度的评测需要。

类似的,我们也为表面重建任务设置了两条赛道:

1)稠密视角采样下的表面重建;

2)稀疏视角采样下的表面重建。

稠密视角下表面重建结果展示了数据集内几何形状的显著多样性。精准的扫描使得我们能够使用 Chamfer Distance 作为重建精度的度量。将类别划分为三个“难度”等级,可以观察到所有方法在不同等级上的结果存在明显的差距。

与仅包含 15 个场景的标准 DTU[9] 基准相比,我们的数据集在这项任务上提供了更全面的评估结果。

稠密视角表面重建示例

稀疏视图表面重建是一个更具挑战性的任务,在所有方法的结果中我们都观察到了明显瑕疵,均未达到能够满足实际应用的水平。

除了专为稀疏视角表面重建设计的方法外,我们还评估了前面提到的泛化性新视角合成模型的几何恢复能力——数据集提供的精准 3D Ground Truth 在评测中再次发挥了优势,然而他们的表现同样无法令人满意。

综上所述,这个问题的探索空间仍然巨大,而 OmniObject3D 为该领域进一步的研究提供了扎实的数据基础。

稠密和稀疏视角表面重建效果示例 3.4 任务四:3D 物体生成(3D Object Generation)

除了重建之外,OmniObject3D 还可以用来训练真实 3D 物体的生成模型。我们采用 GET3D[10] 框架同时生成形状和纹理,并尝试使用单个模型从数据集中同时学习多种类别的生成。

带纹理的 3D 物体生成

通过在隐空间插值,可以观察到生成模型跨类别变化的特性。我们在文章中还着重探讨了由于训练数据不平衡导致的生成语义分布失衡特点,详细请参考论文。

形状和纹理低维隐码插值结果 四、未来工作

关于数据集本身,我们会致力于不断扩大和更新数据集以满足更广泛的研究需求。除了现有的应用,我们还计划进一步发展其他下游任务,如 2D / 3D 物体检测和 6D 姿态估计等。除了感知和重建任务外,在 AIGC 时代,我们相信 OmniObject3D 能够在推动真实感 3D 生成方面发挥至关重要的作用。

References:

[1] Angel X Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, et al. Shapenet: An information-rich 3d model repository. arXiv.org, 1512.03012, 2015.

[2] Jeremy Reizenstein, Roman Shapovalov, Philipp Henzler, Luca Sbordone, Patrick Labatut, and David Novotny. Common objects in 3d: Large-scale learning and evaluation of real-life 3d category reconstruction. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 10901–10911, 2021.

[3] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 248–255, 2009.

[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Proceedings of the European Conference on Computer Vision (ECCV), pages 740–755, 2014.

[5] Agrim Gupta, Piotr Dollar, and Ross Girshick. LVIS: A dataset for large vocabulary instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 5356–5364, 2019.

[6] Mikaela Angelina Uy, Quang-Hieu Pham, Binh-Son Hua, Thanh Nguyen, and Sai-Kit Yeung. Revisiting point cloud classification: A new benchmark dataset and classification model on real-world data. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 1588–1597, 2019.

[7] Jiawei Ren, Liang Pan, and Ziwei Liu. Benchmarking and analyzing point cloud classification under corruptions. In Proceedings of the International Conference on Machine learning (ICML), 2022.

[8] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In Proceedings of the European Conference on Computer Vision (ECCV), pages 405–421, 2020.

[9] Henrik Aanæs, Rasmus Ramsbøl Jensen, George Vogiatzis, Engin Tola, and Anders Bjorholm Dahl. Large-scale data for multiple-view stereopsis. International Journal of Computer Vision (IJCV), 120(2):153–168, 2016.

[10] Jun Gao, Tianchang Shen, Zian Wang, Wenzheng Chen, Kangxue Yin, Daiqing Li, Or Litany, Zan Gojcic, and Sanja Fidler. Get3d: A generative model of high quality 3d textured shapes learned from images. In Advances in Neural Information Processing Systems (NIPS), 2022.


作者 :吴桐 本文来源:公众号【商汤学术】

Illustration by unDraw

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门投资基金将门创新服务以及TechBeat人工智能社区公司致力干通过连接技术与商 业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
穆里尼奥都馋哭了!巴西世界杯最大浪费!安切洛蒂咋想的

穆里尼奥都馋哭了!巴西世界杯最大浪费!安切洛蒂咋想的

澜归序
2026-06-22 07:23:35
头条世界杯|贝兰万德封神!坚硬的不是球门,是这支伊朗的命

头条世界杯|贝兰万德封神!坚硬的不是球门,是这支伊朗的命

澎湃新闻
2026-06-22 07:12:27
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
热身赛:中国男篮力克澳大利亚 王俊杰23+6+4赵继伟一度受伤

热身赛:中国男篮力克澳大利亚 王俊杰23+6+4赵继伟一度受伤

醉卧浮生
2026-06-21 21:20:31
女子被情人睡时,丈夫还要下跪,2018年他忍无可忍,杀死妻子情人

女子被情人睡时,丈夫还要下跪,2018年他忍无可忍,杀死妻子情人

汉史趣闻
2026-06-21 14:45:00
75岁爸爸照顾6岁女儿,74岁妈妈脑梗住院!坦言时间不够用,想多活几十年!网友吵翻

75岁爸爸照顾6岁女儿,74岁妈妈脑梗住院!坦言时间不够用,想多活几十年!网友吵翻

新民晚报
2026-06-21 19:36:03
在美国的球场内,33岁伊朗门将封神:7次扑救震撼7万人 挡出必进球

在美国的球场内,33岁伊朗门将封神:7次扑救震撼7万人 挡出必进球

风过乡
2026-06-22 05:54:04
小孔塞桑:C罗是榜样但没义务必须传给他,会传给位置更好队友

小孔塞桑:C罗是榜样但没义务必须传给他,会传给位置更好队友

懂球帝
2026-06-22 00:05:09
历史首次!联合国把以色列拉入黑名单!美国对犹太人的态度变了

历史首次!联合国把以色列拉入黑名单!美国对犹太人的态度变了

李云飞Afey
2026-06-21 19:38:22
「被WPS背刺了」冲上热搜!官方客服回应

「被WPS背刺了」冲上热搜!官方客服回应

鞭牛士
2026-06-21 15:40:08
大胜澳大利亚不足一小时!郭士强官宣:中国男篮最强援后天出战

大胜澳大利亚不足一小时!郭士强官宣:中国男篮最强援后天出战

童叔不飙车
2026-06-22 01:04:33
哈维回忆16岁梅西首训:全队看傻了!每个人都意识到一个怪物来了

哈维回忆16岁梅西首训:全队看傻了!每个人都意识到一个怪物来了

体育闲话说
2026-06-22 06:09:32
世界杯名场面:乌拉圭前锋正帮对手压腿,转身参与进攻,球队扳平

世界杯名场面:乌拉圭前锋正帮对手压腿,转身参与进攻,球队扳平

风过乡
2026-06-22 08:09:09
不光停发绩效,很多单位工资都发不出了!

不光停发绩效,很多单位工资都发不出了!

细说职场
2026-06-19 15:00:25
智谱市值首次突破1万亿港元,股价年内涨超20倍

智谱市值首次突破1万亿港元,股价年内涨超20倍

金融界
2026-06-22 10:11:59
知名上市公司副总裁交通事故去世,年仅40岁

知名上市公司副总裁交通事故去世,年仅40岁

封面新闻
2026-06-22 00:34:04
WPS被骂上热搜!占满C盘致电脑卡顿,商业套路被扒,遭网友怒斥!

WPS被骂上热搜!占满C盘致电脑卡顿,商业套路被扒,遭网友怒斥!

谭谈社会
2026-06-21 19:10:56
中纪委怒批:公务员也是人,正常生活不应问责处理!

中纪委怒批:公务员也是人,正常生活不应问责处理!

职场资深秘书
2026-06-21 13:59:22
2.5亿成本,《抓特务》预测票房仅1.39亿,冯小刚亏到怀疑人生

2.5亿成本,《抓特务》预测票房仅1.39亿,冯小刚亏到怀疑人生

电影票房预告片
2026-06-21 15:54:02
订单已排到8月,720万辆小电驴杀向全球,日本人这次是真坐不住了

订单已排到8月,720万辆小电驴杀向全球,日本人这次是真坐不住了

混沌录
2026-06-21 21:18:17
2026-06-22 10:27:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2410文章数 596关注度
往期回顾 全部

科技要闻

SpaceX 74天闪电IPO,OpenAI能照搬吗?

头条要闻

"甲酰胺纸尿裤"调查记者:我只为那些检出甲酰胺的孩子

头条要闻

"甲酰胺纸尿裤"调查记者:我只为那些检出甲酰胺的孩子

体育要闻

18岁斩世界杯首球!亚马尔连创5大纪录

娱乐要闻

原来她就是张颂文老婆

财经要闻

这门“躺赚”的生意,要凉了?

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

教育
时尚
本地
数码
公开课

教育要闻

高考家长最头疼的问题,专业如何不调剂?

不得不说,“T恤+九分裤”真的很适合夏天,清爽减龄又高级!

本地新闻

龙腾资江 韵动邵阳

数码要闻

消息LG Display打入华硕电竞显示器供应链,与京东方双轨供货

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版