网易首页 > 网易号 > 正文 申请入驻

CVPR 2023 | MVImgNet: 港中深韩晓光团队开源超大规模多视角真实物体数据集

0
分享至

随着深度学习技术的快速发展,数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里,随着 ImageNet 诞生之后,计算机视觉领域见证了 “从数据中学习” 的范式的兴盛。在 ImageNet 上进行预训练,然后迁移到下游的视觉任务,都能显著提升模型性能,并且已经成为 2D 图像领域的标准化方式。

然而,由于真实世界3D数据(通常以点云或者mesh的形式)的扫描和标注非常繁琐,现有的3D数据集要么是合成的,要么与ImageNet的规模相去甚远。因此,与2D视觉领域不同,在3D领域,大多数方法都直接在特定数据集上进行训练和评估,以解决特定的3D视觉任务(例如,使用合成的物体或者ShapeNet进行新视角合成,使用ModelNet和ScanObjectNN进行物体分类,使用KITTI和ScanNet进行场景理解)。

因此,两个关键的问题是:

1.在3D视觉领域,尚无一个通用数据集,可以与2D领域的ImageNet相媲美。

2.这样一个数据集能给3D社区带来什么好处还不为人所知。

为了解决这些问题,港中大(深圳)的研究团队提出了MVImgNet和MVPNet数据集。MVImgNet包含超过21万个视频的650万帧图像,涵盖了238个类别的真实世界物体。MVPNet包含超过8万个,涵盖了150个类别的真实物体点云,并为每个点云提供了类别标签。目前数据集已经在项目主页公开,欢迎大家一起探索!

论文链接: https://arxiv.org/abs/2303.06042 项目主页: https://gaplab.cuhk.edu.cn/projects/MVImgNet/ GitHub地址: https://github.com/GAP-LAB-CUHK-SZ/MVImgNet

一 、数据集属性

MVImgNet包含由智能手机拍摄的219,188个真实物体视频。通过对每个视频进行物体分割、COLMAP SfM重建以及稠密重建,得到了物体掩码、相机参数和点云数据等标注。表1展示了MVImgNet中数据的统计信息。

表1. MVImgNet数据统计

与ImageNet中的类别大多是植物和动物(以自然为中心)不同,MVImgNet包含了238个日常生活中常见的物体类别(以人为中心),并且其中有65个类别与ImageNet重叠。图1 & 2展示了MVImgNet的类别目录及数据样例。

图1. MVImgNet类别目录

图2. MVImgNet中的多视角图片示例

对MVImgNet中的稠密重建结果,研究团队进行了进一步的数据清洗(例如移除掉噪音过大、过于稀疏的点云),得到了一个包含150类、87,200个真实物体点云的大规模点云数据集——MVPNet。图3展示了MVPNet中丰富的真实物体点云。

图3. MVPNet中的真实点云示例 二、 MVImgNet能做什么? 下游任务一:3D重建

研究团队探索了MVImgNet对NeRF重建以及MVS的帮助:通过在MVImgNet上训练NeRF,提升了generalized NeRF的泛化能力;通过在MVImgNet上预训练自监督MVS方法,并将预训练模型迁移到DTU数据集上,获得了不错迁移性能。下表展示了直接在DTU数据集上训练的模型与用MVImgNet预训练模型微调的量化对比结果:

表2. 直接训练/MVImgNet预训练模型微调的数值结果

在MVImgNet上预训练的NeRF拥有更好的泛化能力 下游任务二:视角一致的图像理解。

尽管人类能够从不同视角理解一个物体,但深度学习模型并不能鲁棒地做到这一点。为此,研究团队在图像分类、自监督对比学习以及显著性物体检测等任务上做了探索实验,验证了得益于数据的多视角特性,在MVImgNet上预训练的模型获得了很好的视角一致性。

把MVImgNet加入训练提升了分类模型的视角一致性

在MVImgNet上预训练的模型,能提高模型对不同视角的鲁棒性 三、MVPNet能做什么?

在MVPNet数据集上,研究团队探索了其对点云分类及自监督点云预训练的帮助。通过在MVPNet上预训练点云分类模型,在ScanObjectNN数据集上表现出了很好的迁移性能。而在MVPNet上预训练的PointMAE(一种点云自监督学习方法)也超越了当前的SOTA方法。

在MVPNet上预训练的模型,展现出了很好的迁移性能 MVPNet Benchmark Challenge

在MVPNet的基础上,研究团队还提出了一个全新的真实物体点云分类基准测试。研究团队构建了一个包含64000点云的训练集以及16000点云的测试集。相比于ScanObjectNN,MVPNet的点云数量更多,分类难度更大,也更贴近于真实场景。

主流方法在MVPNet Benchmark上的数值结果 总结

本文提出了MVImgNet,这是一个大规模的多视角图像数据集。它包含了来自219,188个视频的650万帧,囊括了238个类别的物体,有丰富的物体遮罩、相机参数和点云的标注。该数据集通过拍摄现实世界物体的视频进行高效收集。由于多视角的特性,MVImgNet带有3D感知的视觉信号,使其成为连接2D和3D视觉的软桥梁。

我们相信MVImgNet将会为整个计算机视觉社区带来很多诸多可能性与挑战,期待与大家共同探索!更多数据集与实验细节请参阅原论文。


作者: 许牧天

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>>> 添加小编微信!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

点击“阅读原文”按钮,查看社区原文

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
超市月薪才2800元,为啥却几乎没人辞职?内部员工:傻子才会走

超市月薪才2800元,为啥却几乎没人辞职?内部员工:傻子才会走

平说财经
2026-06-24 01:51:50
今年多少分能上浙大?刚刚,浙江多所高校预估线出炉!

今年多少分能上浙大?刚刚,浙江多所高校预估线出炉!

最金华
2026-06-26 01:07:58
科技一直涨,老登该投降了吗?

科技一直涨,老登该投降了吗?

雪球
2026-06-25 16:43:04
利好来了!美联储,加息突变!

利好来了!美联储,加息突变!

中国基金报
2026-06-26 00:48:16
格局拉满:39岁梅西生日合照,携两位厨师共站C位,全网狂赞

格局拉满:39岁梅西生日合照,携两位厨师共站C位,全网狂赞

俯身冲顶
2026-06-25 12:35:45
广州电器城角落,本该论斤卖的旧相机,在这里打败了iPhone

广州电器城角落,本该论斤卖的旧相机,在这里打败了iPhone

雷科技
2026-06-25 16:21:23
刘烨14岁女儿近照刷屏,身高直追176cm妈妈,颜值气质绝了

刘烨14岁女儿近照刷屏,身高直追176cm妈妈,颜值气质绝了

观鱼听雨
2026-06-25 23:55:32
1988年老山前线有功师长李德金,在开会途中被副职当场控制

1988年老山前线有功师长李德金,在开会途中被副职当场控制

磊子讲史
2026-06-23 18:15:42
“香港名媛碎尸案”被害人母亲卷走海南老板两千多万?警方追逃信息疑泄露

“香港名媛碎尸案”被害人母亲卷走海南老板两千多万?警方追逃信息疑泄露

澎湃新闻
2026-06-25 18:24:27
上海楼市开始离谱了!青浦区徐泾板块(大虹桥)从7.5万变成4.6万

上海楼市开始离谱了!青浦区徐泾板块(大虹桥)从7.5万变成4.6万

阿离家居
2026-06-26 03:19:18
苹果正式涨价,国行商店售价更新,普涨20%:iPad Pro售价10799元,原价8999元,MacBook Pro售价15999元,原价12999元

苹果正式涨价,国行商店售价更新,普涨20%:iPad Pro售价10799元,原价8999元,MacBook Pro售价15999元,原价12999元

深圳晚报
2026-06-26 01:34:20
韩红风波再升级!官媒发文锐评,句句直戳心窝,大批网友暂停捐助

韩红风波再升级!官媒发文锐评,句句直戳心窝,大批网友暂停捐助

领悟看世界
2026-06-26 01:25:37
合肥市政府秘书长调整

合肥市政府秘书长调整

上观新闻
2026-06-26 06:23:49
杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

咣当地球
2026-06-23 15:59:08
《GTA6》太吓人!零售商警告PS5等主机供不应求

《GTA6》太吓人!零售商警告PS5等主机供不应求

游民星空
2026-06-26 08:04:24
被称为“京郊小九寨”“京郊小桂林”,北京这个景区确实好看

被称为“京郊小九寨”“京郊小桂林”,北京这个景区确实好看

尼古拉斯Nana
2026-06-25 02:35:21
37岁清华毕业生李龙三战高考:已查成绩 预估排名有望上岸北大医学部

37岁清华毕业生李龙三战高考:已查成绩 预估排名有望上岸北大医学部

红星新闻
2026-06-25 21:38:33
2026河北高考顶尖考生“井喷”!精英中学清北上线人数再创新高!

2026河北高考顶尖考生“井喷”!精英中学清北上线人数再创新高!

童言不轻
2026-06-25 16:23:30
快船交易哈登+祖巴茨没错!选4新秀成潜在赢家:续约小卡本钱够了

快船交易哈登+祖巴茨没错!选4新秀成潜在赢家:续约小卡本钱够了

颜小白的篮球梦
2026-06-25 14:31:25
尴尬了!自家母猫与亲儿子发生交配,母猫意外怀孕,主人手足无措

尴尬了!自家母猫与亲儿子发生交配,母猫意外怀孕,主人手足无措

火山詩话
2026-06-25 09:04:35
2026-06-26 08:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2414文章数 596关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

亲子
艺术
健康
公开课
军事航空

亲子要闻

胆囊摘除后出现这五个后遗症

艺术要闻

税务局大楼能是这样?5个立方体扭40度,高171米!

医生如何快速诊断脑梗和脑出血?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版