网易首页 > 网易号 > 正文 申请入驻

看透物体的3D表示和生成模型:NUS团队提出X-Ray

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com



项目主页:https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html

论文地址:https://arxiv.org/abs/2404.14329

代码地址:https://github.com/tau-yihouxiang/X-Ray

数据集:https://huggingface.co/datasets/yihouxiang/X-Ray



如今的生成式AI在人工智能领域迅猛发展,在计算机视觉中,图像和视频生成技术已日渐成熟,如Midjourney、Stable Video Diffusion [1]等模型广泛应用。然而,三维视觉领域的生成模型仍面临挑战。

目前的3D模型生成技术通常基于多角度视频生成和重建,如SV3D模型[2],通过生成多角度视频并结合神经辐射场(NeRF)或者3D高斯渲染模型(3D Gaussian Splatting技术逐步构建3D物体。这种方法主要限制在只能生成简单的、无自遮挡的三维物体,且无法呈现物体内部结构,使得整个生成过程复杂而且不完美,显示出该技术的复杂性和局限性。

究其原因,在于目前缺乏灵活高效且容易泛化的3D Representation (3D表示)。



图1. X-Ray序列化3D表示

X射线能够穿透并记录关键物体内外表面信息,受到这个启发,新加坡国立大学(NUS)胡涛博士带领研究团队发布了一种全新的3D表示—X-Ray,它能够序列化地表示从相机摄像角度看过去的物体的逐层次的物体表面形状和纹理,可以充分利用视频生成模型的优势来生成3D物体,可以同时生成物体的内外3D结构。

本文将详细展示X-Ray技术的原理、优势及其广泛的应用前景。



图2. 与基于渲染的3D模型生成方法比较。

技术革新:物体内外表面的3D表示方法

X-Ray表示:从相机中心开始朝向物体方向的H×W个矩阵点发射射线。在每条射线方向上,逐个记录与物体的表面相交点的L个包含深度、法向量和颜色等的三维属性数据,然后将这些数据组织成L×H×W的形式,实现任意3D模型的张量表示,这就是该团队提出的X-Ray表示方法。

值得注意的是,该表示形式与视频格式一样,因此可以用视频生成模型做3D生成模型。具体过程如下。



图3. 不同层数的X-Ray示例样本。

1.编码过程: 3D模型转X-Ray

给定一个3D模型,通常是三维网格,首先设置一个相机观测该模型,然后通过光线投影算法(Ray Casting Algorithm)来记录每个相机射线与物体相交的所有表面的属性



,包括该表面的深度



,法向量



,颜色



等,为了指示方便,用



表示该位置是否存在表面。

然后,获取所有相机射线等相交表面点,即可得到一个完整的X-Ray 3D表达,如下表达式和图3所示。



通过编码过程,将一个任意的3D模型转化为X-Ray,它和视频格式是一样的,并且具有不同的帧数,通常情况下,帧数L=8 足够表示一个3D物体。

2.解码过程:X-Ray转3D模型

给定一个X-Ray,也可以通过解码过程转化回3D模型,这样只需要通过生成X-Ray即可生成3D模型。具体过程包括点云生成过程和点云重建表面两个过程。

X-Ray到点云:X-Ray很容易转化为点云,该点云中的每个点除了有3D点的位置坐标,还具有颜色和法向量信息。



其中r_0,r_d分别是相机射线的起点和归一化方向,通过对每个相机射线的处理,就可以获得一个完整的点云。

点云到三维网格:接下来就是将点云转化为三维网格的过程,这是一个被研究了很多年的技术,因为这些点云具有法向量,所以采用Screened Poisson 算法直接将点云转化为三维网格模型,即最终的3D模型。

基于X-Ray表示的3D模型生成

为了生成高分辨率的多样3D X-Ray模型,该团队使用了与视频格式相似的视频扩散模型架构。这个架构可以处理连续的3D信息,并通过上采样模块来提高X-Ray的质量,生成高精度的3D输出。扩散模型负责从噪声数据逐步生成细节丰富的3D图像,上采样模块则增强图像分辨率和细节,以达到高质量标准。结构具体如图4所示。

X-Ray 扩散生成模型

扩散模型在X-Ray生成中使用潜在空间,通常需要自定义开发向量量化-变分自编码器(VQ-VAE)[3] 进行数据压缩,这一缺少现成模型的过程增加了训练负担。

为有效训练高分辨率生成器,该团队采用了级联合成策略,通过技术如Imagen和Stable Cascaded,从低到高分辨率逐步训练,以适应有限的计算资源并提高X-Ray图像质量。

具体而言,使用Stable Video Diffusion中的3D U-Net架构作为扩散模型,生成低分辨率X-Ray,并通过时空注意机制从2D帧和1D时间序列中提取特征,增强处理和解释X-Ray能力,这对高质量结果至关重要。

X-Ray 上采样模型

前一阶段的扩散模型仅能从文本或其他图像生成低分辨率的X-Ray图像。在随后的阶段,着重提升这些低分辨率X-Ray至更高分辨率。

该团队探索了两种主要方法:点云上采样和视频上采样。

由于已经获得了形状和外观的粗糙表示,将这些数据编码成带有颜色和法线的点云是一个很直接的过程。

然而,点云表示结构过于松散,不适合进行密集预测,传统的点云上采样技术通常只是简单增加点的数量,这对于提升诸如纹理和颜色等属性可能不够有效。为了简化流程并确保整个管道的一致性,选择使用视频上采样模型。

这个模型改编自Stable Video Diffusion(SVD)的时空VAE解码器,专门从头开始训练,以4倍的因子上采样合成的X-Ray帧,同时保持原始的层数。解码器能够在帧级和层级上独立进行注意力操作。这种双层注意力机制不仅提高了分辨率,还显著改善了图像的整体质量。这些功能使得视频上采样模型成为在高分辨率X-Ray生成中更加协调和有效的解决方案。



图4:基于X-Ray表示的3D模型生成框架,包括X-Ray扩散模型与X-Ray上采样模型。

实验

1. 数据集:

实验使用了Objaverse数据集的一个筛选子集,从中移除了缺少纹理和不充分提示的条目。

这个子集包含超过60,000个3D对象。对于每个对象,随机选择4个摄像机视角,覆盖从-180到180度的方位角和从-45到45度的仰角,摄像机到对象中心的距离固定为1.5。

然后使用Blender软件进行渲染,并通过trimesh库提供的光线投射算法生成相应的X-Ray。通过这些过程,可以创建超过240,000对图像和X-Ray数据集来训练生成模型。

2. 实现细节:

X-Ray扩散模型基于Stable Video Diffusion (SVD) 中使用的时空UNet架构,进行了轻微调整:模型配置为合成8个通道:1个命中通道,1个深度通道和6个法线通道,与原始网络的4个通道相比。

鉴于X-Ray成像与传统视频之间的显著差异,从头开始训练模型,以弥补X-Ray与视频领域之间的大差距。训练在8个NVIDIA A100 GPU服务器上进行了一周。在此期间,学习率保持在0.0001,使用AdamW优化器。

由于不同的X-Ray具有不同数量的层,将它们填充或裁剪到相同的8层,以便更好地批处理和训练,每层的帧尺寸为64×64。对于上采样模型,第L层的输出仍然是8,但每个帧的分辨率提高到256×256,增强了放大X-Ray的细节和清晰度,结果如图5和图6所示。



图5:图像到X-Ray并到3D模型生成



图6:文本到X-Ray并到3D模型生成

未来展望:新表示带来无限可能

随着机器学习和图像处理技术的不断进步,X-Ray的应用前景无限广阔。

未来,这种技术可能会与增强现实(AR)和虚拟现实(VR)技术结合,为用户创造出完全沉浸式的3D体验。教育和训练领域也可以从中受益,例如通过3D重建提供更为直观的学习材料和模拟实验。

此外,X-Ray技术在医疗影像和生物技术领域的应用,可能改变人们对复杂生物结构的理解和研究方法。期待它如何改变与三维世界的互动方式。

参考文献:

[1] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, and Robin Rombach. Stable video diffusion: Scaling latent video diffusion models to large datasets. CoRR, 2023.

[2] Vikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, Varun Jampani. SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion. arXiv preprint arXiv:2403.12008, 2024.

[3] Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu. Neural Discrete Representation Learning. NeurIPS-2017.

[4] Tao Hu, Wenhang Ge, Yuyang Zhao, Gim Hee Lee. X-Ray: A Sequential 3D Representation for Generation. arXiv preprint arXiv: 2404.14329v1, 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
复航!南航将于11月恢复这一国际直航航班

复航!南航将于11月恢复这一国际直航航班

第一财经资讯
2024-05-26 12:28:23
《纽约时报》两篇文章激怒乌克兰,乌方痛批:这家报社已被俄收买

《纽约时报》两篇文章激怒乌克兰,乌方痛批:这家报社已被俄收买

星光璀璨娱乐
2024-05-24 18:43:53
曹德旺办大学,走的是步奇棋,说好的招生黄了,老爷子恐寝食难安

曹德旺办大学,走的是步奇棋,说好的招生黄了,老爷子恐寝食难安

户外阿毽
2024-05-26 22:18:12
大S母亲倒戈了?台媒曝猛料:委托保姆转告汪小菲愿协助看望孩子

大S母亲倒戈了?台媒曝猛料:委托保姆转告汪小菲愿协助看望孩子

八卦爱侃娱
2024-05-25 09:59:14
网约车司机开始收“空调费”了,同行:好方法!

网约车司机开始收“空调费”了,同行:好方法!

用车指南
2024-05-25 10:00:02
看看四代半导体主要材料的产量,就知道谁处于绝对领先地位!

看看四代半导体主要材料的产量,就知道谁处于绝对领先地位!

杂谈空间社
2024-05-24 22:49:12
韩庚高调现身厉旭婚礼,Super Junior实现了十三人合体,瞬间泪目

韩庚高调现身厉旭婚礼,Super Junior实现了十三人合体,瞬间泪目

圈里的甜橙子
2024-05-27 10:51:43
济南警方回应来了!评论区骂声一片,舆论再次升级,事态升级

济南警方回应来了!评论区骂声一片,舆论再次升级,事态升级

南小汐回村
2024-05-27 07:10:55
这两个新闻连在一起看,简直让人窒息

这两个新闻连在一起看,简直让人窒息

顾礼先生
2024-05-14 16:42:44
你吃过最奢侈的一道菜是什么?网友:花了十二年就为了五个桃子

你吃过最奢侈的一道菜是什么?网友:花了十二年就为了五个桃子

椰青美食分享
2024-05-08 15:01:54
事态升级!中国再扩大对美制裁,美国波音公然宣布对中“不满”

事态升级!中国再扩大对美制裁,美国波音公然宣布对中“不满”

简读视觉
2024-05-26 19:00:03
我就不信房子能跌到谷底,2018年买的房子,房子价格是120万。

我就不信房子能跌到谷底,2018年买的房子,房子价格是120万。

知秋侃史
2024-05-24 02:58:15
虚惊一场!国足迎喜讯,归化王牌出战世预赛没问题,取胜泰国稳了

虚惊一场!国足迎喜讯,归化王牌出战世预赛没问题,取胜泰国稳了

零度眼看球
2024-05-27 11:47:09
打“独”军演促台民意觉醒,赖清德被批引战台海应悬崖勒马

打“独”军演促台民意觉醒,赖清德被批引战台海应悬崖勒马

海峡导报社
2024-05-27 07:22:05
悲催!自称“广东胖猫”的男子,披露一年不到被女友诈骗400多万

悲催!自称“广东胖猫”的男子,披露一年不到被女友诈骗400多万

火山诗话
2024-05-27 09:33:08
2003年,张柏芝和陈小春同游曼谷,结果两人被媒体拍摄下来

2003年,张柏芝和陈小春同游曼谷,结果两人被媒体拍摄下来

小白兔趣闻
2024-03-28 20:32:17
史无前例!哈佛董事会否决教职员工意见,拒给13名“挺巴”学生发文凭

史无前例!哈佛董事会否决教职员工意见,拒给13名“挺巴”学生发文凭

观察者网
2024-05-24 17:32:08
决赛必拉胯!难怪同行看不上哈兰德,六场决赛零进球,梅西笑了

决赛必拉胯!难怪同行看不上哈兰德,六场决赛零进球,梅西笑了

祥谈体育
2024-05-26 21:35:11
数据超5大首发,6中5被弃用!森林狼大帅给李凯尔道歉,可惜晚了

数据超5大首发,6中5被弃用!森林狼大帅给李凯尔道歉,可惜晚了

嘴炮体坛
2024-05-27 11:35:55
暴雪全面上架国服版本,魔兽世界锁定开服节点,炉石传说不同步?

暴雪全面上架国服版本,魔兽世界锁定开服节点,炉石传说不同步?

胖哥游戏说
2024-05-26 18:17:12
2024-05-27 16:44:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9022文章数 141933关注度
往期回顾 全部

科技要闻

下月亮相,iPhone多个AI新功能曝光

头条要闻

台媒:美售台战机快来了 台军飞行员却要走了

头条要闻

台媒:美售台战机快来了 台军飞行员却要走了

体育要闻

下一个NBA门面?爱德华兹先往后稍稍吧

娱乐要闻

赵丽颖辟谣新恋情,林更新晒照显暧昧

财经要闻

郑裕彤家族撑腰 小赢科技撮合放贷大赚

汽车要闻

硬又没那么硬?体验为满足更多人需求的深蓝G318

态度原创

艺术
手机
教育
家居
数码

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

手机要闻

不到5000元的真香旗舰!OPPO Find X7 Ultra值得买

教育要闻

冲刺吧少年——高考前的健康建议

家居要闻

自由遐想 纯白色调成柔和透气的自然力场

数码要闻

长续航3950中小手万金油 雷柏VT1双高速系列游戏鼠标评测

无障碍浏览 进入关怀版