北京时间 11 月 30 日 14:00-17:00,由商汤科技、全球高校人工智能学术联盟和将门-TechBeat 人工智能社区共同主办的NeurIPS 2021 群星闪耀云际会强势来袭。会议包括 9 篇论文在线解读,论文一作和观众的 1V1 交流,以及Panel Discussion。
本文带大家回顾其中3篇论文解读~
1.徐旭东:Generative Occupancy Fields for 3D Surface-Aware Image Synthesis
2.潘新钢:A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware Image Synthesis
3.宋超越:3D Pose Transfer with Correspondence Learning and Mesh Refinement
主讲人介绍
徐旭东
徐旭东, 香港中文大学多媒体实验室四年级在读博士生,师从林达华教授,曾获得国家奖学金、南京大学优秀学生、优秀毕业生、江苏省三好学生等。 现在主要的研究方向为神经渲染和音视频联合学习,在 ICCV、CVPR、ECCV、NeurIPS 等会议上发表多篇论文,并担任多个 AI 领域顶会和期刊的审稿人。
个人主页: https://sheldontsui.github.io/
潘新钢
潘新钢,马克斯·普朗克计算机科学研究所博士后,于 2021 年在香港中文大学取得博士学位。在 CVPR, ICCV, ECCV, NeurIPS, ICLR, TPAMI 等顶级会议和期刊上发表论文十余篇。在 Tusimple 2017 车道线检测和 WAD 2018 可行驶区域分割比赛中获得冠军。现主要研究方向包括神经渲染,三维场景生成,和无监督三维学习。
个人主页: https://xingangpan.github.io/
宋超越
宋超越,南洋理工大学 S-Lab 成员,曾获得上海市优秀毕业生,本科期间参加全国大学生物联网设计竞赛获得全国一等奖。目前研究方向为三维视觉和生成模型,在 NeurIPS 发表一作论文一篇,另有一篇在投。
个人主页:
https://scholar.google.com/citations?user=4Yiz6gIAAAAJ&hl
论文解读
视频导览
00:20
背景:NeRF和生成辐射场
NeRF(神经辐射场)能够在新视角合成任务上取得成功,但训练 NeRF 需要多视角的图片以及相对应的相机位姿,这是一个相对严苛的要求。生成辐射场(GRAFs)通过对抗式学习的方式摆脱了这个要求,可以生成三维一致的图片。但其也有一些缺陷,比如容易生成弥散的物体表面。
03:00
生成占用场:GOF
NeRF(神经辐射场)能够在新视角合成任务上取得成功,但训练 NeRF 需要多视角的图片以及相对应的相机位姿,这是一个相对严苛的要求。生成辐射场(GRAFs)通过对抗式学习的方式摆脱了这个要求,可以生成三维一致的图片。但其也有一些缺陷,比如容易生成弥散的物体表面。
06:25
定性比较和表面质量评估
在 BFM 数据集上,GRAF 和 pi-GAN 的 Normal 和 Shape 较差。相比之下,GOF 不仅可以生成三维一致的图片,同时能够学到一个光滑紧致的物体表面。BFM 数据集有 Groundtruth 的 Depth,通过在它的数据上进行测试,或测量物体表面的平均高斯曲率以及随机两点之间的平均测地线距离,可以看出此方法在表面紧致性上面表现最好。
09:25
Demo展示及未来发展
视频导览
00:10
背景:从2D图片中学习3D GAN
传统 pi-GAN 等方法要求生成器生成的三维表示从不同视角看上去都是真实的。类似方式也被运用在多种模型中如 GRAF 和 PlatonicGAN 等,但这些方法常常无法学到准备的三维形状。
03:15
解决方法:Multi-Lighting Constraint
ShadeGAN 生成器将 3D 坐标和隐向量作为输入,并输出体密度和反射率。我们的方法会随机生成光线的方向和强弱,并通过着色渲染出图片。因此与传统方法相比,本方法要求生成的三维物体在不同光线条件下看上去同样真实,从而可以学到更准确的三维形状。此外,本方法还引入了一个轻量级的表面跟踪网络,显著节省了计算量和加快了渲染速度。
10:45
在不同脸上的比较结果
尽管 pi-GAN 和 GRAF 可以产生良好的 3D 可控图像合成,但学习出的 3D 形状不准确且嘈杂。相比之下本方法学习了更准确的 3D 形状和表面法向,证明了所提出的多光照约束作为形状正则化器的有效性。在真实人脸上 ShadeGAN 依然有更准确和自然的 3D 形状,在猫脸测试上同样如此。
12:30
数据结果
在 BFM 合成人脸数据集上定量评估 3D 形状时,将尺度不变的深度误差和平均角度偏差度量作为 3D 形状的准确性。我们的方法 ShadeGAN 的 3D 形状相比较 Baseline 方法有明显提升,所提出的高效立体渲染在不影响性能的情况下分别减少了 24% 和 48% 的训练和推理时间。
视频导览
00:12
背景介绍及过往研究成果
3D 姿态迁移的目标是将 Pose mesh 的姿态迁移到 Identity mesh 上,并且能够保持其原有的体型等 Identity 信息。已有的工作如 Deformation transfer,不仅需要用户的标注,还要额外输入 Reference mesh,优化过程耗时。
02:07
本文中采用的方法:3D-CoreNet
3D 姿态迁移中关键的问题,就是如何建立 Identity mesh 和 Pose mesh 之间可靠的对应关系。为了解决这个问题,本文提出了 3D-CoreNet。总体思路如下,具有不需要人工标注、Inference 较快、结果质量高的优点。
05:12
Mesh Refinement
Mesh Refinement 模块中如何设计 Elastic instance normalization:已有方法可能会打破原有 Feature 的连续性和统一性,我们提出将原始 Feature 的特征统计量以及从外部数据学到的参数弹性地混合在一起,从而形成 ElaIN。
12:30
实验结果展示及对比
本文提出的方法在多个衡量标准下优于其他方法,可在最短的推断时间内生成最好的结果。
本文来自:公众号【商汤学术】
-The End-
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.