网易首页 > 网易号 > 正文 申请入驻

CVPR|让图像扩散模型生成高质量360度场景,只需要一个语言模型

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

蔡志鹏博士(https://zhipengcai.github.io/)是美国英特尔研究院的研究员,博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知,持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选为顶级会议(ECCV18*2,ICCV19,ICLR24,CVPR24)口头或特邀报告,对鲁棒估计计算复杂度的理论证明工作被选为ECCV18 12篇最佳论文之一。

360 度场景生成是计算机视觉的重要任务,主流方法主要可分为两类,一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识,这类方法无法有效生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。



图 1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床,一个公园出现多个雕塑。

另一类方法将 360 度场景用一张 Equirectangular Image 来表示,并用 GAN 或扩散模型直接生成。由于该表征的局限性,这类方法通常无法有效完成 360 度闭环(如图 2 每张图片的中间部分),导致 360 度的连接处出现明显的分界线。同时由于缺少大规模训练数据,这类方法有时无法生成复合输入条件的场景。最后,这类方法通常只能接受文字作为输入。



图 2. 现有方法的闭环问题.

为了解决这些问题,来自美国英特尔研究院的 Zhipeng Cai 等人提出了L-MAGIC(Language Model Assisted Generation of Images with Coherence),通过使用语言模型控制图像扩散模型有效实现高质量、多模态、零样本泛化的 360 度场景生成。L-MAGIC 的 live demo 已被选为英特尔公司 2024 年的 5 个技术突破之一,在 ISC HPC 2024 上展示。该论文已被 CVPR 2024 接收。



项目主页:https://zhipengcai.github.io/MMPano

代码:https://github.com/IntelLabs/MMPano

论文地址:https://arxiv.org/pdf/2406.01843

Youtube 视频介绍:https://youtu.be/XDMNEzH4-Ec

Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html

方法概览

如图 3 所示,L-MAGIC 是一个结合了语言模型及扩散模型的场景生成框架。L-MAGIC 通过自然图像连接各类不同模态的输入。当输入不是一张自然图像时,L-MAGIC 使用成熟的条件扩散模型如 ControlNet 从各种模态的输入(文字,手绘草图,深度图等等)生成一张自然图像。



图 3.L-MAGIC 流程图。

在获得自然图像之后,L-MAGIC 通过 iterative warping and inpainting 来生成 360 度场景的多个视角。在每一个 iteration 中,warping step 将已生成的多视角 warp 到一个新的视角,实例中的黑色部分代表新视角中的缺失像素。Inpainting step 使用基于扩散的图像 inpainting 模型(Stable Diffusion v2)生成缺失像素。为了使图像扩散模型能够生成多样的全局场景结构,L-MAGIC 使用语言模型控制扩散模型在每个视角需要生成的场景内容。

除了生成 360 度场景的全景图,利用深度估计模型,L-MAGIC 还能够生成包含相机旋转及平移的沉浸式视频,以及场景的三维点云。由于无需微调,L-MAGIC 能够有效地保持语言及扩散模型的泛化性,实现多样化场景的高质量生成。

L-MAGIC 的核心是使用语言模型全自动地控制扩散模型。如图 4 所示若用户未提供场景的文字描述,L-MAGIC 使用视觉语言模型(如 BLIP-2)基于输入图像获得场景的整体描述(line 2)。

获得场景描述后,L-MAGIC 使用如 ChatGPT 的语言模型(开源代码已支持 ChatGPT-3.5、ChatGPT-4、Llama3),使其根据整体场景描述生成各个视角的描述(line 3),并决定对该场景是否需要防止重复物体的生成(line 5,如树林里各个视角都是树是合理的,但卧室有 5 张床就比较少见,L-MAGIC 利用大语言模型的泛化性能自适应地规避不合理的重复目标)。

由于扩散模型训练数据的 bias,有时扩散模型的输出无法完全符合语言模型的 prompt 要求。为了解决该问题,L-MAGIC 再次使用视觉语言模型监督扩散模型的输出(line 14-18),如果扩散模型的输出不符合语言模型的要求,L-MAGIC 会重新进行当前视角的生成。



图 4. L-MAGIC 算法。

实验结果

如图 5 所示,L-MAGIC 在图像到 360 度场景生成及文字到 360 度场景生成任务中均达到了 SOTA。



图 5. 定量实验。

如图 6 及图 7 所示,L-MAGIC 在多样的输入及场景下均能够生成具有多样化 360 度场景结构的全景图,并且能够平滑地完成 360 度闭环。



图 6. 图像到 360 度场景生成。



图 7. 文字到 360 度场景生成

如图 8 所示,除了文字及自然图像之外,L-MAGIC 还能够使用 ControlNet 接受多样化的输入,例如深度图、设计草图等。



图 8. 更多不同模态的输入。

通过利用成熟的计算机视觉算法例如深度估计,L-MAGIC 还能够生成场景的沉浸式视频 (见 presentation video)以及三维点云(图 9)。有趣的是,我们能够清晰地分辨海底场景点云中鱼以及珊瑚的几何结构。



图 9. 三维点云生成结果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蓝绿“攻防”今上演!韩国瑜亮票,柯建铭再出花样!傅崐萁欲惩处

蓝绿“攻防”今上演!韩国瑜亮票,柯建铭再出花样!傅崐萁欲惩处

手工制作阿歼
2024-06-21 18:20:57
欧洲杯又1名画:16岁巨星狂飙,3人纷纷倒下!如同施魔法

欧洲杯又1名画:16岁巨星狂飙,3人纷纷倒下!如同施魔法

叶青足球世界
2024-06-21 05:06:09
乡党委书记在学校调戏女老师,没想到女老师的老公竟是县委书记

乡党委书记在学校调戏女老师,没想到女老师的老公竟是县委书记

南山青松
2024-06-18 17:57:38
上海白马会所:令无数富婆欲罢不能,19年因“头牌鸭王”一夜覆灭

上海白马会所:令无数富婆欲罢不能,19年因“头牌鸭王”一夜覆灭

V盟文史
2023-06-13 19:38:51
北大硕士赵斌又“放狠话”:点名王闰秋隐藏身份,姜萍只是棋子?

北大硕士赵斌又“放狠话”:点名王闰秋隐藏身份,姜萍只是棋子?

妍妍教育日记
2024-06-21 12:19:14
姜萍这把烧到鸡窝里的火

姜萍这把烧到鸡窝里的火

楼南的乔伊斯
2024-06-21 18:02:43
干部任前公示

干部任前公示

锡望
2024-06-21 16:47:37
云南一男子抱着妻子从25楼跳下,死前留遗书:生活已没任何期望

云南一男子抱着妻子从25楼跳下,死前留遗书:生活已没任何期望

安妮Emotiong
2024-06-20 21:47:40
实探“成都地铁在建路面坍塌”现场:正在抢修作业,停水24小时

实探“成都地铁在建路面坍塌”现场:正在抢修作业,停水24小时

极目新闻
2024-06-21 12:24:26
意外!不是法国也不是英格兰,本届欧洲杯最具冠军相的球队诞生

意外!不是法国也不是英格兰,本届欧洲杯最具冠军相的球队诞生

评球论事
2024-06-21 12:23:04
江西婚礼现场突变:新娘临时翻倍彩礼,新郎父亲以歌抒怀携子离场

江西婚礼现场突变:新娘临时翻倍彩礼,新郎父亲以歌抒怀携子离场

文雅笔墨
2024-06-21 12:20:37
他俩官宣结婚,甜晕整个娱乐圈!

他俩官宣结婚,甜晕整个娱乐圈!

黎兜兜
2024-06-20 21:20:39
我46岁光棍,她25岁水族姑娘,洞房夜那晚我愣住了

我46岁光棍,她25岁水族姑娘,洞房夜那晚我愣住了

小月文史
2024-05-04 16:19:29
公开对主教练索斯盖特表示不满?梅努在英格兰平丹麦后的奇怪举动

公开对主教练索斯盖特表示不满?梅努在英格兰平丹麦后的奇怪举动

星耀国际足坛
2024-06-21 14:28:49
菲律宾应该“感恩”

菲律宾应该“感恩”

平原公子
2024-06-20 09:00:51
外国网红从中国到韩国,落差这么大?人在囧途之韩囧正在上演

外国网红从中国到韩国,落差这么大?人在囧途之韩囧正在上演

番茄说史聊
2024-06-20 19:46:02
网友笑翻了!上汽把欧盟加征38.1%关税字样做进了周边产品

网友笑翻了!上汽把欧盟加征38.1%关税字样做进了周边产品

热点科技
2024-06-19 18:42:43
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
鸡娃狂潮下的悲剧:北京每年有两万名儿童,走进安定医院

鸡娃狂潮下的悲剧:北京每年有两万名儿童,走进安定医院

格致君
2024-06-21 09:18:16
已经是一夫多妻制的巴拉圭,性交易反而盛行,有何不为人知的秘密

已经是一夫多妻制的巴拉圭,性交易反而盛行,有何不为人知的秘密

天下霸图
2024-06-21 12:43:03
2024-06-21 20:10:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9104文章数 141946关注度
往期回顾 全部

科技要闻

一文看懂纯血鸿蒙,自主可控操作系统来了

头条要闻

普京与越共中央总书记阮富仲会谈 对方全程坐在椅子上

头条要闻

普京与越共中央总书记阮富仲会谈 对方全程坐在椅子上

体育要闻

1-0"吊打"意大利 西班牙这就叫冠军相?

娱乐要闻

陈晓惹争议!被曝婚变离家出走冷暴力

财经要闻

专访尹艳林:市场上的钱都流向了哪里?

汽车要闻

领克纯电 来得不晚

态度原创

教育
健康
家居
手机
艺术

教育要闻

西安交通大学就业怎么样?好不好?全速助力学生就业,服务太周到

晚餐不吃or吃七分饱,哪种更减肥?

家居要闻

木质家具 充溢古典之风

手机要闻

机情问答:小米小折叠什么价位?护眼手机有哪些推荐?

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

无障碍浏览 进入关怀版