网易首页 > 网易号 > 正文 申请入驻

Google DeepMind突破:单照片生成360度全景沉浸式体验

0
分享至


这项由Google DeepMind联合多伦多大学和西蒙菲莎大学共同完成的研究发表于2025年1月,发表在顶级计算机视觉会议上,论文编号为arXiv:2601.16192v1。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队开发出一个名为360Anything的革命性系统,能够将普通的手机拍摄照片或视频自动扩展成完整的360度全景世界,就像把一张窗外风景照变成了整个房间的全方位视图。

过去要制作360度全景内容,就像给房子做全景装修一样麻烦——你需要专业的全景相机,精确测量拍摄角度,还要复杂的后期处理。而现在,这个新系统就像有了一个神奇的建筑师,只需要看一张房间一角的照片,就能想象并重建出整个房间的样子,包括你看不到的那些角落。

这个系统最厉害的地方在于它完全抛弃了传统方法对相机参数的依赖。传统方法就像需要一个精密的工程师,必须知道相机的确切角度、焦距等技术细节才能工作。但360Anything更像一个经验丰富的画家,仅凭观察就能推断出整个场景的样子,不需要那些复杂的技术参数。

一、革命性的"无几何约束"生成方法

传统的全景生成技术就像拼图游戏,需要先知道每块拼图的确切位置才能拼接。研究人员必须精确计算输入图片在全景图中的位置,这需要知道相机的视野范围、拍摄角度等参数。但现实中的照片往往缺少这些信息,就像你从朋友那里拿到一块拼图,却不知道它应该放在整幅画的哪个位置。

360Anything采用了一种全新的思路,它把问题重新定义为"理解和想象"。系统将输入的照片和目标全景图都当作一串数字"令牌"来处理,就像把图片转换成计算机能理解的语言。然后使用先进的Transformer架构,让AI通过大量学习来理解照片与全景之间的关系。

这就好比训练一个画家,给他看成千上万张"局部风景"和对应的"完整风景",让他逐渐学会从一个角度推断出整个场景的样子。经过足够的训练后,这个AI画家就能仅凭一张照片,想象出拍摄者身后、左右、上下各个方向的景象。

更令人印象深刻的是,这个系统能自动推断出输入照片的拍摄参数。即使你不知道照片是用什么焦距拍的,从什么角度拍的,AI都能自动判断并将其合理地"安排"在360度全景中的正确位置。这种能力让系统可以处理任意的"野外"照片,不需要专业摄影师的精确操作。

二、解决全景图像"接缝"难题的创新方案

在全景图像生成中,有一个长期困扰研究者的技术难题——"接缝"问题。想象你要把一张长条形的世界地图包成地球仪,左边和右边的边缘必须完美连接。如果连接不好,就会在接缝处出现明显的断裂或不连续,破坏整个视觉效果。

传统方法通常在生成阶段采用各种技巧来缓解这个问题,但这些方法就像在伤口上贴创可贴,治标不治本。360Anything的研究团队深入挖掘,找到了问题的根源所在。

问题出在现代AI系统中广泛使用的VAE编码器上。VAE就像一个图片压缩和解压缩的工具,它需要将图片转换成简化的"代码"进行处理,然后再转换回图片。在处理边界时,编码器使用了"零填充"技术,相当于在图片边缘添加了黑色边框。这种处理方式在普通图片中不会造成问题,但在全景图中,左右边缘本应该是连续的,零填充就破坏了这种连续性。

研究团队提出了"循环潜在编码"的解决方案。这个方法非常巧妙,它在编码全景图之前,先从图片的左边截取一小段放到右边,从右边截取一小段放到左边,形成一种"环形缓冲"。这样编码器在处理边界时,看到的不是突然的中断,而是自然的延续。编码完成后,再将这些额外添加的部分移除,得到的就是完全无缝的全景表示。

这个方案的优雅之处在于它从根本上消除了接缝产生的原因,而不是在生成后再进行修补。实验结果显示,这种方法将接缝问题的严重程度降低了60%以上,生成的全景图像具有完美的连续性。

三、让全景世界保持"正确的重力方向"

在现实世界中,我们习惯了"天空在上,地面在下"的重力感受。但当AI生成全景图时,如果不加以控制,生成的世界可能是"歪着"的,让观看者产生眩晕感。这就像坐在一个倾斜的房间里,即使房间本身很漂亮,也会让人感到不舒服。

360Anything引入了"规范坐标约束"的概念,确保生成的全景世界始终保持正确的重力方向。系统在训练时学会了一个重要技能:无论输入照片是从什么角度拍摄的,最终生成的全景都应该是"重力对齐"的,也就是天空朝上、地面朝下的自然状态。

为了实现这个目标,研究团队开发了一套复杂的数据预处理流程。对于真实世界的视频数据,系统首先使用COLMAP技术估算每一帧的相机位置和角度,然后旋转视频帧来消除相机晃动。接着,系统使用GeoCalib工具估算整个视频的重力方向,最后旋转整个视频使重力方向与垂直轴对齐。

这个过程就像给一个摇摇晃晃的相机镜头安装了一个智能稳定器,不仅消除了拍摄时的抖动,还确保了最终结果符合人类的视觉习惯。用户在观看生成的360度内容时,会感受到自然、舒适的空间感,而不会因为重力方向错误而产生不适。

四、从单张照片到连续视频的全面突破

360Anything不仅能处理静态照片,更令人兴奋的是它对动态视频的处理能力。从一个短暂的视频片段生成完整的360度全景视频,这个挑战就像根据一个人走路的几个步骤,推测他整个行走过程中周围环境的变化。

在视频处理方面,系统展现出了卓越的时空一致性。它不仅要确保每一帧图像在空间上是连贯的360度视图,还要保证时间轴上的连续性和逻辑性。比如,如果输入视频显示一个人正在向前走,生成的全景视频应该显示这个人周围的环境如何随着他的移动而变化,包括他身后、侧面等各个方向的景象变化。

系统在训练时学习了大量的真实世界视频数据,掌握了物理世界的运动规律和视觉逻辑。它知道当摄像头向前移动时,远处的山峰移动得慢,近处的树木移动得快;它理解阳光的照射方向如何影响阴影的变化;它甚至能推断出镜头外可能存在的物体和场景。

为了验证生成视频的质量,研究团队进行了一项令人印象深刻的实验:他们将生成的360度全景视频输入到3D高斯散射重建算法中,成功地创建出了完整的三维场景模型。这意味着从一个简单的手机视频开始,最终可以生成一个完全可探索的虚拟3D世界,用户可以在其中自由移动和观察。

五、超越传统方法的卓越性能表现

在严格的科学评估中,360Anything在多个关键指标上都超越了现有的最先进方法。研究团队在标准的Laval Indoor和SUN360数据集上进行了全面测试,这些数据集就像学术界的"标准考试",专门用来评估不同系统的性能。

在图像质量评估中,360Anything在FID(Fréchet Inception Distance)指标上比以前最好的方法CubeDiff提升了15%以上。FID就像评估两组图片相似度的标准,分数越低说明生成的图片越接近真实照片的质量。更重要的是,在专门评估全景图像几何正确性的FAED指标上,360Anything的表现比之前最好的方法提升了近50%。

视频生成方面的表现更加出色。在包含101个测试视频的标准评估集上,360Anything在所有主要指标上都超越了竞争对手。特别值得注意的是,尽管其他方法使用了真实的相机参数信息,360Anything仅凭学习就达到了更好的效果。这就像一个从未使用过地图和指南针的导航员,仅凭经验和直觉,比使用精密仪器的专业导航员表现得更好。

更令人惊讶的是,系统还展现出了优秀的"零样本"相机参数估计能力。在专门的相机标定基准测试中,360Anything能够准确推断输入图像的拍摄角度和焦距,其精度接近专门为此任务训练的监督学习方法。平均角度估计误差仅为4.93度,在某些测试集上甚至达到了与最先进专用方法相当的水平。

六、真实世界应用的无限可能

360Anything的潜在应用前景极其广阔,它不仅仅是一个技术演示,更是打开虚拟现实和沉浸式内容创作新世界的钥匙。在房地产领域,一张客厅照片就能生成整套房屋的虚拟看房体验,让远程购房者获得身临其境的感受。

在教育和培训领域,这项技术可以将传统的平面教材转化为沉浸式的学习环境。一张历史建筑的照片能够扩展成完整的历史场景,学生可以在其中自由探索,获得比传统教学更加生动的体验。医学培训中,手术室的一角照片可以生成完整的手术环境,为医学生提供安全的虚拟练习空间。

娱乐产业也将从中受益匪浅。游戏开发者可以快速将概念艺术转化为可游玩的3D环境,大大减少传统3D建模的时间和成本。电影制作中,导演可以从少量实景拍摄素材快速生成完整的虚拟场景,为后期特效提供丰富的素材基础。

对于普通用户来说,这项技术让每个人都能成为虚拟世界的创造者。旅行时拍摄的照片可以转化为朋友们可以"亲身探索"的虚拟景点,家庭聚会的片段可以生成供远方亲人体验的沉浸式回忆空间。社交媒体平台未来可能会集成这样的功能,让用户分享的不再是平面的照片和视频,而是完整的360度体验。

七、技术挑战与未来发展方向

尽管360Anything取得了突破性进展,但研究团队也坦诚地指出了当前系统的一些局限性。由于系统是基于预训练的扩散模型进行微调,它继承了基础模型的一些限制。在处理涉及复杂物理现象的场景时,比如流水、火焰或复杂的光影变化,系统的表现还有提升空间。

数据偏差也是一个需要持续关注的问题。由于训练数据主要来源于YouTube的360度视频,系统有时会在生成的全景底部出现不自然的黑边或意外的物体,如三脚架或拍摄者的手,这些都是原始训练数据中常见的元素。

当前系统受限于计算资源,只能处理81帧的视频序列。这对于短片段内容已经足够,但要生成更长的沉浸式体验还需要进一步的技术突破。研究团队提到,结合最新的长视频生成技术,特别是将双向扩散变换器转化为因果自回归模型的方法,可能是未来的发展方向。

分辨率提升也是一个重要的研究方向。虽然现有的视频超分辨率技术可以应用于全景内容,但往往会重新引入接缝问题并扭曲全景空间的结构。这表明需要专门针对全景内容设计的超分辨率算法。

八、对行业发展的深远影响

360Anything代表了计算机视觉和生成式AI领域的一个重要里程碑,它证明了无需复杂几何约束也能实现高质量的全景内容生成。这种"几何无关"的方法论可能会影响整个计算机图形学领域的发展方向,推动研究者们重新思考传统基于几何的方法。

该研究还展示了大规模预训练模型在专业领域应用的巨大潜力。通过巧妙的数据处理和训练策略,通用的图像生成模型可以被成功适配到高度专业化的全景生成任务上,这为其他领域的类似应用提供了宝贵的经验参考。

从产业角度来看,这项技术的开源化可能会大大降低沉浸式内容创作的门槛。小型工作室和独立创作者也能够利用这种技术创造出专业级别的VR和AR内容,这可能会促进整个沉浸式媒体产业的民主化发展。

技术标准化方面,360Anything提出的循环潜在编码方法可能会被其他研究团队采用,成为全景图像生成的标准技术。这种技术的普及将有助于整个行业解决长期存在的接缝问题,提升用户体验质量。

说到底,360Anything不仅仅是一个技术突破,更是对我们理解和创造虚拟世界方式的根本性改变。它让我们看到了一个未来:任何人都能从简单的照片开始,创造出丰富、沉浸的虚拟体验。这种技术的成熟将极大地丰富我们的数字生活,让虚拟与现实的边界变得更加模糊。随着计算能力的不断提升和算法的进一步优化,我们很可能在不久的将来看到这项技术在更多领域的广泛应用,真正实现每个人都能成为虚拟世界建造师的愿景。

Q&A

Q1:360Anything能处理什么类型的输入内容?

A:360Anything可以处理各种类型的普通照片和视频,包括手机拍摄的日常照片、旅行视频、室内场景等。系统不需要专业的全景相机或特殊的拍摄参数,甚至可以处理AI生成的图像和视频,展现出很强的适应性和泛化能力。

Q2:生成的360度全景内容质量如何?

A:根据严格的学术评估,360Anything在图像质量上比之前最好的方法提升15%以上,在专门评估全景几何正确性的指标上提升近50%。生成的内容不仅视觉质量高,还能保持正确的重力方向和无缝连接,甚至可以用于3D场景重建。

Q3:普通用户如何使用这项技术?

A:目前360Anything主要作为研究项目发布,研究团队已经开源了相关代码和模型。随着技术成熟,未来可能会集成到视频编辑软件、VR平台或社交媒体应用中,让普通用户通过简单的界面就能将照片转换为360度全景体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
离除夕夜不到一个月,央视春晚再传噩耗,继岳云鹏后孙涛官宣告别

离除夕夜不到一个月,央视春晚再传噩耗,继岳云鹏后孙涛官宣告别

小椰的奶奶
2026-01-27 00:18:59
英特尔重挫6%,美股半导体普跌,白银飙升8%,特朗普政府入股,美国稀土公司大涨62%

英特尔重挫6%,美股半导体普跌,白银飙升8%,特朗普政府入股,美国稀土公司大涨62%

21世纪经济报道
2026-01-26 23:51:46
王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

王健已任辽宁省政协党组副书记,此前任省委常委、常务副省长

澎湃新闻
2026-01-26 20:03:15
本赛季首次遭遇伤病!快船后场大闸的状态会因此受到影响吗?

本赛季首次遭遇伤病!快船后场大闸的状态会因此受到影响吗?

稻谷与小麦
2026-01-27 00:34:27
苹果突然发布新品:1月27日,全面开售!

苹果突然发布新品:1月27日,全面开售!

搞机小帝
2026-01-27 00:26:56
致死率最高达75%!印度尼帕病毒疫情多名医护中招:可通过飞沫传播,感染源或是患者

致死率最高达75%!印度尼帕病毒疫情多名医护中招:可通过飞沫传播,感染源或是患者

红星新闻
2026-01-26 11:29:16
贾浅浅《进城》再引骂战!短诗藏底层痛感,性暗示纯属过度脑补?

贾浅浅《进城》再引骂战!短诗藏底层痛感,性暗示纯属过度脑补?

匹夫来搞笑
2026-01-26 07:19:09
被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

被拉入黑名单的5个生活用品,它们正在偷走你的健康!你还在用吗

美家指南
2025-11-28 17:10:53
莫斯科邀请川普访俄,特朗普愉快应允,背后暗藏怎样玄机?

莫斯科邀请川普访俄,特朗普愉快应允,背后暗藏怎样玄机?

史政先锋
2026-01-26 16:28:08
贝克汉姆坚持儿子离婚,16亿婚前协议导致和解困难

贝克汉姆坚持儿子离婚,16亿婚前协议导致和解困难

君笙的拂兮
2026-01-26 15:51:34
以一己之力负债2.4万亿,许家印靠山是谁?说出来你可能不信

以一己之力负债2.4万亿,许家印靠山是谁?说出来你可能不信

历史伟人录
2025-11-28 13:58:56
2-0大爆冷!国足掀翻亚洲第5克,全场压着踢,邵佳一战胜卡纳瓦罗

2-0大爆冷!国足掀翻亚洲第5克,全场压着踢,邵佳一战胜卡纳瓦罗

大秦壁虎白话体育
2026-01-26 22:38:02
湖人迎补强良机!曝3届全明星或被买断,湖人成头号下家

湖人迎补强良机!曝3届全明星或被买断,湖人成头号下家

夜白侃球
2026-01-26 20:32:08
三个省级党委组织部部长调整

三个省级党委组织部部长调整

上观新闻
2026-01-26 13:11:03
为何欧盟接受了乌克兰的所有要求?

为何欧盟接受了乌克兰的所有要求?

高博新视野
2026-01-26 18:43:00
27家医药企业赚翻了:国药一致、药明康德、甘李药业...

27家医药企业赚翻了:国药一致、药明康德、甘李药业...

赛柏蓝
2026-01-26 20:32:10
李湘终于回应了!辟谣因洗钱被禁言,律师维权声明曝光!

李湘终于回应了!辟谣因洗钱被禁言,律师维权声明曝光!

古希腊掌管月桂的神
2026-01-26 15:58:43
外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

甜柠聊史
2026-01-23 14:01:57
一语惊醒梦中人!欧洲高官直言:搞垮中国,就是给美国送霸权!

一语惊醒梦中人!欧洲高官直言:搞垮中国,就是给美国送霸权!

达文西看世界
2026-01-24 11:29:41
国内首家!光伏关键材料“卡脖子”难题获突破

国内首家!光伏关键材料“卡脖子”难题获突破

中国日报网
2026-01-26 12:01:02
2026-01-27 04:28:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1368文章数 157关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

游戏
房产
艺术
数码
时尚

猎魂世界:先遣服1.5版本新内容汇总!这第7魂环真是够那个了!

房产要闻

突发!三亚官宣,调整安居房政策!

艺术要闻

沙特急刹车,NEOM规模大缩水,线性摩天楼留小段

数码要闻

苹果推出第二代AirTag 具备更远搜索距离、更响亮的扬声器等

甜了10年,超多暧昧细节,全网求他俩原地结婚

无障碍浏览 进入关怀版