网易首页 > 网易号 > 正文 申请入驻

港科大广州、快手可灵发布立体视频转换单步推理新方案

0
分享至



近年来,随着 VR 头戴设备、智能眼镜、3D 影院的发展,人们对于 3D 立体视频内容的需求不断增加。3D 电影带来的沉浸式体验着实令人着迷,但因其制作过程需要专业的相机设备、复杂耗时的专家后处理,3D 内容的制作让普通玩家望而却步:

2010 年,卡梅隆导演为了实现经典著作《泰坦尼克号》的 3D 版本重制,制作团队投入了高达 1800 万美元,动用了 300 名专业工程师,耗时整整 60 周才完成[1]。

如此高昂的成本和复杂的人力投入,一直是 3D 内容生产的最大阻碍。尽管近年来自动化的“单目转双目”(Monocular-to-Stereo)技术有所发展,但效果往往不尽如人意,转换的结果往往要么产生错误的视差,要么无法处理复杂的镜面场景,且速度极慢:现有的研究工作转换一段 5 秒的视频,耗时15 分钟到 70 分钟不等

针对这一难题,快手可灵团队与香港科技大学(广州)陈颖聪教授团队(共同一作博士生沈贵宝、红鸟硕士生杜壹华、博士生葛汶杭)联合提出了一种全新的解决方案 ——StereoPilot。这是一种基于生成式先验的统一高效立体视频转换模型,能够在极短的时间内(11 秒),将一段 5 秒的普通 2D 视频转换为高质量的 3D 立体视频,在所有定量指标上均超越了当前 SOTA 方法。



  • 论文链接:https://arxiv.org/abs/2512.16915
  • 项目主页:https://hit-perfect.github.io/StereoPilot/
  • 代码链接:https://github.com/KlingTeam/StereoPilot/

当解锁了 3D 视频的制作部分,接下来,你只需要购买一副大约价格 10 元人民币的红蓝眼镜,即可跟随 StereoPliot 一起,开启沉浸式视觉体验:

论文的作者,对单目转双目视频,从以往的研究方法到数据格式,由表及里地进行了深入分析:

传统困境:为何 "Depth-Warp-Inpaint" 走不通?



在 StereoPilot 之前的研究工作中,学术界和工业界主流的 2D 转 3D 方案通常采用“深度估计 - 重投影 - 补全”(Depth-Warp-Inpaint, DWI)的多阶段流水线 :首先估计输入视角(如 left-view)每个像素的深度,再依据深度和视差(disparity)的反比关系计算出视差进而重投影到目标视角(right-view),最后再对遮挡位置进行补全。虽然这种方法符合直觉,但在实际应用中却存在三大致命缺陷:

1. 误差累积(Error Propagation)

DWI 流程是串行的:先估计深度图,再根据深度图将像素 “重投影”(Warp)到另一只眼睛的视角,最后修补空洞。这导致了一个严重的问题:一步错,步步错。如果初始的深度估计不准确,后续的重投影步骤会直接放大这种错误,导致最终生成的画面出现严重的几何畸变和伪影 。

2. 深度歧义(Depth Ambiguity)

搞不定的 “镜中花”这是 DWI 方法面临的最棘手的物理难题。在现实世界中,镜子或玻璃等反光表面存在一种特殊的现象:镜子表面的物理深度与镜子里反射物体的成像深度是不同的。 然而,传统的深度估计算法在同一个像素点上只能预测一个深度值。这导致 DWI 方法无法正确处理反射场景 —— 它们往往会将物体反射的光学成像如同纹理一样错误地 “贴” 在镜子表面,导致 3D 观感极度违和。







基于以上的现象观察和论述,我们可以得到:在镜面反射、透明等一个位置具备多个光学深度的场景下,单目深度估计算法预测得出的单一深度值,将无法通过简单的反比几何关系导出视差从而进行正确的重投影(warp)操作,而作者提出的 StereoPilot 则很好处理了“镜中花”的场景,如下图所示:



3. 格式不一致(Format Inconsistency)与几何假设失效

目前的 DWI 方法通常假设:深度(Depth)与视差(Disparity)之间存在简单的反比关系。这种假设仅对平行摄像机(Parallel)配置有效。然而, 3D 电影影视工业中,为了获得更好的观影体验,通常使用的是汇聚摄像机(Converged/Toe-in)。 在汇聚模式下,上述简单的几何假设不再成立,强行使用 DWI 方法会导致视差计算错误,和需要还原的 3D 训练数据无法达成一致。

拨开迷雾:Converged(汇聚式) vs. Parallel(平行式)

为了彻底解决格式问题,我们必须先理清 3D 视频数据的两种主要格式,StereoPlilot 的作者用下面的图例形象地展示了两种数据格式的区别:



  • 平行格式(Parallel): 左右两个相机的光轴是完全平行的。这种格式常见于计算机视觉数据集,其视差与深度成简单的反比关系,常常被用于计算高精度的深度值。
  • 汇聚格式(Converged): 左右相机的光轴向内旋转,汇聚于一点(汇聚点)。这会产生一个 “零视差平面”—— 在这个平面之前的物体会有出屏效果(正视差),而在其之后的物体则 “深陷” 屏幕中(负视差),而处于零视差面的主体则没有视差,观众的眼睛提供了休息区。这是 3D 电影工业的标准格式。深度与视差之间不再存在简单的反比关系。

下面两个例子形象展示了了两种 3D 数据格式的区别:



平行格式(Parallel)vs 汇聚格式(Converged)

由于先前的研究工作往往从未对这两种格式进行区分,或者只在单一格式上进行训练,不可避免的带来了一些不合理的对比,如将汇聚式 3D 电影数据集上训练的模型在平行光轴的数据集上进行测试对比。

StereoPilot:统一、高效的端到端解决方案

为了攻克上述难题,快手可灵联合港科大(广州)团队提出了StereoPilot

UniStereo:首个大规模统一 3D 立体视频数据集

团队构建了UniStereo数据集,数据处理打标流程如下图所示,这是业界首个同时包含 Parallel 和 Converged 两种格式的大规模 3D 立体视频数据集。UniStereo 数据集包含了两个部分:



  • Stereo4D (Parallel): 包含了 Stereo4D 的数据中 58,000 个 5 秒的源自真实世界的平行视角视频片段 。
  • 3DMovie (Converged): 从 142 部高质量 3D 电影中精选并处理了 48,000 个 5 秒的汇聚视角视频片段。

作者将会公开 Parallel 格式的所有数据和 Converged 格式数据的处理流程。

统一高效的模型结构



StereoPilot 的模型结构如上图所示,主要包含下面三个核心部分:

  • Diffusion as Feed-Forward 11 秒极速转换:不同于传统的迭代式扩散模型(需要几十步采样,速度慢),StereoPilot 首次在该任务中采用了的"Diffusion as Feed-Forward"架构。作者将时间步 固定为一个极小值,利用预训练视频扩散模型(Video Diffusion Transformer)强大的生成先验,直接在单次前向传播中预测目标视图。 这使得 StereoPilot 处理一个 5 秒(81 帧)的视频仅需 11 秒,而同类方法(如 Mono2Stereo, SVG)往往需要十几分钟甚至一小时。
  • Domain Switcher 全能格式切换:为了让一个模型同时搞定两种 3D 格式并提高模型的泛化能力,StereoPilot 引入了一个可学习的 Domain Switcher。这就好比给模型装了一个 “开关”,用户可以根据需要,自由控制生成 Parallel 还是 Converged 格式的 3D 视频,实现了真正的统一。
  • Cycle Consistency 保证几何一致性:为了确保生成的左眼和右眼视频在几何上更好的对齐,团队还设计了循环一致性损失(Cycle Consistency Loss),强制模型在从左图生成右图、再从右图还原左图的过程中保持信息不丢失,提升了目标视角与源视角的几何一致性。

实验对比展示

定量指标对比

作者在 UniStereo 基准测试集中对近期的 SOTA 方法进行了全面的对比,如表格所示,StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指标上均显著优于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等现有 SOTA 方法,在推理性能上,对比其他方法动辄十几分钟到一个多小时的推理时间,StereoPilot 的 11 秒的推理速度实现了压倒性的优势。



可视化对比

根据作者展示的可视化对比结果,相比其他的 SOTA 方法,StereoPilot 预测的结果具有更加准确的视差和更高的视觉质量。此外,如前文中分析,StereoPilot 可以处理复杂的镜面场景(如下图中的最后一列的样本),这是其他方法从原理上无法做到的事情。



消融分析

为了验证 StereoPilot 方法中的模块的有效性,作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析实验。

首先,如下展示的动态效果所示,StereoPilot 可以在 Domain Switcher 的加持下,实现 parallel 和 converged 的两种 3D 格式的灵活转换。





除了实现灵活统一的 3D 视频转换外,作者进一步地进行定量和定性实验,验证统一地训练方式对模型泛化性能的影响,如下图表所示:





从图表展示的结果可以看出 Domain Switcher 和 Cycle Consistency 为模型在测试集上提供了更好的泛化性能与一致性。

结语

快手可灵团队和港科大广州联合提出的 StereoPilot,实现了快速高质量的端到端 2D 视频转 3D 视频,打破了 2D 转 3D 依赖昂贵人工或低效深度重投影的桎梏,为 VR/AR 内容创作、老电影修复以及沉浸式视频体验提供了新的可能性。此外,团队首次阐明 parallel 和 converged 两种 3D 立体视频数据的格式,并首次构建了大规模统一 3D 立体视频数据集,澄清了该领域的训练、测评标准。

[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5%9D% A6% E5% B0% BC% E5%85%8B% E5%8F% B7_(1997% E5% B9% B4% E7%94% B5% E5% BD% B1)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
外媒:卢卡申科首次访问朝鲜

外媒:卢卡申科首次访问朝鲜

参考消息
2026-03-25 19:37:47
这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

这辈子走不出牢门,尹锡悦报复李在明的手段,就只剩下折磨狱警了

奥字侃剧
2026-03-26 11:07:34
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

开火之日就是全军覆灭之时!万万没想到,菲律宾导弹已经瞄准台海

黑翼天使
2026-03-24 07:50:52
1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

1971年,陈毅在病房拍了照片,49岁的张茜,一脸憔悴和忧伤

抽象派大师
2026-03-26 10:57:02
事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

事发48小时,日方终于表态了,中国小题大做,设套让日本往里钻?

我不叫阿哏
2026-03-26 16:46:00
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

7000 家央国企春招,本科却成废纸?门槛高到离谱求职者彻底破防

眼界看视野
2026-03-24 11:00:18
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

张雪峰离世不到48小时,治丧组曝光追悼会内幕,女儿成了“心病”

丁丁鲤史纪
2026-03-26 14:49:19
第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

第81波打击!以色列防空被撕碎,美航母遭袭击,特朗普恼羞成怒

健身狂人
2026-03-26 10:14:34
“能劝一个是一个,海肠捞饭就是智商税”

“能劝一个是一个,海肠捞饭就是智商税”

风味人间
2026-03-26 13:32:37
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
2026-03-26 21:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
游戏
房产
教育
手机

上新|| 她们说,找到了自己的人生裙子!

开冲!PS会员4月离库名单公布:独立神作进入倒计时

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

无障碍浏览 进入关怀版