网易首页 > 网易号 > 正文 申请入驻

港科大广州、快手可灵发布立体视频转换单步推理新方案

0
分享至



近年来,随着 VR 头戴设备、智能眼镜、3D 影院的发展,人们对于 3D 立体视频内容的需求不断增加。3D 电影带来的沉浸式体验着实令人着迷,但因其制作过程需要专业的相机设备、复杂耗时的专家后处理,3D 内容的制作让普通玩家望而却步:

2010 年,卡梅隆导演为了实现经典著作《泰坦尼克号》的 3D 版本重制,制作团队投入了高达 1800 万美元,动用了 300 名专业工程师,耗时整整 60 周才完成[1]。

如此高昂的成本和复杂的人力投入,一直是 3D 内容生产的最大阻碍。尽管近年来自动化的“单目转双目”(Monocular-to-Stereo)技术有所发展,但效果往往不尽如人意,转换的结果往往要么产生错误的视差,要么无法处理复杂的镜面场景,且速度极慢:现有的研究工作转换一段 5 秒的视频,耗时15 分钟到 70 分钟不等

针对这一难题,快手可灵团队与香港科技大学(广州)陈颖聪教授团队(共同一作博士生沈贵宝、红鸟硕士生杜壹华、博士生葛汶杭)联合提出了一种全新的解决方案 ——StereoPilot。这是一种基于生成式先验的统一高效立体视频转换模型,能够在极短的时间内(11 秒),将一段 5 秒的普通 2D 视频转换为高质量的 3D 立体视频,在所有定量指标上均超越了当前 SOTA 方法。



  • 论文链接:https://arxiv.org/abs/2512.16915
  • 项目主页:https://hit-perfect.github.io/StereoPilot/
  • 代码链接:https://github.com/KlingTeam/StereoPilot/

当解锁了 3D 视频的制作部分,接下来,你只需要购买一副大约价格 10 元人民币的红蓝眼镜,即可跟随 StereoPliot 一起,开启沉浸式视觉体验:

论文的作者,对单目转双目视频,从以往的研究方法到数据格式,由表及里地进行了深入分析:

传统困境:为何 "Depth-Warp-Inpaint" 走不通?



在 StereoPilot 之前的研究工作中,学术界和工业界主流的 2D 转 3D 方案通常采用“深度估计 - 重投影 - 补全”(Depth-Warp-Inpaint, DWI)的多阶段流水线 :首先估计输入视角(如 left-view)每个像素的深度,再依据深度和视差(disparity)的反比关系计算出视差进而重投影到目标视角(right-view),最后再对遮挡位置进行补全。虽然这种方法符合直觉,但在实际应用中却存在三大致命缺陷:

1. 误差累积(Error Propagation)

DWI 流程是串行的:先估计深度图,再根据深度图将像素 “重投影”(Warp)到另一只眼睛的视角,最后修补空洞。这导致了一个严重的问题:一步错,步步错。如果初始的深度估计不准确,后续的重投影步骤会直接放大这种错误,导致最终生成的画面出现严重的几何畸变和伪影 。

2. 深度歧义(Depth Ambiguity)

搞不定的 “镜中花”这是 DWI 方法面临的最棘手的物理难题。在现实世界中,镜子或玻璃等反光表面存在一种特殊的现象:镜子表面的物理深度与镜子里反射物体的成像深度是不同的。 然而,传统的深度估计算法在同一个像素点上只能预测一个深度值。这导致 DWI 方法无法正确处理反射场景 —— 它们往往会将物体反射的光学成像如同纹理一样错误地 “贴” 在镜子表面,导致 3D 观感极度违和。







基于以上的现象观察和论述,我们可以得到:在镜面反射、透明等一个位置具备多个光学深度的场景下,单目深度估计算法预测得出的单一深度值,将无法通过简单的反比几何关系导出视差从而进行正确的重投影(warp)操作,而作者提出的 StereoPilot 则很好处理了“镜中花”的场景,如下图所示:



3. 格式不一致(Format Inconsistency)与几何假设失效

目前的 DWI 方法通常假设:深度(Depth)与视差(Disparity)之间存在简单的反比关系。这种假设仅对平行摄像机(Parallel)配置有效。然而, 3D 电影影视工业中,为了获得更好的观影体验,通常使用的是汇聚摄像机(Converged/Toe-in)。 在汇聚模式下,上述简单的几何假设不再成立,强行使用 DWI 方法会导致视差计算错误,和需要还原的 3D 训练数据无法达成一致。

拨开迷雾:Converged(汇聚式) vs. Parallel(平行式)

为了彻底解决格式问题,我们必须先理清 3D 视频数据的两种主要格式,StereoPlilot 的作者用下面的图例形象地展示了两种数据格式的区别:



  • 平行格式(Parallel): 左右两个相机的光轴是完全平行的。这种格式常见于计算机视觉数据集,其视差与深度成简单的反比关系,常常被用于计算高精度的深度值。
  • 汇聚格式(Converged): 左右相机的光轴向内旋转,汇聚于一点(汇聚点)。这会产生一个 “零视差平面”—— 在这个平面之前的物体会有出屏效果(正视差),而在其之后的物体则 “深陷” 屏幕中(负视差),而处于零视差面的主体则没有视差,观众的眼睛提供了休息区。这是 3D 电影工业的标准格式。深度与视差之间不再存在简单的反比关系。

下面两个例子形象展示了了两种 3D 数据格式的区别:



平行格式(Parallel)vs 汇聚格式(Converged)

由于先前的研究工作往往从未对这两种格式进行区分,或者只在单一格式上进行训练,不可避免的带来了一些不合理的对比,如将汇聚式 3D 电影数据集上训练的模型在平行光轴的数据集上进行测试对比。

StereoPilot:统一、高效的端到端解决方案

为了攻克上述难题,快手可灵联合港科大(广州)团队提出了StereoPilot

UniStereo:首个大规模统一 3D 立体视频数据集

团队构建了UniStereo数据集,数据处理打标流程如下图所示,这是业界首个同时包含 Parallel 和 Converged 两种格式的大规模 3D 立体视频数据集。UniStereo 数据集包含了两个部分:



  • Stereo4D (Parallel): 包含了 Stereo4D 的数据中 58,000 个 5 秒的源自真实世界的平行视角视频片段 。
  • 3DMovie (Converged): 从 142 部高质量 3D 电影中精选并处理了 48,000 个 5 秒的汇聚视角视频片段。

作者将会公开 Parallel 格式的所有数据和 Converged 格式数据的处理流程。

统一高效的模型结构



StereoPilot 的模型结构如上图所示,主要包含下面三个核心部分:

  • Diffusion as Feed-Forward 11 秒极速转换:不同于传统的迭代式扩散模型(需要几十步采样,速度慢),StereoPilot 首次在该任务中采用了的"Diffusion as Feed-Forward"架构。作者将时间步 固定为一个极小值,利用预训练视频扩散模型(Video Diffusion Transformer)强大的生成先验,直接在单次前向传播中预测目标视图。 这使得 StereoPilot 处理一个 5 秒(81 帧)的视频仅需 11 秒,而同类方法(如 Mono2Stereo, SVG)往往需要十几分钟甚至一小时。
  • Domain Switcher 全能格式切换:为了让一个模型同时搞定两种 3D 格式并提高模型的泛化能力,StereoPilot 引入了一个可学习的 Domain Switcher。这就好比给模型装了一个 “开关”,用户可以根据需要,自由控制生成 Parallel 还是 Converged 格式的 3D 视频,实现了真正的统一。
  • Cycle Consistency 保证几何一致性:为了确保生成的左眼和右眼视频在几何上更好的对齐,团队还设计了循环一致性损失(Cycle Consistency Loss),强制模型在从左图生成右图、再从右图还原左图的过程中保持信息不丢失,提升了目标视角与源视角的几何一致性。

实验对比展示

定量指标对比

作者在 UniStereo 基准测试集中对近期的 SOTA 方法进行了全面的对比,如表格所示,StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指标上均显著优于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等现有 SOTA 方法,在推理性能上,对比其他方法动辄十几分钟到一个多小时的推理时间,StereoPilot 的 11 秒的推理速度实现了压倒性的优势。



可视化对比

根据作者展示的可视化对比结果,相比其他的 SOTA 方法,StereoPilot 预测的结果具有更加准确的视差和更高的视觉质量。此外,如前文中分析,StereoPilot 可以处理复杂的镜面场景(如下图中的最后一列的样本),这是其他方法从原理上无法做到的事情。



消融分析

为了验证 StereoPilot 方法中的模块的有效性,作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析实验。

首先,如下展示的动态效果所示,StereoPilot 可以在 Domain Switcher 的加持下,实现 parallel 和 converged 的两种 3D 格式的灵活转换。





除了实现灵活统一的 3D 视频转换外,作者进一步地进行定量和定性实验,验证统一地训练方式对模型泛化性能的影响,如下图表所示:





从图表展示的结果可以看出 Domain Switcher 和 Cycle Consistency 为模型在测试集上提供了更好的泛化性能与一致性。

结语

快手可灵团队和港科大广州联合提出的 StereoPilot,实现了快速高质量的端到端 2D 视频转 3D 视频,打破了 2D 转 3D 依赖昂贵人工或低效深度重投影的桎梏,为 VR/AR 内容创作、老电影修复以及沉浸式视频体验提供了新的可能性。此外,团队首次阐明 parallel 和 converged 两种 3D 立体视频数据的格式,并首次构建了大规模统一 3D 立体视频数据集,澄清了该领域的训练、测评标准。

[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5%9D% A6% E5% B0% BC% E5%85%8B% E5%8F% B7_(1997% E5% B9% B4% E7%94% B5% E5% BD% B1)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楚钦承认赢得侥幸!林诗栋14-16惜败后轰11-3 向鹏遭林昀儒横扫

王楚钦承认赢得侥幸!林诗栋14-16惜败后轰11-3 向鹏遭林昀儒横扫

林子说事
2026-02-27 16:40:31
丢脸丢到海外! 2023年,中国夫妻在日本旅游, 海滩上抓683只说要吃

丢脸丢到海外! 2023年,中国夫妻在日本旅游, 海滩上抓683只说要吃

万象硬核本尊
2026-02-27 18:28:04
河北一漫水桥发生坍塌,桥面碎裂如“拼图”,当地回应:因去年雨季上游泄洪冲刷致桥地基受损,已申请资金启动修复程序

河北一漫水桥发生坍塌,桥面碎裂如“拼图”,当地回应:因去年雨季上游泄洪冲刷致桥地基受损,已申请资金启动修复程序

大象新闻
2026-02-27 18:53:43
“这场景太让人膈应了”,浙江温岭一牛排自助餐厅内,顾客用吃饭的筷子喂宠物狗; 市监所:正调查

“这场景太让人膈应了”,浙江温岭一牛排自助餐厅内,顾客用吃饭的筷子喂宠物狗; 市监所:正调查

大风新闻
2026-02-27 17:28:04
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
绷不住了,医院已进入月薪三千时代!

绷不住了,医院已进入月薪三千时代!

黯泉
2026-02-27 22:23:12
赚大了!网友网购一条32GB DDR5内存 打开包裹目瞪口呆:竟收到十条

赚大了!网友网购一条32GB DDR5内存 打开包裹目瞪口呆:竟收到十条

快科技
2026-02-27 09:37:04
遭33岁老将爆冷!世界第四止步16强颜面尽失 日乒一哥连续5站无冠

遭33岁老将爆冷!世界第四止步16强颜面尽失 日乒一哥连续5站无冠

颜小白的篮球梦
2026-02-27 20:21:27
伊朗拒绝向国外转移浓缩铀

伊朗拒绝向国外转移浓缩铀

每日经济新闻
2026-02-27 07:45:22
古董相机价格暴涨翻10倍 根本抢不到 业内人士:芯片短缺和物流费用暴涨成主因

古董相机价格暴涨翻10倍 根本抢不到 业内人士:芯片短缺和物流费用暴涨成主因

快科技
2026-02-24 11:31:04
中国男篮,昨晚你们战胜的不仅仅是日本队!

中国男篮,昨晚你们战胜的不仅仅是日本队!

观察者网
2026-02-27 13:28:09
四川成都一交警在马路中央被非机动车撞飞,头部流血送医;警方回应:被撞交警正在医院治疗,事故原因正在调查中

四川成都一交警在马路中央被非机动车撞飞,头部流血送医;警方回应:被撞交警正在医院治疗,事故原因正在调查中

扬子晚报
2026-02-27 15:37:20
疯狂的“电子茅台”:价格暴涨10倍,有商家称“年入百万”

疯狂的“电子茅台”:价格暴涨10倍,有商家称“年入百万”

天下网商
2026-02-27 10:20:53
挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

妙知
2026-02-18 11:48:10
湖人登全美第一热搜!连场被准绝杀 专家直言令人发笑 该做出改变

湖人登全美第一热搜!连场被准绝杀 专家直言令人发笑 该做出改变

颜小白的篮球梦
2026-02-27 13:00:37
中方是否考虑从巴基斯坦和阿富汗撤离中国公民和企业或暂停相关航班?外交部回应

中方是否考虑从巴基斯坦和阿富汗撤离中国公民和企业或暂停相关航班?外交部回应

环球网资讯
2026-02-27 15:37:34
4-0!中国女足又赢了,亚洲杯剑指卫冕,王霜喊话:争取上领奖台

4-0!中国女足又赢了,亚洲杯剑指卫冕,王霜喊话:争取上领奖台

绿茵舞着
2026-02-27 16:51:31
最新人事!1人履新成都人大主任委员,曾任达州市委书记

最新人事!1人履新成都人大主任委员,曾任达州市委书记

明月照凤凰
2026-02-27 21:39:25
转发提醒!在伊朗的中国公民尽快撤离 外交部提醒中国公民暂勿前往伊朗

转发提醒!在伊朗的中国公民尽快撤离 外交部提醒中国公民暂勿前往伊朗

每日经济新闻
2026-02-27 19:55:14
中国币圈富豪孙宇晨:快删除所有90后之前出生人的联系方式 停用微信换豆包

中国币圈富豪孙宇晨:快删除所有90后之前出生人的联系方式 停用微信换豆包

快科技
2026-02-25 18:52:04
2026-02-28 00:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12374文章数 142572关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

亲子
本地
旅游
数码
公开课

亲子要闻

惊呆了!12岁小女孩抱弟弟如同妈妈般自然,背后真相感人至深!

本地新闻

津南好·四时总相宜

旅游要闻

蜜雪冰城主题乐园来了 选址已"出炉"!在河南总部

数码要闻

Omdia:时隔5年,小米去年再度回归可穿戴设备出货榜首

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版