网易首页 > 网易号 > 正文 申请入驻

片段生成到长视频漫游:OmniRoam探索轨迹可控的长视频生成新范式

0
分享至



在生成式视频快速发展的今天,模型已经能够生成高质量的短视频片段,但一个更具挑战性的问题正逐渐成为研究焦点:

如何生成长时间、可连续演化的视频序列?当生成从 “几秒” 走向 “长时序” 时,问题开始显现:视角变化带来的结构漂移、时间推进中的内容不一致,使得视频在空间与时间维度上难以保持稳定,往往 “走着走着就乱了”。

与此同时,如何让视频生成具备可控性,能够沿指定路径连续移动,也成为实际应用中的关键需求。

近日,来自 University of California, Irvine、University of California, San Diego、City University of Hong Kong、University of Pennsylvania 以及 Adobe Research 的研究者共同提出了 OmniRoam,一种面向轨迹可控长视频生成的新方法。



  • 论文标题:OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation
  • 项目主页:https://yuheng.ink/project-page/omniroam/
  • 文章链接:https://arxiv.org/pdf/2603.30045
  • 代码链接:https://github.com/yuhengliu02/OmniRoam

该工作通过引入全景视频作为统一表示,并结合 coarse-to-fine 的分阶段生成框架,在长时序条件下显著提升了视频的空间一致性与时间连贯性,使模型能够生成沿指定路径连续演化的视频序列,迈出了从 “片段生成” 走向 “连续过程生成” 的关键一步。



一、轨迹控制的视频预览

先生成 “可控路径”

OmniRoam 首先生成一个中等分辨率的全景视频预览,用于确定整体路径与场景结构。

核心在于将相机轨迹拆解为 flow(方向)和 scale(步长)两个控制量:前者刻画运动方向,后者控制移动幅度,从而实现更清晰的轨迹建模。在实现上,模型将输入与目标视频在时间维拼接,并通过 flow 与 scale 进行条件调制,使生成过程既保持内容连续,又具备明确的路径约束。

二、长时序视频细化

从预览到高质量生成

在 preview 基础上,OmniRoam 进一步进行长时序细化生成。由于 preview 通常采用较大 scale(类似 “快进”),refinement 阶段会通过 scale 对齐,将视频扩展为更长、更接近真实速度的序列。

关键设计是 visibility mask:每个时间段只选取少量 preview 帧作为条件输入,在保留结构锚点的同时避免冗余。随后模型对各个 segment 进行高分辨率生成,并拼接得到最终长视频。

这种从 “全局预览” 到 “局部细化” 的过程,有效缓解了长序列中的误差累积问题。



三、新数据集与评测基准

支撑长视频生成

为支持该任务,OmniRoam 构建了专门的数据与评测体系。在表示上,文章定义了一个 canonical panoramic coordinate system,去除相机自旋转,仅保留平移,从而简化轨迹建模。数据方面结合真实与合成两部分:真实全景视频提供多样场景,合成数据提供精确轨迹监督,并通过路径规划保证运动合理性。在评测上,提出 loop consistency 指标,要求视频沿闭环路径生成后既能回到起点,又保持中间过程的合理变化,更好衡量长时序一致性。



四、实验结果

一致性与可控性的显著提升

实验结果表明,OmniRoam 在画质、轨迹控制和长时序一致性上均优于现有方法。

在定性结果中,模型能够稳定沿指定路径生成连续视频,显著减少结构漂移与内容崩塌;而在定量指标上(如 FAED、SSIM、LPIPS 及 loop consistency),均取得更优表现。



进一步分析显示,全景表示与两阶段生成设计是性能提升的关键,使模型在长视频场景下依然保持稳定与可控。文章重点分析了在长视频(641 帧)条件下不同方法的表现,包括自回归生成与基于透视表示的方法。为了进一步分析长时序一致性,作者设计了闭环轨迹实验,并用 CLIP 相似度衡量模型是否能够 “走回原点”。理想情况下,随着相机逐渐远离起点,相似度应逐步下降;而在轨迹闭环时,相似度应重新上升。相似度在中段下降,在末尾重新回升,说明模型具备较强的长期空间记忆能力。



五、扩展与应用

从实时预览到 3D 场景生成

除了长视频生成能力,OmniRoam 还展示了在效率与 3D 任务上的潜在应用。

在效率方面,作者基于 self-forcing 机制,将完整模型蒸馏为一个轻量级自回归预览模型,实现实时视频生成。该模型在保持整体场景结构的同时,可在约 7 秒内生成 81 帧全景视频,相比原始模型显著加速,为交互式应用提供了可能。同时,还支持先生成低分辨率视频,再通过 refinement 模块提升至更高分辨率(如 720p)。

在 3D 应用方面,OmniRoam 生成的长视频可直接用于 3D 场景重建。作者从生成视频中均匀采样关键帧,并提取多个透视视角输入到 3D Gaussian Splatting(3DGS)中进行重建。实验结果表明,生成视频在不同视角间保持良好的一致性,能够恢复出结构连贯的 3D 场景。

这些结果表明,OmniRoam 不仅可以生成长时序视频,还能够作为上游模块,为实时交互与 3D 内容构建提供支持。



六、总结

长视频生成迈向 “可持续演化”

OmniRoam 的核心贡献,并不只是生成更长的视频,而是在长时序条件下,实现了更稳定、更可控的生成过程。通过全景表示提供全局空间约束,并结合 trajectory-controlled preview 与 long-horizon refinement 的两阶段设计,模型能够在长时间范围内有效抑制漂移,维持结构与语义的一致性。

这也反映出一个更重要的趋势:

视频生成的挑战,正在从 “生成更清晰的内容”,转向 “如何在更长时间内保持一致性与连贯性”。在这一背景下,OmniRoam 提供了一种可行路径,使生成模型能够沿指定轨迹持续演化,为长视频生成、虚拟漫游等场景奠定了基础。

如果说短视频生成解决的是 “生成一段内容”,那么长时序生成更关心的是 —— 模型能否在时间推移中持续 “记住并延续” 这个场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南小伙儿20年前在长沙岳麓山下卖烧饼,因长得帅成“初代网红”,如今凭一组对比照再翻红,网友:法拉利老了还是法拉利

河南小伙儿20年前在长沙岳麓山下卖烧饼,因长得帅成“初代网红”,如今凭一组对比照再翻红,网友:法拉利老了还是法拉利

极目新闻
2026-04-15 18:08:49
渴望回国的加拿大华裔,陷入“回来不甘心,不回受不了”的纠结中

渴望回国的加拿大华裔,陷入“回来不甘心,不回受不了”的纠结中

阿讯说天下
2026-04-14 12:43:26
历史最差!四川遭天津双杀39连败+跨季44连败 维纳莱斯33+12

历史最差!四川遭天津双杀39连败+跨季44连败 维纳莱斯33+12

醉卧浮生
2026-04-15 21:19:44
世锦赛战报:5-10,连爆大冷1号2号4号5号种子都无缘正赛席位了

世锦赛战报:5-10,连爆大冷1号2号4号5号种子都无缘正赛席位了

求球不落谛
2026-04-16 04:28:04
首次亮相广交会!张雪机车外贸部部长黄秦:夺冠后有复盘成功原因,未来有信心争取年度总冠军

首次亮相广交会!张雪机车外贸部部长黄秦:夺冠后有复盘成功原因,未来有信心争取年度总冠军

每日经济新闻
2026-04-15 22:34:23
这6家央企低调到没人知道!待遇不输烟草电网,双非生也能捡漏!

这6家央企低调到没人知道!待遇不输烟草电网,双非生也能捡漏!

优墨出品
2026-04-14 19:06:28
金价!彻底沸了

金价!彻底沸了

吉刻新闻
2026-04-15 09:36:43
伊朗放出致命证据,果然美军说谎了!

伊朗放出致命证据,果然美军说谎了!

深度报
2026-04-13 22:31:48
凯恩:争议判罚?有时欧冠就需要这个,皇马比谁都清楚这一点

凯恩:争议判罚?有时欧冠就需要这个,皇马比谁都清楚这一点

懂球帝
2026-04-16 07:35:07
谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

谁能想到,苏林上任首访中国,竟是自家人都摆不平的大麻烦

动物奇奇怪怪
2026-04-15 13:19:42
中国历史第7人!杨瀚森晋级NBA季后赛 跻身姚明阿联周琦之列

中国历史第7人!杨瀚森晋级NBA季后赛 跻身姚明阿联周琦之列

醉卧浮生
2026-04-15 13:07:44
中国几毛钱止泻药竟是“天然司美”?廉价神药火到海外,老外疯抢

中国几毛钱止泻药竟是“天然司美”?廉价神药火到海外,老外疯抢

思思夜话
2026-04-15 17:56:06
俄国防出口公司:已签署一系列苏-57E战机出口合同

俄国防出口公司:已签署一系列苏-57E战机出口合同

财联社
2026-04-14 18:35:12
乔丹之后,NBA真正能算“门面”的球星,只有这4人

乔丹之后,NBA真正能算“门面”的球星,只有这4人

钱说体育
2026-04-16 04:51:43
揭秘年销10亿的爆款宋柚汁:“宋柚”是商标,柚含量不到3%,主配料为糖水,品牌号称全国销量第一

揭秘年销10亿的爆款宋柚汁:“宋柚”是商标,柚含量不到3%,主配料为糖水,品牌号称全国销量第一

蓝鲸新闻
2026-04-15 09:44:24
“亚视传奇绿叶”江图病逝,参与过《书剑恩仇录》《陆小凤》等经典剧集,托付古天乐操办后事,财产全捐慈善

“亚视传奇绿叶”江图病逝,参与过《书剑恩仇录》《陆小凤》等经典剧集,托付古天乐操办后事,财产全捐慈善

大风新闻
2026-04-15 17:13:34
恒大歌舞图再曝光:许家印亲自面试 贵宾房比外界说的夸张 刷三观

恒大歌舞图再曝光:许家印亲自面试 贵宾房比外界说的夸张 刷三观

念洲
2026-04-15 15:32:14
南通一客运站挂出招租横幅!一代人的挤车记忆,真的落幕了?

南通一客运站挂出招租横幅!一代人的挤车记忆,真的落幕了?

好通网
2026-04-15 08:46:44
斯波直言三球该被驱逐!鲍尔准绝杀戴大金链:轰30+10自我救赎

斯波直言三球该被驱逐!鲍尔准绝杀戴大金链:轰30+10自我救赎

颜小白的篮球梦
2026-04-15 11:00:09
应急局回应“在建西安东站起火”:系附近货车起火产生浓烟,无人员伤亡

应急局回应“在建西安东站起火”:系附近货车起火产生浓烟,无人员伤亡

极目新闻
2026-04-15 23:03:57
2026-04-16 08:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12772文章数 142630关注度
往期回顾 全部

科技要闻

小鹏最贵SUV预售39.98万!L4架构3000TOPS算力

头条要闻

欧洲100万人请愿要求制裁以色列 以总理:欧洲道德软弱

头条要闻

欧洲100万人请愿要求制裁以色列 以总理:欧洲道德软弱

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

时尚
健康
家居
本地
公开课

赫本爱穿的伞裙,好优雅!

干细胞抗衰4大误区,90%的人都中招

家居要闻

简而不减 暖居之道

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版