一位研究员正在调试视频生成模型。他设定了一段相机环绕物体的轨迹,却发现生成的画面中物体形状在漂移,背景结构在扭曲,物理规律时而被遵守,时而被打破。这不是技术细节的问题,而是整个范式的问题:我们究竟在拟合像素,还是在建模世界?
CVPR 2026 上,五篇核心论文给出了截然不同的答案。它们之间的分歧,构成了当前世界模型研究最真实的图景。
![]()
正方:4D 几何是必由之路
复旦大学、香港大学与腾讯应用研究中心联合提出的 VerseCrafter,代表了第一条技术路线:用显式几何结构重建世界。
研究团队发现,现有视频生成模型困在 2D 图像空间里,导致相机运动和多物体运动无法统一控制,生成结果稳定性差。他们的解法是将视频表示为"3D 空间 + 时间"的统一世界状态,而非逐帧像素。
具体而言,VerseCrafter 提出"4D 几何控制表示":用静态背景点云描述场景结构,用带时间信息的 3D 高斯轨迹描述动态物体。几何信息被转化为控制信号输入视频扩散模型,使最终输出严格遵循设定的相机路径和物体运动。
这项工作的三个技术亮点值得拆解。第一,它实现了从 2D 像素生成向 4D 几何建模范式的转变。第二,它在同一框架下统一控制相机运动与多物体运动,相比依赖 2D 轨迹或边界框的旧方法更灵活一致。第三,显式 3D 结构和时间约束显著提升了时序一致性,长视频生成更加连贯。
核心贡献可以概括为:视频生成从"基于像素的合成"转向"基于结构的生成",可控性与稳定性明显提升。
反方:真实世界的数据才是瓶颈
中国科学院自动化研究所与 CreateAI 的 NeoVerse,则对"几何优先"路线提出了直接挑战。
研究团队指出,现有 4D 世界模型往往依赖多视角数据或复杂预处理,扩展性差,难以利用真实世界中大量随手拍摄的单目视频。这是一个被忽视但更根本的瓶颈:不是建模范式不对,而是数据获取成本太高。
NeoVerse 的核心思路是用"自然场景中的单目视频"构建 4D 世界模型。模型从普通视频中恢复场景 3D 结构,并建模随时间变化的动态信息,实现完整 4D 表示。在此基础上,它既能进行 4D 重建,也能生成新相机轨迹视频,支持多种下游任务。
三个亮点构成了它的技术主张。第一,突破对多视角或专用数据的依赖,直接用"野外采集"的单目视频训练,大幅提升可扩展性和数据可获得性。第二,统一 4D 重建与视频生成能力,使模型既理解场景结构,又生成新视角和动态内容。第三,真实场景泛化能力更强,适应复杂环境而非局限于受控数据集。
核心贡献在于:4D 建模从依赖昂贵数据采集,转向利用大规模真实视频,实用性与扩展能力显著提升。
第三条路:长时序的稳定性工程
香港科技大学(广州)、地平线机器人、浙江大学与中南大学联合提出的 LongStream,则把问题拉向了另一个维度:时间。
研究团队关注的是长序列 3D 重建。现有方法在短序列或离线场景表现尚可,但处理上千帧长视频时,注意力衰减、尺度漂移、预测误差累积等问题集中爆发,导致重建不稳定甚至失效。
问题的根源在于:大多数自回归模型把所有帧"锚定"到第一帧,长时间推理中不断放大误差。
LongStream 的解法是构建流式、规范解耦的视觉几何模型。它不再绑定所有帧到初始帧,而是通过"关键帧相对建模"让每段局部序列独立建模,再统一到全局结构。同时,"尺度学习"与"几何预测"解耦,防止尺度在长序列中漂移。周期性刷新缓存和流式更新机制,使模型在严格在线条件下稳定处理上千帧数据。
三个技术亮点:真正面向长序列的流式 3D 重建框架,在线处理上千帧;规范解耦从根本上解决尺度漂移和误差累积;效率与稳定性平衡,可落地于自动驾驶、AR/VR 和具身智能的持续环境建模。
核心贡献:面向长时序视频的稳定 3D 世界建模方法,模型能在严格在线条件下持续构建一致表示。
判断:三条路线在争夺什么
把三篇论文放在一起,分歧清晰可见。
VerseCrafter 押注几何表示的精确性,认为显式 3D 结构是可控生成的唯一出路。NeoVerse 押注数据规模的可扩展性,认为脱离真实世界视频的模型注定无法泛化。LongStream 押注时序推理的稳定性,认为没有长程一致性的世界模型无法支撑持续交互。
三条路线并非互斥,而是指向同一个深层问题:世界模型的评估标准尚未统一。
VerseCrafter 用控制精度说话,NeoVerse 用泛化能力说话,LongStream 用长程稳定性说话。它们各自优化了不同的指标,却回避了一个更困难的问题:当这些指标冲突时,如何取舍?
这种分裂反映了领域的真实状态。世界模型研究正从"生成质量"向"建模能力"迁移,但"建模能力"本身是多维的——几何精度、物理一致性、因果推理、可交互性、长程稳定性、数据效率——没有单一指标能捕捉其全部。
更值得观察的是产业信号。VerseCrafter 有腾讯应用研究中心参与,LongStream 有地平线机器人参与。这意味着技术路线的选择,正在与具体的应用场景绑定:内容创作需要精确控制,自动驾驶需要长程稳定,通用智能需要数据可扩展。
这种分化可能是健康的。世界模型或许本就不是单一技术,而是一个技术家族,不同成员服务于不同需求。但风险同样明显:如果评估体系持续碎片化,研究将陷入"各说各话"的困境,难以形成有效积累。
CVPR 2026 的这批论文,价值不在于给出了答案,而在于把问题摊开了。从生成到建模的范式转变已经启动,但转变的方向、节奏和终点,仍取决于接下来几个关键决策:评估标准如何统一,数据基础设施如何建设,以及产业需求与技术探索如何对齐。
如果你正在这个领域做技术选型,建议做三件事:第一,明确你的场景最依赖哪种"建模能力"——控制精度、泛化能力还是长程稳定性;第二,跟踪评估体系的演进,它比模型架构更能决定技术路线的生死;第三,关注数据管道的建设,无论是几何标注、野外视频还是流式处理,数据成本正在重新划分技术可行性的边界。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.