网易首页 > 网易号 > 正文 申请入驻

世界模型走出实验室:CVPR 2026的范式之争

0
分享至

一位研究员正在调试视频生成模型。他设定了一段相机环绕物体的轨迹,却发现生成的画面中物体形状在漂移,背景结构在扭曲,物理规律时而被遵守,时而被打破。这不是技术细节的问题,而是整个范式的问题:我们究竟在拟合像素,还是在建模世界?

CVPR 2026 上,五篇核心论文给出了截然不同的答案。它们之间的分歧,构成了当前世界模型研究最真实的图景。


正方:4D 几何是必由之路

复旦大学、香港大学与腾讯应用研究中心联合提出的 VerseCrafter,代表了第一条技术路线:用显式几何结构重建世界。

研究团队发现,现有视频生成模型困在 2D 图像空间里,导致相机运动和多物体运动无法统一控制,生成结果稳定性差。他们的解法是将视频表示为"3D 空间 + 时间"的统一世界状态,而非逐帧像素。

具体而言,VerseCrafter 提出"4D 几何控制表示":用静态背景点云描述场景结构,用带时间信息的 3D 高斯轨迹描述动态物体。几何信息被转化为控制信号输入视频扩散模型,使最终输出严格遵循设定的相机路径和物体运动。

这项工作的三个技术亮点值得拆解。第一,它实现了从 2D 像素生成向 4D 几何建模范式的转变。第二,它在同一框架下统一控制相机运动与多物体运动,相比依赖 2D 轨迹或边界框的旧方法更灵活一致。第三,显式 3D 结构和时间约束显著提升了时序一致性,长视频生成更加连贯。

核心贡献可以概括为:视频生成从"基于像素的合成"转向"基于结构的生成",可控性与稳定性明显提升。

反方:真实世界的数据才是瓶颈

中国科学院自动化研究所与 CreateAI 的 NeoVerse,则对"几何优先"路线提出了直接挑战。

研究团队指出,现有 4D 世界模型往往依赖多视角数据或复杂预处理,扩展性差,难以利用真实世界中大量随手拍摄的单目视频。这是一个被忽视但更根本的瓶颈:不是建模范式不对,而是数据获取成本太高。

NeoVerse 的核心思路是用"自然场景中的单目视频"构建 4D 世界模型。模型从普通视频中恢复场景 3D 结构,并建模随时间变化的动态信息,实现完整 4D 表示。在此基础上,它既能进行 4D 重建,也能生成新相机轨迹视频,支持多种下游任务。

三个亮点构成了它的技术主张。第一,突破对多视角或专用数据的依赖,直接用"野外采集"的单目视频训练,大幅提升可扩展性和数据可获得性。第二,统一 4D 重建与视频生成能力,使模型既理解场景结构,又生成新视角和动态内容。第三,真实场景泛化能力更强,适应复杂环境而非局限于受控数据集。

核心贡献在于:4D 建模从依赖昂贵数据采集,转向利用大规模真实视频,实用性与扩展能力显著提升。

第三条路:长时序的稳定性工程

香港科技大学(广州)、地平线机器人、浙江大学与中南大学联合提出的 LongStream,则把问题拉向了另一个维度:时间。

研究团队关注的是长序列 3D 重建。现有方法在短序列或离线场景表现尚可,但处理上千帧长视频时,注意力衰减、尺度漂移、预测误差累积等问题集中爆发,导致重建不稳定甚至失效。

问题的根源在于:大多数自回归模型把所有帧"锚定"到第一帧,长时间推理中不断放大误差。

LongStream 的解法是构建流式、规范解耦的视觉几何模型。它不再绑定所有帧到初始帧,而是通过"关键帧相对建模"让每段局部序列独立建模,再统一到全局结构。同时,"尺度学习"与"几何预测"解耦,防止尺度在长序列中漂移。周期性刷新缓存和流式更新机制,使模型在严格在线条件下稳定处理上千帧数据。

三个技术亮点:真正面向长序列的流式 3D 重建框架,在线处理上千帧;规范解耦从根本上解决尺度漂移和误差累积;效率与稳定性平衡,可落地于自动驾驶、AR/VR 和具身智能的持续环境建模。

核心贡献:面向长时序视频的稳定 3D 世界建模方法,模型能在严格在线条件下持续构建一致表示。

判断:三条路线在争夺什么

把三篇论文放在一起,分歧清晰可见。

VerseCrafter 押注几何表示的精确性,认为显式 3D 结构是可控生成的唯一出路。NeoVerse 押注数据规模的可扩展性,认为脱离真实世界视频的模型注定无法泛化。LongStream 押注时序推理的稳定性,认为没有长程一致性的世界模型无法支撑持续交互。

三条路线并非互斥,而是指向同一个深层问题:世界模型的评估标准尚未统一。

VerseCrafter 用控制精度说话,NeoVerse 用泛化能力说话,LongStream 用长程稳定性说话。它们各自优化了不同的指标,却回避了一个更困难的问题:当这些指标冲突时,如何取舍?

这种分裂反映了领域的真实状态。世界模型研究正从"生成质量"向"建模能力"迁移,但"建模能力"本身是多维的——几何精度、物理一致性、因果推理、可交互性、长程稳定性、数据效率——没有单一指标能捕捉其全部。

更值得观察的是产业信号。VerseCrafter 有腾讯应用研究中心参与,LongStream 有地平线机器人参与。这意味着技术路线的选择,正在与具体的应用场景绑定:内容创作需要精确控制,自动驾驶需要长程稳定,通用智能需要数据可扩展。

这种分化可能是健康的。世界模型或许本就不是单一技术,而是一个技术家族,不同成员服务于不同需求。但风险同样明显:如果评估体系持续碎片化,研究将陷入"各说各话"的困境,难以形成有效积累。

CVPR 2026 的这批论文,价值不在于给出了答案,而在于把问题摊开了。从生成到建模的范式转变已经启动,但转变的方向、节奏和终点,仍取决于接下来几个关键决策:评估标准如何统一,数据基础设施如何建设,以及产业需求与技术探索如何对齐。

如果你正在这个领域做技术选型,建议做三件事:第一,明确你的场景最依赖哪种"建模能力"——控制精度、泛化能力还是长程稳定性;第二,跟踪评估体系的演进,它比模型架构更能决定技术路线的生死;第三,关注数据管道的建设,无论是几何标注、野外视频还是流式处理,数据成本正在重新划分技术可行性的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2日世锦赛战报,7-7,13-11,吴宜泽创纪录,希金斯三阶段惹不起

2日世锦赛战报,7-7,13-11,吴宜泽创纪录,希金斯三阶段惹不起

等等talk
2026-05-02 05:56:09
伦敦世乒赛:日本女团3:0大获全胜!张本美和轰出11:0,拒绝让球

伦敦世乒赛:日本女团3:0大获全胜!张本美和轰出11:0,拒绝让球

国乒二三事
2026-05-02 19:09:01
4年2.78亿美元!曝约基奇预计今夏提前续约掘金 总薪水将破6亿

4年2.78亿美元!曝约基奇预计今夏提前续约掘金 总薪水将破6亿

罗说NBA
2026-05-02 22:01:06
山西2-0青岛以下克上晋级八强!奈特24+6张宁关键球 下轮将战广厦

山西2-0青岛以下克上晋级八强!奈特24+6张宁关键球 下轮将战广厦

颜小白的篮球梦
2026-05-02 21:42:48
特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

阿尢说历史
2026-05-02 05:45:39
对前妻无性冷暴力,猴哥转身搂22岁新欢,他不是不生是不想跟你生

对前妻无性冷暴力,猴哥转身搂22岁新欢,他不是不生是不想跟你生

一盅情怀
2026-05-02 16:11:07
宴会上,毛主席问溥仪:传国玉玺去哪了?溥仪的回答引起一片哗然

宴会上,毛主席问溥仪:传国玉玺去哪了?溥仪的回答引起一片哗然

浩渺青史
2026-05-01 01:14:21
五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

奇思妙想草叶君
2026-05-02 16:12:40
破案了!没打封闭,胡明轩G2大爆发的原因找到,和场外4人有关

破案了!没打封闭,胡明轩G2大爆发的原因找到,和场外4人有关

后仰大风车
2026-05-02 08:15:15
合肥工业大学通报“学生涉嫌盗用他人作品参赛获奖”:该生存在学术不端行为,开除学籍

合肥工业大学通报“学生涉嫌盗用他人作品参赛获奖”:该生存在学术不端行为,开除学籍

环球网资讯
2026-05-02 20:02:17
伦敦世乒赛捷报:女团爆冷!62岁世界冠军突围,神秘之师朝鲜大胜

伦敦世乒赛捷报:女团爆冷!62岁世界冠军突围,神秘之师朝鲜大胜

深析古今
2026-05-02 21:49:48
美联储变天:鲍威尔打破75年惯例, 新主席却要“闭麦”?

美联储变天:鲍威尔打破75年惯例, 新主席却要“闭麦”?

每日经济新闻
2026-05-02 15:05:53
火箭78-98惨败湖人!2-4出局,谁是输球罪魁祸首?数据不会说谎

火箭78-98惨败湖人!2-4出局,谁是输球罪魁祸首?数据不会说谎

篮球扫地僧
2026-05-02 21:21:47
沙特联提议球童穿未来梦想职业的服装入场,结果22人仅1人梦想成为球员

沙特联提议球童穿未来梦想职业的服装入场,结果22人仅1人梦想成为球员

懂球帝
2026-05-02 14:39:06
大威:从网坛的传奇,已沦为网坛的耻辱?

大威:从网坛的传奇,已沦为网坛的耻辱?

网球之家
2026-05-02 09:56:23
彻底爆发!买了这个板块的股票,“五一”可以放心玩了!

彻底爆发!买了这个板块的股票,“五一”可以放心玩了!

华夏能源网
2026-05-02 20:20:22
“甲亢哥”不小心把在中国买的三折叠手机掉进海里,嘴里念叨“我的中国手机、花了4000美元”,感觉整个人要碎掉;网友:出新款了再来一趟

“甲亢哥”不小心把在中国买的三折叠手机掉进海里,嘴里念叨“我的中国手机、花了4000美元”,感觉整个人要碎掉;网友:出新款了再来一趟

潇湘晨报
2026-05-01 20:15:11
5月8日,国内成品油价格将调整

5月8日,国内成品油价格将调整

海峡网
2026-05-02 10:18:06
一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

大象新闻
2026-05-01 23:50:09
油价跳水,白银直拉!美国,大动作!以色列突然发动袭击……

油价跳水,白银直拉!美国,大动作!以色列突然发动袭击……

证券时报e公司
2026-05-01 21:56:45
2026-05-02 22:24:50
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
2078文章数 18关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

香港两名6旬男女码头长凳上做不雅行为 被人拍下传网上

头条要闻

香港两名6旬男女码头长凳上做不雅行为 被人拍下传网上

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

教育
房产
家居
本地
公开课

教育要闻

今年高校毕业生达1270万,十年间增幅60%

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

家居要闻

灵动实用 生活艺术场

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版