ICLR 2026 | 让视频模型真正“懂物理”：连接视觉、物理与世界模型|刚体|显式|动力学

ICLR 2026 | 让视频模型真正“懂物理”：连接视觉、物理与世界模型

2026-03-24 08:26:38　来源: 将门创投

北京举报

分享至

人类对物理世界的感知近乎本能——只需简单观察，我们就能大致预判一个掉落球体的弹跳轨迹。然而，对于当今最强大的视频生成模型而言，实现这种“物理常识”依然困难重重：物体穿透、重力失效、碰撞逻辑混乱……这些频频出现的“翻车”现场揭示了一个残酷的真相：模型大多只是在拟合像素的视觉幻影，而非理解物理的演化逻辑。

针对这一差距，北京大学研究团队发表了文章Learning Physics-Grounded 4D Dynamics with Neural Gaussian Force Fields，探究如何让模型从视觉中解构出真正的“物理机制”，而非仅仅记住运动轨迹。该论文已被ICLR 2026接收。

论文题目： Learning Physics-Grounded 4D Dynamics with Neural Gaussian Force Fields 论文链接： https://arxiv.org/pdf/2602.00148 项目主页： https://neuralgaussianforcefield.github.io 视频介绍： https://player.vimeo.com/video/1126658030?h=44efd1f0f8

一、视频模型真的理解物理世界吗？

近年来，视频生成模型在画面质量上突飞猛进，却频繁在最基本的物理常识上“翻车”，例如物体穿透、漂浮、违反重力，碰撞后运动方向不合理……一旦受到外力干预，整体运动逻辑便立刻崩塌。究其原因，大多数模型只是在“生成像视频的像素”，而不是“模拟物理世界的演化”。这也引出了一个关键问题：能否让模型从视觉输入中，学到真正的物理机制，而不是记住运动轨迹？

Google Veo3生成的视频，物体在碰撞时发生了不符合物理的变形和突然消失。

二、现有方法的瓶颈

现有的技术方案主要沿着两条并行路径探索，但由于底层逻辑的局限，它们在通往“真实物理世界”的路上各自遇到了难以逾越的瓶颈：

1. 纯视频生成模型

这类方法凭借强大的统计学习能力，在视觉表现力上实现了质的飞跃，能够生成纹理细腻、光影真实的视觉画面。然而，由于这类模型本质上是在高维空间进行像素概率预测，而非对物理因果律的深度建模，导致其在生成过程中缺乏物理约束。在实际应用中，这种“逻辑缺失”表现为物体穿透、反重力漂浮等频繁出现的物理幻觉，且一旦受到外部随机力量的干预，整体运动轨迹的连贯性便会迅速崩溃。

2. 显式物理引擎 + 3D 表示

该方案虽然能够保证运动轨迹符合经典力学定律，但其代价是极其昂贵的计算成本。更为棘手的是，物理引擎高度依赖人工预设的质量、摩擦力等先验参数，导致其泛化能力受限，在面对非结构化的真实场景时显得过于僵硬，难以实现灵活的跨场景迁移。

尤其在处理多物体复杂交互以及从实验室到真实自然场景的迁移等前沿问题时，上述两类方法均表现出明显的性能短板。

三、新的方案

针对上述挑战，研究团队提出了一种全新的物理世界模型——Neural Gaussian Force Field（NGFF）。该研究试图打破传统生成式模型的局限，其核心思想回归到了物理学的本质，简洁有力却长期被忽略：在模拟真实世界时，与其费尽心机去预测“下一帧的像素长什么样”，不如先回答一个更根本、更具有决定性的问题，即“物体在这一刻究竟受到了什么样的力？”

四、NGFF 做了什么？

NGFF 将复杂的物理模拟任务解构为一套环环相扣的底层逻辑，从视觉重建到力场建模，再到动力学演化。

这一范式的核心创新在于，物理规律不再是隐藏在神经网络深处的模糊概率，而是成为了模型可观测、可干预的中间表示。系统首先从多视角的原始RGB图像切入，重建物体级别的 3D Gaussian 表示，并在前向预测中精准分割出目标物体与背景，从而有效剥离环境遮挡与视觉噪声的干扰。随后，这些经过细化处理的高斯点被编码为高维特征，输入基于 DeepONet 神经算子的架构中，用以预测以对象为中心的显式神经力场（Force Field）。最后，通过 ODE 求解器进行积分运算，将瞬时的受力状态转化为连续、受物理定律约束的运动轨迹。这种设计不仅实现了物理一致的未来状态迭代预测，更赋予了渲染画面真实且可控的动力学表现。

这种设计带来了一个重要变化，物理不再是隐式藏在网络里，而是模型的中间表示。

NGFF的算法框架五、大规模评测：GSCollision 数据集

为系统评估模型的物理能力，研究团队构建了GSCollision。该数据集不仅覆盖了刚体与软体、多物体组合、复杂碰撞，系统测试空间、时间与组合泛化能力，还涵盖了多种典型物理现象，包括自由下落与重力加速、多物体碰撞与反弹、旋转、滚动、滑动、物体堆叠与稳定性、软体挤压、拉伸、形变和物体—容器交互。这为“物理世界模型”的研究提供了一个统一、可扩展的评测平台。

GSCollision 是一个基于 3D Gaussian 表示的4D物理数据集，整体规模为：640,000 条物理视频序列，约 4TB 数据量，3,200 个独立物理场景。每个场景包含多视角初始 RGB 图像、物体级 3D Gaussian 表示、连续时间的物理演化轨迹、可渲染为多视角、任意时间步的 4D 视频。与传统视频数据集不同，这些序列并非“看起来像物理”，而是由真实物理模拟驱动生成。

GSCollision 包含 10 种常见物体，横跨刚体 / 软体、轻 / 重、柔软 / 坚硬，例如软体的布料、绳子、枕头和刚体球、碗、罐子、手机。每个物体都在物理参数空间中显式建模（如密度、杨氏模量），确保模型面对的是真实的材质差异，而非视觉伪差异。这使得模型必须学会如何“因材施力”，而不是简单记忆运动模式。

GSCollision 的底层物理并非 heuristic 或动画规则，而是基于 GPU 加速的 MPM （Material Point Method）物理模拟、与 3D Gaussian 表示深度耦合、同时支刚体动力学与软体形变。

这种设计带来了物理可信（碰撞、挤压、滑动、形变均来自连续力学）和可渲染（模拟结果天然可用于高效、可微的 Gaussian Splatting ）的两大优势

这也是 NGFF 能同时评估物理预测能力 + 视频生成能力的基础。

GSCollision数据集样例

六、NGFF能做到什么？

NGFF 的意义远超单纯的视频预测，它实际上构建了一个深度感知物理规律的可交互世界模型。在功能维度上，该模型展现出了多项核心优势：首先，它具备卓越的跨物体与跨材质泛化能力，能够支持长时且稳定的动力学推演，有效解决了传统模型中常见的运动漂移问题。其次， NGFF 引入了 Force Prompting 机制，支持通过外力干预实现交互式视频生成，让用户能够直接参与物理过程的引导。同时，该模型具备极强的组合泛化能力，不仅能实现从仿真数据到真实世界场景的平滑迁移，还支持在生成过程中实时变换新视角与新背景，展现出高维度的4D 视频生成能力。这种对物理规律的深度解构与重组，标志着 AI 正在从视觉层面的像素模仿，向具备真实交互能力的数字世界模拟器演进。

Neural Gaussian Force Field（NGFF）相比先前的视频生成模型具备更强的组合泛化能力，支持用“外力”来prompt模型，支持新背景和新视角的视频生成。

在多个设置下，NGFF 在物理一致性上显著超越 Veo3、NVIDIA Cosmos 等 SOTA 视频模型，同时推理速度相比传统物理模拟提升两个数量级。

NGFF根据初始场景生成的视频

以3D高斯为输入的轨迹生成

以图片为输入的物理一致的视频生成结果

交互式物理生成结果，左边6列展示了在外力作用下提枕头的动态变化，右边6列展示了拖拽衣服的动态变化七、总结

物理一致性不仅是衡量生成模型优劣的尺度，更是世界模型迈向真实工业与科研应用的底线。NGFF 的出现，为这一领域展示了一条极具潜力的演进路径：通过显式力场（Force Field）链接视觉感知与物理推理，将晦涩的动力学规律转化为可解释、可干预的中间表示。这种范式的转变，不仅为视频生成带来了长时稳定的时空一致性，更为支撑复杂环境下的因果推理与路径规划提供了坚实的理论支撑。

从长远来看，NGFF 将为具身智能、机器人、因果推理提供可落地的世界模型基础。它赋予了智能体在虚拟仿真中预演物理交互、在真实世界中精准感知外力反馈的能力，从而在复杂多变的物理环境中实现更安全、更高效的决策与控制。NGFF 的研究成果，正引领着通用人工智能从“观察世界”向“理解并干预物理世界”实现关键的一跃。

llustration generated by AI.

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.