网易首页 > 网易号 > 正文 申请入驻

CVPR 2025 | 单张图片生成物理真实的可控视频

0
分享至

PhysGen3D 实现了对静态图像中物体的三维重建、物理属性估计和用户驱动的动态模拟。

作者丨陈博远

你是否曾看着一张照片,想象“如果推一下这个苹果,它会怎么滚动?”或“如果捏一下这些毛绒玩具,它们会如何变形?”人类天生具备从静态图像推理物理动态的能力,但AI却长期难以实现这一认知飞跃。清华大学、伊利诺伊大学香槟分校和哥伦比亚大学的研究团队提出PhysGen3D,首个从单张图像构建可交互物理3D世界的通用框架。该框架通过整合几何重建、物理推理与仿真、真实感渲染等技术,实现了对静态图像中物体的三维重建、物理属性估计和用户驱动的动态模拟,在物理合理性、用户控制灵活性和渲染质量上超越现有图像到视频生成模型。

技术亮点:

  • 单图输入:仅需一张RGB照片。

  • 物理参数控制:调节弹性、摩擦系数、初始速度,兼顾自动推理和用户指定。

  • 多材质仿真:支持不同软硬物体(如毛绒玩具和苹果)、颗粒(如沙子)。

  • 灵活应用:支持更换场景

论文题目:

PhysGen3D: Crafting a Miniature Interactive World from a Single Image

论文主页:

https://by-luckk.github.io/PhysGen3D/

论文链接:

https://arxiv.org/abs/2503.20746

代码链接:

https://github.com/by-luckk/PhysGen3D

1

研究动机:突破静态图像理解的物理交互瓶颈

想象一下,当你看到一张静物的照片时,是否曾好奇:推一下这个物体它会怎么运动?按一下这个物体它会怎么变形?这些"假设性"问题背后,是人类对物理世界的直觉推演能力。然而,当前AI生成技术却面临两难困境——基于扩散模型的图像转视频(I2V)虽能生成逼真的视觉效果,却缺乏物理规律约束;而物理数字孪生技术虽能精确模拟交互,又受限于多视角数据采集的严苛要求

现有AIGC视频模型(如Sora、Pika、Kling等)虽能生成惊艳的视觉效果,但用户无法精准控制物体的运动轨迹和物理属性,导致"所想未必所得"。另一方面,单图像物理建模方法常局限于刚体运动或特定物体类型,难以实现复杂场景的普适性交互。这种技术断层阻碍了AI对物理世界的深度理解与创造性应用。

为此,我们提出PhysGen3D,致力于突破单图像重建的物理交互瓶颈。通过融合视觉大模型的几何理解能力与物质点法(MPM)的物理仿真引擎,仅凭单张图像即可构建可交互的3D数字孪生场景。这不仅让用户能自由设定初速度、材质属性等物理参数,更通过物理约束保证动态演化的真实性,在虚拟世界中重建符合直觉的"因果律"。这项研究为连接计算机视觉与物理仿真开辟了新路径,让AI生成的动态内容真正扎根于物理现实的土壤。

2

方法概述

我们的目标是从单张输入图像重建一个微型的3D可交互世界。该任务面临的核心挑战在于单视角观测的局限性,以及在缺乏动态观测数据时物理推理的欠定性。针对这些挑战,我们提出了一种整体重建方法,利用预训练视觉模型从单张图像联合推断几何结构、动态材质、光照和基于物理的渲染(PBR)材质参数。重建后的场景将被输入物质点法(MPM)仿真器,以生成逼真的物理现象。最后,我们基于仿真结果渲染动态物体行为,并将其重新整合到场景中,从而生成具有真实运动和视觉表现的视频。整体流程由下图展示。

1、多模态联合重建

本框架采用多模态协同推理,突破几何重建、位姿估计、物理和渲染参数优化三大核心技术瓶颈,实现从单视角图像到物理可交互数字孪生的转化。

a) 几何解耦与重建

实例感知分割:利用GPT-4o的zero-shot能力识别获取物体语义标签,结合Grounded-SAM实现开放词汇实例分割,生成物体的掩码。三维几何生成:采用与InstantMesh相同的框架实现单物体三维重建。对每个分割出的物体,利用Zero123++生成多视角图像,重建出每个物体的3D mesh模型。场景建模:采用Dust3R预测相机坐标系下的单目深度 ,使其尽可能地接近人类的注视轨迹S。利用LaMA模型补全被物体遮挡的空洞区域,构建完整的3D背景模型。对于相互遮挡的物体,采用迭代补全的修复策略恢复各自物体的完整几何。

b) 物理约束的位姿估计

为解决生成的物体模型与恢复出的场景之间空间对齐的难题,提出两阶段优化策略。粗对齐:对每个生成的物体模型渲染多视角的图片,通过SuperGlue匹配渲染图和原图的特征点,采用PnP算法求解物体模型的初始位姿参数。精调优:建立多模态联合损失函数:

其中

Mr、Zr
为渲染结果,
Mg、Zg
为观测值。使用可微分渲染,精确对齐物体姿态。

c) 物理和渲染参数优化

物理参数推理:使用GPT-4o估计每个物体的密度、杨氏模量

E
等先验分布。同时为了统一仿真器的尺寸,使用了无量纲化的方法,利用特征长度消除尺度上的歧义。逆向材质优化:为实现光影一致性,使用Mitsuba渲染器构建可微分的渲染优化物体材质。首先基于DiffusionLight估计环境光照的球谐系数。然后在估计的环境光中,针对物体优化物理渲染(PBR)材质参数,包括反照率、金属度和粗糙度等。本框架通过几何-材质-物理的协同优化,在单图重建中实现了多模态的联合重建,确保物理模拟的稳定性。

2、物理仿真引擎

在动力学仿真部分,我们使用已推理出物理属性和比例因子的3D资产,采用使用Taichi实现的物质点法(MPM)物理引擎。该仿真器具有强大的多材质支持能力,能够准确模拟刚性体、软体和颗粒物质等多种材质的物理行为。

a) 粒子表示

我们首先将3D资产转换为适合仿真的粒子表示。在这一过程中,我们去除数值不稳定的浮点、填充实体内部以确保物质连续性。我们还根据仿真器网格尺寸进行自适应的体素降采样处理。为了在保证仿真精度的同时优化渲染效果,我们优先保留表面的特征点。

b) 物理参数

为了确保仿真系统的稳定性,我们创新性地采用了对物理参数施加比例因子而非直接缩放资产尺寸的方法。具体而言,我们修正了重力加速度、弹性模量等关键材料参数,使用比例因子同步缩放。这种无量纲化处理使得系统能够在不损失物理真实性的前提下,适应不同尺度的仿真需求。在交互控制方面,系统支持根据用户输入的初始速度参数,为场景中的每个物体设置差异化的运动状态,从而实现精确的运动轨迹控制。

c)特效模拟

除了基础的物理仿真功能外,我们的系统还具备丰富的特效模拟能力。通过动态调整杨氏模量参数,可以逼真地模拟不同材质物体碰撞的效果;将材料类型切换为流体,则能实现物质熔融的视觉效果。这种灵活的参数调整机制赋予了用户极大的创作自由度,使其能够通过简单的参数修改,就实现多样化的物理效果模拟,大大拓展了系统的场景。

3、动态渲染合成

在完成动力学仿真后,我们获取了物体点的运动轨迹,并通过运动插值技术实现对三维mesh模型的动态形变处理。基于优化后的基于物理的渲染(PBR)材质参数,我们采用Mitsuba3渲染引擎在环境光照条件下进行物理渲染。借鉴前人在场景合成渲染领域的研究成果,我们创新性地避免了将整个静态背景导入渲染管线这一传统做法,而是通过背景深度图构建出一个专门用于捕捉阴影的三维表面。在具体渲染过程中,采用阴影映射技术来精确提取动态物体投射的阴影和全局光照效果。

最终,我们将经过物理仿真变形的前景物体与计算得到的阴影效果,通过图像合成融合到经过修复处理的背景图像上,从而生成具有真实光影表现力的最终视频输出。这种方法不仅提升了渲染效率,更确保了动态物体与静态场景在光照交互方面的物理一致性,使得合成结果在视觉上达到高度逼真的效果。

3

实验

1、实验设置

本研究的测试数据集涵盖多种图像来源,包括自主拍摄、网络图库及生成模型输出,主要是包含单个或少量物体的中心化场景。出于方法的局限性,我们排除了物体数量过多、深度交叠遮挡或表面几何剧烈起伏的复杂场景。在后处理环节,我们引入VEnhancer增强模块作为可选流程,该模块能对生成的视频进行修复,可以部分提升画面的细节表现力,但定量实验也表明其可能引入非物理的伪影。在基准选择上,由于现有物理仿真方案均需多视角输入或特殊场景配置,我们主要与主流的图像转视频(I2V)模型进行对比:开源运动控制模型DragAnything、MOFA-Video及商业级模型Kling 1.0通过人工标定运动轨迹实现精准控制;Gen-3与Pika 1.5则采用文本描述驱动,其中Pika 1.5额外支持"融化""收缩"等特效。

2、定性结果

我们的系统能够从单张图像生成微型交互世界,实现多样化物理现象的仿真模拟。下图中,系统成功处理了包含单物体、多物体以及刚体/软体等不同材质类型的输入图像,并生成相应动态视频。

对比实验:我们从运动控制与物理材质两个维度进行对比分析。下图对比了我们的模型和两个闭源的视频生成模型,本系统在物理真实性与可控性方面展现出显著优势。基于学习的模型即使经过提示词调优,仍常出现违背物理规律或用户意图的虚假生成现象。

动态调控:下图展示了同一输入图像在不同参数配置下的多样化动态生成效果。左侧三组实验保持物体初始位姿与速度一致,仅调整两个物体的弹性参数,呈现出从刚性碰撞到弹性振荡的连续变化;右侧三组则固定物理参数,通过改变速度方向产生截然不同的运动轨迹,验证了系统对动力学参数的高精度控制能力。

场景编辑:如下图所示,本方法支持对生成视频进行物体移除、添加与替换等编辑操作。得益于显式三维表征,重建的3D资产可被灵活操控。例如将两个场景中的物体互换,保持了物理交互的连贯性。

运动追踪:基于显式三维表征与粒子物理模拟器的协同工作,本框架可生成附带精准三维运动追踪数据的视频。下图中的两个案例分别展示了刚体旋转轨迹与软体形变场的追踪结果。

3、定量结果

为评估生成视频的质量,我们构建了人工评测、GPT-4o自动评估与VBench标准化指标复合评价体系。针对人工与GPT-4o评估,我们制定了三项核心指标:(1)物理真实感(PhysReal):衡量视频是否符合物理规律,以及弹性、摩擦等材料属性的真实表现;(2)照片真实感(Photoreal):评估视频的视觉质量,包括光影连贯性、材质细节还原度与伪影控制;(3)语义一致性(Align):检验生成内容与文本提示的意图匹配程度。此外,我们选取VBench中的运动平滑度与成像质量作为量化指标。我们设计了包含27个场景的视频评测集,涵盖不同运动条件与特效类型。

如上表展示的,本方法在物理真实感(PhysReal)与语义一致性(Align)指标上均显著优于所有商业模型,其中GPT-4o评估结果与人工评测趋势一致。本方法在物理合理性维度领先开源模型达37.5%。VBench数据显示,本方法的运动平滑度(0.82)与成像质量(0.79)均达到SOTA水平。在基线模型中,Kling 1.0凭借"运动笔刷"的轨迹控制功能表现最佳,但其物理真实感得分(3.12)仍低于本方法,凸显了物理仿真引擎的独特优势。

4

局限性和总结

本文提出的PhysGen3D框架主要适用于以物体为主的图片,且要求场景空间结构相对简单,对于包含复杂几何关系与多重交互的全局场景重建仍存在理论瓶颈。

我们实现了从静态图像到可交互物理场景的跨维度转化,通过三维重建、动态仿真与物理渲染的三元协同,形成了物理规律驱动的可控视频生成新范式。我们的研究在运动真实性与材质多样性方面实现显著提升,期待后续研究在复杂场景重建、多物体交互等方向取得突破,推动数字孪生技术的纵深发展。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

UCL强化学习派:汪军与他的学生们

为什么中国只有一个 DeepSeek?

关于 DeepSeek 一体机落地真相,我们调研了 12 家上市公司

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
美股芯片股狂飙,闪迪大涨21%!IBM发布全球首款亚1纳米芯片|人工智能早参

美股芯片股狂飙,闪迪大涨21%!IBM发布全球首款亚1纳米芯片|人工智能早参

每日经济新闻
2026-06-26 09:40:13
安徽少女溺亡后续!母亲控诉救援队,当地霸气反击,网友:真活该

安徽少女溺亡后续!母亲控诉救援队,当地霸气反击,网友:真活该

哄动一时啊
2026-06-26 16:42:24
全国I卷数学「唯一」满分:CMO金牌得主、清华预录取

全国I卷数学「唯一」满分:CMO金牌得主、清华预录取

机器之心Pro
2026-06-26 17:38:43
原来他俩已离婚,如今一个在日本孤独终老,一个在上海娶将军之女

原来他俩已离婚,如今一个在日本孤独终老,一个在上海娶将军之女

白面书誏
2026-06-25 15:05:12
据爆料:听说某大厂西安研究所一个女员工,终身合同耗了三年不走,今年被hr带着保安抬出公司了。

据爆料:听说某大厂西安研究所一个女员工,终身合同耗了三年不走,今年被hr带着保安抬出公司了。

纯洁的微笑
2026-06-25 12:49:08
越闹越大!“走个面”事件讽刺漫画及对话出炉,双方“底裤”被扒

越闹越大!“走个面”事件讽刺漫画及对话出炉,双方“底裤”被扒

火山詩话
2026-06-25 06:37:37
俄罗斯拖卢卡申科下水  马克龙带来一个大消息

俄罗斯拖卢卡申科下水 马克龙带来一个大消息

西楼饮月
2026-06-26 20:10:03
白玉兰合照:杨幂靠边站,孙俪意外,C 位最有望封视后

白玉兰合照:杨幂靠边站,孙俪意外,C 位最有望封视后

胡一舸南游y
2026-06-26 14:33:28
以色列为什么非要打黎巴嫩?

以色列为什么非要打黎巴嫩?

春夫杂谈
2026-06-18 16:02:47
欧洲人彻底被中国逼疯了!

欧洲人彻底被中国逼疯了!

安安说
2026-06-26 10:24:14
德国“战术放水”厄瓜多尔,网友笑称把8年前的旧账清了

德国“战术放水”厄瓜多尔,网友笑称把8年前的旧账清了

大象新闻
2026-06-26 10:52:15
被低估的皇帝,9岁登基,14岁兵变亲政,他的一生比汉武帝更生猛

被低估的皇帝,9岁登基,14岁兵变亲政,他的一生比汉武帝更生猛

云居历史
2026-06-25 21:01:58
大量上市!含钾是冬瓜23倍,建议夏天要多吃,手脚有劲精神好!

大量上市!含钾是冬瓜23倍,建议夏天要多吃,手脚有劲精神好!

王二哥老搞笑
2026-06-26 03:58:15
为何中国千家万户有蚊帐,欧美从来不用蚊帐?他们不怕蚊子咬吗?

为何中国千家万户有蚊帐,欧美从来不用蚊帐?他们不怕蚊子咬吗?

残梦断忆
2026-06-26 00:19:32
1995年,北京人爱抽的4款烟爱喝的4款酒,看看你还记得吗?

1995年,北京人爱抽的4款烟爱喝的4款酒,看看你还记得吗?

涛哥美食汇
2026-06-25 10:04:15
关于防范假冒“阳光高考”“阳光志愿”APP或小程序的声明

关于防范假冒“阳光高考”“阳光志愿”APP或小程序的声明

微言教育
2026-06-25 18:36:08
刘邦47岁才起兵,你以为前半辈子白活了?错,他早就是沛县顶流了

刘邦47岁才起兵,你以为前半辈子白活了?错,他早就是沛县顶流了

云居历史
2026-06-25 21:13:09
夏至后,中老年:别太心疼钱,这3种零食,每天吃点,阳气足

夏至后,中老年:别太心疼钱,这3种零食,每天吃点,阳气足

阿龙美食记
2026-06-23 15:30:08
全世界最顶级的MPV爆单!尊界V680、V800双车开售1小时订单破3200台

全世界最顶级的MPV爆单!尊界V680、V800双车开售1小时订单破3200台

快科技
2026-06-25 23:12:16
2026-06-26 20:35:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7402文章数 20758关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

女子称遭性侵警方不予立案 内裤裆部和胸部检出男方DNA

头条要闻

女子称遭性侵警方不予立案 内裤裆部和胸部检出男方DNA

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

时尚
艺术
房产
旅游
军事航空

盛夏,才要穿出松弛感!

艺术要闻

王羲之《道德经》现身美国,这小楷登峰造极

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

旅游要闻

瞰中国|内蒙古:夏日牧歌引客来

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版