网易首页 > 网易号 > 正文 申请入驻

浙江大学和蚂蚁集团联手打造视频AI新技术

0
分享至


这项由浙江大学联合蚂蚁集团和浙江实验室共同开展的研究于2026年1月发表,论文编号为arXiv:2601.11087v1。感兴趣的读者可以通过该编号查询完整论文内容。

你有没有看过那些AI生成的视频?球撞墙后消失不见,钟摆摆来摆去却违背重力,骰子在桌上滚动时突然变形。这些看起来很炫酷的视频AI,在物理常识方面却经常犯一些让人哭笑不得的错误。就像一个画技精湛的画家,却不知道苹果掉下来要受重力影响一样。

现在,研究人员找到了解决这个问题的方法。他们开发了一套名为PhysRVG的新技术,专门教会AI视频生成模型如何遵循真实世界的物理规律。这就像给一个天赋异禀的艺术家补上了物理课,让他不仅能画得美,还能画得准。

当前的AI视频生成技术就像是一个只会模仿表面现象的学徒。它们通过观看大量视频样本来学习如何生成新视频,但却无法真正理解物体运动背后的物理原理。这些模型在生成视频时,更关注画面是否好看,而不在乎球是否会按照牛顿定律运动,或者钟摆是否会遵循能量守恒。

研究团队发现,问题的根源在于现有的训练方法。传统方法就像教学生照抄书法字帖一样,只关注最终的视觉效果,却忽略了运动的内在逻辑。即使研究人员告诉模型"这里应该遵循物理定律",模型也经常当作可有可无的建议,而不是必须遵守的铁律。

为了解决这个问题,研究团队采用了一种全新的方法——强化学习。这就像教孩子骑自行车时,不仅要示范正确动作,还要在他做对时给予奖励,做错时给予纠正。他们设计了一套精巧的评分系统,专门用来评判生成视频中的物理运动是否合理。

这套评分系统的核心是两个重要指标。第一个叫做"轨迹偏移",就像用尺子测量模型生成的球的运动轨迹与真实物理轨迹之间的差距。如果一个球应该沿着抛物线下降,但模型让它走直线,这个偏差就会被精确记录下来。第二个是"碰撞检测",专门监控物体相撞时的表现。真实世界中,两个台球相撞后会按照动量守恒定律分开,而不是粘在一起或者穿过彼此。

更巧妙的是,研究团队还开发了一个叫做"模仿-发现循环"的训练策略。这个方法就像教小孩学走路时的渐进过程。刚开始,当模型表现不好时,系统会更多地进行手把手指导,就像扶着孩子走路一样。但随着模型能力的提升,系统会逐渐放手,让模型自己探索和发现物理规律,就像让孩子独自尝试走路一样。

这种训练方法的巧妙之处在于它能够动态调节。当模型在某个场景中表现糟糕时,系统会自动增加基础指导,确保训练的稳定性。当模型表现良好时,系统又会鼓励它进行更大胆的物理探索。这种平衡策略避免了传统强化学习中常见的训练不稳定问题。

为了验证这项技术的效果,研究团队构建了一个专门的测试数据集,包含了700个精心收集的视频样本。这些视频涵盖了四种基本的物理运动:碰撞、钟摆、自由落体和滚动。每个视频都经过了精确的物理标注,就像给每一帧画面都配上了物理运动的"标准答案"。

实验结果证明了这项技术的有效性。在各项物理真实性测试中,PhysRVG都显著超越了现有的顶级视频生成模型。比如在轨迹精度测试中,传统模型的偏差通常在100个像素单位以上,而PhysRVG将这个数字降到了15个像素单位左右。在视觉质量方面,新技术也保持了与传统方法相当的水准,实现了物理准确性和视觉美观度的完美平衡。

从技术实现的角度来看,PhysRVG基于一个名为Wan2.2的预训练视频生成模型进行改造。研究团队采用了两阶段的训练流程。第一阶段将原本的图像到视频模型改造为视频到视频模型,让它具备根据前几帧画面生成后续内容的能力。第二阶段则运用模仿-发现循环技术,专门强化物理运动的生成能力。

在训练过程中,系统使用了一种混合的采样策略。在噪声较大的早期阶段使用随机探索,在后期则采用确定性生成。这种策略确保了模型既能充分探索物理运动的可能性,又能在最终生成时保持稳定的质量。整个训练过程在32块H20 GPU上进行,第一阶段需要16000步,第二阶段需要250步。

研究团队还进行了大量的对比实验来验证各个组件的作用。他们发现,如果去掉碰撞检测机制,模型倾向于生成简单的线性运动,回避复杂的碰撞场景。如果不使用模仿-发现循环,纯粹的强化学习训练会在早期阶段变得非常不稳定,甚至完全失败。这些实验证明了技术设计的合理性和必要性。

在实际应用效果方面,PhysRVG生成的视频展现了令人印象深刻的物理真实性。在台球碰撞场景中,球体按照正确的角度分离;在钟摆运动中,摆锤遵循重力和惯性的规律;在自由落体实验中,物体的加速度变化符合物理预期;在滚球实验中,球体在斜坡上的运动轨迹完全合理。

更有趣的是,这项技术还表现出了良好的泛化能力。即使在训练中没有见过的场景,比如多个物体的复杂碰撞,或者与训练样本略有不同的环境设置,PhysRVG依然能生成物理上合理的视频。这说明模型真正学会了物理规律的本质,而不是简单地记忆训练样本。

当然,这项技术也有其局限性。目前它主要关注刚体运动,对于液体流动、气体扩散这样的复杂物理现象还无法很好处理。另外,模型有时会在物体颜色、形状等与主要运动无关的细节上出现错误。比如在碰撞后球的颜色可能发生变化,或者在转弯时额外出现一个球。这些问题的出现是因为当前的评价体系主要关注运动轨迹的准确性,对其他视觉细节的约束相对较弱。

从技术发展的角度来看,PhysRVG代表了AI视频生成领域的一个重要突破。它首次实现了物理知识在高维视频生成中的有效整合,为未来的研究开辟了新的方向。这项技术的成功也证明了强化学习在解决复杂多模态生成问题方面的潜力。

这项研究的意义远不止于技术本身。在电影制作、游戏开发、科学教育等领域,物理真实的视频生成技术都有着广阔的应用前景。电影导演可以用它来快速预览物理特效的效果,游戏开发者可以用它来自动生成符合物理定律的动画序列,教育工作者可以用它来制作生动的物理实验演示视频。

研究团队也清醒地认识到这项技术可能带来的风险。更加逼真的视频生成技术可能被恶意使用,制作极难识别的虚假内容。因此,他们强调了负责任使用的重要性,建议配合内容溯源和水印技术来防范潜在的滥用。

展望未来,这项技术还有很大的改进空间。研究团队计划将其扩展到更多类型的物理现象,比如流体动力学、热传导等。同时,他们也在探索如何设计更全面的评价体系,不仅关注运动轨迹,还能监控颜色、形状、纹理等各个方面的一致性。

说到底,PhysRVG的成功在于它找到了让AI理解物理世界的正确方法。它不是简单地告诉模型"要遵守物理定律",而是通过精心设计的奖励机制,让模型在实践中体验到遵守物理定律的好处。这种方法学的创新可能会启发更多领域的AI研究,推动人工智能向着更加理解和模拟真实世界的方向发展。

这项研究提醒我们,真正智能的AI不仅要会模仿表面现象,更要理解现象背后的规律。就像人类的学习过程一样,从感性认识上升到理性认识,从现象掌握到规律把握,这可能是AI技术发展的必由之路。有兴趣深入了解技术细节的读者可以通过arXiv:2601.11087v1查询完整论文。

Q&A

Q1:PhysRVG技术是如何让AI视频生成模型学会物理规律的?

A:PhysRVG采用强化学习方法,设计了专门的评分系统来评判生成视频的物理合理性。这个系统主要通过"轨迹偏移"测量物体运动轨迹与真实物理轨迹的差距,通过"碰撞检测"监控物体碰撞的表现。当模型生成符合物理定律的视频时就获得奖励,违反时就受到惩罚,这样逐渐让模型学会遵循真实的物理规律。

Q2:相比传统AI视频生成技术,PhysRVG有什么明显优势?

A:传统AI视频生成技术只关注视觉效果,经常产生物理上不合理的现象,比如球撞墙后消失、钟摆违背重力等。PhysRVG在保持视觉质量的同时,大幅提升了物理真实性。实验显示,在轨迹精度测试中,传统模型偏差通常超过100个像素单位,而PhysRVG降到了约15个像素单位,物理表现显著更准确。

Q3:PhysRVG技术目前有哪些应用前景和局限性?

A:应用前景包括电影制作中的物理特效预览、游戏开发中的动画生成、科学教育中的实验演示等领域。但目前技术主要适用于刚体运动,对液体流动、气体扩散等复杂物理现象还无法很好处理。另外,模型有时在物体颜色、形状等细节上会出现错误,这些问题需要在未来研究中进一步解决。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
微信双版本同步更新,终于支持这项新功能了!

微信双版本同步更新,终于支持这项新功能了!

花果科技
2026-01-28 23:03:49
李亚鹏的“料”不能深扒!负债1.8亿的背后,还藏着17年前的诺言

李亚鹏的“料”不能深扒!负债1.8亿的背后,还藏着17年前的诺言

离离言几许
2026-01-28 00:17:18
沈阳一商场宣告破产

沈阳一商场宣告破产

沈阳公交网小林
2026-01-29 00:11:37
字母哥离队概率升至55%!三大心仪下家曝光:专家解析交易难度

字母哥离队概率升至55%!三大心仪下家曝光:专家解析交易难度

罗说NBA
2026-01-29 01:45:33
苹果新品上架:1 月 28 日,正式首销

苹果新品上架:1 月 28 日,正式首销

科技堡垒
2026-01-28 12:11:08
杨鸣下课,辽篮崩塌始于郭艾伦被赶走!现在终于知道谁才是队魂了

杨鸣下课,辽篮崩塌始于郭艾伦被赶走!现在终于知道谁才是队魂了

嘴炮体坛
2026-01-28 21:19:48
武汉市民投诉辅警早上七点半贴单,单位:自觉遵守

武汉市民投诉辅警早上七点半贴单,单位:自觉遵守

风露清青
2026-01-27 16:26:34
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
又要下纯雪啦!江苏更新雨雪落区预报

又要下纯雪啦!江苏更新雨雪落区预报

江南晚报
2026-01-28 17:31:46
中到大雪、局地暴雪,湖北又要下雪降温

中到大雪、局地暴雪,湖北又要下雪降温

鲁中晨报
2026-01-28 20:35:05
20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

ETtoday星光云
2026-01-26 12:30:22
周大生门店锐减560家,金价暴涨成行业杀手

周大生门店锐减560家,金价暴涨成行业杀手

燕梳楼频道
2026-01-28 21:34:06
卖女性玩具的大人糖都开进广州天环了

卖女性玩具的大人糖都开进广州天环了

蓝鲸新闻
2026-01-27 08:58:15
马上,70万亿美元!

马上,70万亿美元!

路财主
2026-01-10 19:59:20
说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

说好败选就辞职,她反悔了!日本首相高市早苗:撤回承诺,不算数

阿伧说事
2026-01-28 15:24:53
中国军号发布日语海报:日方构成严重威胁

中国军号发布日语海报:日方构成严重威胁

看看新闻Knews
2026-01-28 16:05:05
大S雕像正式完工!具俊晔设计太巧妙,做两个决定,恐回韩国!

大S雕像正式完工!具俊晔设计太巧妙,做两个决定,恐回韩国!

古希腊掌管月桂的神
2026-01-28 11:09:10
央视曝光军工重大泄密:间谍使用了美人计

央视曝光军工重大泄密:间谍使用了美人计

南权先生
2026-01-27 15:39:22
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
CBA一夜变天:三队惨败,实力分级残酷上演

CBA一夜变天:三队惨败,实力分级残酷上演

魔血獄苼
2026-01-29 00:56:26
2026-01-29 03:55:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1460文章数 157关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

头条要闻

俄总统助理:泽连斯基若愿与普京会晤 可来莫斯科

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

时尚
教育
手机
家居
军事航空

想年前用3周“刷新”好状态?做第一点就够

教育要闻

回龙观二小赴南农小学做“三自”课堂分享会

手机要闻

HyperOS 3.1淘汰名单:REDMI K60、POCO F5在列,有你的手机吗

家居要闻

跃式别墅 包络石木为生

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版