网易首页 > 网易号 > 正文 申请入驻

轻量级模型媲美72B模型,英伟达、MIT等联合推出FoundationMotion

0
分享至



当前的视频大模型发展迅速,但在面对复杂的空间移动和物理规律时,依然 “看不懂” 物体如何运动。

它们或许能描述视频中发生了什么,但如果你问它:“红色的车是在蓝色车转弯之前还是之后通过路口的?” 或者 “那个皮球的抛物线轨迹最高点在哪里?”,很多模型就开始 “胡言乱语” 了。

究其根本,在于高质量运动数据的极度匮乏。现有的数据集要么规模太小,要么依赖昂贵的人工标注,难以支撑模型去学习真实世界中细粒度的物理运动。

针对这一痛点,来自MIT、NVIDIA、UC Berkeley等机构的研究者提出了FoundationMotion:一套完全不依赖人工标注的自动化数据管线。

令人惊讶的是,仅靠这套管线生成的数据微调后,15B 参数的视频模型竟在运动理解任务上,超越了 Gemini-2.5 Flash 以及 72B 参数的开源大模型:NVILA-Video-15B: 90.6% on AV-Car benchmark, Gemini-2.5-Flash: 84.1%,Qwen-2.5-VL-72B: 83.3%



  • 项目主页: https://yulugan.com/projects/FoundationMotion.html
  • 论文: https://arxiv.org/abs/2512.10927
  • 代码: https://github.com/Wolfv0/FoundationMotion

视频模型的 “物理盲” 危机

2024 年至今,被认为是视频生成模型的爆发期。从 OpenAI 的 Sora 到各类国产模型,AI 已经能够生成极其逼真的动态画面。然而,在华丽的像素背后,一个长期被忽视的问题逐渐暴露出来:

这些模型并不真正理解物体的运动。

例如,在测试中研究人员发现:

  • 它们可以生成高速行驶的赛车,却难以判断刹车究竟是发生在碰撞之前还是之后;
  • 它们能描绘复杂的街景,却常常搞错行人的移动方向与相对位置关系。

比如我们上传一段一辆汽车在夜间行驶,变道,超过了前方车辆的视频给 Gemini 3 Pro Preview,问 “What is the primary driving behavior demonstrated by the ego vehicle in the video?”





Gemini 3 Pro Preview 的回答是这辆车正在它的车道上行驶,完全没有理解这个视频最主要的运动:变道与超车。

正如心理学家 Barbara Tversky 在《Mind in Motion》中所指出的:空间与运动是人类理解世界的基础。而这一能力,恰恰是当前视频模型最薄弱的部分。



问题的根源在于数据。现有视频数据要么只包含静态描述(如 “一只狗在草地上”),要么高度依赖昂贵、难以扩展的人工标注,使得大规模、细粒度的 “运动理解” 数据几乎无法获得。

FoundationMotion

一座全自动的 “运动数据工厂”

为了解决这一瓶颈,研究团队提出了 FoundationMotion——一套端到端、无需人工参与的自动化数据生成系统。

它的工作流程可以被形象地拆解为四步:



1 & 2. 预处理 & 先把 “运动” 精确地抓出来

首先,使用成熟的目标检测与跟踪模型,对视频进行逐帧分析,将人、车辆、手部、机械臂等关键物体转化为连续的时空轨迹(Trajectories)。

  • 输入: 任何视频。
  • 输出: 每个物体在视频中的精确运动坐标。

2. 把轨迹 “讲给” 语言模型听

仅有数字坐标对语言模型来说过于抽象,FoundationMotion 采用了多模态融合策略:

  • 将轨迹转化为结构化的文本描述;
  • 同时将视频帧与轨迹信息作为 Prompt 输入。

这相当于为模型提供了一份 “运动说明书”,让它不仅看到画面,还能结合坐标理解物体究竟是如何移动的。

3. 让模型生成标注与问题

研究团队利用 GPT-4o-mini,在轨迹与视频的基础上,自动生成两类高质量数据:

  • 精细化运动描述:包含速度变化、方向、终止位置等细节;
  • 多维度运动理解问答:覆盖动作识别、时序关系、动作 - 物体关联、空间位置以及重复计数等关键能力。

最终,团队基于 InternVid 构建了约50 万条高质量运动理解数据,形成了 FoundationMotion 数据集。

数据样例:

小模型,击败大模型

在实验环节,研究人员使用 FoundationMotion 生成的数据微调了多个开源视频模型,包括 NVILA-Video-15B 与 Qwen2.5-7B。

结果显示,高质量数据带来的提升是巨大的:

  • 越级挑战: 微调后的 7B/15B 模型在多个运动理解基准上,超越了 Gemini-2.5 Flash 与 Qwen2.5-VL-72B。
  • 纯数据驱动: 这一提升不依赖额外的模型结构设计或复杂的推理策略,完全归功于数据的质量。
  • 强泛化性: 在自动驾驶、机器人操作、日常活动等不同领域均具备良好表现。
  • 无损通用能力: 在增强物理感知的同时,并未损害模型原本的通用视频理解能力。

通向 “物理 AI” 的关键一步

FoundationMotion 的意义远不止于刷榜。

在自动驾驶与机器人领域,“理解物体如何运动” 直接关系到系统的安全与决策能力。

FoundationMotion 提供了一条低成本、可扩展的路径,让 AI 能够通过观看海量视频,逐步建立对物理世界的直觉。这套管线未来可广泛用于:

  • 视觉语言模型(VLM)
  • 视觉 - 语言 - 动作模型(VLA)
  • 世界模型(World Models)

这被认为是构建真正的具身智能(Embodied AI)的基础设施。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“接口统一”的最后一块拼图:让你彻底忘记了“充电”

“接口统一”的最后一块拼图:让你彻底忘记了“充电”

硅星人
2026-01-18 10:57:44
包男模、开赌场、当情妇,2年赚800万,看“美女赌王”的荒唐人生

包男模、开赌场、当情妇,2年赚800万,看“美女赌王”的荒唐人生

叹为观止易
2026-01-17 10:17:57
卡里克向拉爵承诺带曼联重返欧战!赢曼城秘诀曝光,弗爵为之鼓掌

卡里克向拉爵承诺带曼联重返欧战!赢曼城秘诀曝光,弗爵为之鼓掌

罗米的曼联博客
2026-01-18 09:04:23
把孩子培养太优秀,是福还是祸?宋世雄住养老院,戳中许多人软肋

把孩子培养太优秀,是福还是祸?宋世雄住养老院,戳中许多人软肋

诗意世界
2026-01-02 17:32:41
为夺格陵兰岛特朗普动手了 :向欧洲8国加10%关税,6月1日起提高至25%!

为夺格陵兰岛特朗普动手了 :向欧洲8国加10%关税,6月1日起提高至25%!

每日经济新闻
2026-01-18 12:32:22
北京地铁10号线发生意外

北京地铁10号线发生意外

美丽大北京
2026-01-18 09:10:52
杰拉德:手球判罚确实有争议,但不是阿森纳没拿到三分的原因

杰拉德:手球判罚确实有争议,但不是阿森纳没拿到三分的原因

懂球帝
2026-01-18 16:05:26
蒋家第四代长公主称,与蒋家已无来往,嫁给英王室后裔生四国混血

蒋家第四代长公主称,与蒋家已无来往,嫁给英王室后裔生四国混血

兴趣知识
2025-12-29 01:40:08
李沁刚出道时照片曝光,腿上都是淤青,看着让人好心疼

李沁刚出道时照片曝光,腿上都是淤青,看着让人好心疼

动物奇奇怪怪
2026-01-16 12:31:20
52岁王小骞为11岁女儿痛哭!早产儿患矮小症,过度减肥又患正食症

52岁王小骞为11岁女儿痛哭!早产儿患矮小症,过度减肥又患正食症

艺能八卦局
2025-12-25 04:49:17
第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

第一个力挺丹麦的战友出现!只要美国敢出兵,立马使出2大绝招

策略述
2026-01-16 19:16:02
敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

敢赢陈毅元帅三步棋的聂卫平,为何从不利用他的顶级人脉?

刘哥谈体育
2026-01-17 10:41:47
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
半导体材料,重大突破!碳化硅龙头,已抢先发力

半导体材料,重大突破!碳化硅龙头,已抢先发力

数据宝
2026-01-17 17:50:23
随着萨拉赫罚丢点球+比分2-4,埃及轰然倒下,非洲杯季军浮出水面

随着萨拉赫罚丢点球+比分2-4,埃及轰然倒下,非洲杯季军浮出水面

侧身凌空斩
2026-01-18 02:17:55
1955 首次授衔,3000 老红军拟授列兵,罗荣桓上报获 5 字批

1955 首次授衔,3000 老红军拟授列兵,罗荣桓上报获 5 字批

磊子讲史
2026-01-15 14:51:27
强渡大渡河共有18人,55年全军授衔,级别最高的一位是什么军衔?

强渡大渡河共有18人,55年全军授衔,级别最高的一位是什么军衔?

史韵流转
2026-01-09 10:00:01
iPhone 18 Pro 外观设计曝光

iPhone 18 Pro 外观设计曝光

简科技
2026-01-18 09:48:07
1951年,58师全军抗命,师长:出了事脑袋给主席送去!结果怎样?

1951年,58师全军抗命,师长:出了事脑袋给主席送去!结果怎样?

史海孤雁
2026-01-05 16:35:10
单纯控球没意义!曼城真核炮轰瓜帅战术 首回合赢球法宝被抛弃

单纯控球没意义!曼城真核炮轰瓜帅战术 首回合赢球法宝被抛弃

雪狼侃体育
2026-01-18 13:43:15
2026-01-18 16:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普向各国开价:"和平委员会"永久席位 10亿美元

头条要闻

特朗普向各国开价:"和平委员会"永久席位 10亿美元

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

教育
旅游
健康
艺术
数码

教育要闻

解方程,越简单,越出错

旅游要闻

参观青岛档案馆,了解青岛历史

血常规3项异常,是身体警报!

艺术要闻

海边细沙被他表现得如此真实 | 马克·汉森

数码要闻

存储涨价行情下如何省钱?新年高性价比DDR4主机配置推荐

无障碍浏览 进入关怀版