网易首页 > 网易号 > 正文 申请入驻

HiF-VLA:以motion为中心打造「边想边做」的世界动作模型

0
分享至



本文第一作者为西湖大学科研助理蔺明慧,通讯作者为阿里巴巴达摩院算法专家黄思腾和西湖大学人工智能系副主任王东林。所有作者均来自西湖大学机器智能实验室(MiLAB)和西湖机器人科技有限公司,团队工作 ReconVLA 近期获得 AAAI 2026 最佳论文奖。

具身智能要想真正在复杂场景中落地,离不开对长程任务(Long-horizon tasks)的稳定执行。然而,现有的 VLA(视觉-语言-动作)模型大多停留在「动作模仿」阶段,缺乏对物理世界动态变换的深刻理解,在长线操作中极易陷入因果混淆;同时,传统通过直接堆叠多帧图像来引入时间维度的方法,不仅容易引入大量静态背景冗余,更会带来灾难性的推理延迟与显存溢出。



为解决上述挑战,来自西湖大学、浙江大学、西湖机器人等机构的研究团队提出了一种以运动(Motion)为中心的全新双向时空推理框架 HiF-VLA。抛弃冗余的像素级输入,HiF-VLA 巧妙提取低维紧凑的 Motion 向量作为动态先验,在一个创新的「联合专家」模块中,同步完成未来视觉运动的预测与高精度动作序列的生成。

相比传统的时空建模范式,HiF-VLA 彻底摒弃了无用的视觉背景干扰,不仅在极长的历史观测窗口下依然保持了恒定、极低的推理延迟,更赋予了机器人真正「边想边做」的物理直觉。在 CALVIN 与 LIBERO-LONG 等长程任务评测中,其成功率显著超越现有 SOTA 方法,为构建真正理解世界运行规律的 WAM(世界动作模型)开辟了全新路径。

目前,该工作已被 CVPR 2026 接收,代码已开源。

  • 论文地址:HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
  • 论文链接:
  • https://arxiv.org/abs/2512.09928
  • 项目主页:
  • https://hifvla.github.io/
  • 代码:
  • https://github.com/OpenHelix-Team/HiF-VLA

01 研究动机:

从「动作模仿」到「理解物理世界」



当前主流的 VLA(视觉-语言-动作)模型,本质上大多是高级的「动作模仿」。它们接收当前的图像观测,直接映射出对应的动作。

这种范式在短视距任务中尚可应付,但在执行长程任务时却屡屡翻车。为什么?因为模型缺乏对物理世界「动态变化」的理解。它们不知道自己刚才做了什么,也无法预判当前动作会对环境产生怎样的影响,从而极易陷入因果混淆。

要打破这种「短视」魔咒,模型必须从单纯的「动作模仿」走向「物理理解」。这就要求我们引入World Action Model (WAM)的概念——智能体不仅要会「做」,还要能在脑海中「想」(推演环境的变化)。

如何赋予机器人「边想边做」的时空推理能力?最直观的想法是把过去帧和未来帧的图像全部塞进大模型里。但现实是骨感的:图像级别的时空建模不仅会导致算力爆炸,还会引入大量的静态背景冗余,使得关键的物理变化被淹没。HiF-VLA 团队找到了一个高效的切入点:运动(Motion)。

02 核心方案:

HiF-VLA 的「三位一体」时空推理


相比于冗余的像素,Motion 是捕捉物理世界动态演变最纯粹、最高效、最本质的表征。以 Motion 为中心,HiF-VLA 构建了一个名为Hindsight-Insight-Foresight (HiF)的双向时空推理框架。

1. Hindsight(后见之明):打破马尔可夫假设的「记忆锚点」

智能体必须拥有连贯的自我意识。HiF-VLA 将机器人过去的历史帧通过视频编解码器(H.264、MPEG-4 等)提取为低维且紧凑的 Motion 动态先验。这就像给机器人植入了一个记忆中枢,它不需要回看过去的录像,就能精确感知到「环境刚刚经历了怎样的运动变化」。这个历史上下文,是后续一切推理的基石。

2. Insight(洞察现在)和 Foresight(先见之明):走向 WAM 的「全知视角」

真正的智能,既需要扎根当下,更需要预判未来。在 HiF-VLA 框架中,这两个能力被完美解耦又紧密交织,共同构成了迈向 WAM(世界动作模型)的核心:

  • Insight(洞察现在):负责深度解析当前的语言指令和实时视觉观测,让机器人感知「我此时此刻面临的是什么环境,需要完成什么具体目标」。

  • Foresight(预见未来):基于当下的 Insight,HiF-VLA 在输出动作的同时,会初步地预测未来的运动趋势。这相当于在模型内部嵌入了一个虚拟物理模拟器,让机器人能够提前推演自身的行为后果。

3. 深度对齐:视觉与动作的协同预测

这是 HiF-VLA 最为核心、也最出彩的创新——历史调制的联合专家(Hindsight-modulated joint expert)。如果说 Hindsight 和 Foresight 拉长了时间轴,那么联合专家模块则改变了模型的生成目标。HiF-VLA 认为,视觉与动作的割裂是阻碍模型理解物理规律的绊脚石,因此设计的联合专家模块绝不是简单地将视觉特征和语言指令拼接,而是执行了一个双目标协同的策略:

  • 视觉 Motion 预测 + 动作序列生成:联合专家在历史信息(Hindsight)的动态调制下,被强制要求同时输出对未来视觉 Motion 的预测以及高精度的执行动作序列。

  • 为什么这很重要?这种双目标的联合对齐,逼迫模型不能只死记硬背动作,而是必须去理解「我输出这个动作后,物理世界的视觉表征会发生怎样的动态变换」。

通过将「预测未来视觉变化(想)」与「规划动作序列(做)」深度绑定,HiF-VLA 实现了真正的Think-while-acting(边想边做)。它不再是盲目地模仿专家轨迹,而是产生了真实的「物理直觉」。

03 实验结果


Q1:HiF-VLA 与 SOTA 的 VLA 模型相比较如何?

HiF-VLA 在多样化的短程和长程任务中展现出了强大的能力。





团队尤其关注 HiF-VLA 在长程任务上的表现。在 LIBERO-LONG 任务套件以及 CALVIN ABC-D 长程任务评测中,HiF-VLA 的表现显著优于诸多 SOTA 方法。同时,在真实世界的长程任务测试中,HiF-VLA 也展现出更加稳定且优越的任务完成性能(更多详细指标请参阅原论文)。

Q2:HiF-VLA 是否有效地缓解了传统方法中的视觉冗余和低效问题?



❌ 传统做法的困境:当简单粗暴地将历史多帧图像塞给模型时,显存瞬间爆炸。峰值 GPU 显存直接翻倍飙升至 63.6 GB(涨幅 2.06 倍),推理延迟更是暴增到 229.5 ms(高达 3.15 倍)。更令人窒息的是,由于引入了海量冗余的静态背景噪声,模型反而被干扰了视线,平均成功率(Avg. SR)不升反降。

✅ HiF-VLA 的解决方案:HiF-VLA 巧妙地将历史帧编码为低维、结构化的运动向量。引入 Hindsight 模块后,模型面对同样长度的历史窗口,峰值显存仅仅维持在 31.4 GB,相较于 Baseline 几乎做到了「零负担」(仅增加极微小的 1.02 倍开销)。同时,推理延迟(117.7 ms)也远低于传统堆叠方法。最重要的是,在剔除了视觉冗余后,它让模型能专注理解物理运动,成功将平均成功率大幅提升。

Q3:随着时间跨度的增加,HiF-VLA 在推理时的可扩展性如何?



拒绝指数级成本增长,打破长序列计算瓶颈。

从推理效率对比图可以直观看出,随着历史时间跨度的增加,传统堆叠图像帧的方法会遭遇指数级的计算延迟暴涨甚至显存溢出(OOM)。而 HiF-VLA 凭借提取低维紧凑的 Motion 特征,彻底打破了长序列推理的计算瓶颈,随着历史观测窗口变长,都始终保持稳定且极低的推理延迟,展现出了在处理长程动态变换时强大的时间可扩展性。

Q4:HiF-VLA 所谓的「边想边做」究竟是怎样的过程?



眼见为实:motion 预测与 action 执行的时空高度吻合。

从可视化结果中可以看到,HiF-VLA 在执行动作的同一时刻,其内部联合专家模块已经精准预测出了由红色箭头标识的未来视觉运动场。这有力地证明了模型并非在盲目背诵指令,而是真正实现了「边想边做」。它能清晰地预判自身动作将引发环境中怎样的物理动态变换,从而在复杂任务中展现出精准的「物理直觉」。

04 总结


从机械的「动作模仿」进化为理解物理规律的「世界动作模型(WAM)」,HiF-VLA 迈出了至关重要的一步。它证明了机器人的动作不应只是对指令的盲目响应,而应当是在对过去的洞察与对未来的预判交织下,自然而然的物理反馈。对于具身智能走向更复杂、更真实的物理世界,HiF-VLA 无疑提供了一个极具潜力和启发性的全新范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耻辱!弗格森痛骂阿森纳!25% 控球率踢成橄榄球

耻辱!弗格森痛骂阿森纳!25% 控球率踢成橄榄球

奶盖熊本熊
2026-06-01 04:25:57
因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

品读时刻
2026-05-24 09:01:06
被国家队开除的马俊仁,如今样了?

被国家队开除的马俊仁,如今样了?

鉴史录
2026-06-01 11:48:32
央媒调查稻城亚丁“道路设卡摆渡收费”:收的什么费?景区有权设卡吗?

央媒调查稻城亚丁“道路设卡摆渡收费”:收的什么费?景区有权设卡吗?

澎湃新闻
2026-05-31 07:54:04
乌拉圭公布世界杯26人名单:皇马1.2亿巨星领强阵!39岁苏神落选

乌拉圭公布世界杯26人名单:皇马1.2亿巨星领强阵!39岁苏神落选

我爱英超
2026-05-31 22:04:33
女主播买成人用品,粉丝使用后发起退货,主播愤怒发文咒骂

女主播买成人用品,粉丝使用后发起退货,主播愤怒发文咒骂

新游戏大妹子
2026-06-01 11:27:02
奚梦瑶婚礼现场图!一双儿女当花童,四太笑的开心,谷爱凌也来了

奚梦瑶婚礼现场图!一双儿女当花童,四太笑的开心,谷爱凌也来了

观察鉴娱
2026-06-01 08:45:29
看球幕不用去拉斯维加斯了,我国多地都将建造,上海和广州的最大

看球幕不用去拉斯维加斯了,我国多地都将建造,上海和广州的最大

科普大世界
2026-05-31 17:16:22
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

农村情感故事
2026-03-23 07:31:39
业主不花钱,成都一小区28部电梯全更换!

业主不花钱,成都一小区28部电梯全更换!

成都商报房产发布
2026-06-01 10:37:55
王现坤任廊坊市委书记 李国勇不再担任

王现坤任廊坊市委书记 李国勇不再担任

中国经济网
2026-06-01 09:56:26
戏混子醒醒吧!全程一个表情,一哭就瞪眼,难怪张嘉益都带不动她

戏混子醒醒吧!全程一个表情,一哭就瞪眼,难怪张嘉益都带不动她

阿雹娱乐
2026-06-01 13:10:54
汽车变客厅?中国监管拟禁止零重力座椅

汽车变客厅?中国监管拟禁止零重力座椅

甜份超标的我
2026-05-30 02:11:08
2010年深圳女子重症抢救,丈夫拔掉呼吸机致其死亡,法院判决亮了

2010年深圳女子重症抢救,丈夫拔掉呼吸机致其死亡,法院判决亮了

猫眼观史
2025-04-11 22:19:55
21岁女孩打胎后,男友非要和她缠绵,2018年她怒而将男友杀死

21岁女孩打胎后,男友非要和她缠绵,2018年她怒而将男友杀死

汉史趣闻
2026-06-01 08:40:55
日本记者曾问:北方四岛属于哪国?中方的巧妙回答令对方如芒刺背

日本记者曾问:北方四岛属于哪国?中方的巧妙回答令对方如芒刺背

元哥说历史
2026-05-16 15:10:03
60年前轰动全国的纺织铁人吴桂贤,87岁病逝深圳,一生只认俩字

60年前轰动全国的纺织铁人吴桂贤,87岁病逝深圳,一生只认俩字

墨策史
2026-06-01 01:30:05
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
江浙沪父母到底有多能托举?网友调侃:这辈子只剩喝咖啡的苦

江浙沪父母到底有多能托举?网友调侃:这辈子只剩喝咖啡的苦

另子维爱读史
2026-06-01 09:59:38
2026-06-01 16:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13133文章数 142656关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

天涯社区重启 推出1999元"新天涯创世成员产品服务包"

头条要闻

天涯社区重启 推出1999元"新天涯创世成员产品服务包"

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

本地
数码
教育
公开课
军事航空

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

RTX Spark处理器亮相:英伟达把数据中心搬上了书桌

教育要闻

三年级数学,竖式谜,你有思路吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版