在 LIBERO 基准测试中,StreamingVLA 在保持 94.9% 高成功率(与基线模型 95.1% 基本持平)的同时,将单动作延迟缩短至 31.6 毫秒,实现 2.4 倍端到端加速,并将执行过程中的卡顿时间从 232.3 毫秒大幅压缩至 36.0 毫秒,降幅达 6.5 倍。在真机实验中,StreamingVLA 使得平均动作延迟由 271.49 毫秒降低到 170.88 毫秒,实现 1.58 倍加速,为 VLA 模型在真实场景中的高效部署提供了新的解决方案。
![]()
图:StreamingVLA 的整体框架与效果
![]()
首先需要明确当前 VLA 模型部署的核心矛盾,随着 VLA 模型规模的不断扩大,其在实际部署中面临的效率问题日益突出,尤其是在资源受限的边缘设备上,高延迟与执行卡顿成为制约其应用的关键瓶颈。
现有 VLA 模型通常采用同步执行流水线,即 “场景观测 - 动作生成 - 动作执行” 三个阶段依次进行,每一阶段必须等待前一阶段完成后才能开始。动作的生成需要等待场景观测 VLM 处理完成之后才能开始,动作执行需要等待完整的动作生成,而下一轮的场景观测又需要等待全部的动作执行完成。这种串行机制导致机器人在执行过程中频繁停顿,动作缺乏连贯性。以当前主流的 Pi0.5 模型为例,其执行过程中存在的空闲等待时间(即卡顿时间)严重影响了任务的执行流畅度与用户体验。
![]()
一、系统性分析:识别 VLA 动作卡顿的本质原因,提出延时分析框架
首先,观测阶段中,VLM 根据当前图像、语言指令与机器人状态生成隐层特征(KV Cache);动作生成阶段中,动作专家基于这些特征通过扩散过程生成一个包含多个未来动作的动作块;最后,执行阶段中,机器人依次执行这些动作,完成后进入下一轮循环(如图左下侧所示)。
在传统同步执行模式下,三个阶段严格串行,彼此等待。这意味着在每次动作执行完毕后,系统必须等待下一次观测与动作生成全部完成才能继续执行,由此产生的卡顿时间等于观测时间与动作生成时间之和。实际测试表明,这一等待时间相当可观,是导致机器人动作不连贯的主要根源。
![]()
图:StreamingVLA 对执行时序的系统性分析与优化
二、方案设计
(一)动作流匹配:实现生成与执行的并行
![]()
图:基于状态建模的动作流匹配方法
在传统 VLA 模型的执行流水线中,动作生成与执行阶段严格串行,这是造成系统效率低下的主要原因之一。具体而言,在动作块生成机制下,动作专家通过多步扩散去噪过程一次性生成包含多个未来动作的动作块,只有当整个动作块完全生成后,机器人才能开始执行其中的第一个动作。这种 “先全部生成,再依次执行” 的模式,使得动作生成与执行之间无法产生任何时间重叠。
通过上述扩展与调整,动作流匹配得以在大型 VLA 模型中成功部署,显著缩短了动作生成与执行之间的等待时间,为实现 “生成 - 执行” 维度的并行奠定了坚实基础。
(二)自适应提前观测:实现观测与执行的并行
![]()
图:动作显著性感知的自适应提前观测
在动作流匹配解决了 “生成 - 执行” 并行问题之后,系统延迟的另一主要来源 ——“观测” 与 “执行” 之间的串行等待 —— 便成为进一步优化的关键。若能使 VLM 在机器人尚未完成全部动作时就提前开始下一轮观测的处理,则观测与执行的时间便能够产生重叠,从而进一步缩短卡顿时间。提前观测技术正是针对这一目标提出的,其核心思想是在机器人执行当前动作块的部分动作后即开始下一轮观测的 VLM 推理。
动作显著性,即某一动作对后续观测结果的影响程度。高显著性动作(如大幅度移动)会引发环境的剧烈变化,若在尚未执行此类动作时就提前观测,VLM 得到的环境信息与实际物理环境之间将出现严重不匹配,生成的后续动作自然难以准确。相反,低显著性动作对环境变化影响甚微,提前观测造成的误差也相应较小。
三、实验结果:双重优异的性能与效率
(一)模拟环境测试
![]()
(二)消融实验
消融实验进一步验证了各模块的有效性。状态对齐是动作流匹配成功的关键,缺乏对齐会直接导致训练失败,而引入对齐后模型成功率跃升至 97.1%,同时延迟与卡顿均大幅降低。自适应提前观测相比随机提前观测,在相同触发频率下将成功率从 90.9% 提升至 94.9%,充分证明了其智能调度的有效性。
![]()
(三)真机实验
四、总结与展望
这一工作为研究者提供了更深入的启发:在构建高效的具身智能系统时,优化不应仅停留在模型压缩层面,更应关注执行流程的协同与并行。StreamingVLA 所展现的 “流式” 执行思想,不仅适用于 VLA 模型,也为其他多阶段、多模态的实时交互系统提供了新的设计思路,有望推动智能系统在真实场景中的高效部署与广泛应用。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.