网易首页 > 网易号 > 正文 申请入驻

单张4090跑到30fps,范浩强团队让VLA实时跑起来了

0
分享至



VLA(Visual-Language-Action)大模型到底能跑多快?在这篇 RT-VLA(Real-time VLA)论文中,来自 Dexmal 原力灵机(由范浩强等人联合创立的具身智能公司)的研究者公布了一个反直觉的发现:它可以非常快!

具体而言,对于常用的 Pi0 级别的模型(30 亿参数),在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。这和大家对于 VLA 模型动辄要几十甚至上百毫秒的刻板印象形成鲜明对比。

为实现这点,研究者深入分析 Pi0 的模型结构,通过一系列优化把用时从开始的 100+ ms 进行数倍缩减(针对双视角,甚至已经达到 27ms),显著强于 openpi 里采用的基于 jax 的自动优化的结果。

此外,研究者基于现有结果探讨了未来的“实时”运行的 VLA 结构,设计出一个有潜力最高实现 480Hz 闭环控制的算法框架。目前,优化后的代码已在 GitHub 开源,全部实现均打包为一个只依赖于 torch 和 triton 的单一文件,大家可在自己的项目里 “开箱即用”。这是Dexmal 原力灵机继开源一站式 VLA 工具箱 Dexbotic之后的又一开源代码工作。



  • 论文名称:Running VLAs at Real-time Speed
  • 论文链接:https://arxiv.org/abs/2510.26742
  • GitHub:https://github.com/Dexmal/realtime-vla

解决什么痛点?

现在机器人 VLA 大模型动辄几十亿参数,虽然有不错的泛化能力,但是延迟问题总是绕不过。即使是在高端推理显卡上,高达百毫秒级别的推理时间让机器人的实时控制困难重重,就像一个人看见东西后要愣一下才做出动作。

如果我们能够把模型运行到和相机一样快的频率(25fps、30fps 甚至 50fps),那么就可以在完全不丢帧的情况下处理视觉信息,让 VLA 模型的实时运行成为可能。

如何实现?



Pi0 模型计算流程图示,它主要包括 1 个视觉编码器,1 个编码器和 1 个解码器;所有这些又可进一步分解为一系列的矩阵乘法和标量运算。

对于 Transformer 这类模型,当它进行单次推理(比如只处理一个问题或一张图片)时,其内部计算过程实际上是由一长串零碎的 “矩阵计算小任务” 组成;而像 Pi0 这种采用 “流匹配” 技术的模型,需要反复迭代十次才能得出最终结果,每一次迭代本身就包含几十层计算。这样算下来,整个推理过程涉及数百层、上千个操作。任务如此零碎,让计算优化变得异常困难。

本文研究者通过深入分析模型推理过程中的计算问题,融合和并行优化每一个计算步骤,清除了推理方面的大部分障碍,再加上其他方面的优化,最终把整个 VLA 模型跑进了所需的时间之内。

这就像给了 VLA 大模型一份 “高性能 AI 大脑调校指南” ;它通过一系列深入的底层优化,把笨重的 AI 大模型变成能跑实时任务的 “闪电侠”,并在此基础上,构想出一个能同时具备条件反射、视觉反馈和智能思考的下一代机器人控制系统。

效果展示



上图所示的任务是抓取一支自由下落的笔。 这个任务对反应时间的要求极为苛刻。机器人观察到笔开始下落后,必须在极短的时间内做出反应并在正确的时间启动抓取动作,快一点或者慢一点都会导致任务失败。

最终呈现的效果是 从 “看到笔” 到 “执行抓取” 的端到端总反应时间被缩短到 200 毫秒以内,这大概对应到一个 30 cm 左右的最短下落距离。而人类在这个任务上的一般表现也不过如此。

下一步规划



基于上述取得的成果,研究者设计了一套完整的、围绕 GPU 打造的机器人控制框架,它能驱动 VLA 大模型,像 “直播” 一样对机器人进行流式的实时控制,让机器人拥有 3 种不同速度的 “反应神经”:

  • 超快反应(480Hz):处理来自力传感器等高速信号。就像你的手一碰到烫的东西会瞬间缩回,不需要经过大脑思考。这部分由模型的 “解码器” 负责,能每秒生成 480 次控制指令。
  • 视觉反应(30Hz):处理来自摄像头的画面。就像你看着球飞过来,用眼睛跟踪并判断落点。这部分由模型的 “编码器” 负责。
  • 智能思考(<1Hz):处理语言理解和任务规划。就像你在执行任务时,还能分心听一下队友的指令或者自己琢磨一下策略。这部分速度最慢,但赋予了机器人更高的智能。

通过分析与实验,这个框架下一步规划最高能以 480Hz 的频率生成机器人控制信号;这个速度,已经摸到了实现基于力反馈进行控制的门槛。

未来展望

机器人有没有可能达到 “又聪明又快” 的效果?这篇文章只是一个起点。针对未来不断增加中的边缘计算算力,研究者展望了更进一步的可能性:

  • “眼睛” 最快能有多快?从 30fps 到 60fps,甚至 120fps,是否有更多的任务变得可行?
  • “大脑” 最大能有多大?在实时性约束下,我们是否可以从 3B 模型,走向 7B,13B 模型,甚至更大模型?
  • “反应” 速度的极限在哪里?在 VLA 框架下,我们是否还可以建立亚毫秒、甚至微秒级的反馈回路?

从这篇文章出发,一个能够参与实时控制 VLA 的世界的大门正在被打开。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京一村委会原主任被查!

北京一村委会原主任被查!

潇湘晨报
2025-11-03 15:10:41
为什么我在股市从不亏钱,只买一种股票,用最简单的方式持续盈利

为什么我在股市从不亏钱,只买一种股票,用最简单的方式持续盈利

股经纵横谈
2025-11-02 18:18:45
直冲30℃!江西天气又要大反转!

直冲30℃!江西天气又要大反转!

新浪财经
2025-11-04 06:12:43
三上悠亚、五日市芽依、姬咲华、一之濑葵、天川空 岛国明星动态

三上悠亚、五日市芽依、姬咲华、一之濑葵、天川空 岛国明星动态

素然追光
2025-11-04 00:50:03
上海强坐女生腿上的老人“社会性死亡”:名声毁了,家人也被连累

上海强坐女生腿上的老人“社会性死亡”:名声毁了,家人也被连累

史行途
2025-11-03 17:59:52
全网社死!上海出轨律师大有来头,已躲起来,小三航空公司遭围攻

全网社死!上海出轨律师大有来头,已躲起来,小三航空公司遭围攻

揽星河的笔记
2025-11-03 18:19:03
沈泊洋遭查后,赵少康慌了?节目言论揭真实担忧

沈泊洋遭查后,赵少康慌了?节目言论揭真实担忧

动物奇奇怪怪
2025-11-02 03:21:29
关于穆斯林认为他们受到就业歧视的问题

关于穆斯林认为他们受到就业歧视的问题

名人苟或
2025-11-04 06:02:41
“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

“昨日开门迎客,今日关门打狗”就是饮鸩止渴的玩法

细雨中的呼喊
2025-11-02 23:52:05
茅台降速:一场宴席的散场,还是泡沫的出清?| 酒水系列

茅台降速:一场宴席的散场,还是泡沫的出清?| 酒水系列

小蜜情感说
2025-11-03 15:54:02
不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

不回头了?富士康决定转移3000亿产能,外媒:郭台铭把饭碗端走了

混沌录
2025-10-22 21:54:06
现在,压力给到了上海

现在,压力给到了上海

梳子姐
2025-11-03 11:52:51
苹果正式发布网页版App Store

苹果正式发布网页版App Store

cnBeta.COM
2025-11-04 04:46:21
没想到,去银行提金被拒了

没想到,去银行提金被拒了

邓姐姐的美好生活提案
2025-11-03 18:53:12
跟队记者:米兰球员去国家队受伤然后缺席的循环必须停止

跟队记者:米兰球员去国家队受伤然后缺席的循环必须停止

懂球帝
2025-11-04 07:49:29
加速,四大消息,超预期!人形机器人,11月要走主升浪?(附股)

加速,四大消息,超预期!人形机器人,11月要走主升浪?(附股)

我不叫阿哏
2025-11-03 02:08:51
许绍雄离世,83版《射雕英雄传》“落幕”演员已达20位!

许绍雄离世,83版《射雕英雄传》“落幕”演员已达20位!

青岛城市档案论坛
2025-11-02 07:46:10
他曾在炮兵制造很多问题,调成都军区几年后被撤职,下放到炼油厂

他曾在炮兵制造很多问题,调成都军区几年后被撤职,下放到炼油厂

谈古论今历史有道
2025-11-03 17:20:03
美国夫妻首次来中国,将150万百达翡丽手表放路边测试,结果愣住

美国夫妻首次来中国,将150万百达翡丽手表放路边测试,结果愣住

卡西莫多的故事
2025-11-03 11:11:27
被25w人点赞的中古风小家,看完我悟了:是真的好看又松弛!晒晒

被25w人点赞的中古风小家,看完我悟了:是真的好看又松弛!晒晒

时尚舒适家
2025-11-01 09:00:03
2025-11-04 08:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11635文章数 142497关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

全世界静待美国最高法怎么判 特朗普突然改口"不去了"

头条要闻

全世界静待美国最高法怎么判 特朗普突然改口"不去了"

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

亲子
健康
艺术
教育
房产

亲子要闻

原来看十二少并不是一件很小众的事情!

超声探头会加重受伤情况吗?

艺术要闻

刘溢:当代超现实主义画家

教育要闻

说课的八大技巧

房产要闻

信达·繁花里 | 老照片征集活动 温情启幕

无障碍浏览 进入关怀版