网易首页 > 网易号 > 正文 申请入驻

单张4090跑到30fps,范浩强团队让VLA实时跑起来了

0
分享至



VLA(Visual-Language-Action)大模型到底能跑多快?在这篇 RT-VLA(Real-time VLA)论文中,来自 Dexmal 原力灵机(由范浩强等人联合创立的具身智能公司)的研究者公布了一个反直觉的发现:它可以非常快!

具体而言,对于常用的 Pi0 级别的模型(30 亿参数),在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。这和大家对于 VLA 模型动辄要几十甚至上百毫秒的刻板印象形成鲜明对比。

为实现这点,研究者深入分析 Pi0 的模型结构,通过一系列优化把用时从开始的 100+ ms 进行数倍缩减(针对双视角,甚至已经达到 27ms),显著强于 openpi 里采用的基于 jax 的自动优化的结果。

此外,研究者基于现有结果探讨了未来的“实时”运行的 VLA 结构,设计出一个有潜力最高实现 480Hz 闭环控制的算法框架。目前,优化后的代码已在 GitHub 开源,全部实现均打包为一个只依赖于 torch 和 triton 的单一文件,大家可在自己的项目里 “开箱即用”。这是Dexmal 原力灵机继开源一站式 VLA 工具箱 Dexbotic之后的又一开源代码工作。



  • 论文名称:Running VLAs at Real-time Speed
  • 论文链接:https://arxiv.org/abs/2510.26742
  • GitHub:https://github.com/Dexmal/realtime-vla

解决什么痛点?

现在机器人 VLA 大模型动辄几十亿参数,虽然有不错的泛化能力,但是延迟问题总是绕不过。即使是在高端推理显卡上,高达百毫秒级别的推理时间让机器人的实时控制困难重重,就像一个人看见东西后要愣一下才做出动作。

如果我们能够把模型运行到和相机一样快的频率(25fps、30fps 甚至 50fps),那么就可以在完全不丢帧的情况下处理视觉信息,让 VLA 模型的实时运行成为可能。

如何实现?



Pi0 模型计算流程图示,它主要包括 1 个视觉编码器,1 个编码器和 1 个解码器;所有这些又可进一步分解为一系列的矩阵乘法和标量运算。

对于 Transformer 这类模型,当它进行单次推理(比如只处理一个问题或一张图片)时,其内部计算过程实际上是由一长串零碎的 “矩阵计算小任务” 组成;而像 Pi0 这种采用 “流匹配” 技术的模型,需要反复迭代十次才能得出最终结果,每一次迭代本身就包含几十层计算。这样算下来,整个推理过程涉及数百层、上千个操作。任务如此零碎,让计算优化变得异常困难。

本文研究者通过深入分析模型推理过程中的计算问题,融合和并行优化每一个计算步骤,清除了推理方面的大部分障碍,再加上其他方面的优化,最终把整个 VLA 模型跑进了所需的时间之内。

这就像给了 VLA 大模型一份 “高性能 AI 大脑调校指南” ;它通过一系列深入的底层优化,把笨重的 AI 大模型变成能跑实时任务的 “闪电侠”,并在此基础上,构想出一个能同时具备条件反射、视觉反馈和智能思考的下一代机器人控制系统。

效果展示



上图所示的任务是抓取一支自由下落的笔。 这个任务对反应时间的要求极为苛刻。机器人观察到笔开始下落后,必须在极短的时间内做出反应并在正确的时间启动抓取动作,快一点或者慢一点都会导致任务失败。

最终呈现的效果是 从 “看到笔” 到 “执行抓取” 的端到端总反应时间被缩短到 200 毫秒以内,这大概对应到一个 30 cm 左右的最短下落距离。而人类在这个任务上的一般表现也不过如此。

下一步规划



基于上述取得的成果,研究者设计了一套完整的、围绕 GPU 打造的机器人控制框架,它能驱动 VLA 大模型,像 “直播” 一样对机器人进行流式的实时控制,让机器人拥有 3 种不同速度的 “反应神经”:

  • 超快反应(480Hz):处理来自力传感器等高速信号。就像你的手一碰到烫的东西会瞬间缩回,不需要经过大脑思考。这部分由模型的 “解码器” 负责,能每秒生成 480 次控制指令。
  • 视觉反应(30Hz):处理来自摄像头的画面。就像你看着球飞过来,用眼睛跟踪并判断落点。这部分由模型的 “编码器” 负责。
  • 智能思考(<1Hz):处理语言理解和任务规划。就像你在执行任务时,还能分心听一下队友的指令或者自己琢磨一下策略。这部分速度最慢,但赋予了机器人更高的智能。

通过分析与实验,这个框架下一步规划最高能以 480Hz 的频率生成机器人控制信号;这个速度,已经摸到了实现基于力反馈进行控制的门槛。

未来展望

机器人有没有可能达到 “又聪明又快” 的效果?这篇文章只是一个起点。针对未来不断增加中的边缘计算算力,研究者展望了更进一步的可能性:

  • “眼睛” 最快能有多快?从 30fps 到 60fps,甚至 120fps,是否有更多的任务变得可行?
  • “大脑” 最大能有多大?在实时性约束下,我们是否可以从 3B 模型,走向 7B,13B 模型,甚至更大模型?
  • “反应” 速度的极限在哪里?在 VLA 框架下,我们是否还可以建立亚毫秒、甚至微秒级的反馈回路?

从这篇文章出发,一个能够参与实时控制 VLA 的世界的大门正在被打开。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方愤怒升级!24小时内两次“奉示约见”,新闻联播3分钟警告高市早苗......最新:日本还想发展核潜艇!

中方愤怒升级!24小时内两次“奉示约见”,新闻联播3分钟警告高市早苗......最新:日本还想发展核潜艇!

新民周刊
2025-11-15 18:35:44
狗主人真实身份遭曝光:她带人砸窗破门确实有底气,还真管不了她

狗主人真实身份遭曝光:她带人砸窗破门确实有底气,还真管不了她

汉史趣闻
2025-11-16 08:12:31
高市还在搞事?日本同时被四国痛批,一盟友划清界限!

高市还在搞事?日本同时被四国痛批,一盟友划清界限!

国是直通车
2025-11-15 11:10:05
卓伟爆了一个新瓜!

卓伟爆了一个新瓜!

八卦疯叔
2025-11-15 10:16:28
因菜地纠纷引发冲突,男子遭殴打后持刀刺死亲戚父子二人,一审被判死刑,法院:带有明显泄愤动机

因菜地纠纷引发冲突,男子遭殴打后持刀刺死亲戚父子二人,一审被判死刑,法院:带有明显泄愤动机

大风新闻
2025-11-16 12:24:03
金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

萌神木木
2025-11-15 19:10:03
宁夏银川16岁女孩失联5天,家属称孩子没带身份证,带的手机没有电话卡,警方介入

宁夏银川16岁女孩失联5天,家属称孩子没带身份证,带的手机没有电话卡,警方介入

极目新闻
2025-11-16 13:15:10
前男友分手四月就结婚,女子破防大哭,现任被扒很漂亮,难怪破防

前男友分手四月就结婚,女子破防大哭,现任被扒很漂亮,难怪破防

揽星河的笔记
2025-11-14 17:22:32
山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

慢半拍sir
2025-11-15 15:15:14
太及时了!防止大规模返乡意义重大,农民工“回家躺平”行不通

太及时了!防止大规模返乡意义重大,农民工“回家躺平”行不通

火山诗话
2025-11-16 07:49:52
教育部发布2025年第4号留学预警:建议中国公民谨慎规划赴日留学安排

教育部发布2025年第4号留学预警:建议中国公民谨慎规划赴日留学安排

界面新闻
2025-11-16 13:03:33
确定!不打了,再见NBA,你好CBA,24岁状元之子正式加盟中国联赛

确定!不打了,再见NBA,你好CBA,24岁状元之子正式加盟中国联赛

球童无忌
2025-11-16 12:32:07
东莞一平台自曝出现挤兑,所签协议刻意遮掩“投资”属性

东莞一平台自曝出现挤兑,所签协议刻意遮掩“投资”属性

新浪财经
2025-11-13 20:35:37
局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

云鹏叙事
2025-11-15 13:09:29
泰王来了,他在破除一个魔咒

泰王来了,他在破除一个魔咒

虚声
2025-11-15 19:59:17
狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

狗主上门被反杀后续:索赔百万、对警方放狠话,邻居曝光郭家不堪

吭哧有力
2025-11-15 18:42:28
13天12板“大牛股”,可能申请停牌核查!前三季度净利大跌146%

13天12板“大牛股”,可能申请停牌核查!前三季度净利大跌146%

每日经济新闻
2025-11-13 19:40:42
交管12123重大更新!违章当天直达通知,4次免罚正确打开方式速藏

交管12123重大更新!违章当天直达通知,4次免罚正确打开方式速藏

阿芒娱乐说
2025-11-16 10:51:47
中方多个用词罕见!高市的“存亡危机”不在台海

中方多个用词罕见!高市的“存亡危机”不在台海

国是直通车
2025-11-16 10:59:02
高市早苗彻底践踏“村山谈话”!31年前就有迹象

高市早苗彻底践踏“村山谈话”!31年前就有迹象

看看新闻Knews
2025-11-15 13:07:20
2025-11-16 16:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

谁在炒作全固态电池?

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

头条要闻

樊振东成马龙后第二位蝉联全运会乒乓球男单金牌球员

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

宋佳二封,易烊千玺拿奖张艺谋乐开花

财经要闻

涉三宗罪 释永信被批准逮捕

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
时尚
数码
本地
公开课

艺术要闻

敦煌挖出“百亿级”草书,揭露纯正的晋唐笔法,郭沫若寻找了70多年!

提升冬日幸福感的8件小事,放松又治愈

数码要闻

逆势而行?Valve新款Steam Machine官宣,8GB显存配置引发争议

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版