网易首页 > 网易号 > 正文 申请入驻

VLA这条技术线能走通吗?

0
分享至

当GPT-4V、Claude这类视觉语言模型在互联网图文数据的海洋里乘风破浪时,机器人领域的研究者们正试图把这套玩法搬到机械臂和移动机器人身上。视觉语言动作模型(VLA)应运而生,它被寄予厚望,被看作是打通人机交互、实现通用机器人的关键路径。



但喧嚣之下,行业当中也出现了一些质疑与思考,机器人领域的真实数据,真的能做到像 VLM 训练那样的超大规模量级吗?如果做不到,又该如何仅凭有限数据,去论证 VLA 这条技术路线本身就走不通?

靠超大规模参数对机器人数据进行暴力拟合,训出来的模型真的能在真机上实现有效泛化吗?VLA 和成熟的 VLM 之间,真正的技术鸿沟到底在哪?

现在的 VLA 还都停留在做一些即插即用的简单任务,这样的推理速度,真的能支撑现实中高动态、高实时性的复杂任务吗?

01.

数据量是天然的鸿沟!百万级轨迹依旧难以实现高效泛化能力

提到VLM的训练,动辄数十亿的图文对是标配。这些数据唾手可得,从互联网的海量网页到YouTube的视频库,只要有足够的算力,就能源源不断地抓取投喂。反观机器人领域,即便是号称史上最大规模的Open X-Embodiment数据集,也只有170万条轨迹,涵盖22款不同机器人。



这个数字听起来不算小,但放到深度学习的尺度里,连VLM数据量的零头都够不上。更关键的是,机器人数据的采集成本高得离谱。有业内资深人士表示,依靠机器人专家示教一小时,往往只能产出几十条有效数据,人力和时间成本加起来高达数千元。而且这些数据大多集中在pick-and-place这类重复性任务上,任务多样性远不如互联网上五花八门的图文内容。

有人寄希望于仿真平台破局。PhysX、MuJoCo、Isaac Sim这些工具确实能批量生成机器人运动数据,但Sim2Real的鸿沟始终横亘在前。仿真环境里的物理参数、物体摩擦力、材质反射率都是理想化设定,和真实世界的复杂情况相去甚远。就算用上Domain Randomization、Domain Adaptation这些技术来缩小差距,最终效果也充满不确定性,能不能在真机上稳定复现,全看运气。



深度学习的Scaling Law是绕不开的铁律,数据量、模型参数、计算资源三者缺一不可。用远达不到要求的少量数据去训练VLA,最后模型性能不佳,到底是数据不够的锅,还是VLA架构本身不适用?这个问题,没人能给出确切答案。

有行业人士提出两个观察指标,一是泛化性测试,如果在少量多样化任务中,VLA的泛化能力明显弱于模仿学习加微调的传统方法,那或许能说明架构存在缺陷。二是看边际收益,要是数据量从1k涨到10k时,模型性能提升明显,但从10k扩增到100k后,提升变得微乎其微,那大概率是架构容量不足,或者是数据质量跟不上了。不过这些都只是间接证据,要彻底证明VLA走不通,需要大规模实验的负面结果支撑。但在追求正向成果的科研圈,谁又会主动发布负面结果呢?这本质上更像是一个负面的悖论。

02.

暴力堆参行不通?机器人需要的是物理因果 不是统计关联

既然数据量不够,那能不能像NLP领域那样,靠超大规模参数暴力拟合机器人数据?毕竟GPT系列已经证明,参数和数据量到位后,模型会涌现出意想不到的能力,从GPT-3的少样本学习到GPT-4的复杂推理,都是Scaling Law的功劳。

但机器人领域和NLP领域有着本质区别。语言是离散符号系统,即便组合方式再多,也有内在规律可循。物理世界却是连续、高维且非线性的,一个普通的杯子,材质、重量、形状的变化就能衍生出无数种情况,靠模型死记硬背根本不现实。



更关键的是,机器人模型的精度要求远比语言模型高。语言模型产生幻觉,输出几句错误内容,用户大概率能理解。可机器人要是出现“幻觉”,抓取位置偏差2厘米,就是成功和失败的天壤之别。语言模型可以靠统计关联蒙混过关,机器人却必须理解真实的物理因果关系,否则稍微受到外力干扰,就会当场“翻车”。

这意味着,单纯靠堆参数和数据的scale思路,在机器人领域可能行不通。VLA需要引入更强的归纳偏置,才能真正适配物理世界的任务需求。

03.

VLA与VLM的核心鸿沟 不止是输出那么简单

很多人以为,VLA只是VLM的延伸,无非是把输出从文本token换成了机器人动作。但实际上,两者的差距远比想象中要大。

首先是输出空间的差异。VLM输出的是离散的token序列,有明确的概率分布可以遵循。VLA输出的是连续的动作信号,比如关节角度、末端位姿,连续分布的建模难度本身就远超离散分布。

其次是反馈机制的不同。VLM训练时,文本反馈清晰明确,对错一目了然。VLA的训练却只有稀疏的成功或失败信号,大部分时候需要靠强化学习反复试错,才能调整动作策略。这种低效的反馈方式,极大增加了训练难度。

还有一个容易被忽视的点,就是时序依赖的重要性。VLA需要处理动力学层面的时序关联,t时刻的动作会直接影响t+1时刻的机器人状态,误差会随着时间不断累积。这对模型的时序建模能力提出了极高要求,也是VLM不需要面对的挑战。

正因如此,把VLM的那套架构直接照搬过来做VLA,显然是行不通的。研究者们也在探索各种解决方案,比如用VQ-VAE把连续动作离散化,或者在模型中引入接触动力学、稳定性约束等物理先验。但目前来看,这些尝试都还处于初步阶段,离真正解决问题还有很长的路要走。

04.

推理速度的致命伤:高动态任务面前,VLA根本跟不上

除了训练层面的难题,VLA的推理速度更是卡在了实际应用的门槛上。

目前典型的VLA模型,参数量大多在70亿到800亿之间,参考RT-2基于PaLM-E的架构就能看出端倪。在A100这种顶级算力平台上,单次推理的延迟也需要50到200毫秒。



但机器人的控制频率要求,远比这个数字要苛刻。低动态的工业机械臂,比如UR系列、Franka Emika,操作任务的控制频率在10到20Hz,也就是50到100毫秒一次,VLA的推理速度勉强能跟上。可到了中动态任务,比如PR2、Fetch这类移动操作机器人,控制频率提升到50到100Hz,需要10到20毫秒完成一次推理,VLA就显得力不从心了。

至于高动态任务,像波士顿动力的Atlas机器人、MIT的Cheetah猎豹机器人,控制频率高达100到1000Hz,要求1到10毫秒内完成决策。这个速度下,VLA想要完成视觉-语言-动作的全流程推理,无异于天方夜谭。



有人说可以通过技术手段优化推理速度。模型剪枝、量化确实能提速,但代价是精度下降;换用小模型,泛化能力又会大打折扣;异步推理的方案,在需要实时反馈的高动态任务面前,更是毫无用处。

高动态任务需要的是反应式控制,机器人要根据环境的快速变化实时调整动作。而VLA本质上是个“黑盒”模型,想要让它在毫秒级时间内完成复杂决策,难度堪比让帕金森患者去参加奥运会。

05.

分层架构:是无奈的折中,还是最终的出路?

为了解决推理延迟的问题,不少研究团队把目光投向了分层架构。这个思路很直接:把VLA放在高层做决策规划,底层用传统控制器负责精细控制。



具体来说,高层VLA只需要理解“把红色方块放到蓝色碗里”这类自然语言指令,输出粗粒度的轨迹航路点就行,推理速度可以放宽到100毫秒级别。底层则用PID、MPC这些成熟的传统控制算法,以毫秒级的速度跟踪航路点,完成精准动作。

不得不说,这个方案确实能缓解实时性的问题,但随之而来的质疑也很尖锐:这样的架构,还算得上end-to-end的VLA吗?这和VLA最初的设计初衷背道而驰。如果最终还是要依赖传统控制器,那VLA的价值到底在哪里?难道只是一个花里胡哨的任务规划器?和传统的任务规划加运动规划方案,又有什么本质区别?

翻看当下的VLA论文,这种感觉会更加强烈。很多研究都存在严重的选择性筛选问题,只展示成功的实验案例,对失败率绝口不提。而且实验场景大多限定在固定的实验室环境里,用几个固定物体反复测试,得出的成功率看似亮眼,却经不起真实场景的考验。

真要把这样的机器人放到陌生的厨房做饭,或者送到工厂车间搬运零件,能稳定完成任务的寥寥无几。

06.

VLA到底过渡方案 还是未来方向?

站在当下看VLA,更像是具身智能发展路上的一个过渡方案。就像深度学习早期,研究者们试过DBN、RBM、Autoencoder等各种架构,最后才沉淀出CNN、Transformer这样的经典模型。

VLA现在的火爆,很大程度上是沾了Transformer在其他领域的光。看到Transformer在NLP、CV领域大放异彩,研究者们自然想把它搬到机器人领域试试水。再加上大厂有足够的资源堆数据、堆算力,能做出令人眼前一亮的demo,进一步带动了学术界的跟风热潮。毕竟在科研圈,跟着热点走更容易发论文,这也是无可厚非的现实。

但从长远来看,机器人领域终究要回归自身特性。VLA或许能在特定场景下发挥作用,但想要实现真正的通用机器人,大概率需要研究者们跳出Transformer的固有框架,设计出更贴合机器人动力学、物理规律的专用架构。

当然,我们也不能完全否定VLA的潜力。毕竟GPT-4的出现,已经让我们见识到了Scaling Law的巨大威力。谁也不敢保证,当VLA的参数和数据量达到某个临界点时,不会涌现出意想不到的能力。

只是在这个过程中,盲目迷信Scaling Law,忽视机器人领域的特殊性,无疑是危险的。因此VLA到底靠谱不靠谱,现在下结论还为时过早。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈宝莲23岁儿子近照曝光,与邱瓈宽吃年夜饭,身高185cm长相俊俏

陈宝莲23岁儿子近照曝光,与邱瓈宽吃年夜饭,身高185cm长相俊俏

树娃
2026-02-21 11:18:34
“第一软饭男”去世,伺候美国老妇13年,继承268亿,死后钱给谁

“第一软饭男”去世,伺候美国老妇13年,继承268亿,死后钱给谁

来科点谱
2026-02-23 07:04:53
这种和解很痛快:一场酣畅淋漓的性爱胜过千言万语

这种和解很痛快:一场酣畅淋漓的性爱胜过千言万语

精彩分享快乐
2026-02-24 00:10:06
春晚过去1周,王菲争议持续升级!央媒18字一针见血,字字戳心窝

春晚过去1周,王菲争议持续升级!央媒18字一针见血,字字戳心窝

削桐作琴
2026-02-23 22:08:55
林子祥叶倩文越南过年,满头白发超时髦,紧牵无血缘孙女太好磕

林子祥叶倩文越南过年,满头白发超时髦,紧牵无血缘孙女太好磕

一窥究竟
2026-02-23 05:37:45
剥夺继承权!英国政府处理安德鲁,丑态曝光与男童玩耍引热议

剥夺继承权!英国政府处理安德鲁,丑态曝光与男童玩耍引热议

夜深爱杂谈
2026-02-22 20:56:40
造福76亿人!中国突破赤泥炼铁技术,将令全世界产生巨大的变革

造福76亿人!中国突破赤泥炼铁技术,将令全世界产生巨大的变革

青烟小先生
2026-02-16 11:28:34
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
上海楼市2026年起飞了,上海楼市黄浦区房价从10.3万变成9.9万

上海楼市2026年起飞了,上海楼市黄浦区房价从10.3万变成9.9万

有事问彭叔
2026-02-23 19:10:55
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
年少不知邵氏好,长大全都看不了

年少不知邵氏好,长大全都看不了

尚曦读史
2025-11-15 07:07:08
PS6发布延期?索尼主机技术升级与市场挑战剖析

PS6发布延期?索尼主机技术升级与市场挑战剖析

小怪吃美食
2026-02-23 23:16:17
李亚鹏突然提到十年前最难时给黄晓明发短信,不到一分钟收到回复

李亚鹏突然提到十年前最难时给黄晓明发短信,不到一分钟收到回复

百态人间
2026-02-10 15:25:10
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
绝杀梦碎!快船惜败,赛场风云谁主沉浮

绝杀梦碎!快船惜败,赛场风云谁主沉浮

麦咪熊熊
2026-02-24 00:55:45
「墨西哥贩毒集团」疯狂报复政府,墨或面临内战风险,为何如此?

「墨西哥贩毒集团」疯狂报复政府,墨或面临内战风险,为何如此?

闻号说经济
2026-02-23 21:43:09
从SUV换到轿车,开了8年才懂:家用车真正该买的,从来不是面子

从SUV换到轿车,开了8年才懂:家用车真正该买的,从来不是面子

刘哥谈体育
2026-02-22 04:39:48
超越法律的爱!Makiyo离婚2年惊喜合体前婆婆 断联前夫却暖谢她

超越法律的爱!Makiyo离婚2年惊喜合体前婆婆 断联前夫却暖谢她

ETtoday星光云
2026-02-23 11:42:02
卡拉格:曾觉得阿森纳必须弃用约克雷斯?我错了 他有希勒的影子

卡拉格:曾觉得阿森纳必须弃用约克雷斯?我错了 他有希勒的影子

画夕
2026-02-24 00:47:14
斯洛伐克停止向乌克兰提供紧急电力

斯洛伐克停止向乌克兰提供紧急电力

财联社
2026-02-24 01:05:34
2026-02-24 01:36:49
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
6297文章数 4577关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

特朗普2年遭4次刺杀威胁 持枪闯海湖庄园男子身份确认

头条要闻

特朗普2年遭4次刺杀威胁 持枪闯海湖庄园男子身份确认

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

数码
房产
亲子
时尚
军事航空

数码要闻

PC鲜辣报:显卡显存回归8GB配置,微星推芙丽莲联名显卡

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

亲子要闻

孩子长得慢长得矮,查查这四项

今年春天一定要拥有的针织,这样穿减龄又好看!

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版