网易首页 > 网易号 > 正文 申请入驻

与普遍预期相反!清华、阿里Qwen团队联合研究,系统性揭示VLM如何影响VLA性能

0
分享至

大数据文摘受权转载自头部科技

文丨谭梓馨

视觉-语言-动作(VLA)模型最近已成为具身智能领域的研究焦点,VLA模型利用视觉-语言模型(VLM)中丰富的知识作为先验,有助于增强机器人策略的泛化能力。

现有的大多数VLA方法都侧重于开发更先进的网络架构、整合额外的训练范式或模态,以及优化动作解码方案。

然而,对于VLA核心的一个基本问题,目前的关注却十分有限:底层VLM的选择及其特定能力如何影响VLA策略的性能?


针对这个课题, 清华、阿里Qwen团队在日前联合发表的一篇论文中提出了VLM4VLA,这是一个统一的训练和评估框架,旨在系统地研究VLM模型对VLA模型性能的影响。

研究发现,在具身操作任务中,对VLM的性能要求与其视觉问答(VQA)能力并不完全一致。


与普遍预期相反,在通用VQA基准测试中表现良好的VLM,在应用于VLA时并不一定表现得更好。此外,在多个辅助的具身问答(Embodied-QA)任务上,对其中大多数任务进行微调反而会导致最终VLA的性能下降。

评估框架设计

研究人员首先构建了通用的VLM4VLA流水线,可将通用VLM转换为VLA策略,这是一个精心设计的网络插件,仅引入不到1%的新参数


基于VLM4VLA流水线,这项研究在三个常用基准的多个下游任务上进行了大规模实证研究,共评估了24个不同的、零样本或经过微调的VLM,主要从三个维度考察VLM的能力:通用能力、具身特定能力、模态级分析。

初步研究发现,虽然VLM初始化相比从头训练具有持续优势,但VLM的通用能力并不能很好地预测其在下游任务中的性能。

不同基准之间的不一致性表明,VLA策略所需要的能力超出了当前VLM所追求的范围。此外,通过在特定辅助具身任务上微调VLM所获得的提升并不能迁移到下游控制任务中。

最后,模态级分析确定视觉编码器是主要的性能瓶颈, 而非语言组件 。

微调视觉编码器对于实现强控制性能至关重要,而语言编码器的重要性较低。在将与动作相关的信息注入VLM内部的视觉模块后所观察到的显著性能提升,证实了标准VLM预训练与 VLA模型的实际需求 之间存在关键的领域鸿沟。

结果对比和关键结论

为确保实验的可复现性和公平性,这项研究在三个仿真环境中进行测试,并选择最具挑战性的场景作为评估基准:Calvin ABC-D、SimplerEnv Bridge和Libero-Long。



通过绘制多条通用VLM质量保证基准测试结果(横轴代表VLM能力),以及VLA在各仿真环境下的性能(纵轴),并对两者进行线性拟合,结果发现VLM能力与VLA性能之间并无明显的正相关性,更强的VLM并不一定产生更强的VLA,这表明VLM预训练目标与VLA目标之间存在错位。

此外,论文还研究了不同VLM辅助任务对VLA性能的影响。

近期不少研究提出利用机器人数据构建VQA数据集以改进VLM骨干网,但鲜有研究探讨这种持续微调是否真的能提升下游任务中VLA的性能。


结果显示,向VLM添加与具身相关的辅助任务损失并不能保证更强的VLA。所有模型的表现均不如原始基线,大多数模型的性能都出现了轻微下降。

现有的具身VQA风格任务并不能为训练端到端VLA以执行下游操作任务提供明显的益处,这表明VLA可能需要广泛的通用能力,而不仅仅是具身技能,才能在下游任务中表现良好。


在VLM4VLA训练期间,冻结视觉编码器会导致所有模型在Calvin和Simpler两个基准测试上的性能显著下降,这强烈表明,在将VLM适配为VLA时,微调视觉编码器至关重要。

对于VLM和VLA之间差距的分析,研究人员推测,可能源于以下两个因素:

1、真实图像与模拟渲染(真实到模拟):在预训练阶段,视觉模型接触到的桌面模拟渲染图像相对较少。因此,视觉编码器可能缺乏对操作过程中遇到的模拟图像的有效高级语义表示。

2、视觉语言理解与低级动作控制:VLM的视觉编码器编码的视觉特征与QA类任务典型的语言输出目标更加一致,而机器人中的低级动作控制需要不同的视觉线索和表示。

结果还揭示了一个关键洞察,视觉编码器微调的必要性源于“语义鸿沟”,而非仿真伪影,因为,为推理优化的VLM特征缺乏控制任务所需的细粒度表示。VLM视觉编码器捕获语义级别的信息,而VLA需要更详细的空间信息。


虽然VLM预训练对于泛化能力仍然不可或缺,但VLM和VLA的学习轨迹最终会分歧到不同的区域,这种分歧解释了尽管两者最初是对齐的,但它们之间仍然存在显著的差距,这使得必须采用特定的微调策略来弥合多模态理解与机器人操作之间的差异。

研究人员表示,VLM与VLA之间的视觉差异很可能源于视觉-语言任务与底层动作控制任务之间的固有异质性,而不仅仅是简单的图像级“仿真到真实”差距。

爆炸式增长的VLA研究

VLA领域在过去两年经历了显著增长。根据OpenReview上的关键词搜索,在AI顶会ICLR中提交的相关论文数量呈现出有趣的增长趋势。

ICLR 2024仅有1篇;ICLR 2025有6篇论文被接收,3篇被拒;ICLR 2026有164篇论文聚焦和提到VLA,更多学术创新出现在令人兴奋的机器人学领域。


当前VLA研究的现状和该领域取得的进展非常乐观,从架构设计到训练策略和评估方法,不少科研团队对VLA模型的各个方面都展现出浓厚的兴趣和积极贡献。

业内人士认为,投稿数量的爆炸式增长以及在离散扩散和具身推理等有前景的方向上的融合表明,VLA研究正在迅速成熟,随着业内不断突破根本性挑战,我们有望实现超强泛化能力的VLA,促进机器人在混乱的、非结构化的环境中更好工作。


GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么老顾客突然不来照顾生意了?网友:为了一瓶矿泉水查监控

为什么老顾客突然不来照顾生意了?网友:为了一瓶矿泉水查监控

滑稽斑马呀
2025-11-27 17:02:09
牢A直播谈美国斩杀线,“糖霜苹果”一词让美女主持人直接犯恶心

牢A直播谈美国斩杀线,“糖霜苹果”一词让美女主持人直接犯恶心

消失的电波
2026-01-19 20:35:55
面对预制菜风波,和府捞面选择沉默,生意火爆,较真的西贝却黄了

面对预制菜风波,和府捞面选择沉默,生意火爆,较真的西贝却黄了

水晶的视界
2026-01-20 07:59:56
酒色人间,才是生命鲜活的来头

酒色人间,才是生命鲜活的来头

青苹果sht
2026-01-16 05:36:37
同事搭我便车,高速上一路冷嘲热讽,到服务区后:你在这等我一下

同事搭我便车,高速上一路冷嘲热讽,到服务区后:你在这等我一下

兰姐说故事
2025-12-03 12:05:07
特朗普改口:英国做法愚蠢至极!

特朗普改口:英国做法愚蠢至极!

环球时报国际
2026-01-20 23:19:54
安徽一地党政“一把手”同日调整!

安徽一地党政“一把手”同日调整!

凤凰网安徽
2026-01-20 21:44:01
第4艘航母即将问世,解放军3大短板全部补齐,亚太主动权易手?

第4艘航母即将问世,解放军3大短板全部补齐,亚太主动权易手?

开着车去流浪
2026-01-20 07:15:07
彻底服了:韩媒高度赞扬中国队引热议,球迷:终于说了回人话

彻底服了:韩媒高度赞扬中国队引热议,球迷:终于说了回人话

侧身凌空斩
2026-01-21 04:43:49
山东女子曝老公出轨小姑子,在父母屋里抓现行:评论区沸腾!

山东女子曝老公出轨小姑子,在父母屋里抓现行:评论区沸腾!

农村情感故事
2026-01-17 18:47:28
辞职看世界女老师11年后现状:黯然回乡,老公已分手

辞职看世界女老师11年后现状:黯然回乡,老公已分手

咸鱼金脑袋
2026-01-17 07:06:46
嫣然儿童医院背后的男人李亚鹏

嫣然儿童医院背后的男人李亚鹏

凤眼论
2026-01-20 23:26:47
中国海军短板在哪?攻击核潜艇落后20年,何时赶超?

中国海军短板在哪?攻击核潜艇落后20年,何时赶超?

Ck的蜜糖
2026-01-21 11:47:40
美媒很感慨:要不是中国还在反抗特朗普,怕是全世界都向他投降了

美媒很感慨:要不是中国还在反抗特朗普,怕是全世界都向他投降了

通文知史
2026-01-20 23:35:03
加州州长谈特朗普:这家伙把人当傻子耍!这不是外交,这是愚蠢!

加州州长谈特朗普:这家伙把人当傻子耍!这不是外交,这是愚蠢!

老马拉车莫少装
2026-01-20 22:44:31
莫言:人品越好的人,开口越会说这四句话,一定要深交!

莫言:人品越好的人,开口越会说这四句话,一定要深交!

诗词中国
2026-01-20 20:16:05
央视贺炜:U23国足3-0越南创历史,董方卓预言彻底落空

央视贺炜:U23国足3-0越南创历史,董方卓预言彻底落空

小齐艰难度日
2026-01-21 11:27:10
排面!人民日报、新华社发文祝贺U23国足晋级决赛

排面!人民日报、新华社发文祝贺U23国足晋级决赛

懂球帝
2026-01-21 01:59:11
为什么去非洲的中国人不愿回来?看完网友的分享,太真实了!

为什么去非洲的中国人不愿回来?看完网友的分享,太真实了!

另子维爱读史
2026-01-18 20:06:34
国乒女单接近全军覆没!5人参赛仅剩1人晋级,国乒独苗3:1获胜

国乒女单接近全军覆没!5人参赛仅剩1人晋级,国乒独苗3:1获胜

国乒二三事
2026-01-21 10:59:18
2026-01-21 12:23:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6820文章数 94529关注度
往期回顾 全部

科技要闻

中芯国际等巨头集体提价,8英寸芯片最高涨20%

头条要闻

怒吼患癌妈妈"碰瓷"上热搜 当事男子:这是第二次了

头条要闻

怒吼患癌妈妈"碰瓷"上热搜 当事男子:这是第二次了

体育要闻

如果NBA只剩下最后一个传统中锋

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

拆解涉税黑中介虚开套路

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

健康
本地
亲子
家居
公开课

血常规3项异常,是身体警报!

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

亲子要闻

骆驼奶粉哪个牌子好?正品驼奶粉名牌排行榜,正宗品质揭晓

家居要闻

褪去浮华 触达松弛与欣喜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版