网易首页 > 网易号 > 正文 申请入驻

统一VLA范式!港科大开源StarVLA乐高式架构,复现成本大幅降低

0
分享至


新智元报道

编辑:LRST

【新智元导读】当前具身智能的VLA(Vision-Language-Action)赛道正陷入典型的「碎片化」泥潭:不同团队采用异构的动作解码范式、强耦合的数据管线、互不兼容的评测协议,导致方法难以横向对比,复现成本极高。开源项目 StarVLA 没有选择堆砌算力或盲目刷榜,而是从系统抽象层面直击痛点,提出了一套Backbone-Action Head的「乐高式」统一架构。

尽管VLA模型已成为具身通用智能的主流范式,但学术研究正面临三重「巴别塔」困境:

  1. 架构割裂自回归离散Token化、并行连续回归、流匹配去噪、双系统推理……不同动作解码范式采用完全不同的代码实现与接口假设。

  2. 管线强耦合现有开源框架多为「单方法定制」,数据预处理、训练循环、评测协议深度绑定,导致模块无法跨项目复用。

  3. 评测标准不一各论文仅在disjoint的基准子集上报告结果,且预处理与推理协议不透明,公平对比几乎不可能。

这种碎片化严重拖慢了具身基础模型的迭代节奏。

香港科技大学开源了一个新项目StarVLA,核心洞察在于:VLM-based与World-Model-based并非根本对立的范式,而是同一策略框架下不同辅助学习信号(L_aux)的变体。

基于此,团队构建了一个高度模块化、接口统一的开源底座,让研究者能像搭乐高一样自由组合主干网络与动作头,在完全受控的条件下验证单一设计变量的影响。


开源地址https://github.com/starVLA/starVLA

项目主页https://starvla.github.io

论文链接https://arxiv.org/abs/2604.05014


架构解码

Policy-Centric的「乐高」抽象


StarVLA 在系统层引入了统一的策略中心公式,将多模态观测、语言指令与未来动作块映射到同一计算图中:

其中为多模态历史观测,ℓ为语言指令,为预测的动作块,为可选的辅助输出(如未来视觉帧、空间推理文本等)。训练目标被统一分解为:


  • Direct VLA:,纯动作监督。

  • VLM-based VLA:引入语言对齐辅助目标(如子任务规划、空间 grounding)。

  • WM-based VLA:引入未来观测预测作为辅助目标或隐式先验。

在这一抽象下,StarVLA实现了双向模块化(Bidirectional Modularity)


  • 可插拔Backbone支持Qwen3-VL、InternVL等指令微调 VLM,以及Cosmos-Predict2等世界模型,只需轻量适配层即可接入统一表示契约。

  • 可插拔Action Head内置 4 种代表性动作解码器,共享同一forward()predict_action()接口:

    • StarVLA-FAST:自回归离散 Token 生成

    • StarVLA-OFT:轻量 MLP 并行连续回归

    • StarVLA-π:层间 Cross-DiT 流匹配去噪

    • StarVLA-GR00T:System 2(慢推理)+ System 1(快动作)双系统架构

所有变体共享同一数据接口、训练循环与评测管线,仅需替换Backbone或Action Head即可完成范式切换。这彻底消除了跨方法对比时的「隐性变量干扰」。

训练范式

从单基准微调走向多模态协同


StarVLA 将训练策略抽象为与架构解耦的可复用配置,支持三大核心范式:

1. 行为克隆监督微调(SFT)

提供完整的分布式训练脚本(Accelerate + DeepSpeed ZeRO-2),支持全参数微调与子模块冻结。优化器采用多参数组独立学习率、bfloat16 混合精度与余弦衰减调度,确保异构组件训练稳定。

2. 多目标协同训练(Co-Training)


纯动作微调极易导致 VLM 主干「灾难性遗忘」。

StarVLA 内置双数据流协同机制:交替执行 VLA 动作前向与 VLM 语言建模前向,通过trainer.loss_scale.vlm动态平衡动作学习与多模态表征保留。实验表明,协同训练可显著提升空间grounding能力,并在WidowX与Google Robot 上带来4%~10%的成功率增益。

3. 跨形态混合训练(Cross-Embodiment)

通过LeRobotMixtureDataLoader,用户可在YAML中声明任意机器人数据集组合与采样权重,框架自动处理动作空间对齐与形态标签追踪。这一设计让「跨形态预训练」从定制脚本变为标准化配置。

评测与部署

Server-Client架构打通Sim2Real

为避免benchmark依赖污染模型环境,StarVLA采用轻量级WebSocket Server-Client评测抽象

  • 模型侧仅暴露predict_action()接口,加载 checkpoint 后启动策略服务。

  • 评测侧(如 LIBERO、SimplerEnv、RoboTwin 2.0 官方环境)通过独立 Client 封装观测字典,以 msgpack 通信,返回归一化动作。

  • 真实机器人部署无需修改任何代码:只需将机器人控制器替换为 Client,提供相同格式的相机观测与指令,即可无缝迁移至物理世界。

目前已集成7大主流基准(含LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K、CALVIN等),并附带完整的benchmark-specific adapter 实现动作反归一化、Chunk拆分、Delta/Absolute转换等后处理逻辑。

性能与效率

极简配置下的强泛化证明

StarVLA 刻意避免复杂的数据工程与在线优化(如 DAgger),仅用公开 VL 预训练权重在基准官方演示集上微调,即可达到极具竞争力的性能:



更关键的是,Backbone替换几乎不损性能:将Qwen3-VL-4B换为Cosmos-Predict2-2B,LIBERO平均分仍稳定在95.2%以上,验证了架构的泛化鲁棒性。


在跨基准Generalist设置中,单模型联合训练LIBERO + SimplerEnv + RoboTwin 2.0 + RoboCasa-GR1,RoboCasa平均成功率从Specialist最优的48.8%提升至57.3%,证明了统一管线下All-in-One训练的可行性。


计算效率方面8×A100单节点测试显示,Per-GPU Batch Size=8时GPU利用率达92%,样本吞吐量56.6 samples/s;扩展至256 GPU多节点时,通信开销仅在8→32 GPU阶段产生一次跃升(0.735s→0.899s/step),随后稳定在~0.93s,并行效率维持在79%~80%,为大规模分布式训练提供明确的Scaling Guide。

总结与展望

StarVLA的价值在于为具身智能社区提供了一套可复现、可对比、可组合的基础设施标准。它用工程化的克制(统一 I/O 契约、声明式 YAML 配置、Server-Client 解耦)与理论上的洞察(L = L_action + L_aux的策略统一视角),终结了 VLA 研究的「巴别塔」时代。

对于研究者,它是验证新动作头/新主干的即插即用沙盒;对于工程师,它是从仿真到实机零代码修改的部署底座;对于社区,它是降低复现门槛、推动标准化评测的公共品。

参考资料:

https://arxiv.org/abs/2604.05014

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
清凉的日常:在燥热的世界里,给自己留一片凉

清凉的日常:在燥热的世界里,给自己留一片凉

疾跑的小蜗牛
2026-04-13 23:30:44
反映66盏路灯不亮,却被威胁“先拘留15天”:湖南男子的真实遭遇

反映66盏路灯不亮,却被威胁“先拘留15天”:湖南男子的真实遭遇

听心堂
2026-04-12 14:50:13
1993年,毛远新出狱后全家在韶山的留影,16岁女儿出镜,相貌出众

1993年,毛远新出狱后全家在韶山的留影,16岁女儿出镜,相貌出众

历史龙元阁
2026-03-20 15:15:09
伊朗总统:伊朗已做好准备达成平衡且公平的协议

伊朗总统:伊朗已做好准备达成平衡且公平的协议

新华社
2026-04-12 23:26:02
他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

削桐作琴
2026-03-21 15:03:45
我妈拿我彩礼给弟弟买车,我远嫁外地后再没回家,3年后弟弟来电

我妈拿我彩礼给弟弟买车,我远嫁外地后再没回家,3年后弟弟来电

五元讲堂
2026-03-12 14:27:11
“你打我啊!”英国小孩挑衅中国留学生,辱骂20分钟,结果太解气

“你打我啊!”英国小孩挑衅中国留学生,辱骂20分钟,结果太解气

法老不说教
2026-04-13 19:06:02
姚敏学同志逝世

姚敏学同志逝世

新京报政事儿
2026-04-13 09:24:06
湖人双核最新伤情:东契奇明日归队接受复查 里夫斯预计首轮报销

湖人双核最新伤情:东契奇明日归队接受复查 里夫斯预计首轮报销

追球者
2026-04-14 03:54:52
70~80岁除不搬重物不爬高外,九个细节要注意,最后一个常被忽略

70~80岁除不搬重物不爬高外,九个细节要注意,最后一个常被忽略

暖风吹过竹林
2026-03-26 10:47:30
泰国网友上传照片引起关注 M113装甲车作战损伤 地区冲突被无视

泰国网友上传照片引起关注 M113装甲车作战损伤 地区冲突被无视

hawk26讲武堂
2026-04-12 14:00:37
替补出奇迹!恩德里克独造两球拯救里昂,主帅激将法绝了

替补出奇迹!恩德里克独造两球拯救里昂,主帅激将法绝了

仰卧撑FTUer
2026-04-13 07:10:07
墨菲:罗梅罗哭是因为世界杯,绝不是觉得自己下场热刺要输了

墨菲:罗梅罗哭是因为世界杯,绝不是觉得自己下场热刺要输了

懂球帝
2026-04-14 01:58:05
拉夫罗夫明天来北京,美刚封死伊朗,中俄外长碰头到底谈啥?

拉夫罗夫明天来北京,美刚封死伊朗,中俄外长碰头到底谈啥?

一口娱乐
2026-04-14 02:52:58
历史性的一刻

历史性的一刻

西楼饮月
2026-04-13 12:54:49
钱再多也没用!浙江55岁富婆"黑马"去世,死因曝光,名下众多公司

钱再多也没用!浙江55岁富婆"黑马"去世,死因曝光,名下众多公司

阅微札记
2026-04-13 17:06:03
为啥广东的扶弟魔很少?网友:我确实不扶,我妈把财产全给了我弟

为啥广东的扶弟魔很少?网友:我确实不扶,我妈把财产全给了我弟

带你感受人间冷暖
2026-04-14 00:20:04
根据潘石屹预测的未来房价:150万房子,到了2030年还能值多少钱

根据潘石屹预测的未来房价:150万房子,到了2030年还能值多少钱

爱看剧的阿峰
2026-04-11 21:30:58
性学专家李银河说:“能不能发生关系,第一次见面就差不多定了”

性学专家李银河说:“能不能发生关系,第一次见面就差不多定了”

九哥哥车评
2026-03-31 13:30:36
在迪拜工作华人感慨:不要信媒体吹牛,迪拜相当于我国二线城市

在迪拜工作华人感慨:不要信媒体吹牛,迪拜相当于我国二线城市

福建睿平
2026-04-13 11:06:38
2026-04-14 04:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14960文章数 66768关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

健康
教育
旅游
房产
军事航空

干细胞抗衰4大误区,90%的人都中招

教育要闻

“前额叶罢工”冲上热搜!西城这所学校的创新做法火了……

旅游要闻

“一站式”赏花

房产要闻

6000亿投资盛宴,全球巨头齐聚,海南又要干件大事!

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版