为什么让机器人"拿起杯子"比"走到杯子前"更难?答案藏在人类自己不会意识到的动作分层里。
「一刀切」模型的先天困境
![]()
视觉-语言-动作(VLA)模型正在接管机器人大脑,但主流方案——OpenVLA、π0、CogACT——共享同一个致命假设:所有动作可以用同一个模型搞定。
这个假设在实验室里跑得通,进了真实场景就露馅。机器人操控天然包含两类动作:手臂大幅度移动只需要"别撞墙"的宽松约束,夹爪抓取却要求毫米级精度、特定姿态、容错率趋近于零。两者在视觉注意力、路径规划、数据分布上完全不是一回事,硬塞进同一个动作空间,等于让同一个人既当建筑师又当钟表匠。
更隐蔽的问题是资源分配。传统方法没有"阶段感知"能力,不会判断"现在该粗定位还是该精细抓",导致长任务中错误像滚雪球一样累积。
解耦:把两条神经回路分开建
三星研究院的DAM-VLA(Dynamic Action Model-Based Vision-Language-Action)选择了最直接的突破口——物理解耦。不是优化一个模型去兼顾矛盾需求,而是直接造两个。
架构层面,团队同时调用DINOv2和SigLIP两种视觉编码器,但用法很讲究。普通视觉token走常规多模态融合;DINOv2的class token(全局视觉表征)专供手臂运动模型,负责"看大局";DINOv2的register token(局部视觉表征)专供夹爪操作模型,负责"盯细节"。
LLaMA-2的浅层输出被征用做另一件事:动作路由决策。深层输出才用于实际动作预测。这种"先判断、后执行"的分层,让模型具备了人类式的阶段意识。
两个专用扩散模型(DiT)并行训练。手臂模型吃全局特征,输出大范围轨迹;夹爪模型吃局部特征,输出精细抓取姿态。路由权重w<0.5时激活手臂模型,w≥0.5时切换夹爪模型——「该全局时全局,该精细时精细」。
双尺度加权:模仿人类的"准备-执行"节奏
解耦解决了"谁来做",时序加权解决"怎么做更顺"。
轨迹层面,DAM-VLA采用非对称高斯分布:夹爪状态转换点前用宽σ=6(更多准备时间),转换点后用窄σ=2(快速进入下一阶段)。这对应人类操控的直觉——"抓之前要稳,抓之后要快"。
动作块(Action-chunk)层面则用指数衰减γ=0.8,确保近期动作权重更大,远期规划逐步淡化。两层机制叠加,显著抑制了长时程任务中的漂移误差。
数字说话:86.8% vs 62.9%
Franka机器人pick-and-place任务的80次真实试验中,DAM-VLA平均成功率86.8%,CogACT为62.9%——差距23.9个百分点。
细分场景更悬殊:分布内任务91.4%(CogACT 65.7%),分布外泛化82.2%(CogACT 60.0%)。仿真与真实环境双刷SOTA。
FurnitureBench的One-Leg组装任务(连续5步操控)是更严苛的考场。DAM-VLA最终成功率56%,CogACT 42%,OpenVLA仅29%。消融实验证实,去掉双尺度加权后性能断崖下跌,证明时序一致性机制不可替代。
一个被验证的猜想:DINOv2的token天然分工
这项研究的副产品或许比主结果更长远。团队首次系统证明:DINOv2的class token与register token存在固有的全局-局部分工——前者携带场景级语义,后者携带精细几何信息。
将两类token分别路由给粗/细动作模型,无需额外特征对齐训练,即可实现"感知-阶段"的高度匹配。这为未来VLA的视觉编码设计提供了实证依据:不是盲目堆叠encoder,而是理解不同视觉表征的物理含义。
行动号召
机器人学习的下一个战场,不是让单一模型更大,而是让系统架构更懂物理世界的层次结构。DAM-VLA的启示很直接:当任务本身存在天然分层,模型设计就该镜像这种分层,而不是用算力暴力弥合。
如果你正在做VLA或机器人操控,建议精读这篇的消融实验部分——双尺度加权的具体参数、路由阈值的选择逻辑、两种DiT的训练数据配比,这些细节决定了概念能否落地。论文已挂arXiv,三星研究院的博客也有技术解读,链接见文末。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.