机器人操控的"粗活细活"怎么分工？三星这套解法刷新SOTA|轨迹|动作|视觉|精细|三星电子|真实场景|知名企业

机器人操控的"粗活细活"怎么分工？三星这套解法刷新SOTA

2026-04-27 20:44:22　来源: 赛博兰博

北京举报

分享至

为什么让机器人"拿起杯子"比"走到杯子前"更难？答案藏在人类自己不会意识到的动作分层里。

「一刀切」模型的先天困境

视觉-语言-动作（VLA）模型正在接管机器人大脑，但主流方案——OpenVLA、π0、CogACT——共享同一个致命假设：所有动作可以用同一个模型搞定。

这个假设在实验室里跑得通，进了真实场景就露馅。机器人操控天然包含两类动作：手臂大幅度移动只需要"别撞墙"的宽松约束，夹爪抓取却要求毫米级精度、特定姿态、容错率趋近于零。两者在视觉注意力、路径规划、数据分布上完全不是一回事，硬塞进同一个动作空间，等于让同一个人既当建筑师又当钟表匠。

更隐蔽的问题是资源分配。传统方法没有"阶段感知"能力，不会判断"现在该粗定位还是该精细抓"，导致长任务中错误像滚雪球一样累积。

解耦：把两条神经回路分开建

三星研究院的DAM-VLA（Dynamic Action Model-Based Vision-Language-Action）选择了最直接的突破口——物理解耦。不是优化一个模型去兼顾矛盾需求，而是直接造两个。

架构层面，团队同时调用DINOv2和SigLIP两种视觉编码器，但用法很讲究。普通视觉token走常规多模态融合；DINOv2的class token（全局视觉表征）专供手臂运动模型，负责"看大局"；DINOv2的register token（局部视觉表征）专供夹爪操作模型，负责"盯细节"。

LLaMA-2的浅层输出被征用做另一件事：动作路由决策。深层输出才用于实际动作预测。这种"先判断、后执行"的分层，让模型具备了人类式的阶段意识。

两个专用扩散模型（DiT）并行训练。手臂模型吃全局特征，输出大范围轨迹；夹爪模型吃局部特征，输出精细抓取姿态。路由权重w<0.5时激活手臂模型，w≥0.5时切换夹爪模型——「该全局时全局，该精细时精细」。

双尺度加权：模仿人类的"准备-执行"节奏

解耦解决了"谁来做"，时序加权解决"怎么做更顺"。

轨迹层面，DAM-VLA采用非对称高斯分布：夹爪状态转换点前用宽σ=6（更多准备时间），转换点后用窄σ=2（快速进入下一阶段）。这对应人类操控的直觉——"抓之前要稳，抓之后要快"。

动作块（Action-chunk）层面则用指数衰减γ=0.8，确保近期动作权重更大，远期规划逐步淡化。两层机制叠加，显著抑制了长时程任务中的漂移误差。

数字说话：86.8% vs 62.9%

Franka机器人pick-and-place任务的80次真实试验中，DAM-VLA平均成功率86.8%，CogACT为62.9%——差距23.9个百分点。

细分场景更悬殊：分布内任务91.4%（CogACT 65.7%），分布外泛化82.2%（CogACT 60.0%）。仿真与真实环境双刷SOTA。

FurnitureBench的One-Leg组装任务（连续5步操控）是更严苛的考场。DAM-VLA最终成功率56%，CogACT 42%，OpenVLA仅29%。消融实验证实，去掉双尺度加权后性能断崖下跌，证明时序一致性机制不可替代。

一个被验证的猜想：DINOv2的token天然分工

这项研究的副产品或许比主结果更长远。团队首次系统证明：DINOv2的class token与register token存在固有的全局-局部分工——前者携带场景级语义，后者携带精细几何信息。

将两类token分别路由给粗/细动作模型，无需额外特征对齐训练，即可实现"感知-阶段"的高度匹配。这为未来VLA的视觉编码设计提供了实证依据：不是盲目堆叠encoder，而是理解不同视觉表征的物理含义。

行动号召

机器人学习的下一个战场，不是让单一模型更大，而是让系统架构更懂物理世界的层次结构。DAM-VLA的启示很直接：当任务本身存在天然分层，模型设计就该镜像这种分层，而不是用算力暴力弥合。

如果你正在做VLA或机器人操控，建议精读这篇的消融实验部分——双尺度加权的具体参数、路由阈值的选择逻辑、两种DiT的训练数据配比，这些细节决定了概念能否落地。论文已挂arXiv，三星研究院的博客也有技术解读，链接见文末。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

机器人操控的"粗活细活"怎么分工？三星这套解法刷新SOTA

DeepSeek V4上线三天，第一批实测出来了

德国总理默茨：美国正遭受伊朗领导层的羞辱

德国总理默茨：美国正遭受伊朗领导层的羞辱

人类马拉松"破二"新纪元，一场跑鞋军备竞赛

黄杨钿甜为“耳环风波”出镜道歉：谣言已澄清

Meta 140亿收购Manus遭中国发改委否决

不那么小众也可以 smart的路会越走越宽

态度原创

菲律宾战队选手致歉 做眯眯眼动作涉嫌种族歧视

英特尔新驱动允许Arc集成显卡调用最高93%系统内存

云游中国｜逛世界风筝都 留学生探秘中国传统文化

河南孕妇因买水果引产后续！被丈夫推搡诅咒，网友：及时止损

教育生态的悲歌！尖子班几个月彻底陨落：数学平均分从90多跌到63

菲律宾战队选手致歉做眯眯眼动作涉嫌种族歧视

云游中国｜逛世界风筝都留学生探秘中国传统文化