网易首页 > 网易号 > 正文 申请入驻

DAM-VLA——手臂与夹爪解耦,三星研究院的动态动作VLA刷新机器人操控SOTA | ICRA 2026

0
分享至

一、背景

视觉-语言-动作(VLA)模型正成为机器人智能化的核心架构,但现有主流方法(如OpenVLA、π0、CogACT)存在一个根本性缺陷:用同一个动作模型统一处理所有类型的动作。这种「一刀切」的设计在面对机器人操控任务时暴露出两大内在矛盾。

从任务特性来看,机器人操控存在两种本质不同的动作类型:手臂大幅度运动(粗动作)需要全局场景理解、路径约束宽松;夹爪精细操作(精细动作)需要局部精细聚焦、精确抓取姿态、容错率极低。这两种动作在路径约束、视觉注意力和数据分布上有本质差异,用同一个模型兼顾「粗定位」与「精细操作」必然产生冲突。

此外,传统方法缺乏对动作类型的主动感知与路由机制,无法根据当前操控阶段动态分配合适的推理资源,导致在长时程复杂任务中错误率随步骤增加而快速累积。DAM-VLA(Dynamic Action Model-Based Vision-Language-Action)首次将手臂运动与夹爪操作解耦建模,配合双尺度加权机制实现了精准高效的机器人操控。


二、核心方法

DAM-VLA 的核心架构包含三大组件,各司其职,协同实现手臂-夹爪的精准解耦。

模块一:双通道视觉编码与VLM骨架

同时采用DINOv2和SigLIP两种视觉编码器,输出三类特征:普通视觉token用于多模态融合;DINOv2的class token(全局视觉表征)专门服务手臂运动模型;DINOv2的register token(局部视觉表征)专门服务夹爪操作模型。LLaMA-2的浅层输出用于动作路由决策,深层输出用于动作预测。这一设计使「全局感知」与「局部精细」的视觉信息分别流向对应的动作模型。

模块二:VLM驱动的动作路由机制

利用VLM的推理能力判断当前处于哪种操控阶段,通过可学习路由权重w动态选择激活手臂运动模型(w<0.5)或夹爪操作模型(w≥0.5)。两个专用DiT扩散模型并行训练:手臂运动模型接收全局视觉特征,预测大范围粗动作;夹爪操作模型接收局部视觉特征,精细预测夹爪动作。动作路由实现了「该全局时全局,该精细时精细」的智能切换。

模块三:双尺度动作加权机制

轨迹级权重采用非对称高斯分布(前沿σ=6宽、后沿σ=2窄),在夹爪状态转换点前后施加差异化权重,反映「操控前需要更充分准备」的人类直觉;Action-chunk级权重采用指数衰减(γ=0.8),确保近期动作预测权重更大。两层加权机制联合作用,显著提升了操控的时序一致性。

三、亮点总结创新点一:真实机器人操控平均成功率86.8%

在Franka机器人的pick-and-place任务(80次试验)中,DAM-VLA平均成功率达86.8%,远超CogACT的62.9%(提升23.9个百分点)。分布内任务成功率91.4%(vs CogACT 65.7%),分布外泛化成功率82.2%(vs CogACT 60.0%),在仿真和真实环境中全面刷新SOTA。

创新点二:长时程任务最终成功率56%,超越所有基线

在FurnitureBench One-Leg组装任务(连续5步操控)中,DAM-VLA最终成功率56%,远超CogACT的42%和OpenVLA的29%。消融实验显示,双尺度加权机制是核心贡献,去掉后性能大幅下降,证明其对长时程动作连贯性的不可替代性。

创新点三:DINOv2 class/register token分工的关键发现

研究首次系统验证了DINOv2的class token与register token具有天然的全局-局部信息分工——前者包含场景级全局语义,后者包含精细局部几何信息。将两类token分别路由给粗动作和精细动作模型,无需额外的特征对齐训练,即可让模型的「视觉感知」与「操控阶段」高度匹配,为未来VLA模型的视觉编码设计提供了重要的实证依据。

──────────────────────────────────────────

上述内容包含AI辅助生成,更详细信息参见两个链接 论文链接:https://arxiv.org/abs/2603.00926 解读来源:https://research.samsung.com/blog/DAM-VLA-A-Dynamic-Action-Model-Based-Vision-Language-Action-Framework-for-Robot-Manipulation

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马加爵死刑背后:女同学透露一个难以启齿的秘密

马加爵死刑背后:女同学透露一个难以启齿的秘密

深度报
2026-04-27 22:10:57
最高可判死刑!奥巴马结局已定?美国司法部介入,特朗普准备收网

最高可判死刑!奥巴马结局已定?美国司法部介入,特朗普准备收网

书纪文谭
2026-04-27 19:15:34
男子曝入职全球顶尖科技公司时突然被降薪20万,拒offer后被嘲讽:你的爱国情怀不值20万吗

男子曝入职全球顶尖科技公司时突然被降薪20万,拒offer后被嘲讽:你的爱国情怀不值20万吗

爆角追踪
2026-04-27 14:54:06
颜宁正面回应“只会利用电镜发论文灌水”

颜宁正面回应“只会利用电镜发论文灌水”

化学人生
2026-04-27 20:16:52
魏牌V9X令魏建军自信的底气,藏在归元S平台的密码里

魏牌V9X令魏建军自信的底气,藏在归元S平台的密码里

汽车大公司
2026-04-21 16:58:31
匈牙利一夜变天:马扎尔开启全面清算!欧尔班往哪走?

匈牙利一夜变天:马扎尔开启全面清算!欧尔班往哪走?

大江看潮
2026-04-27 09:05:55
央视曝光儿童彩妆玩具问题,汕头澄海区开展专项整治行动

央视曝光儿童彩妆玩具问题,汕头澄海区开展专项整治行动

环球网资讯
2026-04-27 17:21:34
孕妇200元买水果被丈夫“吃死你” 引产后离婚,事件反转账号被封

孕妇200元买水果被丈夫“吃死你” 引产后离婚,事件反转账号被封

社会日日鲜
2026-04-28 03:58:45
枪击案发生时,特朗普旁边的华裔女记者原来是她!那个曾让“懂王”愤然离场的人……

枪击案发生时,特朗普旁边的华裔女记者原来是她!那个曾让“懂王”愤然离场的人……

新民周刊
2026-04-27 16:14:29
北京5月1日起禁售/飞无人机!大疆近期将全面下架无人机产品

北京5月1日起禁售/飞无人机!大疆近期将全面下架无人机产品

中国能源网
2026-04-27 16:19:06
让成长发生:一条“AI+教育”落地的求真路

让成长发生:一条“AI+教育”落地的求真路

锌刻度
2026-04-21 15:25:31
公开开炮!文班亚马炮轰NBA官方:赛季结束再来问我

公开开炮!文班亚马炮轰NBA官方:赛季结束再来问我

体育妞世界
2026-04-28 00:50:03
尤伯杯:国羽3连胜!王祉怡力克世锦赛冠军,陈雨菲横扫世界第39

尤伯杯:国羽3连胜!王祉怡力克世锦赛冠军,陈雨菲横扫世界第39

钉钉陌上花开
2026-04-28 06:54:31
一场硬核风力实验,一见这届顶级游戏本散热有多强?

一场硬核风力实验,一见这届顶级游戏本散热有多强?

极果酷玩
2026-04-23 23:13:17
NBA赛季最佳新秀投票明细:弗拉格获56张第一选票力压克努佩尔

NBA赛季最佳新秀投票明细:弗拉格获56张第一选票力压克努佩尔

懂球帝
2026-04-28 07:46:06
完胜意大利!U15国足全队狂欢,跪地挥拳庆祝,名记:相当可以了

完胜意大利!U15国足全队狂欢,跪地挥拳庆祝,名记:相当可以了

奥拜尔
2026-04-28 01:44:28
朝鲜获赠德国“豹2”、美国M1A1坦克,这下朝鲜又有好东西山寨了

朝鲜获赠德国“豹2”、美国M1A1坦克,这下朝鲜又有好东西山寨了

蓝星杂谈
2026-04-27 17:33:21
国家叫停美国资本收购Manus,什么信号?

国家叫停美国资本收购Manus,什么信号?

一见财经
2026-04-27 22:18:21
750万“电鸡”压城:深圳“史上最严”整治仍面临五大难题

750万“电鸡”压城:深圳“史上最严”整治仍面临五大难题

南方都市报
2026-04-28 07:00:37
姚高员辞去杭州市市长职务

姚高员辞去杭州市市长职务

澎湃新闻
2026-04-27 21:04:26
2026-04-28 08:35:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69185文章数 656119关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

头条要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

艺术
家居
本地
时尚
公开课

艺术要闻

幸福就是住着小院子,过着小日子

家居要闻

江景风格 流动的秩序

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

丝巾的10种系法,爱美的女人必看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版