网易首页 > 网易号 > 正文 申请入驻

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

0
分享至

在多模态大模型的基座上,视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然而,现有 VLA 基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练(Post-Training),特别是当目标场景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了 VLA 模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。

为了解决该问题,中国电信人工智能研究院(TeleAl)具身智能团队提出了一种 “对齐 - 引导 - 泛化”(Align then Steer, ATE)的 VLA 跨本体泛化框架,破解了 VLA 后训练难题。其核心思想是在潜空间中对齐跨本体动作分布,从而在后训练利用统一潜空间梯度引导 VLA 策略的更新方向。无需改动现有 VLA 主干架构,实现了 VLA 模型后训练从调架构向调分布的范式转移,适配 Diffusion 和 Flow-Matching 等主流的 VLA 模型,极大减少 VLA 跨本体适配的数据需求。

  • 论文题目:Align-Then-Steer: Adapting the Vision-Language Action Models through Unified Latent Guidance
  • 论文地址:https://arxiv.org/abs/2509.02055
  • 项目地址:https://align-then-steer.github.io/
  • 开源代码:https://github.com/TeleHuman/Align-Then-Steer

研究动机:从分布一致性突破 VLA 的跨本体泛化训练瓶颈

在面向特定具身场景的操作大模型应用中,决定 VLA 能否进行跨本体迁移的关键并非参数规模或主干架构的复杂度,而是预训练阶段与后训练阶段的目标本体和任务的动作分布的一致性。特别地,当目标本体的机械臂构型、执行器形态、关节自由度与本体物理约束等发生变化时,目标动作分布不可避免地偏离预训练阶段 VLA 学得的动作分布域。单纯地通过采集大量真机数据在后训练阶段弥补这一鸿沟,面临迅速递减的边际收益,即单纯数据堆叠难以有效地引导策略抵达目标域。

为了解决 VLA 的跨本体泛化适配问题,目前学界采用的方法主要从以下两个角度开展,构建统一的、语义级别的潜在动作表示,或通过运动学重定向(Retargeting)手动将跨本体数据构建到统一的动作空间。然而,这些路径普遍存在两类局限:一方面,目标动作分布与原分布相差过大时(如预训练采用单臂数据,目标场景在双臂),上述的方法难以准确刻画目标本体的可行子分布;另一方面,现有方式依然面向自回归范式,并没有考虑扩散 / 流匹配类策略的条件生成结构。为了解决该问题,TeleAI 具身智能团队提出了 “对齐 - 引导 - 泛化”(ATE)框架,在统一的潜空间中先对齐动作统计,并在后训练阶段引入可微的引导项牵引策略更新,仅利用少量样本便可以将模型适配到目标本体。

研究方法

ATE 框架

ATE 框架的核心思想是先在潜空间中对齐动作分布,再利用潜空间的分类器引导去牵引后训练策略更新方向。ATE 框架如上图所示,共分为两个阶段。

第一阶段先构建一个与跨本体的统一动作潜空间,将预训练数据所蕴含的跨任务、跨环境结构性信息编码到潜空间,再利用目标域的有限样本将目标潜空间嵌入到预训练潜空间。在完成潜空间的对齐后,第二阶段在统一的潜空间上设计引导函数,并利用由此得到扩散 / 流匹配 VLA 模型的分类引导,在后训练阶段显式地将微调过程牵引至期望的目标分布,而无需更改 VLA 模型主干模型结构。

在 ATE 框架中,“对齐 — 引导” 都从分布的角度出发:先把目标域的动作潜分布嵌入到预训练动作潜分布的某个模态中,随后用一个可微的分类器引导项把策略输出的生成分布朝目标分布持续推近。第一步等价于在潜空间上完成一次分布投影;第二步等价于在生成过程中为分布流添加一个外部力场,沿着统一潜空间定义的能量梯度推进去噪,使最终的边缘分布更接近适配数据分布。

这种 “从调模型到调分布” 的范式迁移具有如下优势。第一,样本效率提升:潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量。第二,训练效率提升:分布引导避免模型全参数重训练,能够在既定训练预算内获得更快的有效收敛。第三,工程可复用性增强:潜空间引导只作用于动作专家模型后训练,与顶层模型解耦,具备即插即用的特性,可适配目前主流分层 VLA。

第一阶段:动作潜分布对齐

第二阶段:动作潜分布引导

引导机制充分利用了统一潜空间的优势,既解决了跨实体和跨任务的适应性问题,又保留了预训练阶段习得的通用视觉 - 运动先验知识,显著提升了模型在新环境下的适应效率和性能。

实验结果

ATE 算法在 ManiSkill 与 RoboTwin 1.0 等多任务仿真评测中,相较于直接后训练,平均多任务成功率最高提升 9.8%。而在真实机器人跨本体现实场景中,ATE 带来最高 32% 的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性。这些结果表明:ATE 框架在统一潜空间中引导学习,使得 VLA 跨本体与跨任务泛化在有限数据下得到提升,而无需额外的数据与大规模重训练。

上表汇总了 17 个机器人操作任务上,ATE 框架下 RDT 和 PI-0 在 RoboTwin 1.0 上的性能对比。ATE 框架对 RDT 与 PI-0 的平均提升分别约为 + 9.8 与 + 8.7 个百分点,显示出跨任务的一致增益与较好的可迁移性。尤其在基线困难的长程任务中,单项增益明显:例如,RDT 在 Empty Cup Place 任务成功率由 22% 提升到 61%(+39),Pi 0 在 Dual Bottles Pick (Easy) 任务上成功率由 48% 提升到 85%(+37),反映了潜空间对齐与引导在动作空间分布失配较大的场景中效果更显著。与此同时,个别任务出现了小幅下降,如 RDT 在 Bottle Adjust(-16)、Tool Adjust(-12)、Shoe Place(-1),Pi 0 在 Pick Apple Messy(-7)、Blocks Stack (Hard)(-1)、Tool Adjust(-1)。这类现象通常表现为目标域动作分布较窄。从样本效率与收敛速度角度,ATE 在 70k 步即可超过传统 RDT 的 90k 步效果,说明 ATE 框架的对齐 — 引导机制,不仅提高任务成功率,也显著提升了任务成功率。

为了验证模型的跨本体泛化能力,我们自行搭建了双臂睿尔曼实验环境,该实验平台从未在预训练数据中出现过,且双臂的动作空间和预训练数据有明显不同。进而,构建了多个分钟级长序双臂协同操作任务,包括制作三明治、蒸包子等复杂协作任务,以及制作酸奶、烤面包等工具使用类任务。通过采集少量真机数据进行后训练,ATE 算法能够将基座 RDT 和 Pi-0 等 VLA 模型快速适配到目标本体上。上图呈现了四个真机任务在不同训练步数的成功率与整体平均,展示了在有限数据与分钟级长程任务下 ATE 框架的性能。可见在需要双臂协同、时序规划与多阶段配合的任务上,在统一的潜空间引导下 ATE 框架能使模型更快地收敛到目标域动作分布。

上图可视化了空间泛化(初始位姿随机偏移)、视觉干扰(放置未见过的杂物,如水果)、人为扰动(在关键点迫使策略重试)。ATE 框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力

研究总结

在 VLA 基座模型尚不具备直接泛化能力的情况下,TeleAI 提出的跨本体 ATE 后训练框架为数据稀缺与跨本体泛化后训练难题提供了可行答案。面对数据预算、训练窗口与算力上限的三重约束,无需寄望于数据堆叠或昂贵的全参重训,而是以最小工程代价引入潜空间对齐与分布引导,实现快速、稳健的跨本体泛化适配。换言之,ATE 框架可以作为一个即插即用的模块,成为兼容各种主流 VLA 模型的后训练阶段的对齐引导方案,用于提升后训练的跨本体泛化能力,成为破解数据与训练瓶颈的实践路径。

作者简介:本文由 TeleAI 三名研究实习生:清华大学博士生张扬、港中文硕士生王陈炜、西工大硕士生陆欧阳作为共同第一作者,成果由 TeleAI 联合清华大学、港中文、西工大合作完成,本文通讯作者为 TeleAI 具身智能团队负责人白辰甲博士和 TeleAI 院长。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谭德塞前往特内里费岛 呼吁冷静对待邮轮疫情

谭德塞前往特内里费岛 呼吁冷静对待邮轮疫情

环球网资讯
2026-05-10 07:06:07
2026年一季度全国结婚登记169.7万对,同比减少11.3万对

2026年一季度全国结婚登记169.7万对,同比减少11.3万对

何亚福
2026-05-10 08:03:57
球王降临!历史第1人!38岁梅西破门创造纪录,落后C罗64球

球王降临!历史第1人!38岁梅西破门创造纪录,落后C罗64球

乌龙球OwnGoal
2026-05-10 11:50:54
压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

新浪财经
2026-05-09 00:51:54
李泳汉无业15年,月均向鼎爷索款40万,逼得81岁父亲半只鸡吃三天

李泳汉无业15年,月均向鼎爷索款40万,逼得81岁父亲半只鸡吃三天

TVB的四小花
2026-05-10 05:10:50
震惊足坛!马拉多纳死亡真相再曝光,临终前 12 小时无人照料,7名医护面临重刑

震惊足坛!马拉多纳死亡真相再曝光,临终前 12 小时无人照料,7名医护面临重刑

情感大头说说
2026-05-09 14:09:09
滴滴司机讲述东北萧条:一家三口一年挣两三万,很多老人翻垃圾桶

滴滴司机讲述东北萧条:一家三口一年挣两三万,很多老人翻垃圾桶

互联网大观
2026-05-09 13:07:25
刘涛在妈祖诞辰1066周年盛典现场,搀扶一名突然摔倒的摄影师

刘涛在妈祖诞辰1066周年盛典现场,搀扶一名突然摔倒的摄影师

韩小娱
2026-05-10 09:26:39
米哈累垮坎宁安,哈登:“啥说法?”

米哈累垮坎宁安,哈登:“啥说法?”

张佳玮写字的地方
2026-05-10 12:52:25
海岛文明的宿命:为什么香港近年来发展缓慢?

海岛文明的宿命:为什么香港近年来发展缓慢?

龙牙的一座山
2026-05-10 09:14:43
她18岁为人母,25岁四登春晚,跟逃犯睡了6年却不知对方身份?

她18岁为人母,25岁四登春晚,跟逃犯睡了6年却不知对方身份?

白面书誏
2026-05-09 14:59:44
解放前特务用很小的电台就能向台湾发报,可如今为什么没法做到?

解放前特务用很小的电台就能向台湾发报,可如今为什么没法做到?

宅家伍菇凉
2026-05-09 09:41:53
伊油轮强闯失败,保莫斯科全俄挨炸

伊油轮强闯失败,保莫斯科全俄挨炸

海子侃生活
2026-05-08 09:09:58
酒吧大屏专属欢迎!向佑新女友背景曝光,难怪向太执意不同意

酒吧大屏专属欢迎!向佑新女友背景曝光,难怪向太执意不同意

晓岇就是我
2026-05-10 05:32:42
于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

华人星光
2024-11-07 13:39:41
埃里克森:这场失利很难接受,我们不管怎么踢都没能进球

埃里克森:这场失利很难接受,我们不管怎么踢都没能进球

懂球帝
2026-05-10 05:05:15
丹泽尔·华盛顿22年前动作片翻拍版登顶Netflix,观看时长超6000万小时

丹泽尔·华盛顿22年前动作片翻拍版登顶Netflix,观看时长超6000万小时

娱圈观察员
2026-05-10 00:15:29
粉碎质疑!哈登关键7分+制胜一防救赎 达成1000板+300断连创纪录

粉碎质疑!哈登关键7分+制胜一防救赎 达成1000板+300断连创纪录

醉卧浮生
2026-05-10 06:09:34
重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

重磅:乌克兰在俄罗斯领土库尔斯克构建90平方公里缓冲区!

项鹏飞
2026-05-09 20:32:37
不愧是马司令!文章饭店正式开业,她带女儿来支持

不愧是马司令!文章饭店正式开业,她带女儿来支持

白面书誏
2026-05-08 20:45:46
2026-05-10 13:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

美贸易代表:中国在很大程度上限制大量美商品对华出口

头条要闻

美贸易代表:中国在很大程度上限制大量美商品对华出口

体育要闻

詹姆斯生涯第6次0-3困境:今年会被横扫吗

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

亲子
艺术
本地
旅游
公开课

亲子要闻

小叔子比老公小28岁,整天就知道粘着我

艺术要闻

毛主席83岁时写给华国锋的6字真相令人震惊!

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

京西又开了一座新博物馆,展现永定河畔的农耕文化

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版