网易首页 > 网易号 > 正文 申请入驻

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

0
分享至



在多模态大模型的基座上,视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然而,现有 VLA 基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练(Post-Training),特别是当目标场景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了 VLA 模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。

为了解决该问题,中国电信人工智能研究院(TeleAl)具身智能团队提出了一种 “对齐 - 引导 - 泛化”(Align then Steer, ATE)的 VLA 跨本体泛化框架,破解了 VLA 后训练难题。其核心思想是在潜空间中对齐跨本体动作分布,从而在后训练利用统一潜空间梯度引导 VLA 策略的更新方向。无需改动现有 VLA 主干架构,实现了 VLA 模型后训练从调架构向调分布的范式转移,适配 Diffusion 和 Flow-Matching 等主流的 VLA 模型,极大减少 VLA 跨本体适配的数据需求。


https://mp.weixin.qq.com/s/NChG3VeyMaKhJi61X_ON_A?click_id=17

  • 论文题目:Align-Then-Steer: Adapting the Vision-Language Action Models through Unified Latent Guidance
  • 论文地址:https://arxiv.org/abs/2509.02055
  • 项目地址:https://align-then-steer.github.io/
  • 开源代码:https://github.com/TeleHuman/Align-Then-Steer

研究动机:从分布一致性突破 VLA 的跨本体泛化训练瓶颈

在面向特定具身场景的操作大模型应用中,决定 VLA 能否进行跨本体迁移的关键并非参数规模或主干架构的复杂度,而是预训练阶段与后训练阶段的目标本体和任务的动作分布的一致性。特别地,当目标本体的机械臂构型、执行器形态、关节自由度与本体物理约束等发生变化时,目标动作分布不可避免地偏离预训练阶段 VLA 学得的动作分布域。单纯地通过采集大量真机数据在后训练阶段弥补这一鸿沟,面临迅速递减的边际收益,即单纯数据堆叠难以有效地引导策略抵达目标域。

为了解决 VLA 的跨本体泛化适配问题,目前学界采用的方法主要从以下两个角度开展,构建统一的、语义级别的潜在动作表示,或通过运动学重定向(Retargeting)手动将跨本体数据构建到统一的动作空间。然而,这些路径普遍存在两类局限:一方面,目标动作分布与原分布相差过大时(如预训练采用单臂数据,目标场景在双臂),上述的方法难以准确刻画目标本体的可行子分布;另一方面,现有方式依然面向自回归范式,并没有考虑扩散 / 流匹配类策略的条件生成结构。为了解决该问题,TeleAI 具身智能团队提出了 “对齐 - 引导 - 泛化”(ATE)框架,在统一的潜空间中先对齐动作统计,并在后训练阶段引入可微的引导项牵引策略更新,仅利用少量样本便可以将模型适配到目标本体。



研究方法

ATE 框架

ATE 框架的核心思想是先在潜空间中对齐动作分布,再利用潜空间的分类器引导去牵引后训练策略更新方向。ATE 框架如上图所示,共分为两个阶段。

第一阶段先构建一个与跨本体的统一动作潜空间,将预训练数据所蕴含的跨任务、跨环境结构性信息编码到潜空间,再利用目标域的有限样本将目标潜空间嵌入到预训练潜空间。在完成潜空间的对齐后,第二阶段在统一的潜空间上设计引导函数,并利用由此得到扩散 / 流匹配 VLA 模型的分类引导,在后训练阶段显式地将微调过程牵引至期望的目标分布,而无需更改 VLA 模型主干模型结构。

在 ATE 框架中,“对齐 — 引导” 都从分布的角度出发:先把目标域的动作潜分布嵌入到预训练动作潜分布的某个模态中,随后用一个可微的分类器引导项把策略输出的生成分布朝目标分布持续推近。第一步等价于在潜空间上完成一次分布投影;第二步等价于在生成过程中为分布流添加一个外部力场,沿着统一潜空间定义的能量梯度推进去噪,使最终的边缘分布更接近适配数据分布。

这种 “从调模型到调分布” 的范式迁移具有如下优势。第一,样本效率提升:潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量。第二,训练效率提升:分布引导避免模型全参数重训练,能够在既定训练预算内获得更快的有效收敛。第三,工程可复用性增强:潜空间引导只作用于动作专家模型后训练,与顶层模型解耦,具备即插即用的特性,可适配目前主流分层 VLA。

第一阶段:动作潜分布对齐







第二阶段:动作潜分布引导







引导机制充分利用了统一潜空间的优势,既解决了跨实体和跨任务的适应性问题,又保留了预训练阶段习得的通用视觉 - 运动先验知识,显著提升了模型在新环境下的适应效率和性能。

实验结果

ATE 算法在 ManiSkill 与 RoboTwin 1.0 等多任务仿真评测中,相较于直接后训练,平均多任务成功率最高提升 9.8%。而在真实机器人跨本体现实场景中,ATE 带来最高 32% 的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性。这些结果表明:ATE 框架在统一潜空间中引导学习,使得 VLA 跨本体与跨任务泛化在有限数据下得到提升,而无需额外的数据与大规模重训练。



上表汇总了 17 个机器人操作任务上,ATE 框架下 RDT 和 PI-0 在 RoboTwin 1.0 上的性能对比。ATE 框架对 RDT 与 PI-0 的平均提升分别约为 + 9.8 与 + 8.7 个百分点,显示出跨任务的一致增益与较好的可迁移性。尤其在基线困难的长程任务中,单项增益明显:例如,RDT 在 Empty Cup Place 任务成功率由 22% 提升到 61%(+39),Pi 0 在 Dual Bottles Pick (Easy) 任务上成功率由 48% 提升到 85%(+37),反映了潜空间对齐与引导在动作空间分布失配较大的场景中效果更显著。与此同时,个别任务出现了小幅下降,如 RDT 在 Bottle Adjust(-16)、Tool Adjust(-12)、Shoe Place(-1),Pi 0 在 Pick Apple Messy(-7)、Blocks Stack (Hard)(-1)、Tool Adjust(-1)。这类现象通常表现为目标域动作分布较窄。从样本效率与收敛速度角度,ATE 在 70k 步即可超过传统 RDT 的 90k 步效果,说明 ATE 框架的对齐 — 引导机制,不仅提高任务成功率,也显著提升了任务成功率。



为了验证模型的跨本体泛化能力,我们自行搭建了双臂睿尔曼实验环境,该实验平台从未在预训练数据中出现过,且双臂的动作空间和预训练数据有明显不同。进而,构建了多个分钟级长序双臂协同操作任务,包括制作三明治、蒸包子等复杂协作任务,以及制作酸奶、烤面包等工具使用类任务。通过采集少量真机数据进行后训练,ATE 算法能够将基座 RDT 和 Pi-0 等 VLA 模型快速适配到目标本体上。上图呈现了四个真机任务在不同训练步数的成功率与整体平均,展示了在有限数据与分钟级长程任务下 ATE 框架的性能。可见在需要双臂协同、时序规划与多阶段配合的任务上,在统一的潜空间引导下 ATE 框架能使模型更快地收敛到目标域动作分布。



上图可视化了空间泛化(初始位姿随机偏移)、视觉干扰(放置未见过的杂物,如水果)、人为扰动(在关键点迫使策略重试)。ATE 框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力

研究总结

在 VLA 基座模型尚不具备直接泛化能力的情况下,TeleAI 提出的跨本体 ATE 后训练框架为数据稀缺与跨本体泛化后训练难题提供了可行答案。面对数据预算、训练窗口与算力上限的三重约束,无需寄望于数据堆叠或昂贵的全参重训,而是以最小工程代价引入潜空间对齐与分布引导,实现快速、稳健的跨本体泛化适配。换言之,ATE 框架可以作为一个即插即用的模块,成为兼容各种主流 VLA 模型的后训练阶段的对齐引导方案,用于提升后训练的跨本体泛化能力,成为破解数据与训练瓶颈的实践路径。

作者简介:本文由 TeleAI 三名研究实习生:清华大学博士生张扬、港中文硕士生王陈炜、西工大硕士生陆欧阳作为共同第一作者,成果由 TeleAI 联合清华大学、港中文、西工大合作完成,本文通讯作者为 TeleAI 具身智能团队负责人白辰甲博士和 TeleAI 院长。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
背信弃义的巴拿马,中国反制已见成效

背信弃义的巴拿马,中国反制已见成效

时评人李文君
2026-02-26 15:49:17
“美官员担心:这时候动手,要是大陆武统...”

“美官员担心:这时候动手,要是大陆武统...”

观察者网
2026-02-27 09:37:04
筱梅晒幸福:妈妈我全程不会喂奶拍嗝,就交给老爸爸小菲了!

筱梅晒幸福:妈妈我全程不会喂奶拍嗝,就交给老爸爸小菲了!

离离言几许
2026-02-27 13:28:33
龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

她时尚丫
2026-02-17 22:41:30
沈腾大年初八在海南宴客,妻子王琦素颜出镜朴实,儿子已8岁了

沈腾大年初八在海南宴客,妻子王琦素颜出镜朴实,儿子已8岁了

做一个合格的吃瓜群众
2026-02-25 18:56:38
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
合作17年,如今坦白和岳云鹏私下关系冷淡的孙越,原来才是聪明人

合作17年,如今坦白和岳云鹏私下关系冷淡的孙越,原来才是聪明人

银河史记
2026-02-27 16:10:38
2026年广州公交大洗牌!多条陪伴街坊多年的公交线路停运!

2026年广州公交大洗牌!多条陪伴街坊多年的公交线路停运!

广州笋嘢益街坊
2026-02-26 23:14:10
79年对越战争,入伍52天的新兵唐立忠荣获一等功,后来是何军衔?

79年对越战争,入伍52天的新兵唐立忠荣获一等功,后来是何军衔?

搜史君
2026-02-27 07:00:16
1955年,毛主席表态:杨成武可不授上将,杨成武得知后作何反应?

1955年,毛主席表态:杨成武可不授上将,杨成武得知后作何反应?

文史季季红
2026-02-19 09:30:03
杭州男子失恋游湖南,遇苗族婚宴随礼1000入席,离场却被伴娘拦下

杭州男子失恋游湖南,遇苗族婚宴随礼1000入席,离场却被伴娘拦下

兰姐说故事
2025-06-09 10:00:07
1.2亿天价狂飙!曼城弃子逆袭切尔西,谁能看懂这波封神?

1.2亿天价狂飙!曼城弃子逆袭切尔西,谁能看懂这波封神?

卿子书
2026-02-27 08:54:16
樊振东也没想到,德国总理访华仅1天,自己竟因一段采访口碑暴涨

樊振东也没想到,德国总理访华仅1天,自己竟因一段采访口碑暴涨

社会日日鲜
2026-02-27 07:18:38
陈凯歌在三亚豪宅过年,穿5万皮鞋戴大金表 老年斑难掩艺术家气场

陈凯歌在三亚豪宅过年,穿5万皮鞋戴大金表 老年斑难掩艺术家气场

林雁飞
2026-02-25 20:00:33
全新奔驰S级实车,德国总理试乘,你爱不爱?

全新奔驰S级实车,德国总理试乘,你爱不爱?

车动态
2026-02-27 12:26:39
“去中国化”最彻底的4个国家,有一个已经完全西化了

“去中国化”最彻底的4个国家,有一个已经完全西化了

北纬的咖啡豆
2026-02-24 09:16:33
91岁阿婆摔断髋骨,入院仅6个半小时就下地创奇迹!上海四院“急诊手术新模式”守护高龄老人

91岁阿婆摔断髋骨,入院仅6个半小时就下地创奇迹!上海四院“急诊手术新模式”守护高龄老人

纵相新闻
2026-02-27 10:33:32
被严重低估的手机蓝牙!隐藏功能全解锁,日常用起来太省心

被严重低估的手机蓝牙!隐藏功能全解锁,日常用起来太省心

小柱解说游戏
2026-02-27 01:30:24
严重泄漏后仍不停止生产,应急管理部点名包钢板材厂爆炸事故

严重泄漏后仍不停止生产,应急管理部点名包钢板材厂爆炸事故

南方都市报
2026-02-27 13:59:00
登上春晚不到半个月,36岁刘宇宁官宣喜讯,网友:终于等到这天

登上春晚不到半个月,36岁刘宇宁官宣喜讯,网友:终于等到这天

白面书誏
2026-02-27 16:16:44
2026-02-27 17:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12374文章数 142570关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

24岁女子生下1男4女五胞胎 孩子爸爸称"心情像过山车"

头条要闻

24岁女子生下1男4女五胞胎 孩子爸爸称"心情像过山车"

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

房产
游戏
家居
艺术
时尚

房产要闻

重磅!海南“十五五”规划出炉!未来五年,方向定了!

忍龙4DLC新"大雷"敌人"吓哭"玩家!兄弟你是真饿了

家居要闻

素色肌理 品意式格调

艺术要闻

紫气东来,好运一整年!

今年春天最美搭配:西装+半裙,怎么穿都好看!

无障碍浏览 进入关怀版