在具身智能(Embodied AI)领域,让机器人既能“听懂人话”又能“干好细活”一直是业界难题。传统的 VLA 模型虽然懂语义,却像个缺乏常识的“书呆子”,一旦环境发生动态变化就容易“断片”。近日,上海人工智能实验室(Shanghai AI Lab)Intern Robots团队推出了全新的机器人操控模型InternVLA-A1。该模型首次将语义理解、视觉预测与动作执行完美统一,赋予了机器人像人类一样的“物理直觉”。
![]()
论文摘要
目前主流的视觉-语言-动作(VLA)模型大多构建在多模态大语言模型(MLLMs)之上,虽然在语义理解方面表现卓越,但天生缺乏对物理世界动力学的推断能力。因此,近期的研究趋势开始转向通过视频预测构建的“世界模型”;然而,这类方法往往面临语义关联缺失的问题,且在应对预测误差时表现得十分脆弱。
为了实现语义理解与动态预测能力的协同,研究团队推出了InternVLA-A1。该模型采用了统一的“混合互感器”(Mixture-of-Transformers)架构,巧妙地协调了场景理解、视觉前瞻生成和动作执行三个专家模块,并通过统一的掩码自注意力机制实现了各组件间的无缝交互。
基于 InternVL3 和 Qwen3-VL 底座,研究者们开发了 2B 和 3B 两种参数规模的 InternVLA-A1。模型在涵盖 InternData-A1 和 Agibot-World 的虚实混合数据集上进行了预训练,数据量高达 5.33 亿帧。这种混合训练策略在有效利用合成仿真数据多样性的同时,最大限度地缩小了仿真与现实之间的差距(sim-to-real gap)。
在 12 项真实世界机器人任务及仿真基准测试中,InternVLA-A1 的表现令人瞩目。其性能显著超越了 $$\pi_$$ 和 GR00T N1.5 等顶尖模型,在日常任务中实现了 14.5% 的提升,而在传送带分拣等动态场景下,性能涨幅更是达到了 40% 至 73.3%。
![]()
InternVLA-A1核心框架:Mixture-of-Transformers (MoT)
以往的机器人模型通常是插件式的(比如给大语言模型挂一个动作模型),但 InternVLA-A1 采用的是全集成架构。它将整个任务流程拆解为三个“专家”,并让它们在同一个 Transformer 空间内协作。
![]()
InternVLA-A1 架构图。该架构由三个专家模块组成:(1)理解专家:负责从图像和文本输入中编码场景上下文信息;(2)生成专家:负责预测未来的视觉状态和任务动力学演变;(3)动作专家:负责将编码后的场景上下文与预测的动力学信息相结合,并通过流匹配(Flow Matching)技术生成控制指令。这种“三位一体”的设计使模型能够在多种复杂场景下实现稳健的操控。
- 三位一体的“专家”系统
在模型内部,Token(信息单元)被分配给三个不同的功能模块:
- 理解专家 (Understanding Expert):
- 职责:负责“读懂”环境。它基于 InternVL3 和 Qwen3-VL 的强大能力,将视觉图像和人类指令(如“把那个移动的杯子抓住”)转化为高维语义特征。
- 想象专家 (Imagination Expert):
- 职责:负责“脑补”未来。它是模型中的“世界模型”组件,根据当前的画面和预定的动作,预测下一帧图像长什么样(Visual Foresight)。这赋予了机器人“物理常识”。
- 动作专家 (Action Expert):
- 职责:负责“发号施令”。它不再盲目执行,而是综合“理解专家”提供的语义和“想象专家”提供的物理预测,输出最终的机器人运动轨迹(End-effector Pose)。
- 核心连接器:统一掩码自注意力机制 (Unified Masked Self-Attention)
这是该框架最精妙的“中枢神经”。传统的注意力机制会让信息乱跑,而 InternVLA-A1 通过掩码(Mask)技术精准控制信息流:
- 逻辑:它允许“动作专家”在计算时,能够同时看到当前的图像特征和“想象专家”预测的未来图像特征。
- 效果:这种设计实现了语义逻辑物理动力学的深度融合。机器人执行动作时,心里很清楚:“我这一手伸过去,杯子应该会出现在这个位置”。
- 多尺度的模型实例化
为了适配不同的算力需求,研发团队基于这一框架推出了两个版本:
- InternVLA-A1-2B:轻量级,侧重于实时响应。
- InternVLA-A1-3B:增强版,拥有更强的推理和预测精度。
实验结果
如果说架构是“骨架”,那么实验数据就是支撑 InternVLA-A1 成为顶级智能体的“肌肉”。在与业界标杆模型(如 \pi_0)的同台竞技中,InternVLA-A1 展现出了一定的优势。
- 动态操控任务:在运动中精准“拿捏”
传统的机器人往往只能处理静止物体,面对移动的目标就像“慢半拍”的复读机。但 InternVLA-A1 凭借其强大的视觉前瞻能力,在极具挑战性的高度动态场景中表现惊人:
- 核心场景:快递分拣(Express Sorting)、运动中食材抓取(In-motion Ingredient Picking)。
- 战绩:在这些需要实时预判物理轨迹的任务中,InternVLA-A1 的表现大幅超越了 $\pi_0$ 等领先模型,性能提升高达 26.7%
- 结论:它不再是死板地执行动作,而是能预见物体的运动,实现了真正的“眼疾手快”。
- 静态操控任务:细活儿也能干得漂亮
除了在动态场景下大显身手,InternVLA-A1 在需要极高精度和灵活性(Dexterous and Fine-grained)的日常任务中也表现得像个熟练的“工匠”。
通过对 8 项典型任务的严苛测试,InternVLA-A1 证明了它对复杂指令的理解和微操能力:
- Task 01 零件分拣 (Sort Parts):精准识别并分类微小工业零件。
- Task 02 拉链闭合 (Zip Bag):挑战高难度柔性物体操控,展示极佳的指尖灵巧度。
- Task 03 拧开瓶盖 (Unscrew Cap):模拟精细的旋转受力操作。
- Task 04 鲜花插瓶 (Place Flower):兼具柔性物体处理与空间感知。
- 其他任务还包括:擦拭污垢(Wipe Stain)、垃圾分类(Sort Rubbish)、清扫垃圾(Sweep Trash)以及放置记号笔(Place Markpen)。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.