网易首页 > 网易号 > 正文 申请入驻

上海AI Lab发布InternVLA-A1:让机器人学会“脑补”未来

0
分享至

在具身智能(Embodied AI)领域,让机器人既能“听懂人话”又能“干好细活”一直是业界难题。传统的 VLA 模型虽然懂语义,却像个缺乏常识的“书呆子”,一旦环境发生动态变化就容易“断片”。近日,上海人工智能实验室(Shanghai AI Lab)Intern Robots团队推出了全新的机器人操控模型InternVLA-A1。该模型首次将语义理解、视觉预测与动作执行完美统一,赋予了机器人像人类一样的“物理直觉”。



论文摘要

目前主流的视觉-语言-动作(VLA)模型大多构建在多模态大语言模型(MLLMs)之上,虽然在语义理解方面表现卓越,但天生缺乏对物理世界动力学的推断能力。因此,近期的研究趋势开始转向通过视频预测构建的“世界模型”;然而,这类方法往往面临语义关联缺失的问题,且在应对预测误差时表现得十分脆弱。

为了实现语义理解与动态预测能力的协同,研究团队推出了InternVLA-A1。该模型采用了统一的“混合互感器”(Mixture-of-Transformers)架构,巧妙地协调了场景理解、视觉前瞻生成和动作执行三个专家模块,并通过统一的掩码自注意力机制实现了各组件间的无缝交互。

基于 InternVL3 和 Qwen3-VL 底座,研究者们开发了 2B 和 3B 两种参数规模的 InternVLA-A1。模型在涵盖 InternData-A1 和 Agibot-World 的虚实混合数据集上进行了预训练,数据量高达 5.33 亿帧。这种混合训练策略在有效利用合成仿真数据多样性的同时,最大限度地缩小了仿真与现实之间的差距(sim-to-real gap)。

在 12 项真实世界机器人任务及仿真基准测试中,InternVLA-A1 的表现令人瞩目。其性能显著超越了 $$\pi_$$ 和 GR00T N1.5 等顶尖模型,在日常任务中实现了 14.5% 的提升,而在传送带分拣等动态场景下,性能涨幅更是达到了 40% 至 73.3%。



InternVLA-A1核心框架:Mixture-of-Transformers (MoT)

以往的机器人模型通常是插件式的(比如给大语言模型挂一个动作模型),但 InternVLA-A1 采用的是全集成架构。它将整个任务流程拆解为三个“专家”,并让它们在同一个 Transformer 空间内协作。



InternVLA-A1 架构图。该架构由三个专家模块组成:(1)理解专家:负责从图像和文本输入中编码场景上下文信息;(2)生成专家:负责预测未来的视觉状态和任务动力学演变;(3)动作专家:负责将编码后的场景上下文与预测的动力学信息相结合,并通过流匹配(Flow Matching)技术生成控制指令。这种“三位一体”的设计使模型能够在多种复杂场景下实现稳健的操控。

  1. 三位一体的“专家”系统

在模型内部,Token(信息单元)被分配给三个不同的功能模块:

  • 理解专家 (Understanding Expert):
  • 职责:负责“读懂”环境。它基于 InternVL3 和 Qwen3-VL 的强大能力,将视觉图像和人类指令(如“把那个移动的杯子抓住”)转化为高维语义特征。
  • 想象专家 (Imagination Expert):
  • 职责:负责“脑补”未来。它是模型中的“世界模型”组件,根据当前的画面和预定的动作,预测下一帧图像长什么样(Visual Foresight)。这赋予了机器人“物理常识”。
  • 动作专家 (Action Expert):
  • 职责:负责“发号施令”。它不再盲目执行,而是综合“理解专家”提供的语义和“想象专家”提供的物理预测,输出最终的机器人运动轨迹(End-effector Pose)。
  1. 核心连接器:统一掩码自注意力机制 (Unified Masked Self-Attention)

这是该框架最精妙的“中枢神经”。传统的注意力机制会让信息乱跑,而 InternVLA-A1 通过掩码(Mask)技术精准控制信息流:

  • 逻辑:它允许“动作专家”在计算时,能够同时看到当前的图像特征和“想象专家”预测的未来图像特征。
  • 效果:这种设计实现了语义逻辑物理动力学的深度融合。机器人执行动作时,心里很清楚:“我这一手伸过去,杯子应该会出现在这个位置”。
  1. 多尺度的模型实例化

为了适配不同的算力需求,研发团队基于这一框架推出了两个版本:

  • InternVLA-A1-2B:轻量级,侧重于实时响应。
  • InternVLA-A1-3B:增强版,拥有更强的推理和预测精度。

实验结果

如果说架构是“骨架”,那么实验数据就是支撑 InternVLA-A1 成为顶级智能体的“肌肉”。在与业界标杆模型(如 \pi_0)的同台竞技中,InternVLA-A1 展现出了一定的优势。

  1. 动态操控任务:在运动中精准“拿捏”

传统的机器人往往只能处理静止物体,面对移动的目标就像“慢半拍”的复读机。但 InternVLA-A1 凭借其强大的视觉前瞻能力,在极具挑战性的高度动态场景中表现惊人:

  • 核心场景:快递分拣(Express Sorting)、运动中食材抓取(In-motion Ingredient Picking)。
  • 战绩:在这些需要实时预判物理轨迹的任务中,InternVLA-A1 的表现大幅超越了 $\pi_0$ 等领先模型,性能提升高达 26.7%
  • 结论:它不再是死板地执行动作,而是能预见物体的运动,实现了真正的“眼疾手快”。
  1. 静态操控任务:细活儿也能干得漂亮

除了在动态场景下大显身手,InternVLA-A1 在需要极高精度和灵活性(Dexterous and Fine-grained)的日常任务中也表现得像个熟练的“工匠”。

通过对 8 项典型任务的严苛测试,InternVLA-A1 证明了它对复杂指令的理解和微操能力:

  • Task 01 零件分拣 (Sort Parts):精准识别并分类微小工业零件。
  • Task 02 拉链闭合 (Zip Bag):挑战高难度柔性物体操控,展示极佳的指尖灵巧度。
  • Task 03 拧开瓶盖 (Unscrew Cap):模拟精细的旋转受力操作。
  • Task 04 鲜花插瓶 (Place Flower):兼具柔性物体处理与空间感知。
  • 其他任务还包括:擦拭污垢(Wipe Stain)、垃圾分类(Sort Rubbish)、清扫垃圾(Sweep Trash)以及放置记号笔(Place Markpen)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么这5样“电器”突然没人买了?缺点太多了,白送都没人要!

为什么这5样“电器”突然没人买了?缺点太多了,白送都没人要!

家居设计师苏哥
2025-12-27 14:36:28
江苏突发烟花爆竹爆燃事故!已造成8人死亡,2人被灼伤,详情曝出

江苏突发烟花爆竹爆燃事故!已造成8人死亡,2人被灼伤,详情曝出

胡侃社会百态
2026-02-15 22:51:17
央视肖晓琳:退休5个月,在美国儿子家逝去,临终26字遗言太深刻

央视肖晓琳:退休5个月,在美国儿子家逝去,临终26字遗言太深刻

古事寻踪记
2026-02-06 07:06:55
战术太保守!中国短道速滑再失奖牌!1500被以一带二双双出局

战术太保守!中国短道速滑再失奖牌!1500被以一带二双双出局

运动帮
2026-02-15 08:15:47
果然,出门在外“胡说八道”能省去很多麻烦,这些方法太管用了!

果然,出门在外“胡说八道”能省去很多麻烦,这些方法太管用了!

另子维爱读史
2025-12-12 20:08:38
谷爱凌:安排不公平

谷爱凌:安排不公平

南方都市报
2026-02-15 11:39:35
江苏杨某军,没批文让老板垫1个亿,硬是把52个老小区给翻新了。

江苏杨某军,没批文让老板垫1个亿,硬是把52个老小区给翻新了。

林子说事
2026-02-01 09:40:29
军委让张万年参加香港回归仪式,张万年:这不行

军委让张万年参加香港回归仪式,张万年:这不行

文史茶馆2020
2026-02-10 08:36:59
婚姻里的“哄”,是最高级的浪漫

婚姻里的“哄”,是最高级的浪漫

青苹果sht
2025-12-27 05:12:18
黄金时代的风采,四号舰仅一年时间,水线以下部分大致成型

黄金时代的风采,四号舰仅一年时间,水线以下部分大致成型

啸鹰评
2026-02-14 23:21:15
女同事问这衣服咋样?该怎么回答?

女同事问这衣服咋样?该怎么回答?

太急张三疯
2026-02-15 17:58:10
全球观众最喜爱演员排名:肖战未进前四,赵丽颖第六,第一无争议

全球观众最喜爱演员排名:肖战未进前四,赵丽颖第六,第一无争议

老头的传奇色彩
2026-02-15 16:53:16
惨烈!李月汝超三也沦饮水机 场均5.8分钟两度挂零 11战仅1场上双

惨烈!李月汝超三也沦饮水机 场均5.8分钟两度挂零 11战仅1场上双

颜小白的篮球梦
2026-02-15 17:56:55
中国稀土地位悬了?撬走中方人才,攻克提炼技术,但西方笑得太早

中国稀土地位悬了?撬走中方人才,攻克提炼技术,但西方笑得太早

補懂事的孩紙
2026-02-15 11:28:37
温州知名服饰品牌,被查

温州知名服饰品牌,被查

温百君
2026-02-15 21:08:59
四面楚歌!同时对中俄出手后,高市帮手到位:不许中国一家独大!

四面楚歌!同时对中俄出手后,高市帮手到位:不许中国一家独大!

娱乐督察中
2026-02-15 23:33:43
我入赘给市长的疯女儿,新婚夜她却说:我装疯这么多年就是为了这天

我入赘给市长的疯女儿,新婚夜她却说:我装疯这么多年就是为了这天

萧竹轻语
2025-11-14 16:25:55
以后没法直视了!网友晒图蒂法竟然撞脸常威

以后没法直视了!网友晒图蒂法竟然撞脸常威

游民星空
2026-02-14 16:52:21
能攻善守那是超级外援!今年海港大鱼 能做好其中一项 就很强

能攻善守那是超级外援!今年海港大鱼 能做好其中一项 就很强

80后体育大蜀黍
2026-02-15 23:22:57
“撒钱老板”崔培军,到底是做什么生意的?

“撒钱老板”崔培军,到底是做什么生意的?

趣味萌宠的日常
2026-02-15 23:58:25
2026-02-16 01:39:00
杰西讲具身 incentive-icons
杰西讲具身
一名分享AI前沿的分享官,专注具身智能前沿知识
1文章数 1关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

头条要闻

大学生寒假为妈妈店铺当中老年服装模特 撞脸明星

体育要闻

NBA三分大赛:利拉德带伤第三次夺冠

娱乐要闻

2026央视春晚最新剧透 重量级嘉宾登场

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

游戏
数码
健康
房产
军事航空

LPL第一赛段还未结束,亚运会已有3队退出LOL比赛,包括东道主

数码要闻

阿迈奇X5复古迷你主机上市,搭载锐龙AI 9 HX 370售6499元

转头就晕的耳石症,能开车上班吗?

房产要闻

三亚新机场,又传出新消息!

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版