网易首页 > 网易号 > 正文 申请入驻

模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA

0
分享至

作者简介:由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究,作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋,通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究,欢迎关注。

快执行与慢思考:

在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港中文大学的研究团队联合发布了名为 Fast-in-Slow(FiS-VLA) 的全新双系统视觉 - 语言 - 动作模型。不同之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块,该方法通过将快速执行模块嵌入预训练视觉 - 语言模型(VLM)中,实现快慢系统一体化的设计。同时,针对双系统设计了异构模态输入与异步运行频率的策略,使得 FiS-VLA 既能实现快速动作生成,也具备慢思考能力。该方法在多个仿真与真机平台上取得了优异表现。最令人瞩目的是,FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率,大幅领先于现有主流方案,展示了其广阔的实际应用潜力。

  • 论文链接:
  • https://arxiv.org/pdf/2506.01953
  • 项目主页:
  • https://fast-in-slow.github.io/
  • 代码链接:
  • https://github.com/CHEN-H01/Fast-in-Slow
  • PKU HMI 实验室主页:
  • https://pku-hmi-lab.github.io/HMI-Web/index.html

研究背景与挑战:

机器人操作系统的目标是在复杂环境中,依据传感器输入和语言指令,生成精确有效的控制信号。虽然近年来大规模的视觉 - 语言模型(VLMs)因其强大的预训练能力被引入到机器人领域,但其庞大的模型参数和较慢的推理速度,限制了其在高频控制任务中的实用性。

为此,一些研究引入 Kahneman 的 “双系统理论”:系统 1 代表快速、直觉式的决策系统,系统 2 代表缓慢但深度推理的系统。在这一理论的启发下,已有方法尝试构建双系统结构,即使用 VLM 作为系统 2 进行任务级理解,再使用额外的策略头(系统 1)进行动作预测。但现有设计中两个系统相对独立,无法充分共享系统 2 的预训练知识,导致协同效率低下,系统 1 缺乏对系统 2 语义推理结果的充分利用。

Fast-in-slow VLA (如何在慢系统中分化出执行模块)

FiS-VLA 提出一种创新结构,将 VLM 的末端几层 Transformer 模块直接重构为系统 1 执行模块,嵌入原有系统 2 内部,形成一个统一的高效推理与控制模型。系统 2 以低频率处理 2D 图像和语言指令,输出指导特征;系统 1 以高频率响应实时感知输入(状态、图像和点云),实现高效动作生成。

此外,FiS-VLA 采用双系统感知协同训练策略,一方面利用扩散建模增强系统 1 的动作生成能力,另一方面保留系统 2 的高维语义推理能力,确保整体推理执行的互补性。模型在超 86 万条轨迹的大规模机器人数据集上预训练,并在多个现实任务中微调优化,显著提升了任务完成率和控制频率。

1. 架构设计:FiS-VLA 基于 Prismatic VLM 架构,主要包括以下模块:视觉编码器(结合 SigLIP 与 DINOv2 两种视觉编码器)、轻量级 3D tokenizer(处理点云并共享视觉编码器提取空间特征)、大语言模型(使用 LLaMA2-7B,并将其最后 n 层 Transformer 模块重用于系统 1),以及若干 MLP 模块(用于模态融合和扩散建模)。系统 1 直接嵌入系统 2 中的高维表示空间,使其能继承预训练知识并实现高频执行,整个系统构成 “快中有慢、慢中有快” 的协同结构。

2. 双系统协作:FiS-VLA 的结构由两个组成部分构成:一个慢速的系统 2 和一个快速的系统 1,这一设计灵感来源于 Kahneman 提出的双系统理论。在 FiS-VLA 中,系统 2 会处理与任务相关的视觉观测(如图像)和语言指令,并将其转化为高维特征,这些特征来自大语言模型(LLM)的中间层。借鉴 “动作块化” 的方法,FiS-VLA 认识到在时间步 t 的输入可以为未来若干步的动作生成提供指导,因此 FiS-VLA 将系统 2 的中间层输出作为一个潜在的条件信号,为接下来的 H 步系统 1 的动作生成提供约束。相较而言,系统 1 专注于实时动作生成,它在每一个时间步上运行,接收当前的感知输入并输出动作,同时也利用周期性更新的来自系统 2 的高维语义理解结果。这样的行为模式类似于人类的直觉反应,使得系统 1 成为一个高频率的动作生成模块。为了使两个系统协同工作,FiS-VLA 研究了它们之间的运行频率比例,并在消融实验中测试了不同的动作预测视野,实质上是在探索系统 2 每运行一次,系统 1 应连续运行多少步。在训练阶段,FiS-VLA 采用异步采样的方式控制系统 2 的运行频率,使得系统 1 能够保持动作生成过程的时间一致性。

另外,FiS-VLA 采用异构模态输入设计。由于系统 1 与系统 2 在职责上存在根本差异,FiS-VLA 为其设计了异构的输入模态。系统 2 主要承担任务理解与语义推理的工作,作为一个在互联网上以图文数据大规模预训练而来的模型,它最适合接收语言指令与 2D 图像,以充分激发其语义建模能力。系统 1 则用于实时生成机器人动作,因此必须接收全面、低延迟的感知信息输入,包括当前时刻的 2D 图像、机器人的自身状态(如关节、位置等),以及通过相机参数从深度图还原出的 3D 点云信息。特别是 3D 信息对于识别空间关系与实现精细操作至关重要。最终,系统 1 会将这些输入模态与系统 2 输出的高维特征共同融合,作为条件输入进行动作生成。

3.FiS-VLA 双系统协同训练:系统 1 以扩散建模为核心,注入带噪动作作为训练变量,实现连续性动作生成;系统 2 则采用自回归预测保留推理能力,这两个训练目标联合优化 FiS-VLA。训练采用跨平台大规模轨迹数据(约 860K 条轨迹),并在微调阶段引入子任务语言指令增强任务适应性。

精度、速度、泛化!

1. 仿真测试:FiS-VLA 在 RLBench 仿真任务中平均成功率为 69%,显著优于 CogACT(61%)与 π0(55%),在 10 项任务中 8 项居首。在控制频率上,其在动作块大小为 1 时达到 21.9Hz,是 CogACT 的 2 倍以上。

2. 真机测试:在真实机器人平台(Agilex 与 AlphaBot)中,FiS-VLA 在 8 项任务中平均成功率分别为 68% 与 74%,远超 π0 基线。在高精度操控任务如 “倒水”、“擦黑板”、“折毛巾” 等场景下展现显著优势。

3. 泛化能力:在泛化测试中,面对未见物体、复杂背景与光照变化,FiS-VLA 准确率下降幅度远小于 π0,验证其双系统架构对视觉扰动的鲁棒性。

4. 消融实验:消融实验表明,并非共享 Transformer 层数越多,系统 1 性能越强,在共享 Transformer 层数为 2 的时候,FiS-VLA 实现最佳性能;系统 1 接收机器人状态、图像与点云三种输入模态效果最佳;系统 1 和系统 2 协作的最佳频率比为 1:4;FiS-VLA 在不同 action chunk 值下性能稳定,而控制频率呈比例提升。特别当单步预测 8 个动作时,理论控制频率高达 117.7Hz;同时最后作者还研究了 FiS-VLA 的一系列变体(模型输入的变体)。

5. 真机实验可视化

总结与展望:

FiS-VLA 通过在统一 VLM 中嵌入执行模块,创新性地融合推理与控制,实现了高频、高精度、强泛化的机器人操控能力。作者讨论到,未来若引入动态调整共享结构与协同频率策略,将进一步提升其在实际任务中的自适应性与鲁棒性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
与人相处,反着人性来你就赢了。只要牢记这6句话就能看穿一个人

与人相处,反着人性来你就赢了。只要牢记这6句话就能看穿一个人

新时代的两性情感
2026-03-25 11:40:36
她出身上海名门,是国家一级演员,嫁东北丈夫,如今66岁生活幸福

她出身上海名门,是国家一级演员,嫁东北丈夫,如今66岁生活幸福

白面书誏
2026-03-23 17:38:15
大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

风起见你
2026-03-20 02:22:40
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

冷峻视角下的世界
2026-02-20 07:45:35
Manus终于喝下自己藏好的毒

Manus终于喝下自己藏好的毒

蓝媒汇财经plus
2026-03-25 21:27:26
蒋介石亲下密令:除掉这个女人,哪怕她肚子里还怀着我的骨肉

蒋介石亲下密令:除掉这个女人,哪怕她肚子里还怀着我的骨肉

棠棣分享
2026-03-24 12:05:26
轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

李喜林篮球绝杀
2026-03-26 11:34:01
四年前高分读计算机的同学,开始后悔了!最受AI冲击的十大职业

四年前高分读计算机的同学,开始后悔了!最受AI冲击的十大职业

狐狸先森讲升学规划
2026-03-25 13:00:03
霍启刚:对郭晶晶不是一见钟情!就是觉得挺漂亮 感谢国家让我见到她

霍启刚:对郭晶晶不是一见钟情!就是觉得挺漂亮 感谢国家让我见到她

小椰的奶奶
2026-03-26 10:57:49
朝鲜权力格局再洗牌!金正恩连任背后

朝鲜权力格局再洗牌!金正恩连任背后

新浪财经
2026-03-26 00:04:55
1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

1976年播报毛主席讣告,播音员念完三遍后突然冒出一句话,全国都慌了

文史明鉴
2026-03-25 19:14:13
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
20 多项新功能,iOS 26.4 有哪些值得关注的实用更新?

20 多项新功能,iOS 26.4 有哪些值得关注的实用更新?

少数派sspai
2026-03-26 12:19:13
这些聊天记录是真实事件吧?吃瓜群众不嫌事大,八卦感拉满了!

这些聊天记录是真实事件吧?吃瓜群众不嫌事大,八卦感拉满了!

夜深爱杂谈
2026-03-25 22:06:41
83岁赵朴初归乡,站在陈独秀墓前直言:墓碑上少了两个字太不应该

83岁赵朴初归乡,站在陈独秀墓前直言:墓碑上少了两个字太不应该

老谢谈史
2026-03-23 12:07:01
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
实锤了!歼10C飞行员明确披露,我军预警机可直接制导空空弹

实锤了!歼10C飞行员明确披露,我军预警机可直接制导空空弹

策略述
2026-03-25 14:07:39
CCTV5直播!国足VS世界杯鱼腩 首发曝光:已定5人 邵佳一重用老将

CCTV5直播!国足VS世界杯鱼腩 首发曝光:已定5人 邵佳一重用老将

侃球熊弟
2026-03-25 13:40:12
2026-03-26 15:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
游戏
教育
旅游
亲子

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

教育要闻

高考地理中的花海经济

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

无障碍浏览 进入关怀版