具身每周动态：每周一次，我们帮你“一键复盘”具身智能前沿！（2026-w15)|算法|轨迹|机器人|智能体|新论文|人机交互

分享至

具身每周动态：每周一次，我们帮你“一键复盘”具身智能前沿！（2026-w15)

报告周期：2026-04-02 ~ 2026-04-09

一周导读快速导航

具身感知与场景理解

具身决策与规划

具身控制与操作

具身强化学习与世界模型

具身智能体与大模型（VLA）

仿真、数据与平台

人机交互与具身社会智能

行业动态

GitHub 开源项目

本周 Top 5 必读

序号

类型

标题

亮点

论文

A1: Truncated VLA Model(arXiv:2604.05672)

推理延迟降低72%，成本大幅下降，RoboChallenge SOTA

行业

GEN-1 by Generalist AI

任务成功率从64%→99%，速度提升3倍，堪称里程碑

开源

HY-Embodied (腾讯混元)

本周最重磅开源，MoT架构，具身理解超越同量级模型

论文

StarVLA(arXiv:2604.05014)

乐高式VLA代码库，统一评估接口，推动社区标准化

开源

AGIBOT WORLD 2026

100万+轨迹开源数据集，217个任务，配套Genie Sim 3.0

核心趋势（本周5大方向）

VLA 效率竞赛白热化：A1、HY-Embodied-0.5 等工作均以"低成本/高效率推理"为核心卖点，VLA 从"能用"走向"好用"。

数据生态系统化：AGIBOT WORLD 2026 开源100万+真实操作轨迹，配套Genie Sim 3.0数字孪生仿真，构建"数据-仿真-训练"完整闭环。

世界模型分层规划：LeCun团队（Yann LeCun作者列表）提出分层潜在世界模型，零样本机器人抓取达70%成功率，为长时程具身控制提供新思路。

开源代码库标准化：StarVLA、A1等工作全面开源代码、数据和检查点，推动VLA可复现性，将降低学术入门门槛。

神经符号融合趋势：Learning Structured Robot Policies 将VLM与行为树结合，让机器人决策可解释、可验证，向安全关键场景迈进。

❓ 开放问题（下周关注）

AGIBOT AI Week（4月7日起）每天发布一项新突破，具体硬件/算法能力尚待揭晓。

GEN-1 的99%成功率是否可复现？工业部署中边缘情况（edge case）表现如何？

HY-Embodied MoT-32B 的真实机器人操控实验数据何时公布？

FlashSAC 的 Sim-to-Real 将训练缩短至"分钟级"——其在真实灵巧操作中的极限在哪？

数据总览本周 ArXiv 论文方向分布

方向

代表论文数

核心关键词

具身感知与场景理解

自我中心仿真、3D场景状态

具身决策与规划

世界模型、分层规划、行为树

具身控制与操作

多智能体协作、多模态操控

具身强化学习与世界模型

离策略RL、潜在世界模型

具身智能体与大模型（VLA）

VLA效率、知识遗忘、开源框架

仿真、数据与平台

仿真闭环、数字孪生

人机交互与具身社会智能

表达性行为、可解释交互

本周 GitHub 重要更新

项目

类型

Stars/状态

亮点

HY-Embodied

本周新开源

新发布

腾讯混元具身VLM，MoT架构

starVLA/starVLA

重大更新

即将发布支持世界模型的新版本

AGIBOT WORLD 2026

本周新开源

新发布

100万+轨迹数据集

ArXiv 论文精选 1. 具身感知与场景理解 EgoSim: Egocentric World Simulator for Embodied Interaction Generation

自我中心世界模拟器：面向具身交互生成

arXiv: 2604.01001

发布时间: 2026年4月2日

作者与机构: Jinkun Hao, Mingda Jia 等 / 上海交通大学等

核心贡献:
提出 EgoSim，一个闭环自我中心世界模拟器，能够生成空间一致的交互视频并持续更新底层3D场景状态。核心创新在于：①将3D场景建模为可更新的世界状态（而非静态快照）；②提出几何-动作感知的观测模拟模型；③设计低成本采集系统 EgoCap（使用普通智能手机），从单目视频自动提取点云、相机轨迹和具身动作。实验表明EgoSim支持跨具身迁移到机器人操作，视觉质量和空间一致性显著优于现有方法。

方向标签:

2. 具身决策与规划 Hierarchical Planning with Latent World Models

基于潜在世界模型的分层规划

arXiv: 2604.03208

发布时间: 2026年4月3日

作者与机构: Wancong Zhang, Yann LeCun, Nicolas Ballas 等 / Meta FAIR

核心贡献:
提出多时间尺度的潜在世界模型与分层规划相结合的方法，解决长时程控制中预测误差累积问题。单层世界模型在长时程机器人任务（抓取放置）成功率为0%，而分层方法达到70%零样本成功率，同时将规划计算量降低4倍。该方法模块化设计，适用于多种潜在世界模型架构，在仿真迷宫导航和物理推动操作任务上均显著优于基线。

方向标签: FAIR

Learning Structured Robot Policies via Synthetic Neuro-Symbolic Supervision

通过合成神经符号监督学习结构化机器人策略

arXiv: 2604.02812

发布时间: 2026年4月3日

作者与机构: Alessandro Adami 等 / 帕多瓦大学

核心贡献:
提出神经符号框架，让VLM根据视觉观测、自然语言指令和系统规范合成可执行的行为树策略。通过自动化流程生成合成多模态数据集（包含领域随机化场景），实现无需人工标注的可扩展监督。在两个真实机器人操控器上验证：仅从合成数据训练的策略可成功迁移到物理系统，为安全关键场景提供可解释替代方案。

方向标签:

3. 具身控制与操作 CoEnv: Driving Embodied Multi-Agent Collaboration via Compositional Environment

组合环境驱动的具身多智能体协作

arXiv: 2604.05484

发布时间: 2026年4月7日

作者与机构: Li Kang, Yutao Fan 等 / 上海AI Lab

核心贡献:
提出组合环境（Compositional Environment）概念——现实与仿真组件的协同整合，支持多机器人在统一决策空间中感知意图并操作。CoEnv框架三阶段运行：①真实场景到仿真重建；②基于VLM的动作合成与迭代规划；③带碰撞检测的sim-to-real验证迁移。在具有挑战性的多臂操控基准上验证高任务成功率，为多智能体具身AI确立新范式。

方向标签: Lab

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation (CVPR 2026)

基于3D几何先验的双臂操控动作-几何预测

来源: CVPR 2026

作者与机构: 相关研究机构（来源于知乎/ICLR综述）

核心贡献:
系统级融合，仅靠RGB摄像头实现"上帝视角"的双臂控制。当前机械臂控制要么依赖2D图像（缺乏深度），要么需要昂贵的深度传感器。该工作直接将3D几何先验嵌入到动作预测网络，突破了具身3D感知瓶颈，在仿真和真实双臂任务上取得显著提升。

方向标签: -动作融合

4. 具身强化学习与世界模型 FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control

FlashSAC：高维机器人控制的快速稳定离策略强化学习

arXiv: 2604.04539

发布时间: 2026年4月6日

作者与机构: Donghu Kim, Danica Kragic, Jan Peters 等 / 卡罗林斯卡研究所、TU Darmstadt

核心贡献:
提出 FlashSAC，基于SAC的快速稳定off-policy RL算法。核心创新：①大幅减少梯度更新次数，用更大模型和更高数据吞吐量补偿；②显式限制权重、特征和梯度范数，抑制critic误差累积。在60+任务（10个模拟器）上超越PPO和off-policy基线，高维灵巧操作提升最大。仿真到真实人形机器人locomotion任务中，将训练时间从数小时缩短到数分钟。

方向标签: -to-real

5. 具身智能体与大模型（VLA） A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated VLA Model

A1：完全透明开源的自适应高效截断VLA模型

arXiv: 2604.05672

发布时间: 2026年4月7日（v2: 4月8日）

作者与机构: Kaidong Zhang, Jian Zhang 等 / 23位作者

核心贡献:
针对VLA高延迟高成本问题，提出两大核心机制：①预算感知自适应推理——监控中间VLM层动作一致性实现早期终止，主干计算量减少76.6%；②层间截断流匹配（Inter-Layer Truncated Flow Matching）——跨层热启动去噪，推理延迟降低**72%。在LIBERO、VLABench、Franka和AgiBot上达到SOTA，RoboChallenge平均成功率29%**（优于pi0的28.33%）。全开源代码、数据和检查点。

方向标签:

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

StarVLA：乐高式VLA模型开发代码库

arXiv: 2604.05014

发布时间: 2026年4月6日

作者与机构: StarVLA Community / 开源社区

核心贡献:
针对VLA研究碎片化问题（架构、代码库、评估协议不统一），提出模块化"主干-动作头"乐高式设计，支持Qwen-VL、Cosmos等多种主干，灵活搭配动作解码范式。集成主流基准（LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K），统一评估接口，支持仿真和真实机器人部署。是目前最全面的开源VLA框架之一。

方向标签:

VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models

VLA遗忘：面向具身基础模型的视觉-语言-动作遗忘

arXiv: 2604.03956

发布时间: 2026年4月5日

作者与机构: Ravi Ranjan, Agoritsa Polyzou（已投ACL-2026）

核心贡献:
首个面向具身基础模型的VLA联合遗忘框架，解决在不损害感知-语言-动作能力的前提下移除不安全/虚假/隐私行为的挑战。混合遗忘框架结合比率感知选择性编辑与分层选择性推理/动作遗忘，三目标联合优化（目标遗忘、感知保持、推理保留）。相比基线：**遗忘效果+10%，感知特异性+22%，推理保留+9%，量化后行为恢复减少55%**。

方向标签:

6. 仿真、数据与平台 EgoSim 数据流水线（详见方向1）

见具身感知与场景理解部分的 EgoSim

⚪ 7. 人机交互与具身社会智能 ExpressMM: Expressive Mobile Manipulation Behaviors in Human-Robot Interactions

ExpressMM：人机交互中的表达性移动操控行为

arXiv: 2604.05320

发布时间: 2026年4月7日（IEEE RO-MAN 2026）

作者与机构: Souren Pashangpour 等 / 多伦多大学

核心贡献:
提出 ExpressMM 框架，让移动操作机器人在HRI任务中通过表达性行为清晰传达自身意图。结合高层语言引导规划（VLM）与低层VLA策略，支持用户在任务执行中实时中断/修改机器人行为。协作装配实验的观众问卷显示，ExpressMM显著提升了交互的可理解性、安全感和可预测性。

方向标签: -MAN2026

GitHub 开源项目本周新开源精选 1. Tencent-Hunyuan/HY-Embodied — 腾讯混元具身VLM

GitHub: https://github.com/Tencent-Hunyuan/HY-Embodied

发布时间: 2026年4月9日（本周）

简介: 腾讯混元团队发布的具身智能基础模型系列，专注时空视觉感知和复杂具身推理

亮点:

采用MoT（Mixture-of-Transformers）架构，潜在令牌模态专属计算

MoT-2B版本激活参数仅2.2B，但性能超越Qwen3-VL 4B等同量级模型

具身理解ERQA基准：54.5（vs 同类41.8-47.3）

已在Hugging Face开放 MoT-2B 和 MoT-32B 两个版本权重

所属方向: 具身智能体与大模型（VLA）

2. agibot-world/AgiBotWorld2026 — AGIBOT WORLD 2026 开源数据集

HuggingFace: agibot-world/AgiBotWorld2026

GitHub: OpenDriveLab/Agibot-World

发布时间: 2026年4月7日（本周）

简介: 智元机器人发布的首个覆盖具身智能全域研究的开源异构数据集

数据规模:

超过100万条操作轨迹

涵盖217个任务、3000+种物品

长程数据规模比 Open X-Embodiment 高10倍，场景覆盖扩大100倍

英伟达GROOT N1模型80%训练数据来源于智元数据

所属方向: 仿真、数据与平台

3. starVLA/starVLA — 乐高式VLA开发代码库

GitHub: https://github.com/starVLA/starVLA

更新时间: 2026年4月6日（即将发布重大更新）

简介: 模块化VLA研究框架，打破VLA社区碎片化现状

亮点:

统一 WebSocket 策略接口，桥接仿真与真机

即将发布支持世界模型（WM4A、Cosmos）的新版本

集成 RoboTwin 2.0、BEHAVIOR-1K 等新基准

所属方向: 仿真、数据与平台

经典仓库重点更新

仓库

更新说明

方向

pickxiguapi/Embodied-R1

ICLR2026接收，3B VLM零样本SIMPLEREnv 56.2%成功率

具身智能体

OpenDriveLab/WholebodyVLA

ICLR2026接收，统一潜在动作的全身移动操控VLA

具身控制

Noietch/Awesome-Learning-for-Manipulation

4月7日大量更新，新增VLA、视频-动作模型等论文

综合

核心洞察 5大趋势深度分析

① VLA 推理效率成核心战场
A1 和 HY-Embodied 同周发布，均以降低推理成本为卖点。VLA 从"实验室可行"走向"产品可用"的关键壁垒——延迟和算力——正被系统性突破。未来6-12个月，VLA 将快速下沉到消费级GPU甚至边缘设备。

② 数据基础设施进入"军备竞赛"

AGIBOT WORLD 2026 的100万轨迹是迄今最大规模真实机器人数据集之一。数据生态的系统化（数据+仿真+基准）将成为下一阶段竞争的关键。Genie Sim 3.0 的"数字孪生+神经仿真"组合尤为值得关注。

③ 分层世界模型引领长时程规划
Meta FAIR 的 Hierarchical Planning with Latent World Models（作者列表含 Yann LeCun）将长时程机器人任务成功率从0%提升到70%，且规划计算降低4倍。这证明了分层结构对具身控制的本质重要性。

④ 安全与对齐进入VLA议题
VLA-Forget 是首个关注VLA模型安全遗忘的工作，标志着VLA从"能力竞赛"开始进入"安全与可控"阶段。随着VLA进入工业部署，类似工作将越来越重要。

⑤ 神经符号与可解释性回潮
Learning Structured Robot Policies 和 ExpressMM 均强调可解释性和结构化行为。纯端到端黑盒方案在安全关键场景的局限性正推动神经符号方法复兴。

下周关注点

AGIBOT AI Week（4月7日起）后续每日发布——硬件、算法还是新平台？

HY-Embodied MoT-32B的VLA真实机器人操控实验数据

StarVLA 新版本（支持世界模型WM4A/Cosmos）正式发布

FlashSAC真实灵巧操控任务验证

Mbot具身智能实验室

让尖端科技触手可及，人人皆可探索未来

Mbot基础交流群等你加入，下方扫码联系

具身-杰西

Mbot具身-小助手

Mbot-视频号

Mbot-公众号

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.