网易首页 > 网易号 > 正文 申请入驻

全面梳理 VLA 20大挑战的深度综述,方向清晰可见,每周更新,助力时刻掌握最新突破!

0
分享至


【编者按】Vision-Language-Action(VLA)正在把“看得懂、说得明白、做得出来”的机器人从演示推向真实系统。但模型、数据、范式爆发式增长的同时,也带来一个现实困境:新入门者不知道从哪里学起,从业者也难以判断该从哪些维度系统性提升能力。这篇由树根科技、三一集团耘创新实验室、伦敦国王学院、港理工、达姆施塔特工业大学,挪威阿哥德大学,帝国理工大学等单位联合完成的最新综述,给出了一张清晰的“问题全景图”和学习路线,并提供一个持续更新的在线参考框架。


近期,具身智能(Embodied AI)已成为人工智能与机器人领域最活跃、同时也最具探索空间的前沿方向之一。从类 GPT 机器人助手的演示,到多模态大模型逐步走向真实机器人平台,“让机器看得见、听得懂、会行动”正从概念验证走向系统化探索。

然而,随着模型规模迅速膨胀、数据集与方法不断涌现,领域内部也愈发显现出一种结构性的困惑:刚进入这一方向的研究者往往难以判断应当从何入手;而已身处其中的从业者也常常面临一个更具体的问题——究竟该从哪些维度、以什么顺序系统性提升 VLA 的能力?在快速扩张与路径分化并存的当下,单纯罗列模型与方法已难以提供有效指引,更需要从核心挑战出发,对问题结构与发展脉络进行系统梳理。

实际研究与工程落地过程中,这种结构性的困惑并非停留在理论层面。作为一家致力于“赋万物智能,助工业进步,创社会富足”的科技公司,树根科技锚定工业智能,在真实工业场景中持续探索软硬一体具身智能系统的落地实践。团队在真实工业场景的前沿探索中,直面稳定性、泛化性等关键挑战。也正是在这样的背景下逐渐意识到:除了单点能力的持续突破外,更需看到全局,从整体结构上厘清问题本身。

在这一背景下,一篇综述论文《An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges》(《视觉-语言-动作模型剖析:从模块到里程碑和挑战》)发布,旨在为这一快速演进却结构日益复杂的研究领域提供一个清晰、系统的参考框架。

  • 论文链接:https://arxiv.org/abs/2512.11362

  • 项目主页:https://github.com/SuyuZ1/VLA-Survey-Anatomy

  • 实时更新网站地址:https://suyuz1.github.io/VLA-Survey-Anatomy/


两项核心贡献:不再只是罗列工作,而是理清问题结构

这项工作不仅是一篇系统综述,更是构建了一个持续演进、每周更新的 VLA 研究参照体系(https://suyuz1.github.io/Survery/),用于系统跟踪 VLA 相关研究工作的最新进展、校准学术研究方向。具体更新的内容会按照本文的整体分类方法(模块—里程碑—挑战)进行整理与归类;相关内容将每周一上午固定更新到项目网站。同时,我们也会在 GitHub 同步维护更新记录与索引,欢迎大家一起补充、讨论与提交 PR,共同把它维护成一个长期可用的开源社区。终极目标是长期服务于社区对 VLA 问题结构的共同理解。


在持续更新的基础上,论文本身也希望解决两类常见痛点:一是很多综述把“挑战”放在结尾,缺少系统拆解;二是章节组织偏碎,信息虽多,却难以形成连贯、演进的问题脉络,不利于读者建立从基础到前沿的整体认知。

贡献一:把挑战提升为全文主线。 我们将 VLA 发展中反复出现却尚未被系统梳理的关键瓶颈,作为全文的分析主线,并围绕能力演进路径归纳出 五大核心挑战(及其子问题),为理解现有工作与孕育新研究提供清晰的问题定位点。

贡献二:按自然认知顺序构建学习路线。 我们在整体结构上贴合研究者理解新领域的自然顺序,构建一条由基础到前沿的清晰路线:先建立模块级共同语言,再沿时间线理解关键里程碑,最后回到挑战框架进行系统定位。


综述使用方法:不同阶段读者的使用路线图

这篇综述并非只面向少数“圈内人”,而是被刻意设计成一份真正能用、且会长期发挥价值的工具型综述。读完之后,读者将对 VLA 领域形成更清晰、更完整的整体认知框架:不仅能够快速梳理出核心技术脉络与关键问题,还可以高效定位当前 VLA 真正受限的能力环节,并对“下一步应当如何改进、从哪里入手”形成初步而可靠的判断。



对新入门者:先建立整体认知,再逐步深入

如果你对 VLA 领域还不算熟悉,但希望系统入手,这篇论文可以作为一条清晰的切入路径:

  • 从基础模块入手,建立对完整 VLA 系统组成方式的整体把握,理解感知、表征、规划与控制之间的功能分工及其常见设计取舍;

  • 沿里程碑章节建立演进视角,把握关键能力是在何时、因何种问题需求而出现,区分长期核心问题与阶段性技术解法;

  • 以五大挑战作为统一参照系,迅速了解前沿研究热点&学术问题,将分散的模型与方法放回其所试图解决的核心问题中,形成稳定的问题定位能力。

通过这一阅读路径,新入门的读者可以在较短时间内系统补全 VLA 领域的核心知识脉络,建立起对该领域整体结构与关键问题的清晰认知。


对从业者:以挑战为锚点,精准定位能力提升空间

如果你已经在做 VLA 相关研究或工程实践,这篇综述更适合作为一张高效的能力定位与提升路线图,帮助你在复杂方法空间中迅速找准真正值得投入的方向:帮助你在复杂方法空间中迅速找准学术研究中真正值得投入的方向,并在科研工作中可以更清晰地界定研究问题、明确创新落点,从而提升科研工作的聚焦度和效率。

  • 从五大挑战切入,直接对照当前系统在表征、执行、泛化、安全或数据与评测等层面的核心瓶颈,快速锁定最具提升潜力的能力短板,而不必在零散方法比较中反复试错;

  • 围绕已定位的挑战回溯技术路径,结合对应的模块设计与里程碑工作,理解不同技术路线在解决同一类问题时的关键假设、能力边界与实际代价;

  • 借助持续更新的内容形成动态判断,区分哪些方向正在快速成熟,哪些问题仍处于探索阶段,从而更理性地分配时间与研究精力。

在这种用法下,这篇综述的价值不在于“覆盖多少工作”,而在于帮助从业者以更低的认知成本,持续、有效地定位和提升 VLA 系统的关键能力。


基础模块解析:先建立一套统一的技术共同语言

在结构设计上,文章首先在Basic Modules 章节中对 VLA 系统的基础构成进行系统拆解:从感知、表征到决策与控制,以模块为单位梳理不同方法在视觉编码、语言理解、跨模态融合、规划机制与动作生成等关键设计上的共性与差异。

这一部分的价值在于:当你面对大量论文与工程实现时,能够先用一套稳定的“模块级词汇表”对齐讨论对象,避免在不同论文的术语体系中反复迷路,也为后续的时间线回顾与挑战分析奠定统一基准。


里程碑回顾:沿时间轴看清 VLA 的范式迁移

在建立模块级认知基础之后,论文沿时间轴系统回顾了 VLA 的关键演进阶段,试图回答一个核心问题:VLA 是如何一步步从早期概念验证,发展到今天多路线并行、面向真实部署的通用框架的?


整体上,这一演进过程并非单一路线的线性推进,而是多条技术路径不断分化、交汇与重组的结果。论文所覆盖的里程碑工作,基本囊括了当前 VLA 研究的主要技术谱系。

  • 起点:具身问答与长时序任务:EmbodiedQA 明确了具身智能的闭环问题定义,ALFRED 将语言指令与长时序任务系统化,奠定了 VLA 的任务与评测基础。

  • 转折:大模型统一建模:RT-1 / RT-2 实现视觉、语言到动作的端到端学习,PaLM-E 进一步统一多模态输入空间,Diffusion Policy 则将生成式建模引入连续控制。

  • 统一尝试:语义× 控制:π0 / π0.5 与 OpenVLA 探索在单一框架中连接高层决策与低层动作,并推动开源实践。

  • 推理能力:链式与物理约束推理:Cosmos-Reason1 标准化物理落地推理流程,CoT-VLA 通过显式视觉中间目标引入可训练的链式推理。

  • 当前方向:闭环学习与世界模型:VLA-RL、LUMOS 以及世界模型方法共同推动系统具备在线学习、反思纠错与后果预测能力。

总体来看,这一时间线覆盖了从对齐、大模型、开源框架,到强化学习与世界模型等多条核心技术路线,勾勒出 VLA 从“能跑 demo”走向“可持续、可扩展具身智能体”的范式迁移,也为后续围绕核心挑战的系统分析提供了清晰的发展脉络定位。


五大挑战:VLA 真正卡在哪里?

如果抛开模型规模和 benchmark 分数,VLA 目前真正的瓶颈究竟在哪里?这篇综述的核心并不在于“又总结了多少模型”,而是试图直面一个更现实的问题:为什么 VLA 看起来进展飞快,但距离稳定、可规模化落地,依然存在明显鸿沟?

作者将当前纷繁复杂的技术难点系统收敛为五大挑战,并将其作为全文主线,而非论文结尾的例行展望。这种组织方式本身传达了一个判断:当下 VLA 的瓶颈并不主要来自“模型不够多”,而是来自对问题结构理解不够清楚。


从整体上看,这五大挑战覆盖了一个 VLA 系统从“感知世界”到“真实部署”的完整路径。无论你在做架构设计、数据采集、系统集成,还是评测与基准构建,都可以在这套挑战框架中定位自己工作的落点。

挑战 1:表征(Representation)

尽管多模态模型在语义对齐方面进展显著,但在真实物理环境中,语言表达的抽象意图依然难以被稳定、精确地映射为连续动作。视觉、语言与动作的统一并不仅是特征拼接或投影,而涉及空间结构、时间一致性与物理因果关系的长期建模。

这也是为什么世界模型、物理感知以及更原生的多模态表示被视为突破瓶颈的关键方向。


挑战 2:执行(Execution)

大量工作已经表明,“理解指令”并不等价于“可靠执行”。在长时序、多约束任务中,系统需要在任务拆解、规划决策与底层控制之间保持高度一致,同时应对环境扰动、执行误差与不确定性。

这一挑战决定了 VLA 是停留在 demo 层面,还是具备真正工程可用性。(对工业场景而言,往往不是“做不出来”,而是“做得不稳”。)


挑战 3:泛化(Generalization)

现实世界的变化远超训练数据覆盖:场景、物体、工具,甚至机器人本体都可能改变。综述指出,许多方法仍高度依赖特定数据分布或固定硬件配置,在跨任务、跨场景乃至跨机器人时性能显著下降。

因此,如何实现跨分布迁移、持续学习以及对新环境的快速适应,是 VLA 从专项能力走向通用能力必须跨越的门槛。


挑战 4:安全(Safety)

当 VLA 面向真实应用,“做不出来”已不再是最严重的问题,更大的风险在于“做错了却无法被及时发现”。安全不仅意味着避免危险动作,还包括决策过程的可解释性、对不确定性的感知能力,以及在高风险情况下主动暂停、澄清或请求人类介入的机制。

这些能力决定了 VLA 是否具备被信任与规模化部署的前提。(在高风险工况下,“可靠可控”常比“更聪明”更重要。)


挑战 5:数据与评测(Dataset & Evaluation)

如果缺乏高质量、多样化的数据来源,以及统一、细粒度的评测标准,领域很容易陷入“各刷各的分数”。成功率难以全面反映系统能力,过程质量、鲁棒性、失败恢复等维度同样关键。

数据与评测不仅是基础设施问题,也在很大程度上塑造了研究社区关注和优化的方向。

问题链路视角:五大挑战并非孤立。表征决定执行上限,执行影响泛化能力,泛化与安全共同约束真实部署可行性,而数据与评测贯穿始终,决定这些能力能否被客观衡量与持续改进。



面向未来的 VLA 愿景:从开环执行走向闭环自治

在总结现有研究的基础上,综述描绘了未来可能方向:例如“原生多模态架构”(从训练伊始就统一模态表示)、融合物理与语义的因果世界模型(能预测后果、推演未来),以及具备“自我觉察”的智能体(理解自己为何行动,并能在闭环中反思与纠错)。

这勾勒出下一代具身智能体的雏形:不仅会做事,还能在真实世界里做得稳、做得对、做得可控。

总体而言,这项工作不仅勾勒了 VLA 领域的全景结构,更试图提供一套可长期复用的认知与判断框架——让读者在一次系统阅读后,真正看清这个领域在做什么、难点卡在哪里,以及未来该沿着哪些方向持续推进。在模型与范式快速更迭的背景下,它更像是一张可反复对照的“问题全景图”,帮助研究者与从业者在不断变化的技术浪潮中保持方向感与判断力。( 投稿或寻求报道:zhanghy@csdn.net )


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

AI科技大本营 incentive-icons
AI科技大本营
连接AI技术的创造者和使用者
2614文章数 7637关注度
往期回顾 全部

专题推荐

洞天福地 花海毕节 山水馈赠里的“诗与远方

无障碍浏览 进入关怀版