前言
先说一下本文的来历
本文一开始是属于此文《GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力》的前言内容之一( 该文发布于23年12月底 ) 当时的前言是 具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「( 建议按照 从下至上 的顺序看,且所有点我都做了详尽而细致的解读,点击下面表格中对应的文字即可阅读,我后续也会不断完善之...
但后来考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之
有意思的是,其中的RDT、π0都通过聚合各大机器人数据集先做预训练,然后微调,且它两的参数规模也分别达到了1B、3B
大有类似大语言模型的发展路线,比如
17-20年,以BERT、GPT为代表的预训练-微调模式 且从GPT3起,模型的参数规模越来越大,慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
再之后,咱们经历了GPT3.5的RLHF微调
及至到GPT4之后,模型在各方面的能力逼近人类甚至超越人类
你说,是不是有趣?
最后,我得强调的是,本文所梳理的内容,只是让你入门具身,远远不是具身智能的全部『也不是本博客内具身系列内容的全部 且越往后 本文占比越低,毕竟暂只更新到25年Q1』,故通过本文梳理出来的内容入门具身之后,如果继续前进,则可享受未来更远的旅程
顺带说一下,模型那么多,该从哪个模型开始呢
事实上,对于“想进入具身的高校或公司”,ACT可称之为第一套设备、程序,如果你想以最快的速度复现,我给你打包好了机械臂和相关的配件、4090工作站,和全部的代码(包含部署代码),拿到后 环境一布 插电即用
七月:训练ACT抓瓶子的全套硬件和全部代码(想做具身先这个)
软硬全套一体 都远低于十几万那种的ur臂,如需要,可私苏苏老师:julyedukefu008或七月在线其他老师。
第一部分 从训练数据来源、动作预测策略、模型训练方法
1.1 训练数据来源:视频、仿真、人工采集
在机器人领域,互联网数据、仿真数据、真实数据等这三类数据构成了主要的数据来源
如果采用端到端模仿学习的方法,给定一张图像并直接输出机器人动作,这通常依赖于真实世界数据
如果采用端到端的强化学习RL,因为需要一个可以反复交互的环境,则往往依赖于仿真数据
当然,也有先在RL仿真环境里训练一个base model,然后再在真实环境中通过模仿学习微调——这个搞法,我司七月具身项目组 便用到过
详见如下表格
![]()
1.2 动作预测策略:以ACT、Diffusion Policy、下个token自回归预测居多
![]()
1.3 RL仿真在机械臂、人形上的应用
![]()
第二部分 VLA训练方式:Robotics VLM和VLA中的动作预测
2.1 是否做预训练
![]()
2.2动作预测:微调VLM之Robotics VLM和VLA
2.1.1 要么专门的动作头,要么下一个token自回归预测动作,要么融合扩散头和自回归
![]()
2.1.2训练数据形式:是文本数据还是机器人数据
微调或预训练VLM而言,一个重要的问题便是训练数据的由来
![]()
2.3 直接提示VLM规划的更细,但过程中加约束
如此文《让VLM充当机器人大脑——不微调直接提示VLM做顶层任务规划:从SayCan、VoxPoser到ViLA、CoPa、ReKep》所述,有
![]()
第三部分 架构层面:是否端到端及借鉴大语言模型的发展之路
3.1 从VLM规划、到微调VLM得到VLA,再到大脑VLM 小脑VLA、VLA中的分层
3.1.1 两个模型 大小脑各干各的:VLM做规划、小脑做控制
![]()
3.1.2 大小脑整合成一个模型:微调VLM得到VLA
![]()
3.1.3 大小脑两个模型:大脑VLM 小脑VLA
![]()
3.1.4 大小脑整合成一个模型,但分层以各司其职:慢思考 快反应
![]()
3.2借鉴大语言模型的发展之路(含3D版的VLA)
![]()
更多可以查看此文《RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据》![]()
第四部分 通用人形VLA的发展之路:慢思考(以类似o1/R1加强推理)、快反应
![]()
本文暂只更新到25年Q1, 如需要复现ACT的软硬全套:自主抓零食/分拣(含硬件和代码) 可私苏苏老师:julyedukefu008或七月在线其他老师。
无论是以下哪种情况(当然,各自所需的费用不同,可能低于6.5万,可能高于6.5万,视具体情况而定),我司具身团队皆可服务:
1需要复现ACT抓零食/抓瓶子/分拣或其他任务的所有全套硬件(包含机械臂、相机、结构件等全部,至于4090工作站则可选)、全套可跑起来可直接推理的代码
2有自己的部分硬件(比如任意某一款机械臂),但缺其他配件+ 需要全套代码
3 只单纯需要全套硬件
4硬件都不缺,只需要全套代码
↓↓↓扫码了解更多↓↓↓
咨询可私苏苏老师vx:julyedukefu008或七月在线其他老师
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.