网易首页 > 网易号 > 正文 申请入驻

稚晖君推出全栈机器人学习平台,任务成功率超60%,数据集已开源

0
分享至

稚晖君(本名彭志辉)曾是“华为天才少年”,以硬核科技视频走红 B 站,被誉为“野生钢铁侠”。2022 年,他放弃百万年薪,创立智元机器人公司。

创业之后,这位 90 后极客将实验室的奇思妙想化为现实,先后推出远征、灵犀两大系列人形机器人,能倒水、能烤面包甚至能搬动 40 公斤重物。

而在最近,他和团队在机器人软件方面迎来新进展。其推出 AgiBot World Colosseo,这是一个全栈大规模机器人学习平台,专门为研发具身系统的双手操作能力而打造。

AgiBot World 和 GO-1,是 AgiBot World Colosseo 的其中两个主要组成部分。

AgiBot World,是一款机器人学习数据集。最新版的 AgiBot World 包含 1001552 条轨迹,总持续时间为 2976.4 小时,涵盖 217 项具体任务、87 项技能和 106 个场景。AgiBot World 采用了从场景配置、任务设计、数据收集到人机验证的全面优化流程,数据质量能够得到一定保证。

GO-1(Genie Operator-1)是一种通用具身基座模型,它利用潜在的动作表示来最大化数据利用率,并能随着数据量的增加来实现可预测的性能扩展。

无论是在域内还是在分布外场景中,在 AgiBot World 数据集上预先训练的策略,比在 Open X-Embodiment 上训练的策略的平均性能提高 30%。同时,GO-1 在真实世界的灵巧操作和长时域任务中也表现不俗,其在复杂任务上的成功率超过 60%,并且比先前的 RDT 方法性能高出 32%。

AgiBot World:包含 3000 多个不同的对象

AgiBot World 是通过一个占地 4000 多平方米的大型数据收集设施开发而来。该数据集涵盖了广泛的场景种类和场景布局,确保在追求通用机器人策略时既具备规模又具有多样性。

AgiBot World 覆盖五个关键领域:家庭、零售、工业、餐厅和办公环境。其包含 3000 多个不同的对象,并按不同场景进行系统分类。这些物体涵盖了各种日常用品,包括食物、家具、衣服、电子设备等。在每个领域内,稚晖君团队都定义了具体的场景类别。例如,家庭领域包括卧室、厨房、客厅和阳台等详细环境,而零售领域则包含货架单元和新鲜农产品区等不同区域。

AgiBot World 的一个显著特征是它强调长期操作。先前的数据集主要集中于涉及单个原子技能的任务,大多数轨迹持续时间不超过 5 秒。相比之下,AgiBot World 建立在由多个原子技能组成的连续完整的任务之上,例如“煮一杯咖啡”。

AgiBot World 中的轨迹通常跨度约为 30 秒,其中一些持续时间超过 2 分钟。稚晖君团队还为每个子步骤提供关键帧和指令注释,以便在这种具有挑战性的场景中进行策略学习。

在任务设计方面,虽然“拾取和放置”等通用原子技能占据了大多数任务的主导地位,但是该团队有意加入了一些不常用但是价值很高的技能任务,例如“砍”和“插”。这确保了 AgiBot World 能够充分涵盖广泛的技能范围,以便为每项技能提供充足的数据,从而支持稳健的策略学习。

为了更有效利用 AgiBot World 以及增强策略的可推广性,稚晖君团队还提出一个具有三个训练阶段的分层视觉语言潜在动作(ViLLA,Vision-Language-Latent-Action)框架。

对于视觉-语言-动作(VLA,Vision-Language-Action)模型来说,它的动作以视觉语言为条件。而 ViLLA 模型能够预测潜在动作标记,并以后续机器人控制动作的生成为条件。

具体来说:

在第一层,该团队通过在互联网规模的异构数据上,训练编码器-解码器潜在动作模型(LAM,latent action model),将连续图像投影到潜在动作空间中。这使得潜在动作可以作为中间表示,从而能够弥合一般图像文本输入和机器人动作之间的差距。

在第二层,这些潜在动作充当潜在规划器的伪标签,有助于实现不受具身限制的长时域规划,并能够利用预训练视觉语言模型(VLM,vision-language models)的泛化能力。

在第三层,该团队引入了动作专家,并将其与潜在规划师联合训练,从而能够支持灵巧操作的学习。

硬件平台是 AgiBot World 的基石,这决定了数据质量的下限。为此,稚晖君团队为 AgiBot World 开发了一个硬件平台,该平台包含视觉触觉传感器、耐用的 6-DoF 灵巧手和人形配置,并具有双 7-DoF 臂、移动底盘和可调节腰部。

需要指出的是,它的末端执行器是模块化的,可以根据任务要求使用标准夹持器或 6-DoF 灵巧手。而对于需要触觉反馈的任务,可以使用配备有视觉触觉传感器的夹钳。

据介绍,该机器人配有八个摄像头:一个 RGB-D 摄像头和三个鱼眼摄像头用于正面观察,每个末端执行器上安装有 RGB-D 或鱼眼摄像头,两个鱼眼摄像头则位于后方。

该机器人能以 30Hz 的控制频率记录图像观察和本体感受状态,包括关节和末端执行器的位置。

与此同时,该团队采用了两种遥操作系统:虚拟现实(VR,Virtual Reality)头戴式耳机控制和全身运动捕捉控制。

VR 控制器将手势映射到末端执行器的平移和旋转,随后通过反向运动学将其转换为关节角度。控制器上的拇指杆和按钮,使机器人底座和身体能够移动,而触发按钮则能控制末端执行器的启动。

然而,VR 控制器将灵巧手限制为只能执行几个预定义的手势。因此,为了更好地释放机器人的能力,该团队采用了一种运动捕捉系统,该系统记录了包括手指在内的人类关节的数据,并能将其映射到机器人姿势,从而实现更精细的控制,包括控制手指运动、躯干姿势和头部方向。对于完成更加复杂的操纵任务来说,该系统能够提供必要的姿势灵活性和执行精度。

GO-1:顺利完成“倒水”和“补货饮料”等任务

前面提到,GO-1 是机器人学习平台 AgiBot World Colosseo 的另一个重要组成部分。为了验证 GO-1 的效果,该团队在几个不同复杂程度的任务上进行评估,并根据其视觉丰富度和任务范围进行分类。其中包括:工具使用(擦拭桌子)、可变形物体操作(折叠短裤)、人机交互(交接瓶)、语言跟随(补充饮料)等。

此外,该团队为每个任务设计了两个看不见的场景,涵盖位置泛化、视觉干扰和语言泛化,以便开展全面的泛化评估。

部分评估任务包括:

1)“补货”:拿起零食,放在超市货架上;

2)“桌面清理”:将桌面碎片清理到垃圾桶中;

3)“倒水”:握住壶柄,提起水壶,将水倒入杯中;

4)“补充饮料”:取出瓶装饮料,放在超市货架上;

5)“折叠短裤”:将平放在桌子上的短裤对折两次;

6)“擦桌子”:用海绵清洁桌面上的水。

根据每项任务 30 次试验的平均值得出任务完成得分。其中,10 次试验在可见的设置中进行,20 次试验在变化或干扰下进行。

实验结果显示,GO-1 的表现明显优于 RDT,特别是在“倒水”和“补货饮料”等任务中。其中,“倒水”要求对于对象位置具备鲁棒性,“补货饮料”要求具备视觉鲁棒性和指令跟踪能力。

在 ViLLA 模型中加入潜在规划器之后,则能进一步地提高 GO-1 的性能,让 GO-1 的任务完成得分平均提高 0.12。

为了研究预训练数据的大小和策略能力之间是否存在幂律缩放关系,该团队使用 AgiBot World alpha、AgiBot World 100% alpha 和 AgiBot World beta 数据集的 10% 子集进行了分析,其中训练轨迹的数量在 9.2k 到 1M 之间。

在预训练中,其针对四个可见任务的最终策略的开箱即用性能进行评估。结果发现,该策略的性能与轨迹数量呈现出可预测的幂律缩放关系,皮尔逊相关系数为 r = 0.97。

数据集、工具链和预训练模型均已开源

概括来说,AgiBot World 不仅仅是一个新的数据集,它朝着可扩展、通用机器人智能迈出了新的一步,助力机器人能够应对现实世界的复杂性。目前,数据集、工具链和预训练模型均已开源。眼下,稚晖君团队正在开发模拟环境,这一环境将与现实世界的设置保持一致,并旨在反映现实世界中的策略部署结果,从而有助于实现快速且可重复的评估。

总的来说,这一系列成果将具身智能的门槛降至新低,更以开源生态推动行业进化。前有春节期间火遍朋友圈的宇树科技,今有“天才少年”稚晖君公司的再秀肌肉,人与机器共舞的“百家争鸣”画面正在展开。

参考资料:

https://agibot-world.com/blog/agibot_go1.pdf

https://github.com/OpenDriveLab/AgiBot-World

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惊喜式穿搭,肉肉兔女郎准时配送

惊喜式穿搭,肉肉兔女郎准时配送

飛尚日记
2026-06-26 06:49:55
状元迪班萨正式亮相奇才!解释选4号球衣原因 蜘蛛侠让他爱上篮球

状元迪班萨正式亮相奇才!解释选4号球衣原因 蜘蛛侠让他爱上篮球

罗说NBA
2026-06-26 06:17:00
莫斯科被无人机暴打背后真相:不是俄军弱,是这题全世界都不会

莫斯科被无人机暴打背后真相:不是俄军弱,是这题全世界都不会

战域笔墨
2026-06-25 12:11:07
大A又涨出股灾了...

大A又涨出股灾了...

思哲与创富
2026-06-26 11:34:48
夏窗首签!罗马诺:曼城1.16亿镑抢下安德森 球员要求俱乐部放行

夏窗首签!罗马诺:曼城1.16亿镑抢下安德森 球员要求俱乐部放行

爱奇艺体育
2026-06-26 11:05:58
瑞典00后男爵世界杯小组赛打满3个全场:王位不重要,足球才是一生挚爱

瑞典00后男爵世界杯小组赛打满3个全场:王位不重要,足球才是一生挚爱

红星新闻
2026-06-26 17:48:09
“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

“霸总专业户”退出短剧后摆摊卖菜,“我依然想演戏”

极目新闻
2026-06-25 19:29:22
“结束近两个世纪历史”!英媒:耗资3.69亿英镑翻修白金汉宫,英国王夫妇决定不入住

“结束近两个世纪历史”!英媒:耗资3.69亿英镑翻修白金汉宫,英国王夫妇决定不入住

环球网资讯
2026-06-26 13:37:09
乌克兰踩过红线,与日本联合研制攻击无人机,中国给出明确回应

乌克兰踩过红线,与日本联合研制攻击无人机,中国给出明确回应

璀璨幻行者
2026-06-25 03:20:07
科技狂欢,散户哀嚎:每天4000家下跌,这个市场到底怎么了?

科技狂欢,散户哀嚎:每天4000家下跌,这个市场到底怎么了?

风风顺
2026-06-26 02:10:05
700万考生仅1人数学满分,提前保送清华,为何能引爆全网?

700万考生仅1人数学满分,提前保送清华,为何能引爆全网?

娱乐的宅急便
2026-06-26 03:49:07
全线下跌,超20万人爆仓

全线下跌,超20万人爆仓

每日经济新闻
2026-06-26 00:32:07
最新!福建两地发布一批人事任免

最新!福建两地发布一批人事任免

南安融媒
2026-06-25 23:11:57
武汉最“孤独”县城!离市区60公里仅17万人,高铁落地能否逆袭?

武汉最“孤独”县城!离市区60公里仅17万人,高铁落地能否逆袭?

笔墨V
2026-06-26 13:25:30
恶有恶报?日本突发6.9级强震,最大震度6强,东京高楼剧烈摇晃

恶有恶报?日本突发6.9级强震,最大震度6强,东京高楼剧烈摇晃

史行途
2026-06-26 14:49:59
说漏嘴了,真少了4架,印度空军军官:印度现有32架阵风战机

说漏嘴了,真少了4架,印度空军军官:印度现有32架阵风战机

爱迷彩的老虎
2026-06-26 16:17:42
30国派兵强援日本,韩国逼到帅位,美军没料到中方直接竖起东风

30国派兵强援日本,韩国逼到帅位,美军没料到中方直接竖起东风

小小科普员
2026-06-26 14:51:44
血管斑块脱落前,身体会亮起4盏红灯!任何一盏亮了,请立刻就医

血管斑块脱落前,身体会亮起4盏红灯!任何一盏亮了,请立刻就医

健康科普365
2026-06-26 18:20:08
英伟达芯片遇冷!B200算力租赁价格大跌超30%

英伟达芯片遇冷!B200算力租赁价格大跌超30%

快科技
2026-06-24 14:53:35
见过最毁三观的事情是啥?看网友讲述把我雷的瞳孔地震。

见过最毁三观的事情是啥?看网友讲述把我雷的瞳孔地震。

侃神评故事
2026-06-26 10:18:23
2026-06-26 19:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16884文章数 515054关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

已有19支队伍晋级32强 盘点世界杯小组出线形势

头条要闻

已有19支队伍晋级32强 盘点世界杯小组出线形势

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
游戏
旅游
健康
军事航空

教育要闻

全程免费!面向河南等省高一高二学生,海军工程大学夏令营开始报名

3000万份!《怪物猎人:世界》创下系列销量新里程碑

旅游要闻

霸榜澳洲人亚洲度假地的日本,正被挤下榜首

“无糖汤圆”是否隐藏着健康陷阱?

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版