网易首页 > 网易号 > 正文 申请入驻

丰田研究院发布机器人大行为模型研究,单一模型掌握数百项任务

0
分享至

丰田研究院(TRI,Toyota Research Institute)近日发布了一项关于大行为模型(LBMs,Large Behavior Models)研究成果,这项技术或有望给机器人的学习方式重大变革。研究显示,通过预训练的 LBMs,机器人可以在学习新任务时减少高达80% 的数据需求,单一模型能够掌握数百项不同的操作技能。相关论文以《大行为模型多任务灵巧操作的细致检验》(A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation)发表在arXiv上。

研究的作者之一,丰田研究院副总裁、美国麻省理工学院教授 Russ Tedrake 在社交媒体上表示:“LBMs 确实有效!随着预训练数据量的增加,我们看到了一致且具有统计学意义的改进。”

传统的机器人训练方法存在诸多限制:每个任务都需要单独编程,学习过程缓慢且不一致,往往局限于狭窄定义的任务和高度受限的环境。相比之下,LBMs 采用了类似于大语言模型(LLMs,Large Language Models)的架构思路,但专门针对机器人的物理操作行为进行优化。

TRI 此次研究采用的 LBM 架构,是一种基于扩散模型和 Transformer 的复杂神经网络。它能够整合来自多路摄像头(包括机器人手腕和场景摄像头)的视觉信息、机器人自身的姿态和位置等本体感知数据,以及人类通过自然语言下达的任务指令。这个多模态系统通过学习,直接输出机器人需要执行的一系列连贯、精确的动作指令。具体来说,这些模型能够一次性预测未来 16 个时间步(约 1.6 秒)的动作序列,从而实现平滑而具有预见性的操作。

为了验证 LBMs 的有效性,研究团队在近 1,700 小时的机器人演示数据上训练了多个 LBMs,这些数据包括 468 小时的内部收集双臂机器人遥操作数据、45 小时的仿真收集遥操作数据、32 小时的通用操作接口(UMI,Universal Manipulation Interface)数据,以及约 1,150 小时从 Open X-Embodiment 数据集中精选的互联网数据。

在评估环节,研究团队进行了 1,800 次真实世界评估试验和超过 47,000 次仿真试验,覆盖 29个不同任务。为确保结果的可靠性,他们采用了盲测 A/B 测试方法,并建立了新的统计评估框架来确保跨不同任务和设置的结果置信度。

研究中使用的硬件平台基于 Franka Panda FR3 机械臂的双臂操作系统,配备多达六个摄像头——每个手腕最多两个,以及两个静态场景摄像头。在感知层面,模型使用预训练的 CLIP 视觉变换器提取图像特征,并通过 CLIP 文本编码器处理任务描述的语言特征。这些视觉和语言特征与本体感受信息以及扩散时间步编码相结合,形成观察特征。

在动作生成方面,LBMs 采用去噪扩散隐式模型(DDIM,Denoising Diffusion Implicit Models)来生成连续的机器人动作。通过 K 步迭代去噪过程,从高斯噪声样本开始,逐步生成精确的动作序列。

研究得出了三个关键发现。首先,微调后的 LBMs 在已见任务上的表现始终优于单任务基线模型。在名义条件和分布偏移条件下,无论是在仿真还是真实世界环境中,微调的 LBM 都表现出统计学上的显著优势。

其次,LBMs 展现出更强的鲁棒性。当引入分布偏移时,虽然整体任务性能有所下降,但微调的 LBMs 比从零开始训练的策略表现出更强的适应能力。在仿真环境中,LBMs 在分布偏移条件下统计上优于单任务策略的比例从名义条件下的 3/16 提升到 10/16。

第三,也是最重要的发现是,LBMs 能够显著减少学习新任务所需的数据量。研究表明,要在仿真中达到相似的性能水平,需对 LBM 进行微调。所需的数据量不到从零开始训练所需数据的 30%。在真实世界任务中,这一优势更加明显——LBM 仅用 15% 的数据就能超越使用全部数据训练的单任务基线模型。

研究还验证了 LBM 的 Scaling Law。通过使用不同比例的预训练数据,研究人员发现随着预训练数据量的增加,模型性能稳步提升。即使在当前的数据规模下,研究人员也没有发现性能的不连续性或急剧拐点,这表明人工智能扩展在机器人学习领域同样有效。

为了测试 LBMs 的能力极限,研究团队还设计了多种复杂的长期任务。例如,“切苹果”任务要求机器人使用苹果取芯器给苹果去核,从器具架中取出刀具,拔出刀鞘将苹果切成两半,再将两半切成片,最后用布擦拭刀具并重新装鞘放回器具架。在这类复杂任务中,LBMs 同样展现出了优于传统方法的性能。

这项研究的一个重要贡献是强调了统计严格性在机器人学习评估中的重要性。研究团队指出,许多机器人学习论文可能由于统计功效不足而测量的是统计噪声而非真实效果。他们展示了在不同试验次数和真实成功率下的置信区间宽度:以 50 次试验为例,得到的置信区间宽度通常为 20%-30% 的绝对成功率,这使得除了最大规模的效应之外,其他效应都无法可靠测量。

为了解决这一问题,研究团队采用了贝叶斯分析方法,使用均匀 Beta 先验计算成功率的后验分布,并通过紧凑字母显示(CLD,Compact Letter Display)方法指示统计显著性。这种方法为机器人学习领域设立了新的评估标准。

研究结果表明,即使在数据规模相对较小的情况下,预训练也能带来一致的性能提升。这使得建立数据获取和性能提升的良性循环得以可能。随着更多任务被纳入预训练混合数据中,LBM 的整体性能将持续平稳改善。然而,研究也发现了一些局限性。非微调的预训练 LBMs 表现参差不齐,这部分归因于模型语言引导能力的局限性。

研究团队表示,在内部测试中,更大的视觉-语言行为原型在克服这一困难方面显示出良好前景,但需要更多工作来严格验证这一效果。此外,数据标准化等看似次要的设计选择对下游性能有重大影响,往往超过架构或算法改进的影响,提醒研究者在比较方法时需要仔细隔离这些设计选择,避免混淆性能变化的来源。

参考资料:

1.https://arxiv.org/pdf/2507.05331

2.https://toyotaresearchinstitute.github.io/lbm1/

3.https://x.com/RussTedrake/status/1942931808422875640

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
暨南大学党委原书记张德昌逝世,享年96岁

暨南大学党委原书记张德昌逝世,享年96岁

澎湃新闻
2026-05-11 10:38:26
摊牌了!一则动态曝光周迅王骁的真实关系,与陈坤领证早真相大白

摊牌了!一则动态曝光周迅王骁的真实关系,与陈坤领证早真相大白

洲洲影视娱评
2026-05-10 21:08:46
花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

李将平老师
2026-05-10 14:56:19
张继科早看出张本智和缺陷:越靠近11分他就越变形 梁大胖请我吃饭

张继科早看出张本智和缺陷:越靠近11分他就越变形 梁大胖请我吃饭

风过乡
2026-05-11 07:49:18
美军:超20艘美国军舰参与对伊朗实施封锁

美军:超20艘美国军舰参与对伊朗实施封锁

新华社
2026-05-11 09:44:54
脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

脱离实际的报价遭冷遇,世界杯中国转播费从3亿美元腰斩到1.5亿美元;多国转播权的不明朗形势陷入罕见僵局

大风新闻
2026-05-10 15:28:26
紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

紫牛头条|儿子车祸受伤生存希望不足0.1%仍绝不放弃!这位母亲生死守护已620天

扬子晚报
2026-05-10 20:20:42
名记:华盛顿奇才总裁表示,会考虑向下交易刚刚获得的状元签

名记:华盛顿奇才总裁表示,会考虑向下交易刚刚获得的状元签

懂球帝
2026-05-11 11:37:55
赔偿1w1!2男孩被清纯美少女热情邀玩后反被报警轮J未成年事件疯传!

赔偿1w1!2男孩被清纯美少女热情邀玩后反被报警轮J未成年事件疯传!

魔都囡
2026-05-11 09:26:41
顺治只活了23岁,并且只宠爱董鄂妃,那他14个孩子都是谁生的?

顺治只活了23岁,并且只宠爱董鄂妃,那他14个孩子都是谁生的?

铭记历史呀
2026-05-10 19:20:42
打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

打过科兴疫苗的朋友,最近一定要提高警惕!千万不要被骗!

网络易不易
2026-05-10 11:34:41
被官方痛批的“男菩萨”,让多少景区晚节不保?

被官方痛批的“男菩萨”,让多少景区晚节不保?

金错刀
2026-05-08 15:45:01
“义乌发展经验”缘何拥有持久生命力

“义乌发展经验”缘何拥有持久生命力

新华社
2026-05-10 22:05:22
中国最孤独的大使:一个人带着一条狗坚守三年,改善生活靠挖野菜

中国最孤独的大使:一个人带着一条狗坚守三年,改善生活靠挖野菜

西楼知趣杂谈
2026-05-02 21:21:03
高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

高市早苗好狠:赶在特朗普访华前,给了他一刀,连中国都没想到!

次元君情感
2026-05-10 21:14:41
两名中国公民被乌克兰关押一年,俄不收中方不接,处境太难了

两名中国公民被乌克兰关押一年,俄不收中方不接,处境太难了

Ck的蜜糖
2026-05-10 10:05:58
八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

八路军最惨痛一战,看完牺牲高级将领名单,主席:取消政委决定权

马捗在解说
2026-05-08 14:50:30
致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

熊太行
2026-05-11 00:06:25
0-4耻辱出局!布伦森就是恩比德的严父,76人被骂都是群软货

0-4耻辱出局!布伦森就是恩比德的严父,76人被骂都是群软货

听我说球
2026-05-11 09:43:11
火箭手握2枚次轮,自用胜过交易?曾经摘下2位首发,沙里淘金有戏

火箭手握2枚次轮,自用胜过交易?曾经摘下2位首发,沙里淘金有戏

熊哥爱篮球
2026-05-11 12:42:14
2026-05-11 13:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16685文章数 514940关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

谢霆锋没想到,王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

数码
亲子
健康
公开课
军事航空

数码要闻

联想YOGA Air 14 Ultra笔记本官宣5月19日发布

亲子要闻

孩子心疼父母,反而是对家的伤害?

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版